国际健康指数计算:一个预测健康状态的指数
国际健康指数计算:一个预测健康状态的指数Published: 2020-09-15Affiliation: Microbiome Program Center for Individualized Medicine Mayo Clinic Rochester MN 55905 USA.Journal: Nature Communications [IF 12.121]First Authors: Vinod K GuptaCorrespondence: Jaeyun Sung
本文提出一个 GMHI (Gut Microbiome Health Index)指数用于量化宿主肠道微生物健康状况。GMHI 由与健康肠道生态系统相关的 50 种微生物组成。这些物种是通过 4347 个宏基因组来自 34 个已发表研究(含有健康和 12 种不同非健康状况(即疾病或 BMI 异常))综合分析而确定的。在人群数据分析上,GMHI 比其他生态特征指标更加可靠。另外 9 项研究含有 679 样品的验证中,区分健康组和非健康组平衡准确率达到了 73.7%。这些结果表明,肠道生物分类学特征可以预测健康状况,并突出显示数据共享工作可以如何提供广泛适用的发现。
Keywords: Gut Microbiome Health Index
Title: A predictive index for health status using species-level gut microbiome profiling
DOI: 10.1038/s41467-020-18476-8
Journal: Nature Communications [IF 12.121]
First Authors: Vinod K Gupta
Correspondence: Jaeyun Sung
Affiliation: Microbiome Program Center for Individualized Medicine Mayo Clinic Rochester MN 55905 USA.
Published: 2020-09-15
研究背景诸多研究表明肠道微生物在宿主健康中发挥着潜在的至关重要的作用。大量的相关研究结果使得开发基于肠道微生物组反映人的健康状况成为可能。这种无创地收集生物标本,通过计算表征疾病的早期迹象,有助于个性化药物。
关于肠道微生物与人体健康,需要跨越广泛的人类受试者和条件,因此需要大量样品,之前仅限于个别实验室或者财团才是实现,但是现在随着数据共享的提议和可获取公共数据增多,整合获取大量数据,使得大规模研究与健康和疾病相关的特征成为可能。
在本研究中,作者提出了一个肠道微生物组健康指数(GMHI),这是一个基于宏基因组的物种分类来评估健康状况的指标。GMHI 可独立判断患病的可能性。从包含多个疾病状态的 4347 个样品中确定的,远比生态指标(Shannon多样性和丰富度)精确。并且在 8 个公开队列和本研究 679 个样品独立队列中都有很好的表现。
研究思路Fig. 1 Analysis workflow of the present study.
研究结果- 综合的人类粪便基因组的元数据集
本研究收集了 34 个独立公开研究一共含有 4347 个样品,其中,健康个体 2636 个,非健康个体 1711 个。
健康个体定义是在原研究中未报告患有任何疾病,采样当时没有异常指标。
非健康个体定义是确诊患有特定疾病,或者 BMI 异常。
所有样品采用同一处理分析流程重新分析以排除不同研究差异。本研究目的是找到与健康最相关的肠道微生物,所以需要可能减弱其他非相关因素的干扰,所以本研究还收集了年龄、性别、BMI 和其他原研究提供的表型数据。
整合独立研究有2个优点:(i) 扩大样品数量有助于扩大主要感兴趣的生物信号,提供统计力。(ii) 不同研究可以覆盖更多样的样品特征,如宿主遗传背景,地理,饮食和生活方式,年龄,性别,出生方式,早期生活暴露,用药史等,使得即便存有批次效应或其它的干扰因素的系统偏差下,仍具有可靠性。
下载原始数据,重新质控后,用 MetaPhlAn2 获得物种分类信息。本研究为了找到与健康有关的肠道微生物物种,所以要尽可能获得更为精确和全面的物种信息。所以至少在一个样品中出现的物种一共检测到 1201 种,去除病毒,少见(出现率>1%)和未知/未分类定义的物种后剩下 313 个物种,后续基于这 313 个物种分析(Fig. 1b Supplementary Fig. 1)。值得一提,其中这 6 个物种(Bacteroides ovatus Bacteroides uniformis Bacteroides vulgatus Faecalibacterium prausnitzii Ruminococcus obeum and Ruminococcus torques)含有非常高的出现率(>90% / 4347)。
Fig. 1b Distribution of microbial species’ prevalence across the 4347 stool metagenome samples in the meta-dataset.
Supplementary Figure 1. A phylogenetic tree showing the evolutionary relationships among 313 microbial species found to be present across 4 347 stool metagenomes.
- 健康个体与非健康个体之间物种水平的差异
肠道微生物的整体生态与宿主健康相关。作者基于物种水平的相对丰度评估健康人群与非健康人群之间的多样性差异。首先,健康与非健康两组 PCoA 显示两组显著差异((PERMANOVA) R2 = 0.02 P < 0.001; Fig. 1c)。同样的 PCoA 散点图用 12 种不同非健康表型标记显示各组之间差异很小 (Fig. 1d; (ANOSIM) R = 0.21 P = 0.001)。
Fig. 1(c) Principal coordinates analysis (PCoA) ordination plot based on Bray–Curti distances shows that healthy (blue; n = 2636) and nonhealthy (orange; n =1711) groups have significantly different distributions of gut microbiome profiles according to PERMANOVA (R2 = 0.017 P < 0.001) after adjusting for each sample’s study origin. (d) In an identical PCoA plot each color represents one of the 13 different phenotypes of health or disease. Among- and withingroup dissimilarities differ only weakly (ANOSIM R = 0.21 P = 0.001).
- GMHI 设计基本原理
作者假设确定一个人的微生物组与健康(或不健康)人群的微生物组的相似程度的最直观方法是量化健康相关微生物相对于疾病相关微生物之间的平衡。因此,提出了两组 (sets) 微生物之间的有理方程形式的指数:健康人群中与非健康人群相比,健康人群中微生物频率较高 (set 1) vs 频率较高(set 2)。接着,用收集的公共数据找出这两组微生物。然后,用这些物种调整预定义的公式的参数,并评估其分类准确性。指数的开发、演示、验证见下文详细介绍。
- 基于出现策略以识别健康关联微生物
- 两组微生物分类法的集合丰度
- 确定健康存在物种和健康缺乏物种
当将这个方法用于其他物种水平和 MetaCyc 途径的时候,最高的准确率如下:Phylum 42.1%; Class 60.1%; Order 62.4%; Family 67.2%; Genus 68.2%; 和MetaCyc pathway 59.4%。从这些结果来看,物种水平的准确率最高。用物种丰度的十倍交叉检验的准确率为 69.6%,这与一组样品的平衡准确率 69.7% 非常接近。
最后,作者确定了 50 个物种满足上述两个阈值的要求且准确率最高,其中 7 个健康存在物种和 43 个健康缺失物种。同时发现,健康存在物种在健康组丰度更高些,反之,健康缺失物种在非健康组的丰度也相对更高些。统计各个独立研究的这 50 个物种的出现率发现,虽然均在研究的异质性和不均匀性,但是整体上看,还是健康存在物种在健康组出现率更高,反之亦然。
所以,此后,这 50 个物种的
就定义为 GMHI。
GMHI 是一个无量纲指标,旨在简化微生物组样本中观察到的健康存在和健康缺乏物种的积累,能指示是否是健康个体。
GMHI >0 ,健康个体
GMHI < 0 ,非健康个体
GMHI = 0,无法判断。
GMHI 基于每个样本进行测量,几乎不需要参数调整,只涉及物种存在与否,舍弃了定性评估,例如“低”或“高” α 多样性。此外,文库大小与 GMHI 之间没有显著关联(Supplementary Fig. 5)。总体而言,健康个体的指数分布在研究之间变化不大(Supplementary Fig. 6)。
Supplementary Figure 5. Library size (i.e. read count) is not associated with GMHI.
Supplementary Figure 6. Distribution of GMHIs for healthy individuals generally do not vary between studies.
- GMHI 与高密度脂蛋白胆固醇关联
接着,寻找与 GMHI 关联的临床指标,从原研究中收集到空腹血糖的循环血液浓度(n = 785),甘油三酸酯(n = 915),总胆固醇(n = 521),低胆固醇高密度脂蛋白胆固醇(LDLC;n = 848)和高密度脂蛋白胆固醇(HDLC;n = 841)这些临床指标。最后只有 HDLC 与 GMHI 相关 (Fig. 2a),GMHI 阳性 HDLC 更高(Fig. 2b)。剩余的指标和 GMHI 关联性很弱或者没有显著差异。HDLC 通常被认为是“良好”的胆固醇,并且可以预防心脏病和中风。有研究表明肠道微生物的胆固醇代谢会影响血清胆固醇浓度,从而可能影响心血管健康。总体而言,这发现证明了将临床数据与肠道微生物组整合的重要性,还暗示了 GMHI 可能是有效且可靠的心血管健康预测指标。
Fig. 2: GMHI is associated with high-density lipoprotein cholesterol (HDLC)
- 物种水平的 GMHI 对健康与非健康个体的分层
作者计算了 4347 个样品每一个样品的 GMHI,调查健康组与非健康组之间的 GMHI 的分布差异。结果显示,健康组的 GMHI 比非健康组的要高 (Mann–Whitney U test P = 5.06 × 10−212; Cliff’s Delta effect size = 0.56; Fig. 3a)。【Cliff’s Delta 是一个非参效应值,量化一个值在一个分布中高于另一个分布的值的频率,与概率不同,范围在-1 到1】,更加 GMHI 的定义,这结果反映出在健康组,健康存在物种的影响比健康缺乏物种更大,在非健康组,反之亦然。
随后,进一步比较健康组与非健康组之间的多个生态特征值。首先,alpha 多样性(Shannon 指数),健康组显著高于非健康组 (Mann–Whitney U test P = 8.50 × 10−9; Cliff’s Delta = 0.10; Fig. 3b)。先前研究报告也有报道健康组较疾病组更高的多样性。接着是覆盖相对丰度大于 80% 的物种所需最小物种数(后文简称为 80% 的丰度覆盖,也有文章成为核心物种),同样也是健康组显著高于非健康组 (Mann–Whitney U test P = 2.30 × 10−12; Cliff’s Delta = 0.13; Fig. 3c)。最后是物种丰富度(观察到的不同物种数量),健康组显著低于非健康组 (Mann–Whitney U test P = 2.30 × 10−46; Cliff’s Delta = −0.26; Fig. 3d)。
最后,作者还比较了这些生态特征值在健康组和 12 个不同疾病的非健康组的差异。GMHI,12 个不同疾病中,除了 symptomatic atherosclerosis,均是健康组GMHI 显著高于非健康组。
Shannon 指数 和 80% 丰度覆盖,只在 3 个(CD obesity and type 2 diabetes)疾病中,健康组值显著高于非健康组,其他的都不显著。
丰富度,有 8 个疾病组的值与健康组显著不同,7 个高于健康组,只有 CD 是低于健康组的。
综上结果表明,
(i) 健康组与非健康组的生态特征不同;
(ii) GMHI 指示了健康的肠道微生物组特征,可针对各种不健康的表型;
(iii) GMHI 比 alpha 多样性,80% 丰度覆盖和丰富度 更好更稳定地区分健康与非健康个体。
Fig. 3: Comparisons among GMHI and other ecological metrics in stratifying healthy from nonhealthy phenotypes.
- GMHI的群体比例和香农多样性
逐渐增大或减小的 GMHI 值在健康组或非健康组的比例也逐渐增加 (Fig. 4a)。例如, GMHIs > 4.0 的 98.2%(168个中的165个)宏基因组样本来自健康组;GMHIs < -4.0的宏基因组样本中有 81.2%(202个样本中的164个)来自非健康组。
此外,PCoA 中,top 10 到100 的样品都有很好的区分 (Supplementary Fig. 7),相较于之前样品都重合在一起了。这结果证明了更高(更低)的集合丰度的健康存在物种与健康(非健康)关系更密切,相较于健康缺乏物种。
对每个样本的 GMHI 和 Shannon 多样性进行了比较,以检查它们的总体一致性。与香农多样性相比,GMHI 区分健康人群和非健康人群比 Shannon 更好,GMHI 与 Shannon 多样性之间存在较小但又显著的相关关系。此外,80% 丰度覆盖和丰富度也有类似的结果 (Supplementary Fig. 8)。
Fig. 4: Changes in group proportions and in Shannon diversity with respect to GMHI.
Supplementary Figure 7. Top healthy and non-healthy stool metagenomes as defined by their GMHIs show clear separation based on gut microbiome composition.
Supplementary Figure 8. GMHI stratifies healthy (n = 2 636) and non-healthy (n = 1 711) groups more strongly than (a) 80% abundance coverage; and (b) species richness.
- GMHI 与高密度脂蛋白胆固醇关联
接着,研究 GMHI 和其他生态特征值在单个研究内区分健康和不健康的表现。
12 项研究的 case (疾病或BMI异常)和 control 每组的样品数至少有 10 个,然后独立比较这些生态特征差异,这种做法不仅消除了批量效应还更关注个体研究。结果显示,在 28 个病例对照比较中,有 11 个健康组的 GMHI 显著高于非健康组 (Fig. 5a)。
Shannon 多样性和 80% 的丰度覆盖率分别在两个和四个 case–control 中,健康组的值高于非健康组 (Fig. 5b c)。最后,丰富度在 3 个 case–control 中,健康组的值低于非健康组 (Fig. 5d)。
显然,GMHI 的表现并不完美(对于其他生态特征也是如此),因为先前分析并没有覆盖到所有的 case–control。总体而言,GMHI 在区分病例和对照方面大大优于其他微生物组生态学特征。
与上述分析相似(个别研究中,健康个体与每个单独非健康表现比较),现在在适用条件下,将所有疾病样品合在一起,但还是独立研究比较。结果发现,12 项研究中,6 项的 GMHI case–control 之间显著差异,但,Shannon 多样性,80% 丰度覆盖率和丰富度分别只有 2,3,3 项是显著差异的。
Fig. 5: GMHI generally outperforms other microbiome ecological characteristics in distinguishing case and control across multiple study-specific comparisons.
- 独立队列验证 GMHI
最后,作者再用 679 个样品,含有公共数据未在发现队列中的(630 个,含有ankylosing spondylitis (AS) colorectal adenoma colorectal cancer Crohn’s disease (CD) liver cirrhosis (LC) and nonalcoholic fatty liver disease (NAFLD))和本研究新收集的 49 个 RA 患者样品。
如同前面发现队列的结果,GMHI 在健康组显著高于非健康组平衡准确率是 73.7% (健康:77.1%,非健康:70.2%),这个结果比发现队列中的 69.7% 还要高 (Mann–Whitney U test P = 3.49 × 10−28; Cliff’s Delta = 0.64; Fig. 6a)。
此外,基于健康存在物种,用 Shannon 多样性和随机森林区分健康组和非健康组,无论在发现队列还是验证队列中,都是 GMHI 表现更加优秀。
准确率
发现队列
验证队列
Shannon 多样性
53.6%
59.3%
随机森林
66.3%
47.0%
GMHI69.7%
73.7%
另一方面,虽然随机森林在发现队列中表现出卓越的准确率 (98.5%),但是是过拟合的表现,因为在验证队列中,准确率只有 52.3%。
作者进一步分析验证队列中不同疾病亚型 GMHI 的表现。结果显示,3 个健康亚组的 GMHI 都显著高于 7 个非健康组(Fig. 6b)。
令人惊讶的是,尽管发现队列中没有肝脏疾病的粪便宏基因组,但是 GMHI 在预测LC 和 NAFLD 表现良好(> 75.0%)。此外,同样和 Shannon 多样性,80% 丰度覆盖率,丰富度比较,GMHI 都表现出更优秀的准确率和稳定性 (Supplementary Fig. 9)。
Fig. 6 GMHI demonstrates strong reproducibility on an independent validation cohort.
Supplementary Figure 9. Evaluation of other ecological characteristics in distinguishing healthy from non-healthy phenotypes of the validation cohort.
讨论本文提出了一个 GMHI 指数,一个简单可解释量化肠道微生物的健康状况,效果比一般的生态指标更优秀更稳定。这框架应用于人体其他位置,如口腔或者皮肤。验证数据集具有很强的可重复性,这部分可能是由于在大量人群中进行充分的数据集整合, 重复表型特征被放大信号
尽管在验证数据集上显示了分类准确性的强可重复性,但还有提升空间。作者猜想分类错误的可能原因来源于:1.个体肠道微生物生态的复杂、随机、高度个性化;2. 样品收集和处理过程的异质性。所以作者未来将整合更大的数据库以考虑更多数量的样本和异质性来源。
本研究当然也存有局限性:
- 虽然数据从 40 个研究中收集的,但是还是无法完全排除批量效应。
- 根据入组选择标准,本研究不包括所有公开可获得的肠道微生物组研究和样品。
- 本研究用的是物种水平的 GMHI ,虽然比一般只能识别到属水平的 16S 好些,但是我们知道同一物种不同菌株对宿主的健康影响可以完全不同。未来得考虑株水平的研究。
- 本文只涉及 12 种疾病状态,更多的疾病状态可以纳入考虑。
- 虽然是宏基因数据,但是物种功能超出了作者研究范围。
最后,作者认为收集更多,更复杂的数据以获得更稳定的 GMHI。
参考文献
Meng N Ren X Santagiuliana G et al. Ultrahigh β-phase content poly (vinylidene fluoride) with relaxor-like ferroelectricity for high energy density capacitors[J]. Nature communications 2019 10(1): 1-9.