文献解读m6A生信分析(文献解读m6A生信分析)
文献解读m6A生信分析(文献解读m6A生信分析)此外,本文还构建了一个列线图(基于m6A-LPS,年龄和WHO等级),该列线图具有很强的预测LGG患者总生存率(OS)的能力。还基于24个m6A相关lncRNAs中的7个建立了ceRNA网络。计算患者相应的风险评分,并根据每个数据集风险评分的中位数将LGG患者分为低风险和高风险两个亚组。m6A-LPS在CGGA数据集中得到验证,在分层分析中显示出强大的预测能力。主成分分析显示,低危组和高危亚组具有不同的m6A状态。富集分析表明,恶性肿瘤相关的生物学过程、途径和特征在高危亚组中更为常见。从TCGA(The Cancer Genome Atlas)和CGGA(Chinese Glioma Genome Atlas)数据集中,对646例低级别胶质瘤(LGG,lower-grade glioma)标本进行了N6甲基烯腺苷相关long non-coding RNAs(N6-Methylandenos
近年来,m6A作为国家自然基金的宠儿,频繁出现在科研热搜榜上。今天给大家展示一下关于m6A的生信研究思路。
文章题目:N6-Methylandenosine-Related lncRNAs Are Potential Biomarkers for Predicting the Overall Survival of Lower-Grade Glioma Patients(N6-甲基腺苷相关的lncRNAs是潜在的生物标志物,可预测低级神经胶质瘤患者的总体生存率)。
这篇文章2020年发表在Frontiers in Cell and Developmental Biology,IF是5.201。
研究思路
从TCGA(The Cancer Genome Atlas)和CGGA(Chinese Glioma Genome Atlas)数据集中,对646例低级别胶质瘤(LGG,lower-grade glioma)标本进行了N6甲基烯腺苷相关long non-coding RNAs(N6-Methylandenosine-Related lncRNAs,m6A相关lncRNAs)的预后价值研究。
本文应用Pearson相关分析来探讨m6A相关的lncRNAs,然后进行单变量Cox回归分析来筛选它们在LGG患者中的预后作用。
24个预后m6A相关lncRNAs被确定为预后m6A相关的lncRNAs,并将它们输入最小绝对收缩和选择算子(LASSO,least absolute shrinkage and selection operator)Cox回归,以在TCGA数据集中建立m6A相关lncRNA的预后特征(m6A-LPS,包括9个m6A相关的预后lncRNAs)。
计算患者相应的风险评分,并根据每个数据集风险评分的中位数将LGG患者分为低风险和高风险两个亚组。m6A-LPS在CGGA数据集中得到验证,在分层分析中显示出强大的预测能力。主成分分析显示,低危组和高危亚组具有不同的m6A状态。富集分析表明,恶性肿瘤相关的生物学过程、途径和特征在高危亚组中更为常见。
此外,本文还构建了一个列线图(基于m6A-LPS,年龄和WHO等级),该列线图具有很强的预测LGG患者总生存率(OS)的能力。还基于24个m6A相关lncRNAs中的7个建立了ceRNA网络。
本文还用RT-PCR检测了22例临床标本中5种m6A相关lncRNA的表达水平,进一步探索了m6A相关lncRNAs在肿瘤中的发生发展机制。
主要研究结果
1.LGG患者中与m6A相关的lncRNA的鉴定
首先,使用从“GENCODE”网站下载的文件,在TCGA数据集中鉴定了14247个lncRNA,在CGGA数据集中鉴定了4304个lncRNA,以进行以下分析。
然后分别从TCGA和CGGA数据集中提取了21个m6A相关基因的表达矩阵。将表达值与21个与m6A相关的基因中的一个或多个相关的lncRNA定义为与m6A相关的lncRNA。
进行了Pearson相关分析以搜索每个数据集中与m6A相关的lncRNA,获得了75个与两个数据集中与m6A相关的基因显着相关的lncRNA。
结合预后信息,然后进行单变量Cox回归,分别从TCGA和CGGA数据集中的75个与m6A相关的lncRNAs中筛选与m6A相关的lncRNA预后。最后发现在两个数据集中,有24个m6A相关的lncRNA与LGG患者的OS显着相关。
工作流程如figure 1A所示,TCGA数据集中24个lncRNAs与m6A相关基因之间的相关性如figure 1B所示。24个m6A相关的lncRNA单因素Cox分析结果如table 1所示。
2.TCGA数据集中m6A-LPS的构建
为了构建可预测LGG患者OS的m6A-LPS,在TCGA队列中的24个与m6A相关的预后性lncRNA的基础上进行了LASSO Cox分析,并生成了包含9个与m6A相关的lncRNA和系数(figure 2A,B)。
m6A-LPS涉及9个lncRNA,对于TCGA数据集中的每个患者,根据每个lncRNA的系数计算风险评分(figure 2C)。
TCGA队列中的患者根据风险评分的中位数分为低风险和高风险亚组。Kaplan-Meier生存曲线表明,风险评分较高的LGG患者的临床结局较差(OS率较低且OS时间较短)(figure 2D)。
风险评分和生存状态分布如figure 2E所示。ROC曲线表明,m6A-LPS具有预测TCGA队列中OS的潜力(figure 2F)。
3.CGGA数据集中的m6A-LPS的验证
为了验证m6A-LPS的预后能力,使用相同的公式计算了CGGA队列中患者的风险评分。根据中位风险评分,将CGGA数据集中的LGG患者分为低风险和高风险组。
结果与TCGA数据集中的结果一致:风险评分较高的LGG患者在CGGA数据集中具有较低的OS发生率和较短的OS时间(figure 2G)。
风险评分和生存状态分布如figure 2H所示,这表明风险评分较高的患者的总生存时间和死亡状态较短。
ROC分析还表明,在CGGA数据集中,m6A-LPS对LGG患者具有很强的预后价值(figure 2I)。这些结果表明,m6A-LPS具有强大而稳定的OS预测能力。
4.九个m6A相关的lncRNA的预后分析
九个m6A相关的lncRNA被包括在m6A-LPS中,并且使用单变量Cox回归分析来评估其预后作用。
森林图显示C6orf3,LINC00237和LINC00925是HR<1的保护因子,而LINC00152,LINC00265,LINC00665,RP11-443B20.1,RP4-758J18.2和RP4-773N10.4是LGG患者HR <1的危险因素(figure 3A)。
热图(figure 3B)显示C6orf3,LINC00237和LINC00925的表达随风险分数的增加而降低,而LIN00152,LINC00265,LINC00665,RP1-1443B20.1,RP4-758J18.2和RP4-773N10.4的表达随着增加风险评分。
它们的表达水平也与神经胶质瘤的临床病理特征有关,例如IDH突变状态,1p/19q共缺失状态,MGMT甲基化状态和WHO等级(figure 3B)。
Kaplan-Meier生存曲线证实,C6orf3,LINC00237和LINC00925的较高表达和LIN00152,LINC00265,LINC00665,RP11-443B20.1,RP4-758J18.2和RP4-773N10.4的较低表达与TCGA数据集中更好的OS相关。(figure 3C-K)。
5.m6A-LPS的分层分析
本文还试图确定临床病理特征是否与风险评分相关。结果显示具有野生型IDH,1p/19q非共缺失状态,未甲基化MGMT,年龄较大和WHO III级的LGG患者(figure 4A-E)具有较高的风险评分,而该风险评分与性别无关(figure 4F)。
为了更好地评估m6A-LPS的预后能力,进行分层分析以确认它是否保留其预测各个亚组OS的能力。与较低风险的患者相反,较高风险的LGG患者在WHO II和III级亚组中的OS较差(figure 4G-H)。
同样证实m6A-LPS保留了其对于≤40岁或> 40岁的患者(figure 4I-J)和具有突变或野生型IDH的患者(figure 4K-L)预测OS的能力。这些数据表明m6A-LPS可能是LGG患者的潜在预测指标。
此外,通过CGGA数据比较了原发性胶质瘤和复发性胶质瘤中九个m6A相关的lncRNA的表达情况(TCGA数据是原发性胶质瘤)。
结果表明在当前的LGG中,C6orf3下调,LINC00152上调,而其他m6A相关的lncRNA在原发性和复发性LGG之间无显著差异表达(补充图S1A)。
6.主成分分析(PCA)
冲积图中显示了九个预后的lncRNA及其相关的m6A基因(m6A调控子)(补充图S1B)。大多数相关的m6A调节器是m6A“reader”。
根据21个m6A相关基因的表达值,进行PCA分析来评估低风险和高风险亚组之间的差异(补充图S1C,D)。
结果表明,TCGA和CGGA数据集中的低风险和高风险患者分布在不同的方向。这些结果可能表明在不同的风险亚组中存在不同的m6A状态。
7.功能分析和GSEA分析
为了研究涉及低风险和高风险亚组之间分子异质性的潜在生物学过程和途径,本文在TCGA队列中确定了2571个差异表达基因(DEGs)。
这些DEGs主要通过以下方式富集:NABA核心基质,NABA基质相关(典型途径);GPCR配体结合,PD-1信号,ECM蛋白多糖,弹性纤维形成(反应组基因集);细胞因子介导的信号通路,细胞粘附的调节,血管发育和适应性免疫反应(GO生物过程)(figure 5A-C)。
GSEA分析(Gene Set Enrichment Analysis)表明,在高危亚组中有多种肿瘤标志物富集,如上皮-间充质转化、活性氧途径、P13K-AKT-MTOR信号、炎症反应、KRAS信号、补体、IL2-STAT5信号、糖酵解和MTORC1信号等(figure 5D)。
这些结果使我们对与m6A-LPS相关的细胞生物学效应有一些了解。
8.m6A-LPS是LGG患者的独立预后因素
本文使用单变量和多变量Cox分析来评估m6A-LPS是否是LGG患者的独立预后因素。
基于TCGA数据集中LGG患者的数据,单变量Cox分析表明m6A LPS与OS显著相关,多变量Cox分析进一步表明m6A-LPS是OS的独立预测因子(figure 6A)。
这一结论在CGGA数据集中得到验证,这证实了m6A-LPS是CGGA验证数据集中LGG患者OS的独立预测因子(figure 6B)。
这些结果表明,m6A-LPS可作为一个独立的预后指标,对临床预后评估有一定的参考价值。
9.m6A-LPS的Nomogram的构建和验证
为了建立一个临床应用的定量工具来预测LGG患者的预后,本文利用TCGA数据集中的风险状态(基于m6A LPS)、WHO等级和年龄建立了一个nomogram图,并在CGGA数据集中进行了测试(figure 6C)。
校准图显示,1年、3年和5年OS的观察与预测比率在TCGA(figure 6D-F)和CGGA队列(补充图S2A)中显示出完美的一致性。
然后使用时间依赖性ROC曲线来评估TCGA(figure 6G-I)和CGGA数据集(补充图S2B)中列线图和其他预测因子(风险评分、年龄和WHO等级)的预后预测能力,结果表明与其他预测因素相比,Nomogram图在1年期,3年期和5年期OS具有极好的准确性。
本文还计算了C-index,以评估两个数据集中Nomogram图的预测能力,结果显示稳定和稳健的预测能力(TCGA数据集的C-指数:0.817,CGGA数据集:0.642)。
这些数据表明,Nomogram图对LGG患者的OS具有稳健和稳定的预测能力。
10.ceRNA网络的构建和功能富集分析
为了进一步了解在LGG中,m6A相关的lncRNAs如何通过海绵化miRNAs来调节mRNA表达,本文构建了一个基于m6A相关的lncRNAs的ceRNA网络。
从miRcode数据库中提取了24个lncRNAs中的7个,鉴定了这7个lncRNAs与24个miRNAs之间的351对相互作用。然后使用三个数据库(miRTarBase,miRDB和TargetScan)对24个miRNAs进行检索,共鉴定出59个mRNAs。
最终,本文的ceRNA网络中包含了7个lncRNAs,24个miRNAs和59个mRNAs(figure 7A)。
此外,利用Metascape在线工具对59个靶基因进行功能富集分析,发现这些基因在血管系统发育、成纤维细胞生长因子受体信号通路、生长负调控、有丝分裂姐妹染色单体分离(GO生物过程)中都有富集;PID E2F途径,PID P53下游通路,NABA基质相关通路(典型通路);癌症通路,癌症转录失调,MAPK信号通路(KEGG通路)(figure 7B-D)。
这些数据可能为我们寻找这些m6A相关lncRNAs在LGGs中的潜在功能提供线索。
11、神经胶质瘤样品中5种与m6A相关的lncRNA表达水平的验证
为了验证神经胶质瘤样品中与m6A相关的预后性lncRNA的表达水平,用RT-qPCR法检测了22例非肿瘤性和肿瘤性标本中5种m6A相关的预后lncRNAs表达水平,包括16例胶质瘤(8例WHOⅡ级胶质瘤和8例WHO Ⅲ级胶质瘤)和6例非肿瘤性脑组织(NBTs)。
结果表明与正常脑组织相比,LGG样本中的C6orf3、GDNF-AS1、LINC00237和LINC00925下调,而在WHO III级胶质瘤中,LINC00265上调。(补充图S2C)。
总结
本文的结果就介绍到这里了,小编主要给大家列举了一些典型结果。对文章有兴趣的同学可以找来原文看看。
总体来说,本文利用TCGA数据,通过表达水平识别了与m6A因子相关的lncRNA。
利用单变量Cox和LASSO筛选了与预后相关的lncRNA,并且利用CGGA数据进行验证,最后利用实验验证了所识别的预后相关lncRNA的表达水平,还构建ceRNA网络。
本文思路清晰明了,公共数据加上实验验证也较为完备。如果你有需要,可以学习一下。
欢迎关注微信公众号启帆医学BioSCI,公众号专注于生物医学研究、科研课题设计、SCI论文写作等领域的知识梳理和资料分享,科研临床两手抓,促进科研成果转化,为广大医务工作者提供便利。