快捷搜索:  汽车  科技

生信常用数据是什么(肿瘤生信挖掘必备数据库大合集)

生信常用数据是什么(肿瘤生信挖掘必备数据库大合集)4.UCSC Xena(https://xena.ucsc.edu/)一个国人开发的TCGA数据库极优可视化网站,重要的是操作简单快捷,小编力荐!包含了最全面的TCGA测序数据,能够可视化肿瘤与癌旁组织的基因表达量。GEPIA平台对TCGA数据的分析足以满足大部分普通科研人民的日常科研需求了。只需要输入一个基因名称或Ensembl ID,然后单击“GoPIA!”检索目的基因。可以生成差异表达基因列表,根据选定的数据集和按癌症类型或病理分期,对目的基因与临床变量间的相关性进行可视化,还有生存分析等等,基本上你能想到的GEPIA都有。2. Oncomine(https://www.oncomine.org/resource/login.html)Oncomine目前最大的癌症基因芯片数据库,里面不仅包含TCGA数据,还包括了其他有关的肿瘤的数据信息,非常全面。虽然对于普通免费用户而言,里面的T

小伙伴们大家好,肿瘤相关的生信文章绝大多数离不开TCGA数据库(https://portal.gdc.cancer.gov/)。但新手小白们可能对这个网站中的数据无从下手,或者仅仅知道寥寥几个相关网站还没能探索到相关的神奇功能。那么,我就来为大家总结一下TCGA生信挖掘必备的数据库合集吧!

最权威的网站资源

1.cBioPortal(http://www.cbioportal.org/)

生信常用数据是什么(肿瘤生信挖掘必备数据库大合集)(1)

一个基于TCGA数据库,不需要注册登录即可进行可视化分析的网页,不需要代码,里面内容十分丰富,提供了最详细的TCGA在线分析展示。cBioPortal显着降低了复杂基因组数据与癌症研究人员之间的获取障碍,促进快速、直观、高质量地获取大规模癌症基因组学项目的分子谱和临床预后相关性。目前存储DNA拷贝数数据(每个基因的假定,离散值,例如“深度缺失”或“扩增”,以及log2水平),mRNA和microRNA表达数据,非同义突变,蛋白质水平和磷蛋白水平(RPPA)数据,DNA甲基化数据和有限的临床数据。

2. Oncomine(https://www.oncomine.org/resource/login.html)

生信常用数据是什么(肿瘤生信挖掘必备数据库大合集)(2)

Oncomine目前最大的癌症基因芯片数据库,里面不仅包含TCGA数据,还包括了其他有关的肿瘤的数据信息,非常全面。虽然对于普通免费用户而言,里面的TCGA数据不支持批量下载。但是我们可以通过鼠标悬停,逐条摘录数据信息(我们解螺旋有单元课详细讲解哦~想了解具体方法的小伙伴们快去学习吧!),并且其他项目中肿瘤数据可以链接到GEO数据库中下载。

3.GEPIA(http://gepia.cancer-pku.cn/)

生信常用数据是什么(肿瘤生信挖掘必备数据库大合集)(3)

一个国人开发的TCGA数据库极优可视化网站,重要的是操作简单快捷,小编力荐!包含了最全面的TCGA测序数据,能够可视化肿瘤与癌旁组织的基因表达量。GEPIA平台对TCGA数据的分析足以满足大部分普通科研人民的日常科研需求了。只需要输入一个基因名称或Ensembl ID,然后单击“GoPIA!”检索目的基因。可以生成差异表达基因列表,根据选定的数据集和按癌症类型或病理分期,对目的基因与临床变量间的相关性进行可视化,还有生存分析等等,基本上你能想到的GEPIA都有。

4.UCSC Xena(https://xena.ucsc.edu/)

生信常用数据是什么(肿瘤生信挖掘必备数据库大合集)(4)

该数据库集合TCGA,ICGC(International Cancer Genome Consortium/国际癌症基因组联合体)资源于大成,可以零代码下载数据,也可以通过UCSCXenaTools工具包下载。而且该平台还提供了对应文件的下载功能。同时还支持对自己的数据进行分析,而且保证了数据的安全性,不用担心上传之后被别的用户窃取到。但该数据库存储的数据是log2(TPM 1) 转换的 RSEM nomalized data,关于这个数据有文章使用过,但能否直接用limma进行后续分析还存在一定争议。该网站还单独设立了可视化平台(https://xenabrowser.net/heatmap/),包含129个队列的1570个数据集,只需要输入肿瘤数据集和目的基因,即可一秒绘制出可用于文章发表级别的基因差异表达热图,如下图所示:

生信常用数据是什么(肿瘤生信挖掘必备数据库大合集)(5)

还可以比较两数据集中目的基因的表达差异。

生信常用数据是什么(肿瘤生信挖掘必备数据库大合集)(6)

我们还可以对目的基因的不同转录本进行可视化。

生信常用数据是什么(肿瘤生信挖掘必备数据库大合集)(7)


5. Broad GDAC Firehose(http://gdac.broadinstitute.org/)

生信常用数据是什么(肿瘤生信挖掘必备数据库大合集)(8)

在TCGA中直接下载数据的方法较为繁琐,但是有多个网站提供TCGA数据(包括基因表达和临床信息等)的完善整理,由美国MIT和Harvard共建的Broadinstitute运行的GDAC,提供较为完善的TCGA数据为基础的各类信息检索服务。

6. Fire Browse(http://firebrowse.org/)

生信常用数据是什么(肿瘤生信挖掘必备数据库大合集)(9)

该网站平台是由 Broad研究所开发的用于TCGA数据挖掘可视化的网络平台,提供基因表达,突变等综合挖掘分析功能,类似于cBioportal。该网站在TCGA数据可视化中做的依旧不错,可以帮助大家更好使用TCGA这个资源丰富的数据库。毕竟所有资源的开发都是为了进一步对数据进行整合。该平台对TCGA的数据进行整理并提供便捷的下载,38种数据集中还有类似COADREAD这种并不会在TCGA中直接存在但是临床也比较关注的数据。Fire Browse其实相当于是FireHouse的浏览器,FireHouse是数据的存储站。该平台主要提供基于RSEM软件的4大类数据,包括基因的表达数据,isoforms的归一化后的表达数据,外显子定量表达数据,以及融合基因定量数据等。

常用特异性TCGA可视化数据库

除上文的综合型数据库之外,还包括一些特异分析TCGA某一数据的数据库,我们下面就

为大家简单介绍几个比较常用的TCGA个性化分析数据库。

1.比较全面的TCGA生存分析库——Oncolnc(http://www.oncolnc.org/)

生信常用数据是什么(肿瘤生信挖掘必备数据库大合集)(10)

该网络平台可以对TCGA的mRNA、miRNA、lncRNA进行分析。进入网站后,在主页检索栏中输入目的基因名,则可以显示一个基因在多个肿瘤中对生存分析结果,点击“Submit”进行检索。我们还可以按照肿瘤类型检索相关基因,并可以直接进入下载界面,下载mRNA、miRNA、lncRNA在相应肿瘤中的表达矩阵。

2.基于TCGA的蛋白芯片分析神器TCPA(http://www.tcpaportal.org/tcpa/)

生信常用数据是什么(肿瘤生信挖掘必备数据库大合集)(11)

癌症蛋白质组图谱(TCPA)是一个侧重反相蛋白阵列(RPPA)的网站,反相蛋白阵列(RPPA)代表一种功能强大的功能性蛋白质组学方法,可以以经济有效,灵敏和高通量的方式在许多样本中评估相当数量的选定蛋白质标记。当前的RPPA平台包含大约300个蛋白质标记物,涵盖所有主要的癌症信号传导途径。TCPA平台包含两个独立的Web应用程序,一个是着眼于患者肿瘤的RPPA数据,包含癌症基因组图谱中32种癌症类型约8000个样本,以及约500个来自独立患者队列的样本。第二个是侧重于癌细胞系的RPPA数据,包含19个谱系的大于650个独立细胞系。许多这些细胞系都有公开的高质量DNA,RNA和药物筛选数据。TCPA提供各种分析和可视化模块,帮助癌症研究人员以有效和直观的方式探索这些数据集。


该平台还提供数据集,分析,可视化。“数据集”模块提供了在TCPA中策划的样本和蛋白质标记的详细信息,以及用于数据下载的树状视图界面。可以查看样本信息,如数据来源,癌症类型,样本数量和抗体数量。“分析”模块执行各种常见的以蛋白质为中心的分析,包括相关性,差异表达,患者存活和药物敏感性分析。“可视化”模块允许用户交互式地检查全局RPPA数据模式。其中“网络”可视化中蛋白质标记是节点,交互是连接两个节点的彩色边缘。另一个模块是“NG-CHM”——一种动态的交互式热图,使用户能够直观地检查每种癌症类型或细胞系谱系的全局蛋白表达模式。

3. 基于TCGA的甲基化神器mexpress(http://mexpress.be/)

生信常用数据是什么(肿瘤生信挖掘必备数据库大合集)(12)

在该网站平台,我们只需输入基因名 选择要研究的肿瘤即可,能够检索包括组织类型、肿瘤亚型、分子分型、甲基化等在内的因素与目的基因表达的关系。我们放大来看一下,我们可以看到是与TP53表达具有显著相关的因素,其风险值黑色加粗:

生信常用数据是什么(肿瘤生信挖掘必备数据库大合集)(13)

点击探针号时,会显示该探针对应的位置和性质,当我们在工具上发现一个位置的甲基化与某个因素显著相关时,通过了解该位置的特征和信息可以帮助我们设计下一步的研究。

4.肿瘤免疫浸润数据库TIMER(http://cistrome.dfci.harvard.edu/TIMER/)

生信常用数据是什么(肿瘤生信挖掘必备数据库大合集)(14)

TIMER(Tumor Immune Estimation Resource)是由哈佛大学免疫信息学教授刘小乐领导建立的一个网站工具,利用RNA-Seq表达谱数据检测肿瘤组织中免疫细胞的浸润情况。相较于TCIA展示了20种免疫细胞浸润比例,TIMER则提供6种免疫细胞(B cells CD4 T cells CD8 T cells Neutrphils Macrophages and Dendritic cells )的浸润情况。我们这里重点介绍TIMER网站是因为小编绝对这个体验更好一点,并且分析结果已进行了验证。


TIMER支持两种类型的分析:“Clinical”是针对选定的癌症类型中给定免疫细胞类型的生存分析;“Gene”是对给定的免疫细胞类型,分析其与所选基因表达之间的相关性。该基因可以是假定的检查点封锁靶标,癌症类型,趋化因子或受体。当前版本的TIMER包含了来自TCGA的23种癌症中的10 009个样本。

我们可以进行以下分析:

① 探讨基因表达与免疫浸润液含量之间的相关性;

② 探讨临床结果与免疫浸润或基因表达的丰富度之间的关联;

③ 探讨突变基因与免疫浸润液含量之间的相关性;

④ 探索体细胞CNA与免疫浸润丰富之间的相关性;

⑤ 探索肿瘤与正常组织之间的差异基因表达;

⑥ 相关模块探索基因间的相关性。

生信常用数据是什么(肿瘤生信挖掘必备数据库大合集)(15)

今天为大家分别介绍了两大类TCGA相关数据库,从几大最权威的网站资源,到相关生存分析、lncRNA/miRNA/mRNA可视化分析,甲基化异及肿瘤免疫浸润分析等个性化TCGA相关数据库。除此之外,还有更多的TCGA相关数据库,小伙伴们在学习中可以多多积累,多多尝试,找到适合自己目的基因的数据库!好啦我们下次再见吧~拜拜!

后台私信领取福利

欢迎大家关注解螺旋生信频道-挑圈联靠公号~

猜您喜欢: