ncbi有宏基因组数据库吗?美国国家生物技术信息中心
ncbi有宏基因组数据库吗?美国国家生物技术信息中心言归正传,左上角的两个菜单分别叫资源(Resources)和如何(How To),名字起得显而易见,特别注意的是,仔细看上图可知,在左侧的菜单栏中,也有资源这一超链接叫做所有的资源(All Resources),这两个其实是一样的,而唯一左上角菜单的资源菜单的作用在于,点击下拉三角图标后,可见子菜单,移动到菜单项上后,还可以看到二级子菜单。也就是说左上角的资源菜单可以直接到最底层项目,而左侧菜单只能到中间的层次。我不啰嗦,点击一下就可以知道了。内容都是一样的,这里我没有把菜单项的名称标记上中文的原因是,我忘记了:)等到截完屏做出来就不好再添加上去了,但其实这反倒是一件好事情,因为真正所有的资源,后面我们会大量涉及的主体信息其实就是这些内容。熟悉英文的名称比直接看翻译的有意义。2.1 左上角一般介绍 理解大自然静默而优雅的语言,生物细胞的语言,是现代分子(molecular)生物学的追求。从
NCBI,The National(美国国家)Center for Biotechnology(生物技术) Information)旨在通过提供biomedical(生物医学)和genomic(基因组)信息供访问来推进科学和健康事业。这是网站首页正中的介绍,短短的一句话表明网站的资源包含两大部分,biomedical和genomic。
1. 中心的概括性介绍性部分
最先能看到的网站中的概括性介绍就是关于NCBI页面,点进去后可以看到。
1.1我们的使命
一般介绍
理解大自然静默而优雅的语言,生物细胞的语言,是现代分子(molecular)生物学的追求。从代表DNA的化学亚基(subunits)的4种字母,呈现出了生命的过程的语法,复杂至人。这些『字母』的解开和用来形成新『单字和短语』正是分子生物学领域的核心焦点。分子数据的惊人体量和它们神秘而微妙的模式(cryptic and subtle patterns),使得对计算机数据库(computerized databases)和计算机分析工具的需求成为必然。我们面临的挑战在于发现新的处理数据的量和复杂度的新方式,在于提供给研究者们分析和计算工具更好的访问性,以此来推动我们对基因的遗传(genetic legacy)的理解,对它在健康和疾病中起作用的理解。
好的,先看一个这个比原文更加混乱的表,我画的。不过至少到现在我们明白了一件事情,为什么NCBI要在首页上辣么多东东了,目的就是减少中间环节,你所要的所有东西,全部在页面上可以找到最佳的路径直接访问到。这样的好处不言而喻,坏处就是不够有条理,第一次看上去感觉痛苦的不行。
2.1 左上角
言归正传,左上角的两个菜单分别叫资源(Resources)和如何(How To),名字起得显而易见,特别注意的是,仔细看上图可知,在左侧的菜单栏中,也有资源这一超链接叫做所有的资源(All Resources),这两个其实是一样的,而唯一左上角菜单的资源菜单的作用在于,点击下拉三角图标后,可见子菜单,移动到菜单项上后,还可以看到二级子菜单。也就是说左上角的资源菜单可以直接到最底层项目,而左侧菜单只能到中间的层次。我不啰嗦,点击一下就可以知道了。内容都是一样的,这里我没有把菜单项的名称标记上中文的原因是,我忘记了:)等到截完屏做出来就不好再添加上去了,但其实这反倒是一件好事情,因为真正所有的资源,后面我们会大量涉及的主体信息其实就是这些内容。熟悉英文的名称比直接看翻译的有意义。
2.2 左侧
虽然后面会大量提到,但是还是有必要先把内容梳理一遍,这里面包括的内容从上到下来。主页就不说了,资源列表(Resource List)很有意思,是把所有的资源类,注意不是资源,的名称按照字母索引全部排列出来。当然我们看到表示完全无感,因为用的是英文首字母,而我们很多时候只知道中文是啥。我连查啥都不知道好不好。接下来的所有资源(All Resources)是把所有的资源类按照数据库(Databases)、下载(Downloads)、提交(Submissions)、工具(Tools)和如何做(How To)五个大类型全部进行分类。左侧列表中单个资源类的展现形式和这种展现形式是相同的,也是五个大类型。
这些单个的资源类分别是:化学和生物测定(Chemicals & Bioassays),数据和软件(Data & Software),脱氧核糖核酸和核糖核酸(DNA & RNA),域和结构(Domains & Structures),基因和表达(Genes & Expression),遗传和医学(Genetics & Medicine),基因组和图谱(Genomes & Maps),同源性(Homology),文献(Literature),蛋白质(Proteins),序列分析(Sequence Analysis),分类法(Taxonomy),培训和教程(Training & Tutorials),变异(Variation)。
需要特别提醒的是,这个单个资源类的分法,并不是绝对的把资源们分成各种相互隔离的类别,倒好像是提供了从各种角度把松散的资源组织到一起的办法,其目的是便于人一次性的找到自己所需要的相关性比较大的资源子类的集合。比方说一个卖水果的网店,它可以把货物分成甜水果,酸甜水果,皮厚水果,贵的水果四个资源类。西瓜资源可能既属于甜水果有属于皮厚水果的分类。
化学和生物测定(Chemicals & Bioassays)这里面包含的和化学有关的资源,生化生化,生物和化学从一开始就是分不开的。
数据和软件(Data & Software)无疑这一条应该排到第二,信息化的使用是依靠大量的数据库和数据检索技术基础之上的。这里面就从计算机信息化的角度提供了各种数据库和检索工具。
脱氧核糖核酸和核糖核酸(DNA & RNA)这里面包含了和DNA、RNA有关的所有资源容,这些都可以在这个分类里面找到,很多的。
域和结构(Domains & Structures)这里面包含了和结构相关的资源,比如蛋白质的结构组成。
基因和表达(Genes & Expression)基因通过某种方法表达出物种的各个形态,比如头发的颜色,翅膀的大小,这里面包含了基因和表达相关的所有资源,这里包含着几乎所有的内容。
遗传和医学(Genetics & Medicine)这里面包含了基因和疾病相互有关系的资源。
基因组和图谱(Genomes & Maps)这里面包含了基因组和图谱的资源,基因组是生物完整基因的组成形式,这里包含着几乎所有的内容。
同源性(Homology)基因组的变化是在遗传的不变性基础上进行的,所以可以追溯他们的源头,这里有这方面的资源。
文献(Literature)和文献有关的资源。
蛋白质(Proteins)蛋白质肯定比基因的层次要高,毕竟组成人体嘛,这里有蛋白质相关的资源。
序列分析(Sequence Analysis)这里面就一个流感病毒的数据库,加上一些通用的分类方法,不知道为什么叫这个名称。
分类法(Taxonomy)万物同源但是随着演化发生了很多的变化,所以要分成很多类型,这就是相关的资源。
培训和教程(Training & Tutorials)相关资源链接
变异(Variation)遗传总是有变异,这里是相关的资源。
这些分类其实并不是分类,而是某一类资源的归类。我相信这些内容必然是从实际出发,对用户和研究者来说都很有效果的。到此为止,内容已经全部提到,后面的内容无外乎是这些资源的细分或者是相关信息以及工具。目前不需要有太深入的了解,有个粗浅认识,为后面的深入探索,提供一个大脑中的印象。
2.3 中间部分
一般来说,但凡放到中间的,都是核心。全都如此,首页上在中间部分的除了欢迎词之外,下面的一排链接,在前面的第一章中已经有了详细翻译,不再赘述。重点是中间部分的水平中间部分六个块。其重要性和左侧列表的不同之处在于他们的功能性,也就是功能性最重要的六个块,六个功能吧。分别是提交(Submit),下载(Download),学习(Learn),开发(Develop),分析(Analyze)和研究(Reserch)。不管你想要用这个中心的资源来干什么,这里都提供,而最常用的就是这六种。我们分别介绍:
2.3.1 提交
存储数据或者草稿(manuscripts),这个草稿指的是未经同行评议(peer-reviewed)的发现,到国家生物信息中心数据库中。具体的种类包括:
核苷酸序列(Nucleotid Sequences)包括GenBank和Sequence Read Archive(SRA)两个数据库;
基因组变异(Genome Variations)包括单核苷酸多样性(SNP),变异数据库(dbVar),临床变异数据库(ClinVar),遗传检测注册表(Genetic Testing Resgistry(GTR));
实验研究和数据集(Experimental Studies & DataSets)包括基因表达综合库(符合微阵列实验最小信息(MIAME)格式)(Gene Expression Omnibus(GEO)),序列读档案(Sequence Read Archive(SRA)),基因型和表型数据库(dbGap(The Database of Genotypes and Phenotypes)),生化试验数据库(PubChem BioAssay)
生物研究项目数据(Biological Research Project Data)包括生物数据集合(BioProject)和生化试验原材料数据库(BioSample)
核苷酸和化学试剂(Nucleotide & Chemical Reagents)包括核酸试剂盒注册表(Probe)和样本描述数据库(PubChem Substance)
其他数据类型(Other Data Types)包含国立医学研究院草稿提交系统(NIH Manuscript Submission System(NIHMS))
选择相应种类后,可以提交数据,并且可以查到如何提交的向导文档。这部分可以发现很多内容还是相互重合的,有些和前面提到的内容也都相关。其实也简单啊,就是那几个关键的数据库嘛。
2.3.2 下载
介绍文字为:传输国家生物信息中心的数据到你的电脑上。
这里提供了三个主要部分的内容以及一些辅助链接文档
首先是FTP,可以从中打开文件夹,下图就是我电脑上打开的内容,速度有些慢,但是可以看到里面的大致构成。可以直接下载哦。
第二个内容就是Aspera。这本来是IBM公司的一个高速传输软件,使用了fasp传输技术。感觉使用了这个神器,就秒杀迅雷的感觉,达到只要担心你存储空间的大小的境界。
这个我安装了一个在电脑上,但是没用过,因为没机会用,空间已经满了。究其根本原因,因为最开始我比较傻,又没有老司机带路,使用了ftp往我的服务器上wget的时候,把我的磁盘空间都占满了。我用的是阿里云,值得夸赞的就是,我经常怀疑会传输到一半就完蛋,没想到吭哧吭哧的竟然把如此大的数据库文件都慢慢下载下载了,可见人家服务器的强健,和我阿里云的网络畅通。但是最后一个错误,怎么试都不行的时候。我才发现原来是硬盘占满了。
总之,总关系图中有一个截屏,可以看到这个软件把数据库文件目录组织的很好。顺便说这个软件已插件的方式起作用,打开网页就可以浏览和处理文件了。
第三个就是下载工具,特定在于定制能力强,可以定制某些数据集。
包括Entrez程序集(Entrez Programming Utilites(E-utilities)),SRA(Sequence Read Archive)工具包(SRA Toolkit)和GEO2R,最后这个怪名字工具的怪名字表示它是一个基于R语言的GEO数据库下载工具。GEO前面说过了,但是肯定无法容易一下子记住的名字,基因表达综合库(Gene Expression Omnibus):GEO是一个公开的基因组学(genomics)数据仓库(repository),它支持符合MIAME(微阵列实验最小信息)标准的数据提交。接受基于数组和序列的数据。这个工具帮助用户查询和下载实验和策划(curated)的基因表达谱(gene expression profiles)。还有这三个工具的相关文档。
链接就是如何下载定制的数据集合,大数据下载的最好方法,SRA下载参考。
2.3.3 学习
介绍文字为:找到有帮助的文档,参加课程或者观看教程。
学习嘛比较容易理解,包含了四个部分的内容,网络研讨会和网络课程(Webinars & Courses),会议和展示(Conferences & Presentations),教程(Tutorials)和文档(Documentation)。总关系图中有截图。
2.3.4 开发
介绍文字为:使用国家生物信息中心的API们和代码库来创建程序。
这里面呢有三个部分和一个外部链接。首先是APIs,懂得就懂,不懂的估计对这一段也不感兴趣了。简单介绍就是包括E-utilities、BLAST URL API 和化学文献强力用户网关(PUG(PubChem Power User Gateway))等的程序接口。简单说明一下就是这些东西都是写好的程序,你可以通过调用这些程序来获取一些数据,并且根据调用这些程序时的参数,来定制你想要的数据。上面的等这个字,其实就是生化文献中心(PubMed Central(PMC))APIs,可能是地方不够用了的缘故。
其次就是代码库(Code Libraries),用来维护国家生物信息中心数据的公开的软件库,就是很多软件啦。包括:
国家生物信息中心C 工具包,C 是一种强大的编程语言,这个工具包是一个应用程序的框架,既然是框架那就不简单是一些可调用的函数和类啦,是一个脚手架,可以趴在上面用各种函数操作数据库中的内容。
SRA 工具包,包含工具的可执行文件和源码,可以直接下载,这些工具主要是处理二代测序的结果,这些结果用国家生物信息中心SRA结构存储的,SRA是一种格式名称,如同word文档,就是用特定格式存储的文本文件,和txt的文本文件的类型是不一样的,必然强大了哦。
国家生物信息中心GitHub仓库(NCBI GitHub Repository),这个词要这样断,这是个在GitHub上面的仓库,里面放的国家生物信息中心的很多工具。GitHub是啥呢?是程序员们放自己写出来的代码的地方。放在那里有啥好处呢?就是可以做版本管理,每一次修改都给你存起来。如果使用免费的空间,那就必须要公开,谁都可以看和下载。有时候大牛看到了,可以拷贝一份帮你改一改,改过的你觉得太好了,就直接给大牛发一个「拉」请求,把大牛改的那个拷贝,拉过来覆盖你自己的版本。如果你使用私人的空间,或者公司用的,那就花钱租一个,公司的人自己用。总之,这是一个程序员扬名立万的地方。上面有很多好用的东西,Android的源码也在上面。
再次就是数据格式,由于各家的数据库使用不同的格式存储数据,那相互之间就无法自动读取,存储到另一个库中。所以为了统一标准,就规定了这些东西。
最后的链接就是GitHub,和前面的代码库中的重复。我表示始终对国家生物信息中心的分类之诡异佩服的很。最后还突然冒出来几个链接,开发视频教程,指导如何使用来开发使用E-UTILITIES的。
2.3.5 分析
介绍文字为:为你的数据分析任务选择一个国家生物信息中心工具。额。。。
里面可以看到,我们提供了好多好多的分析工具哦,你们都可以用来操作(manipulate),排列(align),可视化(visualize)和评估(evaluate)生物数据。
里面分了六个类:文献类、健康类、基因组类、基因类、蛋白质类和化学类。基因组、基因和蛋白质三个类的工具最多。
这里面的分析工具和前面的提到的很多内容还是重复的,也就是说,这里是提供了一个目录,把很多相关的内容收集到一起,便于你使用。
2.3.5 研究
介绍文字为:展示了国家生物信息中心的研究和协作项目。
额,此文前文完整翻译过,名为国家生物信息中心计算生物学分支(NCBI Computational Biology Branch)。再一次分类思想点赞,我已经晕了。
2.4 右侧
右侧上部分名为热门资源(Popular Resources),不言而喻,是最多被访问,最受欢迎的内容。
包含如下内容:生物医学文献(PubMed),书籍和文件(Bookshelf),自有的生物医学文献(PubMed Central),临床疗效信息(PubMed Health),匹配序列的工具(BLAST),序列的集合(Nucleotide),基因组信息(Genome),单核苷酸多样性数据库(SNP),基因信息(Gene),蛋白质序列集合(Protein)和化学数据库(PubChem)。
分别介绍如下:
生物医学文献(PubMed):PubMed包括来自MEDLINE,生命科学期刊和在线图书的超过2700万次的对生物医学文献的引用。 引文可能包括到(自有的生物医学文献)PubMed Central和出版商(publisher)网站的全文内容的链接。
书籍和文件(Bookshelf):提供到生命科学和医疗保健书籍和文件的免费的在线访问。搜索,阅读和探索。
自有的生物医学文献(PubMed Central):PubMedCentral®(PMC)是美国国立卫生研究院/国家医学图书馆(NIH / NLM)的生物医学和生命科学期刊文献的免费全文档案。
临床疗效信息(PubMed Health):临床有效性研究(Clinical effectiveness research )回答了医疗(medical)和保健(health care)中“什么有效”问题。感觉中文中,保健这个概念已经既污又low了。
匹配序列的工具(BLAST):多次出现了哦。发现生物(biological)序列(sequences)之间的匹配区域(regions of similarity)。 该程序将核苷酸(nucleotide)或蛋白质(protein)序列(sequences)与序列数据库(sequence databases)进行比较并计算统计学意义(statistical significance)。简单说就是你有一段自己的基因序列,来这里用这个工具查一下,哦,我和人类的基因序列是匹配的呢。当然也可以比较两个基因序列的相似性喽。
序列的集合(Nucleotide):核苷酸数据库是来自几个来源的序列集合,包括美国国立卫生研究所遗传序列数据库(GenBank(NIH genetic sequence database)),国家生物信息中心参考序列数据库(RefSeq(NCBI Reference Sequence Database)),第三方标注序列数据库(TPA(Third Party Annotation Sequence))和蛋白质数据银行(PDB(Protein Data Bank)),基因组(genome),基因(gene)和转录本序列数据(transcript sequence data),为生物医学研究和发现提供基础支持。这个库显然是最大的总和。
基因组信息(Genome):该资源组织基因组的信息,包括序列(sequences),图谱(maps),染色体(chromosomes),装配(assemblies)和注释(annotaions)。这里面有人类基因组(Human Genome),微生物基因组(Microbial Genomes),细胞器基因组(Organelle Genome),病毒基因组(Viral Genomes),原核生物参考和典型基因组(Prokaryotic reference genomes)。
单核苷酸多样性数据库(SNP):单核苷酸多态性(SNPs)数据库和包括插入/缺失(insertions/deletions),微卫星(microsatellites)和非多态性(non-polymorphic)变体(variants)的多个小规模(small-scale)变异(variations)
基因信息(Gene):基因整合来自广泛物种的信息。 记录可能包括命名法(nomenclature),参考序列(Reference Sequences)(RefSeqs),图谱(maps),途径(pathways),变异(variations),表型(phenotypes),以及全球范围的基因组、表型和基因座特异性的资源的链接。
蛋白质序列集合(Protein):该数据库是来自多个来源的序列集合,包括美国国立卫生研究所遗传序列数据库(GenBank(NIH genetic sequence database)),国家生物信息中心参考序列数据库(RefSeq(NCBI Reference Sequence Database)),第三方标注序列数据库(TPA(Third Party Annotation Sequence))中注释的编码区(coding regions)的翻译,以及注释的蛋白质数据库(annotated protein database )Swiss-Prot,蛋白质信息资源(PIR(Protein information resources)),蛋白质研究基金会(PRF(Protein Research Foundation)和蛋白质数据银行(PDB(Protein Data Bank))的记录。 蛋白质序列是生物结构和功能的基本决定因素。
生化信息库(PubChem):提供小分子生物活性(biological activities)的信息,由三个主要数据库Pcsubstance、Pccompound、和PCBioAssay,分别包含物质(substance)信息,化合物( compound)结构和生物学活性(BioActivity)数据。
回到右侧的内容,下面还有个提供了发布新闻和博客的链接(News & Blog),不赘述了。
2.5 底部
最后一个部分,我要介绍的是底部的所有内容。这一部分总的来说呢,应该是一个导航栏,就是告诉你目前处于整个站点的位置。但是实际上感觉又是一个所有元素的分类,提供给用户方便的访问。总之不管那么多主要有5个部分。
2.5.1 从这里开始(GETTING STARTED)
从这里开始,好吧,这里有5个内容:分别是教育(NCBI Education),帮助文档(NCBI Help Manual),手册(NCBI Handbook),训练和培训(Training & Tutorials)以及提交数据(Submit Data)。讲真哦,别人我不知道,反正如果我要是从这里开始的话,估计早就迷失了。
需要说的是第一个教育和第四个训练和培训和上文中间功能区的学习(Learn)重复,不做介绍。第五个内容提交数据和中间功能去的提交(Submit)重复。表示不理解。剩下的两个如字面意思。
2.5.2 资源(Resources)
哦,既然整个站点就是资源,欢迎词里面说的嘛。那么这显然是重中之重了,果不其然,我一看和左侧列表中完全重合。并不是,少了一个训练和教程(Training & Tutorials),目前你有三种可能一下子就进入到训练和培训页面,看国家生物信息中心是多么的希望训练和培训你哦。其他完全一样,也就是所有的资源了。
2.5.3 热门(Popular)
唉,这个部分和刚才提到的右侧部分的热门资源(Popular Resources)完全一致,真的完全一致。不解释。
2.5.4 特色(Featured)
恩,这个有趣了。由于前面的影响,我下意识的反应就是在寻找,到底这一部分和哪一个条目重合呢?事实上,并没有。没有想到吧,这一部分竟然几乎是新鲜的哦。为什么躲到这个犄角旮旯里呢?我又一次陷入了思考。
遗传检测注册表(Genetic Testing Registry(GTR))这里提供了一个提供者自愿提交遗传检测信息的地方。从里面可以看到。测试(Tests)通过搜索测试名称,疾病名称,表型(phenotypes),基因标记和名称(symbols and names),蛋白质名称,实验室名称,主管和位置。环境/表型(conditions/phenotypes)通过搜索疾病名称,特性(traits),药物(drugs),蛋白质(proteins)和分析(analytes)找到环境和表型。基因(Genes)通过搜索基因标记和名称,环境和表型来搜索基因。实验室(laboratories)通过搜索实验室名称,主管,职员,位置和服务,疾病名称和表型搜索实验室。基因评论(GeneReviews)这个很好的,是相关学科专家对基因的评论文章。中国有两家哦!一个是杭州的中翰金诺医学检验所,一个是江苏苏州的健路基因。额,奇怪的状况。
临床疗效信息(PubMed Health)向左看热门资源里面有这一条,上文中的右侧也有这条。不解释了。
美国国立卫生研究所遗传序列数据库(GenBank(NIH genetic sequence database))前文多次提到这个数据库,这里第一次出现访问链接。介绍文字:美国国立卫生研究所遗传序列数据库,所有公开访问的DNA序列的注释的集合。这里的注释非常重要哦,一堆atcg,那可是完全看不懂天书了。同时,GenBank又是另一个库的一部分,这个库唤作国际核苷酸序列数据库(International Nucleotide Sequence Database),这个大库由几个库组成分别是:日本DNA数据银行(DDBJ),欧洲核苷酸序列档案(European Nucleotide Archive(ENA)),GenBank。这三个机构每天交换数据。可见霓虹国还是很强大的哦。下面介绍了一堆,如何访问,如何使用,保密和隐私之类。有几种方法可以从中获取数据:Entrez Nucleotide,BLAST,e-utilities,和直接看纯文本格式,多种方法各显神通,各有利弊。将来会详细介绍。总关系图中有几个截图可以看看。
参考序列数据库(Reference Sequences):一个全面的,整合的,非冗余的,注释良好的参考序列,包括基因组,转录物和蛋白质。关键在于参考这个词,那么多序列,哪个才是标准呢?这是个问题。简单来说,这里的序列,就是可以用来对照的。恩,对照了发现,我是一个人类。就这种感觉。
基因表达综合(Gene Expression Omnibus):支持符合微阵列实验最小信息(MIAME)标准的数据提交的公共功能基因组数据库。 接受基于数组和序列的数据。 提供工具来帮助用户查询和下载实验和策划基因表达谱。也就是说大家把测序的结果提交到这个里面来,为啥呢?因为这个数据库存储基因组数据这种大数据特别擅长,提交的方法简单还支持各种通用的注释,很重要的哦,用户可以查询下载研究感兴趣的基因表达谱。
图谱(Maps)图谱查看器,Entrez的一部分,提供了多样的基因组图谱和序列数据的浏览功能。这个用了就知道咋回事了。
人类基因组(Human Genome),不用说了,这是核心啊。里面有详细的单独的操作方法。可以下载,浏览,查看和学习。就整个资源来说,这里有些像新浪网站搞了一个小专题。就这样的感觉。顺便提一下人类基因组的版本是变化的哦,网站里面给出了两个版本GRCh37和GRCh38版本。表示看不懂,经过研究,原来是,以GRCh28为例,基因组参考联盟之人类基因组(38版)(GenomeReference Consorium human genome (build 38)),额,汗。
小家鼠(Mus musculus),不解释了,老鼠的基因组。历史上干死不少人类,现在又被人类干死不少,谁也灭不掉谁。
流感病毒资源(Influenza virus),无需解释了,流感是一种病毒,表吃抗生素,消炎药,那是杀菌的,对病毒没有卵用,附带宣传。
引物寻找器(rimer-BLAST),引物是一段核苷酸序列,可以在升温后DNA双链打开后,拼合到单链的特定位置上,用以后面降温时,确定DNA补齐双链状态的起始和结束位置。如此重复N次,就把特定区间的DNA复制了大量出来,如果用了荧光标记,那么这时就发出可见强度荧光。如果没有,不是你做错了,而是没有特定的DNA序列让你的引物去拼合。所以,有无荧光就成为被测的DNA有无特定序列的标识。就可以干很多事情了。这里就是如何设计一段用来检测特定dna序列的引物序列的程序。
序列阅读存档(Sequence Read Archive (SRA))这个里面存储序列数据。为什么要存到这里呢?因为它设计来存储二代测序技术测出来的原始序列数据的。除了原始序列数据外,SRA现在以参考序列中读取位置的形式存储对齐信息。也就是说我不用存每一个位的信息,我存储相对于参考也就是标准列的位置,这样来存储对齐信息。虽然实践方法不知道,不过显然会减少存储量。现在,sra数据库数量逐渐增加。里面列举了很多信息。
坦白说,看完这一段,发现这个特色下面的列表,虽然位置很偏,但是感觉用处都很大,很有研究价值,和它左右列表相比,完全不是一个档次的。
2.5.5 美国国家生物信息中心信息(NCBI INFORMATION)
这一部分有七个列表项目,但是我来分分钟解决。
美国国家生物信息中心概述(About NCBI),美国国家生物信息中心的研究(Research at NCBI)这两个看上去熟悉吧,就是前文中,中间部分的概述(About the NCBI),那么,美国国家生物信息中心的研究呢?不用担心,这其实是概述的一个子内容。一个是另一个的子内容,我真是醉了。
美国国家生物信息中心新闻和博客(NCBI News & Blog),很熟悉吧,就在页面上不远的地方。
唯一有一点价值的美国国家生物信息中心FTP站点(NCBI FTP Site),并没有任何新鲜事,就是中间部分的下载(Download)里面的FTP。
后面三个,我们用不了,不解释!
好了,到此为止,首页面上呈现的概略性内容就已经完全介绍完了,虽然说是概略性的内容,其实已经涉及到了主要的资源,以及利用资源的方法了。这就是整个美国国家生物技术信息中心的资源架构。
后面,我会择其重点资源,逐个研究。
补充一句,如果看完了,你还是不知道要到哪里去找你要的东西,就到页面的正上部位置,我们一直没有提到的地方,有个空白框,输入你想要的内容,当然如果你知道自己想要什么的话,点击Search,搜索即可。
任皓
2017年7月29日
授权生信菜鸟团,生信技能树平台发布,其余转载请联系作者取得授权,否则委托维权骑士追责,谢谢合作和理解。