快捷搜索:  汽车  科技

高通量测序的高通量怎么理解(高通量测序中的reads)

高通量测序的高通量怎么理解(高通量测序中的reads)多个contigs组装成scaffold之后 鉴定发现它编码蛋白质的基因 叫unigene.一个contig被组成出来之后 鉴定发现它是编码蛋白质的基因 就叫singleton;Scaffold N50:Scaffold N50与Contig N50的定义类似.Contigs拼接组装获得一些不同长度的Scaffolds.将所有的Scaffold长度相加 能获得一个Scaffold总长度.然后将所有的Scaffolds按照从长到短进行排序 如获得Scaffold 1 Scaffold 2 Scaffold 3...………Scaffold 25.将Scaffold按照这个顺序依次相加 当相加的长度达到Scaffold总长度的一半时 最后一个加上的Scaffold长度即为Scaffold N50.举例:Scaffold 1 Scaffold 2 Scaffold3 Scaffold 4 S

  1. 什么是read?

高通量测序时 在芯片上的每个反应 会读出一条序列 是比较短的 叫read 它们是读序;就是我们测序产生的短读序列,通常一代和三代的reads读长在几千到几万bp之间,二代的相对较短,平均是几十到几百bp。PE reads 就是 paired-end reads。在测序过程中,一条DNA分子的两端都可以测序。先测其中的一端,获得一个reads,然后再转到另一端测序,获得另外一个reads。得到的这两个reads就是PE reads。PE reads 的获得有助于后期序列组装。

  1. 什么是contig?

有很多reads通过片段重叠 能够组装成一个更大的片段 称为contig,它们是(片段)重叠群;就是不同reads之间的overlap(交叠区),拼接成的序列就是contig。

Contig N50:Reads拼接后会获得一些不同长度的Contigs.将所有的Contig长度相加 能获得一个Contig总长度.然后将所有的Contigs按照从长到短进行排序 如获得Contig 1 Contig 2 contig 3...………Contig 25.将Contig按照这个顺序依次相加 当相加的长度达到Contig总长度的一半时 最后一个加上的Contig长度即为Contig N50.举例:Contig 1 Contig 2 Contig 3 Contig 4=Contig总长度*1/2时 Contig 4的长度即为Contig N50.ContigN50可以作为基因组拼接的结果好坏的一个判断标准。

  1. 什么是scaffold?

多个contigs通过片段重叠 组成一个更长的scaffold,中文中有脚手架的含义;是比contig还要长的序列,获得contig之后还需要构建paired-end或者mate-pair库,从而获得一定片段的两端序列,这些序列可以确定contig的顺序关系和位置关系,最后contig按照一定顺序和方向组成scaffold,其中形成scaffold过程中还需要填补contig之间的空缺。基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。

Scaffold N50:Scaffold N50与Contig N50的定义类似.Contigs拼接组装获得一些不同长度的Scaffolds.将所有的Scaffold长度相加 能获得一个Scaffold总长度.然后将所有的Scaffolds按照从长到短进行排序 如获得Scaffold 1 Scaffold 2 Scaffold 3...………Scaffold 25.将Scaffold按照这个顺序依次相加 当相加的长度达到Scaffold总长度的一半时 最后一个加上的Scaffold长度即为Scaffold N50.举例:Scaffold 1 Scaffold 2 Scaffold3 Scaffold 4 Scaffold 5=Scaffold总长度*1/2时 Scaffold 5的长度即为Scaffold N50.Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准.



高通量测序的高通量怎么理解(高通量测序中的reads)(1)

image.png

一个contig被组成出来之后 鉴定发现它是编码蛋白质的基因 就叫singleton;

多个contigs组装成scaffold之后 鉴定发现它编码蛋白质的基因 叫unigene.

猜您喜欢: