快捷搜索:  汽车  科技

生信分析零基础发文章(生信必会的SAM格式)

生信分析零基础发文章(生信必会的SAM格式)@SQ SN:Supercontig_6 LN:4218384@HD VN:1.0 SO:unsorted头部区第一行,VN是格式版本,SO是比对的类型,有unknown unsorted queryname coordinate

对高通量测序数据进行比对,就是将测序得到的reads定位到基因组序列上,对illumina或454得到的short reads比对的软件主要有Bowtie BWA HISAT Tophat。


SAM格式,是序列比对文件的格式。分为头部区和主体区,都以tab分列。


生信分析零基础发文章(生信必会的SAM格式)(1)


@HD VN:1.0 SO:unsorted

头部区第一行,VN是格式版本,SO是比对的类型,有unknown unsorted queryname coordinate


@SQ SN:Supercontig_6 LN:4218384

参考序列名,SN是参考序列名,LN是参考序列长度


@PG ID:bowtie2 PN:bowtie2 VN:2.2.5

比对所使用的软件


1 QNAME 比对的序列名

2FLAG Bwise FLAG 表明比对类型,第二列的值回答了十一个问题,很重要,可以鉴别污染,提取数据

3RNAME 比对上的参考序列名

4 POS 比对上的最左边的定位

5 MAPQ 比对质量

6 CIGAR 比对结果信息:匹配碱基数,可变剪切等。5M1D75M前5个匹配,I插入,D缺失,后75个又匹配

7NRNM 相匹配的另外一条序列,比对上的参考序列名

8MPOS 1-BASED leftmost mate position

9ISIZE 插入片段长度

10 SEQ 和参考序列在同一个链上的比对序列(若比对结果再负义链上,则序列是其反向重复序列)

11QUAL 比对序列的质量

12可选的行

FLAG值介绍:

1该read是成对的paired reads中第一个

2paired reads中每个都正确比对到参考序列

4该reads没比对到参考序列上

8与该read成对的另一端read没比对上

16该read和参考序列相比,是反向互补的

32该read成对的另一端和参考序列相比,是反向互补的

64在paired reads中,该read是第一条

128在paired reads中,该read是第二条

256次优的比对结果

512没有通过质量控制

1024PCR重复

关注我们Get更多科研小工具


猜您喜欢: