首页 > 代码库 > SAM (Sequence Aliginment/Map Format )

SAM (Sequence Aliginment/Map Format )

用比对软件,如bwa, bowtie, 进行比对后产生的结果,一般为sam 或 bam 格式。bam是sam的二进制文件。下面用实例介绍一下sam文件格式:

sam 分为header section (@开头)和 alignment section(一般分为11列), 下图为一个sam文件的前半部分:

header 部分以@开头,格式为‘TAG:VALUE’,  TAG是两个字符:

@HD The header line. The first line if present

        VN Format version

        SO Sorting order of alignments.如unknown, unsorted, queryname, coordinate

@SQ Reference sequence dictionary.

        SN  Reference sequence name

        LN  Reference sequence length

@RG read group

        ID Read group identifier, each @RG line must have a unique ID.

        LB library

        PL Platform/technology used to produce the reads

        PU platform unit

        SM sample

@PG  Program

       ID Program record indetifier

       PN  program name

       VN program version

关于read group 的解释请参考我写的博文

下面介绍alignment section.

上图只展示了六列,我们先解释前六列:

1, QNAME  Query template NAME, 就是read的名字

2,FLAG    bitwise flag #稍微有点复杂,一共有12个bit, 分别代表不同的含义,如果这个alignment 满足其中几个,就将这几个相加得到该值。详细见官方文档。

3,RNAME  参考序列的名字。

4,POS  比对到的最左端的位置

5,MAPQ 比对的质量得分

6,CIGAR 将比对的结果用CIGAR表示,如M 表示match, I 表示对于ref 来说的 insertion, D 表示deletion。

下图显示的是第7,8,9,10列

7, RNEXT Ref. name of the mate/next read.

8,   PNEXT Position of the mate/next read

9,   TLEN observed Template length.

10, SEQ 就是你的read碱基。

下图是11, 12 , 13列。

11,QUAL 是你碱基的质量。每个字符代表一个得分。

11列之后是optional fields, 我们在这里不做介绍。

其实我不太明白那个TLEN的含义。

 

by freemao

FAFU.

free_mao@qq.com