首页 > 代码库 > sam 文件的解释

sam 文件的解释

  高通两数据测序之后要map到基因组上,我通常用bwa bowtie和tophat 。其实我知道sam 文件有好几个field,每个field代表不同的意思,但是由于各种格式的文件确实太多了,我也记不住每个field具体的意思。每次要用的时候都是上网再去找,或者把相关的资料下载下来,再现学。

   今天,我和一个同学讨论我们数据的情况。他们都是用bowtie 去map 的,我之前写了个脚本,是用bwa 做的map,我有点懒散,也懒得再去修改了,于是也没想着要再写一个用bowtie 做map的脚本。与同学的讨论中,我发现我之前对sam 文件的了解确实很肤浅,这是一个教训,以后每一步都要走踏实才好。

  sam 文件中第二列的信息是FLAG 标签

  0x0001    reads is paired in sequence, no matter whether it is mapped in pair

  0x0002    the reads is mapped in a proper pair

  0x0004    the query sequence itself is unmapped

  0x0008    the mate sequence is unmapped

  0x0010    strand of the query is reverse complement

    ……

    ……

    ……

  可以通过按位运算操作符筛选出特定的reads。

    

  0x0001      1

  0x0002       10

  0x0004     100

  0x0008     1000

  ……

  ……