首页 > 代码库 > The meaning of the standard read group fields

The meaning of the standard read group fields

用GATK call snp 的同学都会为繁琐的数据前期处理而苦恼,甚至放弃GATK 而用别的工具,对于bam文件,read group信息是必不可少的,别的软件

也许只需要一个sample name, 而在GATK中 除了SM(sample)是必须的之外 ,还需要read group ID, platform, library等。因为GATK 要利用这些信息来进行BQST,realign等等.

下面说一下我对这几个的理解。

首先说下sample , 就是样本,假如说你要研究某三个水稻品种(CS66, CS17, CS18)的snp,分别从每个水稻取样,提DNA,然后分为三个技术重复,分别建库用illumina去进行双端测序。

最后每个水稻品种都得到了三组fastq数据。这三组fastq和参考基因组进行比对,各得到三个bam文件,对于水稻品种CS66,有CS66-1.bam, CS66-2.bam, CS66-3.bam

每一个bam文件,它的SM:CS66。

PL(platform)是指你用的测序平台,现在一般都是illumina,所以你的所有bam文件,PL:illumina

library 我的理解是你的bam文件是属于哪个库,如果你每个重复都是单独建库,那么 CS66-1.bam, CS66-2.bam, CS66-3.bam 的LB 分别为 lib1, lib2, lib3。

最后是read grop ID (ID), 之前一直认为是每个lib是同一个ID,但是查了GATK论坛,发现它的解释是:‘ideally, this should be a globally unique identify across all

sequenceing data in the world, such as the illumina flowcell_lane name and number’ 所以, read group 应该和lane对应的,通常一般测序一个flowcell 有好几个lane,

每个lane能测好几个library, 对于同一个样,可能位于不同的lane, 也可能一个lane 有多个样。假如,CS66-1.bam 对应的数据实在lane1 测得, CS66-2.bam 也是在lane1,

CS66-3.bam 是在lane5测的。那我们就可以将这三个bam文件的readgroup ID 设置为: flowcell1.lane1, flowcell1,lane1, flowcell1.lane5。

by  freemao

FAFU.

free_mao@qq.com