The meaning of the standard read group fields

2024-07-06 08:42:26 227人阅读

用GATK call snp 的同学都会为繁琐的数据前期处理而苦恼，甚至放弃GATK 而用别的工具，对于bam文件，read group信息是必不可少的，别的软件

也许只需要一个sample name，而在GATK中除了SM（sample）是必须的之外，还需要read group ID, platform, library等。因为GATK 要利用这些信息来进行BQST，realign等等.

下面说一下我对这几个的理解。

首先说下sample , 就是样本，假如说你要研究某三个水稻品种（CS66, CS17, CS18）的snp，分别从每个水稻取样，提DNA，然后分为三个技术重复，分别建库用illumina去进行双端测序。

最后每个水稻品种都得到了三组fastq数据。这三组fastq和参考基因组进行比对,各得到三个bam文件，对于水稻品种CS66，有CS66-1.bam， CS66-2.bam， CS66-3.bam

每一个bam文件，它的SM:CS66。

PL（platform）是指你用的测序平台，现在一般都是illumina，所以你的所有bam文件，PL:illumina

library 我的理解是你的bam文件是属于哪个库，如果你每个重复都是单独建库，那么 CS66-1.bam， CS66-2.bam， CS66-3.bam 的LB 分别为 lib1, lib2, lib3。

最后是read grop ID (ID), 之前一直认为是每个lib是同一个ID，但是查了GATK论坛，发现它的解释是：‘ideally, this should be a globally unique identify across all

sequenceing data in the world, such as the illumina flowcell_lane name and number’ 所以， read group 应该和lane对应的，通常一般测序一个flowcell 有好几个lane，

每个lane能测好几个library, 对于同一个样，可能位于不同的lane, 也可能一个lane 有多个样。假如，CS66-1.bam 对应的数据实在lane1 测得， CS66-2.bam 也是在lane1,

CS66-3.bam 是在lane5测的。那我们就可以将这三个bam文件的readgroup ID 设置为： flowcell1.lane1, flowcell1,lane1, flowcell1.lane5。

by freemao

FAFU.

free_mao@qq.com

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们