首页 > 代码库 > The Variant Call Format

The Variant Call Format

VCF is a text format. It contains meta-information lines, a header line, and then data lines each containing information about a posittion in the genome. The fomat also has the ability to contain genotype information on samples for each position.

(图看不清楚的话放大。按住ctrl , 滚动鼠标滚轮)

meta-information lines 是有##开头的,对下面出现的信息进行一下说明,是以键值对的形式表示的。如DP total read depth at the locus.

 header line只有一行,以#开头,它描述了下面data line 每列代表什么意思。

CHROM 表示参考序列的名字。

POS表示变异位点在参考序列上的位置。

ID 如果在call snp 过程中用到了dbSNP,恰好这个位点在dbSNP中,则显示此位点在dbSNP中的名字。

REF 参考序列在此位点上的碱基

ALT alternate non-reference alleles called on at least one of sample,如果有多个sample的话会用逗号隔开

QUAL 质量,越大质量越高。

FILTER 如果对结果进行过filter,会出现filter的相关信息。

INFO additional informations.如AC:allel count in genotypes. DP: combineed depth across samples. NS:number of samples with data.

FORMAT: 如下图第一列所示, GT指genotype, 1/1 代表homozygote, 两个等位基因均和参考基因组不同。 0/1 代表heterozygote, 一个等位基因与参考基因组一样,另一个不一样。

              DP:read depth at this postion for this sample

              RO:和reference一样的碱基有多少个   QR : RO的质量

              AO:和reference不一样的碱基多少个   QA : AO的质量

             GL : 三种基因型的likelihood,越接近于0,可能性越大。

C17是这个样本的名字 下面的信息都是描述这个样本的, 多个样本的话,会被隔开。

 

不同的软件,不同的参数,结果vcf可能略有差别。以上的例子是freebayes的结果。下图是gatk call snp 的结果:

上图中的AD相当于RO 和 AO, 可以看到AD对应后面的是两个值。GQ, 是基因型的质量。 PL 和GL类似,可能算法不同,都是越接近0 ,可能性越大。

下图是用samtools call snp 的结果。PL 在DP的前面而不是在最后了。其他含义相同。

有些我也不是很清楚,大概是这个意思。个人理解,有错误欢迎指正。

 

 

by freemao

FAFU.

free_mao@qq.com