首页 > 代码库 > 生信概念之

生信概念之

1.contig:A contig (from contiguous) is a set of overlapping DNA segments that together represent a consensus region of DNA

从reads拼接出来的更长的序列。


2.k-mer:k-mers refer to all the possible subsequences (of length k) from a read obtained through DNA Sequencing

k-mer是指将reads分成包含k个碱基的字符串,一般长短为m的reads可以分成m-k+1个k-mers,这个概念主要在从头组装中用到。


3.转录组中的基因表达定量:

用归一化(normalization)概念将RNA_seq的结果相对定量。

常用的两个定量名词:raw count data 和 RPKM/FPKM

RPKM/FPKM是cufflinks的归一化方法。

Raw count data是DESeq/edgeR 要求输入的内容,其程序内部有自己的一套归一化方法。
RPKM/FPKM是归一化的计量。DESeq/edgeR 要求输入的是raw counts,因为这些程序有自己的一套归一化方法。
DESeq/edgeR 是更适合于 外显子/基因 表达的分析,Cufflinks 适合于 differential isoform analysis 。如果你只关心差异化的基因,则选择 htseq-count --> EdgeR/DESeq
如果你关心的是isoform level analysis,则可以选择Cufflinks/Cuffdiff 。

 

4.测序深度(问题,深度通过配对结果计算?)
以人的基因组为例,总共3G bp, 如果总测序量是90G(90bp*1G reads),则基因组上每个位点平均被覆盖30次,叫做30X覆盖;注意这不意味着每个位点都有30次覆盖,实际上是一个分布;测序深度越大,得到的数据越多,理论上其分析出来的数据准确度也越高。
转录组的话,由于每个基因表达量差别很大,所以讨论100倍覆盖其实没有意义.
是的,转录组不讲测序深度,因为转录组的表达量不一样,谈不上平均测序深度。主要看饱和曲线,饱和曲线区域饱和,就表明大部分的转录组被测到,再加大测序量,被测到的转录组数量也不会明显增加。 重测序和基因组这种DNA测序,才提到测序深度的问题。

测序覆盖度:目标序列真正测到的比例。比如你要测的序列是100bp,但测序结果只显示了90bp,覆盖度为90/100=90%。没有测到的序列称为gap。

                      一个人的基因组测序,覆盖度为98.5%,那么说明该基因组还有1.5%的区域通过我们的组装和分析无法得到。

"fold-coverage" of a shotgun sequencing experiment::number of reads * read length / target size

"breadth-of-coverage" of an assembly: assembly size / target size

average "depth-of-coverage" of an assembly: number of reads * read length / assembly size

 

5.关于gene-level 和 transcript -level expression analysis
gene-level expression analysis的结果是每个基因的表达量。

transcipt-level expression analysis 的结果是来自于同一个基因的不同剪切体的表达量。this can only be calculated when using a tool that assigns reads across isoforms for a given gene.

 

6.关于过滤(raw data vs clean data):
理论上转录组测序不应该做人为过滤,特别是在做表达量分析大时候会引入偏差,Illumina公司的标准里根本就没有raw data 和clean data这种概念,Illumina公认标准的PF data.

 

参考文章:

http://blog.chinaunix.net/uid-28759878-id-4046427.html

http://blog.sina.com.cn/s/blog_670445240101kaba.html

生信概念之