生信概念之

首页 > 代码库 > 生信概念之

2024-10-15 13:25:02 218人阅读

1.contig：A contig (from contiguous) is a set of overlapping DNA segments that together represent a consensus region of DNA

从reads拼接出来的更长的序列。

2.k-mer：k-mers refer to all the possible subsequences (of length k) from a read obtained through DNA Sequencing

k-mer是指将reads分成包含k个碱基的字符串，一般长短为m的reads可以分成m-k+1个k-mers，这个概念主要在从头组装中用到。

3.转录组中的基因表达定量：

用归一化(normalization)概念将RNA_seq的结果相对定量。

常用的两个定量名词：raw count data 和 RPKM/FPKM

RPKM/FPKM是cufflinks的归一化方法。

Raw count data是DESeq/edgeR 要求输入的内容，其程序内部有自己的一套归一化方法。
RPKM/FPKM是归一化的计量。DESeq/edgeR 要求输入的是raw counts，因为这些程序有自己的一套归一化方法。
DESeq/edgeR 是更适合于外显子/基因表达的分析，Cufflinks 适合于 differential isoform analysis 。如果你只关心差异化的基因，则选择 htseq-count --> EdgeR/DESeq
如果你关心的是isoform level analysis，则可以选择Cufflinks/Cuffdiff 。

4.测序深度（问题，深度通过配对结果计算？）
以人的基因组为例，总共３G bp, 如果总测序量是９０G（９０bp*1G reads），则基因组上每个位点平均被覆盖３０次，叫做３０X覆盖；注意这不意味着每个位点都有３０次覆盖，实际上是一个分布；测序深度越大，得到的数据越多，理论上其分析出来的数据准确度也越高。
转录组的话，由于每个基因表达量差别很大，所以讨论１００倍覆盖其实没有意义．
是的，转录组不讲测序深度，因为转录组的表达量不一样，谈不上平均测序深度。主要看饱和曲线，饱和曲线区域饱和，就表明大部分的转录组被测到，再加大测序量，被测到的转录组数量也不会明显增加。重测序和基因组这种DNA测序，才提到测序深度的问题。

测序覆盖度：目标序列真正测到的比例。比如你要测的序列是100bp，但测序结果只显示了90bp，覆盖度为90/100=90%。没有测到的序列称为gap。

一个人的基因组测序，覆盖度为98.5%，那么说明该基因组还有1.5%的区域通过我们的组装和分析无法得到。

"fold-coverage" of a shotgun sequencing experiment:：number of reads * read length / target size

"breadth-of-coverage" of an assembly： assembly size / target size

average "depth-of-coverage" of an assembly： number of reads * read length / assembly size

5.关于gene-level 和 transcript -level expression analysis
gene-level expression analysis的结果是每个基因的表达量。

transcipt-level expression analysis 的结果是来自于同一个基因的不同剪切体的表达量。this can only be calculated when using a tool that assigns reads across isoforms for a given gene.

6.关于过滤(raw data vs clean data)：
理论上转录组测序不应该做人为过滤，特别是在做表达量分析大时候会引入偏差，Illumina公司的标准里根本就没有raw data 和clean data这种概念，Illumina公认标准的PF data.

参考文章：

http://blog.chinaunix.net/uid-28759878-id-4046427.html

http://blog.sina.com.cn/s/blog_670445240101kaba.html

生信概念之

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 生信概念之

生信概念之

看完仍有疑问？有类似问题直接问程序猿