首页 > 代码库 > reads k-mer scaffold 【知乎】
reads k-mer scaffold 【知乎】
基因簇,一群合在一起能干活的基因。基因家族,干相同活的基因们。
acaffold,脚手架的结构。motif,一个分子中一段貌似重要的部分。
链接:https://www.zhihu.com/question/37596636/answer/206516478
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
简单回答一下什么是scaffold。上边华中农大那个说的不算错,但是很模糊。read指的是直接测序得到的,目前普遍的二代测序是PE150,也就是双端各测150个碱基。这150个碱基是连续的,但是两个150之间的距离是不知道的,因为现在二代测序普遍建350bp的插入片段文库,所以测不通。由于350只是跑胶的时候的一个大概的范围,所以不能认为这两个150之间就一定是50个碱基,可能是48,也可能是52.这对重测序来说没有影响,但是denovo组装的时候,这个距离就比较麻烦了。
利用read之间的重叠区域,可以拼装出contig。具体算法确实很复杂,简单说,就是把这150bp的短read继续打断,叫K-mer。K是个数字,比如19。19-mer就是一个19个碱基的小的DNA片段。具体在组装的时候要用19-mer下的各个小片段去“碰”,看看哪两个小片段之间有18个碱基是重叠的,这样就拼成了一个20碱基的片段。(斜体部分我不太确定是不是这样,大概是,欢迎指正)。以此类推,各个小片段互相之间就可以再组装的更长一些。一般来说,组装的时候要试验不同的K值,看哪个K值下组装的效果最好。需要注意的是,contig是依靠片段之间序列重叠的部分来组装的。
scaffold直接翻译过来是脚手架。这个概念和“测末端”有关。简单地说,你测序的时候筛选到了20kb长的片段,但是一代和二代都测不通,只能测两端很短的序列。这时候你有了这个20kb的片段两端的序列,以及这两段序列之间的距离(20k)。利用这种位置关系,可以将这两端序列所在的contig联系起来,确定这俩contig之间的顺序和距离。利用这种组装方法得到的更高级别的(或者说更长)的片段,就是scaffold。scaffold是利用各种手段确定contig之间顺序和距离之后得到的组装结果。这些手段包括但不限于mate-pair文库、fosmid文库、遗传图谱、光学图谱、Hi-C。scaffold内部是有洞的(gap),原因是,测末端的时候中间测不到(如果测到了,就直接装成contig了。重复区域例外,测到了你也不知道重复了多少次,除非直接测通)。
纯三代测序应该是没有scaffold这个概念的,只有contig。
reads k-mer scaffold 【知乎】