首页 > 代码库 > [bio] STAR 通用超快的RNA aligner
[bio] STAR 通用超快的RNA aligner
rna call varients时gatk推荐工具,broad institute都推荐了,还是encode计划时冷泉港内部开发的,特点:快速、as支持性好、支持长reads、全转录本、发现嵌合转录本等,有理由看一下。百度了下,没中文的博文,我来翻译一个吧……
####################
原理:
STAR utilizes sequential maximum mappable seed search in uncompressed suffix arrays followed by seed clustering and stitching procedure.
使用:
没耐心读manual的人:
1.安装:github自行下载,解压后既有预编译的执行文件,可在x86和x64的linux上运行,mac等其它环境需要自行编译。
2.建库:对genome建索引,新建文件夹/path/to/GenomeDir
2种方式,无注释的:
有注释引导的(gff3或gtf):
gff3的话,再加 --sjdbGTFtagExonParentTranscript Parent
parameter value(s)> …
4.共享内存:
map的时候,这个参数控制基因组读到ram里面是否作为共享的,如果共享,其它在同节点运行的同样以此genome作为ref的star任务,可以共享它,节省计算资源。若要使用,请读manual。
log、sam、剪切点注释 三类文件,需要注意的是,sam里第五列 uniquely mapping reads的map质量值是255。
Manual:
https://code.google.com/p/rna-star/downloads/detail?name=STARmanual_2.3.0.1.pdf
####################
star map to gatk:
2轮map策略,第一次直接用ref的fa序列建index来map,生成的js注释合并ref的fa再建库,再map一次。 map完用picard加read groups,等。后续gatk中加上Split‘N‘Trim步骤,此步骤gatk3.2-2中存在bug,无法跑通,需要下载nightly builds版本或更新稳定版。
详见gatk说明页面:
[bio] STAR 通用超快的RNA aligner