首页 > 代码库 > [bio] STAR 通用超快的RNA aligner

[bio] STAR 通用超快的RNA aligner

rna call varients时gatk推荐工具,broad institute都推荐了,还是encode计划时冷泉港内部开发的,特点:快速、as支持性好、支持长reads、全转录本、发现嵌合转录本等,有理由看一下。百度了下,没中文的博文,我来翻译一个吧……

####################

原理:

STAR utilizes sequential maximum mappable seed search in uncompressed suffix arrays followed by seed clustering and stitching procedure.

http://code.google.com/p/rna-star/
http://joseph.yy.blog.163.com/blog/static/509739592013411103358773/ 
####################

使用:

没耐心读manual的人:

1.安装:github自行下载,解压后既有预编译的执行文件,可在x86和x64的linux上运行,mac等其它环境需要自行编译。

2.建库:对genome建索引,新建文件夹/path/to/GenomeDir

     2种方式,无注释的:

/pathToStarDir/STAR --runMode genomeGenerate --genomeDir /path/to/GenomeDir --genomeFastaFiles /path/to/genome/fasta1 /path/to/genome/fasta2 --runThreadN <n> …

 

     有注释引导的(gff3或gtf):

/pathToStarDir/STAR --runMode genomeGenerate --genomeDir /path/to/GenomeDir --genomeFastaFiles /path/to/genome/fasta1 /path/to/genome/fasta2 --runThreadN <n> --sjdbGTFfile <FileName> --sjdbOverhang <N>…

    gff3的话,再加  --sjdbGTFtagExonParentTranscript Parent

    --sjdbOverhang <N> 是剪切点左边或右边"overhang"的长度,最好设置为RNASEQ时的MateLength - 1。
3.map:
/pathToStarDir/STAR --genomeDir /path/to/GenomeDir --readFilesIn /path/to/read1 [/path/to/read2] --runThreadN <n> --<inputParameterName> <input
parameter value(s)> …

 4.共享内存:

--genomeLoad <value>

map的时候,这个参数控制基因组读到ram里面是否作为共享的,如果共享,其它在同节点运行的同样以此genome作为ref的star任务,可以共享它,节省计算资源。若要使用,请读manual。

5.结果:

  log、sam、剪切点注释 三类文件,需要注意的是,sam里第五列 uniquely mapping reads的map质量值是255。

Manual:

https://code.google.com/p/rna-star/downloads/detail?name=STARmanual_2.3.0.1.pdf

####################

star map to gatk:

2轮map策略,第一次直接用ref的fa序列建index来map,生成的js注释合并ref的fa再建库,再map一次。 map完用picard加read groups,等。后续gatk中加上Split‘N‘Trim步骤,此步骤gatk3.2-2中存在bug,无法跑通,需要下载nightly builds版本或更新稳定版。

详见gatk说明页面:

http://www.broadinstitute.org/gatk/guide/topic?name=methods

 

 

[bio] STAR 通用超快的RNA aligner