首页 > 代码库 > FASTQ 数据质量统计工具
FASTQ 数据质量统计工具
主流工具:
- FastQC
- fqcheck
- readfq
拿到测序数据的第一步就是做质量控制
fqcheck之后得到的结果:
它会统计每条reads,按read 1-100位点计算每个位置的ACGTN含量,以及0-41质量值的个数
最终会得到整体的错误率,GC,Q20,Q30
the default quality shift value is: -64, 27877224 sequences, 2787722400 total length, Max length:100, average length:100.00Standard deviations at 0.25: total 0.00%, per base 0.01%···Error Rate %GC Q20 Q300.61 48.35 96.26 89.88
adapter.list
#reads_id reads_len reads_start reads_end adapter_id adapter_len adapter_start adapter_end align_len mismatchFCD0JN9ACXX:6:1101:13637:2052#AGAGATCT/1 100 57 90 iPE-3+ 34 0 33 34 13FCD0JN9ACXX:6:1101:15321:2200#AGAGATCT/1 100 53 86 iPE-3+ 34 0 33 34 0FCD0JN9ACXX:6:1101:5318:2346#AGAGATCT/1 100 60 93 iPE-3+ 34 0 33 34 0FCD0JN9ACXX:6:1101:5745:2411#AGAGATCT/1 100 64 97 iPE-3+ 34 0 33 34 0FCD0JN9ACXX:6:1101:13286:2320#AGAGATCT/1 100 89 99 iPE-3+ 34 0 10 11 2FCD0JN9ACXX:6:1101:15982:2390#AGAGATCT/1 100 80 99 iPE-3+ 34 0 19 20 0
接头序列,一般都要去掉
Illumina Adapter Sequences Document (1000000002694 v01)
过滤
使用SOAPnuke
SOAPnuke filter -l 20 -q 0.5 -n 0.1 -d -i -Q 1 -5 0 -1 1.fq.gz -2 2.fq.gz -f 1.adapter.list.gz -r 2.adapter.list.gz $tile -o 16_1.fq -D 16_2.fq -c 21
过滤后的reads同样要做质量统计
fqcheck -r 16_1.fq.gz -c 16_1.fqcheck
之后还会写个脚本作 fqcheck_distribute 分析
过滤后统计 FilterStat
得到
Type Raw data Clean dataNumber of Reads 52293338 48926594Data Size 5229333800 4892659400N of fq1 146135 35060N of fq2 399754 16287GC(%) of fq1 45.53 45.36GC(%) of fq2 45.58 45.39Q20(%) of fq1 97.03 97.99Q20(%) of fq2 92.83 95.92Q30(%) of fq1 91.66 93.58Q30(%) of fq2 86.07 89.72Discard Reads related to N 24406 Discard Reads related to low qual 2917634 Discard Reads related to Adapter 135524
catRS
drawPizza
参考:
质量值体系 Phred33 和 Phred 64 的由来 及其在质量控制中的实际影响 - Part 2
FASTQ 数据质量统计工具
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。