首页 > 代码库 > Fastq 常用软件
Fastq 常用软件
文章转载于
由于生物信息的大部分工作都是在没有 root 权限的集群上进行的,本期我主要介绍一下非 root 用户怎么安装常用的软件。工欲善其事,必先利其器!
准备工作
1 首先我们建一个文件夹,用来存储我们自己编译的程序 ($HOME/software/bin) 和预编译的程序 ($HOME/software)。
mkdir -p $HOME/software/bin
2 用 vim 或 nano 等编辑器修改 ~/.bash_profile (如果没有这个文件,可以自己创建一个,注意 ~ 符号,这个文件是在自己的 HOME 目录下),在其中加入下一行命令并退出。
export PATH=$HOME/software/bin:$PATH
-
$PATH 为系统默认的查找可执行文件的目录,可以用 echo $PATH 来查看它的内容。我们安装软件以后,需要告诉系统在哪里寻找并运行我们自己安装的软件,因此我们需要把软件的安装目录写入到环境变量 $PATH 中。
-
在写入新的路径到 PATH 时,可以有两种形式,export PATH=$HOME/software/bin:$PATH 和 export PATH=$PATH:$HOME/software/bin。系统查找可执行文件的规则是:首先在冒号之前的路径查找用户想要执行的命令,找不到再从冒号以后的路径查找。因此,如果集群上已经装了某个软件,如果你想安装并使用不同的版本,则需要把自己刚刚安装软件的路径写在冒号前面,把 $PATH 写在冒号后面。比如,系统的 java 版本比较老旧,你想安装最新版,那一定要把新安装的 java 的路径写在前面。
-
我将用刚刚建立的 $HOME/software/bin 文件夹,保存所有自己编译的软件和预编译的软链接。这样可以做到只添加一个路径到 ~/.bash_profile 中,就可以执行安装的软件。应该尽量保持 ~/.bash_profile 文件的简洁 (尽量减少修改它次数,在修改前一定要备份,防止误操作引起用户不能登陆)。
3 执行 source ~/.bash_profile 使刚刚设置的环境变量生效。
一 质量控制软件 FastQC 的安装
cd $HOME/software
wget https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip
unzip fastqc_v0.11.5.zip
rm fastqc_v0.11.5.zip
cd FastQC/
chmod 755 fastqc
ln -s $HOME/software/FastQC/fastqc $HOME/software/bin/fastqc
-
FastQC 为预编译软件,即开发者已经编译好,可以直接使用。我用软链接在 $HOME/software/bin/ 目录下建立了一个已编译的 fastqc 的软链接,由于我们已经提前把 $HOME/software/bin/ 写入到环境变量 PATH 中,现在我们在任何路径下都可以直接运行 fastqc 了。
-
FastQC 可以用来得到多个测序数据的质量参数,让我们对测序得到的数据质量有个初步的认识,从而判断后续的质控如何进行,我会在接下来的博文中详细介绍这部分内容。
二 质量控制软件 Trimmomatic 的安装
cd $HOME/software
wget http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.36.zip
unzip Trimmomatic-0.36.zip
rm Trimmomatic-0.36.zip
cd Trimmomatic-0.36; ls ;
Trimmomatic 是 java 写的软件,它的使用和 fastqc 不同,我们可以这样来调用它:
Trimmomatic=$HOME/software/Trimmomatic-0.36/trimmomatic-0.36.jar
ava -jar $Trimmomatic
输入上面的命令可以得到 Trimmomatic 的帮助文件。Trimmomatic 是一个强大的质控软件,可以去除 reads 中含有的测序接头,裁剪或者去掉低质量的 reads 等。在去测序接头方面的表现尤为突出,我会在以后的博文中详细介绍。
三 Mapping 软件 BWA 的安装
cd $HOME/software
wget https://sourceforge.net/projects/bio-bwa/files/bwa-0.7.15.tar.bz2
tar -jxvf bwa-0.7.15.tar.bz2
rm bwa-0.7.15.tar.bz2
cd bwa-0.7.15/
make
mv bwa $HOME/software/bin
cd ..
rm -rf bwa-0.7.15
在安装每个软件前可以先读一下目录内的 README,里面会有关于安装软件的说明。 bwa 的安装比较特殊,只需要一个 make 就可以完成。
四 SAMTools 的安装
cd $HOME/software
wget https://github.com/samtools/samtools/releases/download/1.4.1/samtools-1.4.1.tar.bz2
tar -jxvf samtools-1.4.1.tar.bz2
rm samtools-1.4.1.tar.bz2
cd samtools-1.4.1/
./configure --prefix=$HOME/software/
make
make install
cd ../; rm -rf samtools-1.4.1
-
上面的过程是非 root 用户安装软件的标准流程:其中 --prefix=$HOME/software 用来定义软件的安装位置,安装完成后,所有的应用程序自动的被安装到 $HOME/software/bin 的目录下。
-
如果是 root 用户,就只需要 ./configure; make; sudo make install。软件会被安装到默认目录中 ,比如 /usr/local/bin。
五 BCFtools 的安装
cd $HOME/software
wget https://github.com/samtools/bcftools/releases/download/1.4.1/bcftools-1.4.1.tar.bz2
tar -jxvf bcftools-1.4.1.tar.bz2
rm bcftools-1.4.1.tar.bz2
cd bcftools-1.4.1/
make
make prefix=$HOME/software/ install
cd ..
rm -rf bcftools-1.4.1
同样是要先读 README,发现需要看 INSTALL 文件,然后发现如果需要安装到指定目录是在 make install 步骤指定的,而且 prefix 前没有 --。
六 GATK 和 Picard Tools 的安装
GATK 是 java 写的软件,下载这个软件需要先注册用户,同意一些协议,网址为 https://software.broadinstitute.org/gatk/。下载后,上传到 $HOME/software 目录,运行:
tar -jxvf GenomeAnalysisTK-3.7-0.tar.bz2
rm GenomeAnalysisTK-3.7-0.tar.bz2
rm -rf resources
Picard 也是 java 写的软件,可以直接下载到我们的 software 目录下:
cd $HOME/software
wget https://github.com/broadinstitute/picard/releases/download/2.9.2/picard.jar
GATK 和 Picard 的运行,参考第三步的 Trimmomatic。
结语
本期的内容,涵盖了常用软件的安装方法,这是我自己多年积累的经验,希望对大家有所帮助。还有一个软件 (fastSTRUCTURE) 的安装比较特殊,涉及到没有 root 权限安装所依赖的 Python package 和 GNU Scientific Library 我会在用到它时进行介绍。
Fastq 常用软件