InterProScan的三种使用方法

Interproscan,通过蛋白质结构域和功能位点数据库预测蛋白质功能。是EBI开发的一个集成了蛋白质家族、结构域和功能位点的非冗余数据库。Interproscan整合了一些使用最普及的一些数据库，并应用于功能未知的蛋白进行Interpro注释和GO注释。
以下介绍3中interpro注释的方法：

一、网页版的Interpro注释

打开InterProScan的官网地址：http://www.ebi.ac.uk/Tools/pfa/iprscan/。将序列粘贴到输入框中进行Interpro注释。

优点：使用网页版，方便快捷；不消耗本地计算资源。
缺点：输入必须为蛋白质序列；一次只能比对条蛋白质序列。

二、使用EBI提供的perl程序进行远程比对

程序下载网页地址：http://www.ebi.ac.uk/Tools/webservices/services/pfa/iprscan_rest。
其实，除了perl程序，Python和Ruby也各有一支程序。分别是：
iprscan_lwp.pl ; iprscan_urllib2.py ; iprscan_net_http.rb。

优点：不消耗本地计算资源；可以自己编写脚本来大批量比对本地的protein序列到EBI的
interpro服务器，获得得interpro注释。
缺点：比对结果为xml格式，普通科研人员玩不来。

三、本地化的InterProScan注释

3.1 本地化的InterProScan安装与配置

3.1.1 从ftp://ftp.ebi.ac.uk/pub/databases/interpro/iprscan下载以下5个文件：

RELEASE/latest/iprscan_v4.8.tar.gz
BIN/4.x/iprscan_bin4.x_[PLATFORM].tar.gz 
DATA/iprscan_DATA_[LATESTDATAVERSION].tar.gz
DATA/iprscan_PTHR_DATA_[LATESTDATAVERSION].tar.gz
DATA/iprscan_MATCH_DATA_[LATESTDATAVERSION].tar.gz

3.1.2 将5个文件解压到一个文件夹中，然后运行其中的文件Config.pl，来对InterProScan进行配置。
3.1.3 配置的过程中，若选择进行本地web配置，则修改本地www服务的配置文件，以能进行本地化网页版的运行。

3.2 本地化InterProScan的使用。

3.2.1 命令行运行iprscan的方法：

$ bin/iprscan -cli -iprlookup -goterms -format xml -i test.fasta -o test.out

3.2.2 iprscan的参数说明：

-cli         设定程序在unix命令下运行，如果不设此参数，程序会被当作CGI程序运行。
-iprlookup   结果里显示相应的interpro注释信息。
-goterms     结果里显示相应的GO注释信息，但前面要加上-iprlookup参数。
-format      输出结果的格式，有raw, xml, txt, html(default), ebixml
(EBI header on top of xml) gff。
-appl  数据库和扫描方法的的选择。无此参数表示默认选择全部数据库（配置Interpro
scan时候设置的数据库）。选择多个数据库则需该参数多次。本地运行Interproscan相
比官网运行，有两个数据库不能选择为：tmhmm 和 signalp。这两个数据库的选择需要
commercial license。
-i           输入文件，InterProScan支持输入蛋白质序列和核酸序列，如果输入核
酸系列，程序会将其翻译成蛋白质序列，你可以指定翻译用到的密码表，用下面的-trtable
参数，序列格式可以是raw，Fasta或者EMBL。
-o           结果输出文件，如果不选择此参数，结果将输出到标准输出，输出格式可以
用下面的-format参数设定。
-trtable   选择核酸翻译蛋白质的密码表，同时可以设定-trlen 参数来控制核酸翻译
的转录子长度。
-nocrc       不对输入蛋白质序列进行crc64匹配。不加此参数，则默认是会对蛋白质
序列开启了crc64匹配。Interpro数据库(memember database)已经包含了大量序列
搜索的结果，就是如果你的蛋白序列已经包含在interpro的数据库里面，iprscan会直接
给出搜索结果，无需进行本地运算。interpro数据库不包括tmhmm, coil和signalp，
所以crc64匹配不到这3个数据库。一般情况下，由于commercial licese而无法使用
tmhmm和signalp数据库，coil数据库也不会使用。故不使用此参数，加快程序运行速度。
-seqtype     输入的序列类型，蛋白质序列（-seqtype p）（defult）或者（-se
qtype n）。
-email       设定一个Email地址，程序运行完毕向信箱发送邮件通知分析完毕。
-verbose     程序运行过程中显示运行的状态。
-help        显示帮助信息。

3.2.3 InterProScan其它附带的重要程序

meter.pl     reports the progress of a job.有百分之几的chunk已经运行完毕。
converter.pl 将raw的格式转换成其它的格式，比如html,xml，txt等格式。
iterator.pl  运用于逐条去注释序列

3.2.4 多线程运行
hmmpfam, hmmscan 和 hmmsearch 能多线程运行。
经过测试 PIR superfamily 和 SUPERFAMILY 这两个数据库的应用比较费时，可以设置conf文件夹中的配置文件hmmpir.conf和superfamily.conf，将其中的cpu_opt的值设置高一些。默认是1。

3.2.5 逐条序列地运行
InterProScan不能立马给出结果文件并相继把结果放入到结果文件中。可以采用逐条比对的方法来得到注释结果。可以采用如下的方法来随时终结掉程序，并拿到部分结果。

$ bin/iterator.pl -i test.fa -o test.out -c "bin/iprscan -cli -i %infile -iprlookup -goterms -format xml"

3.2.6 优缺点

优点：使用本地化的数据库，在断网和计算机资源充足的情况下，能加快注释速度；本地化网页版能同时比对多条序列；本地化能对DNA序列进行interpro注释。
缺点：本地化安装InterProScan比较复杂耗时；需要不时更新本地数据库；本地化运行耗费计算资源大；

转自： http://www.chenlianfu.com/?p=650

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > interProScan的使用