首页 > 代码库 > 基因数据分析主流软件与基因预测方法步骤-搬运工

基因数据分析主流软件与基因预测方法步骤-搬运工

源自:http://www.bbioo.com/lifesciences/40-114214-1.html

1. 基因数目预测的主流软件

  GENSCAN就是一个经典的基因预测软件。1996年由MIT的Chris Burge开始编写这个软件程序。当时,Burge的许多同事主张采用比较的方法,他们随机选取一个最新测序基因组中基因的DNA序列,与数据库中已存在的基因进行联配。但是Chris Burge认为:“利用人类基因组所获知的信息,可能不能发现某些新的基因。” 他还积极吸取了加州大学计算机研究人员David Haussler的经验。很多年前,Haussler就意识到基因预测的问题与语言学家们所遇到的问题相类似。语言学家总是试图寻找语言中句法、语法,以及其它某些特征。Haussler和其他人都建议从语言学中借助一种叫做Hidden Markov Model, HMM隐马尔科夫模型的统计工具。在序列分析中,HMM通常是多重序列对位排列的概率模型,但也可用于单一序列的周期性模式的模型,比如代表发现基因外显子的模式。在一个多重序列对位排列的模型中,用被称作状态的符号的概率分布代表排列中的每一列字母,插入和缺失用其他状态表示。然后在模型内沿特定的路径从一个状态进入另一个状态,试图匹配一条给定的序列。从每一状态选出下一个匹配符号,记录其概率(频率)和从前一状态进入特定状态的概率(过渡态概率)。状态与过渡态的概率相乘就得到给定序列的概率。一般来说,HMM是一个对给定字符的统计模型,类似随机状态机器,从每一个状态过渡到另一个就产生一个字符。状态间的过渡态用过渡概率确定。HMM已成为许多基因预测算法的标准。Burge指出:目前存在一整套的能够区分部分基因的模式和规则。比如,几乎所有的基因在起始和终止区域存在特异的序列。外显子的末端通常也存在一个特征序列,可以指导相关的酶切除外显子下游的内含子。Burge已经利用这些规则分析了几百个已知外显子和内含子位置的基因序列。

  GENSCAN是进行基因预测的首选工具。但是,即使最好的预测软件也存在不足之处。GENSCAN就过分估算了基因数目。它的预测结果是人类基因组中有45,000个基因,相当于现在普遍认可数目的两倍。Burge承认GENSCAN确实存在问题,但他认为太多的基因总比太少要好。对于过剩的预测,用户可以积极去除假阳性的结果。Burge称:GENSCAN可能不能预测基因的准确数目,但从人类和其它物种的基因数据分析中所得到的新的序列,可以进一步完善GENSCAN。他还指出,如果能继续开展基因的探寻工作,他会更倾向于选用比较学的方法。

  其他程序,如GeneSweep、Ensembl/Genewise,则是基于对数据进行组装来寻找基因。但是它们比早期的比较学方法更为成熟。Genewise是Birney和他的同事,从已知的蛋白质序列着手进行基因分析的程序。这些蛋白质都来自已知氨基酸序列的蛋白质家族,具有保守的DNA序列。蛋白质或多或少的相类似。利用这些蛋白质家族组装起来所形成的优势,计算机就能比较来自同种或不同个体已知的蛋白质序列和新的蛋白质序列。随着更多的物种基因组被测序,比较整个基因组,而不是比较那些相对短小的序列,正逐渐变为现实。Affymetrix公司的Kulp称:现在整合这些比较的方法来预测基因,已经成为最具应用前景的研究路线。并且众多的应用程序都融合了多元策略进行基因预测。

2. 基因序列分析的主流软件

  在一定的精度范围内,利用生物信息(bioinformation)学的方法和软件对目标基因的基本特征进行分析,能够让分子生物学家更为迅速和全面地发现基因的特征,了解基因在生命体中的真实结构和功能,从而为大规模地开展基因的后续分析奠定基石。

  核苷酸序列中蕴涵着丰富的信息,对于编码基因序列的分析,主要是围绕如下内容进行:寻找开放读码框、预测基因功能、分析选择性剪切方式、分析基因多态性位点、分析基因表达调控区域、统计序列GC含量、追踪密码子使用偏向性、设计应用于目的基因的酶切位点和引物等。

  2.1 寻找基因的开放读码框

  基因的开放读码框(Open Reading Frame),包含从5’端翻译起始密码子(ATG)到终止密码子(TAA、TAG、TGA)之间的一段编码蛋白质的碱基序列。开放阅读框的预测程序主要是针对编码区的特征进行统计、以及相关模式的识别或是利用同源比对的识别方法。现在较为主流的程序是GetOrf、ORFFinder、Plotorf,就是专门识别ORF的有利工具。一些功能强大的软件如:GENSCAN、GRAIL = 2 \* ROMAN II、GENEMARK、GlimmerM除进行ORF的分子外,还可对多种基因的结构特征进行分析。专业人员常用的软件还有:Genefinder、Genehunter、FGeneSH、FGeneSB、FGeneSV、Generation、BCM Gene Finder、Genebuilder、genewise 是用蛋白来blast 预测 exon位置、augustus 是 可以自我training的预测软件、EVM(综合) 等。其中GlimmerM和FGeneSB更适与原核生物的基因预测。

  2.3 外显子和内含子剪切位点的分析

  在真核生物中基因的外显子和内含子长度不一,但剪切供体和受体的位点具有相当程度的保守性。所谓的供体位点(donor)是基因内含子5’端GU的位置;受体位点(acceptor)是内含子3’端AG的位置。对于mRNA或cDNA序列的分析是通过比对相关的基因组序列,来进行结构分析。例如,Spidey(是NCBI开发的工具软件),Sim4,BLAST等程序。NetGene2和Splice View可以提供编码区核苷酸序列剪切位点的直接预测。

  2.4 分析基因的选择性剪切

  基因的选择性剪切机制(Alternative splicing):真核基因转录成前体mRNA后,还要进一步改装成成熟的mRNA。许多基因并不是一次全部切除其内含子,而是在不同的细胞、或不同的发育阶段,选择性地剪切其内含子,从而生成不同的mRNA。随着数据库中数据信息的指数增加,目前运用生物信息(bioinformation)学的工具对基因产物的选择性剪切,也能开展较为详尽的分析。众多的选择性剪切机制数据库,可利用http://scholar.google.com/进行在线搜索。较为流行的如:ProSplicer就是基于蛋白质、mRNA、EST序列的选择性剪切数据库。

  2.5 分析基因的表达调控区域

  基因组中全部基因的表达,都遵循严整而精确的调控机制。基因的调控区域序列相关特征的深入分析,为全面了解基因的功能提供丰富的数据基础。 = 1 \* GB2 ⑴脊椎动物(vertebrates)的5’端的启动子周围是CpG岛,它是寻找基因的重要线索。EMBL提供的CpG岛的计算工具是:CpGPlot/CpGReport/Isochore。CpG Island和CpG promoter也是较为常用的工具。 = 2 \* GB2 ⑵对基因的核心启动子、转录因子结合位点、转录起始位点的识别:可充分利用TRRD、TransFac、MIRAGE、EPD等在线基因调控区域的数据库;Softberry软件集团http://www.softberry.com/推出的:BPROM、TSSP、TSSG、TSSW等软件也值得使用。 = 3 \* GB2 ⑶预测转录终止的信息:使用的工具是Hcpolya。 = 4 \* GB2 ⑷分析密码子的使用偏性:有DOS运行界面的CodenW、SYCO、CHIP、Codon usage。 = 5 \* GB2 ⑸分析限制性核酸内切酶位点:WEB Cutter、CUTTER、TACG interface、Watcut、NEB cutter、Digest等。

  2.6 核苷酸序列综合分析软件

  用户通常需要对目的基因进行多重分析,所以将序列拼接、基因序列的组分分析、编码区域预测、序列比对、引物设计、酶切位点预测等多项独立的分析加以整合的综合分析软件应运而生。目前有GeneBuilder、DNA Tool、SEQ tools、DNAssist、GeneTool、DNAman、DNA Strider、p DRAW32、gene-explorer等。GeneBuiler就是多模块单独执行功能的基因结构预测系统(Gene Structure Prediction System)。

  3 基因预测分析步骤总结

  基因预测一般指预测 DNA 序列中编码蛋白质的部分。其方法主要有两大类:一类是基于相似性的预测方 法,即利用已知的 mRNA 或蛋白质序列为线索在 DNA 序列中搜寻所对应的片段, 达到基因预测的目的;另一类是基于统计学模型的从头预测方法,这种方法可不依赖已知的 DNA 序列进行 ,即利用统计学模型训练出相应参数,再对基因进行预测,

  基于相似性的基因预测方法: sim4 ,Spidey ,Genewise, TwinScan 
  基于统计学模型的预测方法 物猜测软件:Glimmer GenScan ,Fgenesh、BGF

  3.1 基因预测的方法和步骤

  方法1:最长ORF法
  将每条链按6个读码框全部翻译出来,然后找出所有可能的不间断开放阅读框(ORF),只要找出序列中最长的ORF,就能相当准确地预测出基因。最长ORF法发现基因的一般过程(包括基因区域预测和基因功能预测2个层次):
  步骤1:获取DNA目标序列 
    ① 如果已有目标序列,可直接进入步骤2;
    ② 可以通过PubMed查找感兴趣的资料,通过GenBank或EMBL等数据库查找目标序列。
  步骤2:查找ORF并将目标序列翻译成蛋白质序列
    利用相应工具,如ORF Finder、Gene feature (Baylor College of Medicine)、GenLang (University of Pennsylvania)等查找ORF并将DNA序列翻译成蛋白质序列。
  步骤3:在数据库中进行序列搜索 
    利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白质序列搜索。
  步骤4:进行目标序列与搜索得到的相似序列的全局比对(global alignment) 
    虽然步骤3已进行局部比对(local alignment)分析,但全局比对有助于进一步加深对目标序列的认识。
  步骤5:查找基因家族
    进行多序列比对(multiple sequence alignment),获得比对区段的基因家族信息。
  步骤6:查找目标序列中的特定模序 
    分别在Prosite、BLOCK、Motif数据库中进行profile、模块(block)、模序(motif)检索。
  步骤7:预测目标序列蛋白质结构 
    利用PredictProtein(EMBL)、NNPREDICT(University of California)等预测目标序列的蛋白质二级结构。
  步骤8:获取相关蛋白质的功能信息 
    为了了解目标序列的功能,收集与目标序列和结构相似蛋白质的功能信息非常必要。可利用PubMed进行搜索。

  方法2:利用编码区与非编码区密码子选用频率的差异进行基因预测
  编码区的碱基组成不同于非编码区,这是由于蛋白质中20种氨基酸出现的概率、每种氨基酸的密码子兼并度和同一种氨基酸的兼并密码子使用频率不同(即密码子偏好)等原因造成的。该方法是目前各种预测程序中广泛应用的一种方法,如GCG(Genetic Computer Group研制的核酸、蛋白质分析软件包)的TestCode和Baylor Medcine College的BCM Gene Finder等程序均利用了这一方法。

  方法3:利用ESTs预测基因
  Expressed Sequence Tags (ESTs) 代表基因序列,若DNA序列和 EST严格匹配,这段DNA序列属于基因或假基因。此法对ESTs进行聚类和拼接,聚类和拼接的目的就是将来自同一个基因或同一个转录本的具有重叠部分(over-lapping)的ESTs整合到单一的簇(cluster)中。通过聚类可产生较长的一致性序列(consensus sequence),降低数据的冗余,纠正错误数据,并最终得到基因的全长序列。
  随着信息学方法在基因预测中的进一步充分应用,一批新的基因预测方法被相继提出,如人工神经网络、隐马尔可夫模型(Hidden Markov Model, HMM)、动态规划法(dynamic programming)、法则系统(ruled-based system)、线性判别分析(Linear Discriminant Analysis, LDA)、决策树(decision tree)、傅立叶分析(Fourier analysis)等。这些方法是基于编码区所具有的独特信号,如剪接的供体和受体位点、起始和终止密码子、启动子特征、转录因子结合位点等进行预测。相关的基因预测软件包括:Procrustes、GeneID、GenScan、GRAIL等。

基因数据分析主流软件与基因预测方法步骤-搬运工