首页 > 代码库 > MSA:多重比对序列的格式及其应用

MSA:多重比对序列的格式及其应用

多重比对序列的格式及其应用

 

    这里对多重序列比对格式(Multiple sequence alignment – MSA)进行总结。在做系统演化分析、序列功能分析、基因预测等,都需要涉及到多重序列比对。特别是当需要用不同软件对多重比对序列进行批量操作时,会遇到各种的格式,而这些格式是如何产生的,有什么区别,格式之间如何转换,从哪里可以下载到相关的格式序列,不同的格式又有什么特殊的用途等,本篇文章将就这些问题进行总结与讨论。因为涉及内容较多,不足之处,欢迎大家补充或者批判。

     生物信息学的基础是基于这样的一个假设:序列相似,结构相似,功能相似。所以相似的一组序列,就可能同属于一个基因家族,而这样的一组序列相似的部分,就可能使其功能之所在,称其为结构域。这是对于基因家族分类的一种方式,将结构与功能进行联系,从而实现从结构预测功能(序列称为一级结构)。

 

多重序列数据分析流程


进行多重比对、多重序列的编辑、多重序列注释、存储与展示、系统演化分析等,不同的软件、不同的系统,除了要兼容现有的格式,还会根据自身的需要,都定义新的格式。所以这些本身可以进行部分的格式转换,同时许多脚本模块比如bioperl等也提供了一些格式之间转换的脚本。这些格式同发布其软件平台有着密切的联系,随着软件的流行而流行。

下表是目前主流的格式:

名称后缀描述Unique file Feature详细定义地址
FASTA.fasta, faPearson or FASTA sequence format>SequenceNameTHISISASEQENCEFASTA (Pearson)
GCG/MSF format.msf, .gcgGCG Multiple Sequence File (MSF) alignment format!! AA_MULTIPLE_ALIGNMENT 1.0..//GCG/MSF
Aligned FASTA (UCSC a2m) format.a2mUCSC  
Stockholm format.txtused by Pfam and Rfam to disseminate protein and RNA sequence alignments. 可以添加丰富的注释信息,适合多序列比对结果的注释。# STOCKHOLM 1.0<seqname> <aligned sequence>

//
链接,wiki链接
PHYLIP.phy, .phylip, .phylip2PHYLIP software 链接
NBR/PIR.pirNBRF or PIR sequence format>P1;链接
CLUSTAL.aln, .an, .aln2ClustalW alignment formatCLUSTAL链接
GDE.gdeGDE format is a tagged-field format similar to ASN.l that is used for storing all available information about a sequence, including residue color. 链接
NEXUS.nxs, .nexusNexus file formatis widely used in Bioinformatics. Several popular phylogenetic programs such as Paup, MrBayes, Mesquite, and MacClade use this format. 链接
BLC.blc >Seq1>Seq2 
PFAM.pfam SequenceName THISISASEQENCE链接
MEGA.megMEGA software  
SELEX.   
IG.ig   
Internet (NCBI) XML format.xml   
NBRF format.nbrf   

主要软件平台对于格式的要求

  • Clustal
    输入:NBRF/PIR, GCG/MSF, PHYLIP, GDE, NEXUS, FASTA
    输出:CLUSTAL, NBRF/PIR, GCG/MSF, PHYLIP, GDE, NEXUS, FASTA
  • MUSCLE(http://www.drive5.com/muscle/muscle.html)
    输入:FASTA, CLUSTAL, MSF
    输出:FASTA
  • hmmbuild
    ClustalW, GCG MSF, or SELEX
  • hmmalign
    输入:FASTA, GENBANK, EMBL, GCG, PIR, STOCKHOLM, SELEX, MSF, CLUSTAL, and PHYLIP.
    输出:Stockholm, SELEX, MSF, Clustal, Phylip, and A2M
  • Jalview java viewer (http://www.jalview.org/help.html)
    输入:Fasta (Pearson), GCG-MSF, ALN/ClustalW, AMPS Block file, NBRF/PIR (including MODELLER variant), Pfam/Stockholm
    输出:Fasta (Pearson), GCG-MSF, ALN/ClustalW, AMPS Block file, NBRF/PIR, Pfam/Stockholm
  • MEGA
    输入:CLUSTAL, NEXUS (PAUP, MacClade), PHYLIP, GCG, FASTA, PIR,  NBRF, MSF, IG, and XML formats.
    输出:MEGA, PAUP, FASTA
  • PFAM数据库
    Selex, Stockholm, MSF, FASTA

MSA:多重比对序列的格式及其应用