gene数据库

首页 > 代码库 > gene数据库

2024-07-30 12:06:47 226人阅读

1.Genebank

Genebank 数据库官网地址

http://www.ncbi.nlm.nih.gov/genbank

百度文库

http://wenku.baidu.com/link?url=kCaZn-IozaGgvrOdIOgebWexJ7aQ9khq42Ehq-uuK9UKP13xqCt7xjtkRydw4UuzXKX6TtLrAH663YcJPVyqH_RHfu8NEZOsM0wcvI61Xee

GenBank是美国国家生物技术信息中心(National Center for Biotechnology Information ，NCBI)建立的DNA序列数据库，从公共资源中获取序列数据，主要是科研人员直接提供或来源于大规模基因组测序计划( Benson等， 1998)。为保证数据尽可能的完全，GenBank与EMBL、DDBJ建立了相互交换数据的合作关系。

1简介编辑

大型数据库分成若干子库，有许多好处。首先，可以把数据库查询限定在某一特定部分，以便加快查询速度。其次，基因组计划快速测序得到的大量序列尚未加以注释，将它们单独分类，有利于数据库查询和搜索时“有的放矢”。GenBank将这些数据按高通量基因组序列（HighThroughput Genomic Sequences，HTG）、表达序列标记（Expressed Sequence Tags，EST）、序列标记位点（SequenceTaggedSites，STS）和基因组概览序列（Genome Survey Sequences，GSS）单独分类。尽管这些数据尚未加以注释，它们依然是GenBank的重要组成部分。

可通过Entrez数据库查询系统对GenBank进行查询。这个系统将核酸、蛋白质序列和基因图谱、蛋白质结构数据库整合在一起。此外，通过该系统的文献摘要数据库MEDLINE，可获取有关序列的进一步信息。在万维网上，进入NCBI的主页，可以用BLAST程序对GenBank数据库进行未知序列的同源性搜索（详见第六章）。

完整的GenBank数据库包括序列文件，索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等子段建立的，用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库，其数据格式为FastA。GenBank曾以CD-ROM光盘的形式分发，价格比较便宜。随着数据库容量的增长，一套最新版的GenBank需要12张光盘存放，不仅生产成本很高，也不便于使用。现在，光盘分发的方式已经停止，可以通过网络下载GenBank数据库。

GenBank中最常用的是序列文件。序列文件的基本单位是序列条目，包括核甘酸碱基排列顺序和注释两部分。目前，许多生物信息资源中心通过计算机网络提供该数据库文件。下面，我们介绍序列文件的结构。

序列文件由单个的序列条目组成。序列条目由字段组成，每个字段由关键字起始，后面为该字段的具体说明。有些字段又分若干次子字段，以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。序列条目的格式非常重要，关键字从第一列开始，次关键字从第三列开始，特性表说明符从第五列开始。每个字段可以占一行，也可以占若干行。若一行中写不下时，继续行以空格开始。

序列条目的关键字包括代码（LOCUS），说明（DEFINITION），编号（ACCESSION），核酸标识符(NID），关键词（KEYWORDS），数据来源（SOURCE），文献（REFERENCE），特性表（FEATURES），碱基组成（BASE COUNT）及碱基排列顺序（ORIGIN）。

代码LOCUS是该序列条目的标记，或者说标识符，蕴涵这个序列的功能。例如，图4.1中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。该字段还包括其它相关内容，如序列长度、类型、种属来源以及录入日期等。说明字段是有关这一序列的简单描述，如本例为人环氧化酶-2的mRNA全序列。

序列代码具有唯一性和永久性，如本例中代码M90100用来表示上述人环氧化酶-2的mRNA序列，在文献中引用这个序列时，应该以此代码为准。核酸标识符NID对序列信息的当前版本提供？

关键词字段由该序列的提交者提供，包括该序列的基因产物以及其它相关信息，如本例中还氧化酶-2 (cyclooxygenase-2），前列腺素合成酶（prostaglandin synthase）。数据来源字段说明该序列是从什么生物体、什么组织得到的，如本例中人脐带血管（umbilical vein）。次关键字种属（ORGANISM）指出该生物体的分类学地位，如本例人、真核生物等等。文献字段说明该序列中的相关文献，包括作者（AUTHORS），题目（TITLE）及杂志名（JOURNAL）等，以次关键词列出。该字段中还列出医学文献摘要数据库MEDLINE的代码。该代码实际上是个网络链接指针，点击它可以直接调用上述文献摘要。一个序列可以有多篇文献，以不同序号表示，并给出该序列中的哪一部分与文献有关。

FEATURES是具有自己的一套结构，用来详细描述序列特性的一个表格。在这个表格内，带有‘/db-xref/’标志的字符可以连接到其它数据库内（本例，您看到的是一个分类数据库（tax

NCBI

on 9606），以及一个蛋白质数据库（PID：g181254））；序列中各部分的位置都加以标明，5’非编码区（1-97），编码区（98-1912），3非编码区（1913-3387），多聚腺苷酸序列（3367-3374），等等；蛋白质翻译的信号肽及最终的多肽也都有所说明。这个例子不能说很全面，但已经足以说明特性表给出信息的详细程度。

接下来是BASE COUNT记录，计算出不同碱基在整个序列中出现的次数（1010A，712个C，633个G，1032个T）。ORIGIN那一行，指出了序列第一个碱基在基因组中可能的位置。最后，核酸的序列全部列出，并以//作为结尾。检索方式：

如果在文献中看到过你感兴趣的基因，而且文中还提到了该基因在Genbank中的ID号，进入NCBI ，在Search后的下拉框中选择Nucleotide，把Genbank ID号输入GO前面的文本框中，点“GO”，即可以检索到所需序列。

2使用说明编辑

用户可以通过NCBI（National Center for Biotechnology Information美国国家生物技术信息中心信息中心，隶属于NLM－美国国家医学图书馆）的主页使用GenBank。GenBank的宗旨是鼓励科研团体对DNA序列的获取，从而促进数据库中DNA序列的丰富和更新，所以NCBI对GenBank的数据使用与发送没有任何限制。用户可从GenBank主页上下载Banklt（NCBI提供的WWW格式，用于便捷的提交DNA序列的数据）、Sequin（NCBI的独立于操作系统的提交软件，可用于MAC、PC和UNIX平台，也可以通过FTP远程获取）以及VecScreen（带菌污染物的筛选工具）等便于提交和更新研究成果的应用软件。其页面上的简单检索界面提供19种相关检索选项，分别是：PubMed、Protein（蛋白质）、Nucleotide（核苷）、Structure（结构）、Genome（基因组）、PMC、LocusLink、PopSet、OMIM、Taxonomy（分类学）、Books（图书）、ProbeSet、3D Domains（三维区域）、UniSTS、Domains、SNP、Journals（期刊）、UniGene、NCBI Web Site（NCBI站点）。

GenBank可以与DNA Star软件结合使用，进行基因序列分析和比对。

gene数据库

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > gene数据库

gene数据库

目录

1简介编辑

2使用说明编辑

看完仍有疑问？有类似问题直接问程序猿