首页 > 代码库 > 如何选择数据库

如何选择数据库

总体从5个方面平衡自己的需求:

(1)标的

(2)功能

(3)多少人用(并发问题)

(4)安全和稳定性

(5)所用的操作系统(UNIX、linux、windows)

对于用过的数据库有:

  • dBase/FoxBase/FoxPro in the DOS/Novell/Windows 3.x world

  • MS SQL Server 

  • Oracle

  • Sybase SQL/ASE Servers 

  • Sybase IQ

  • Informix/Dynamic 

  • MySQL

  • PostGreSQL/EnterpriseDB

对于一些关键需求的选择:  

  关键任务(OLTP)和高性能系统

   如果我们需要数据库在关键业务系统中发挥更重要的作用,并希望做到无故障时间/高可用/集群,可靠性(性能和数据量),灾难复制和自动生成报告等目标,或需要实现极端高速和低延迟(HPC,高性能计算)效果,那么我们可能需要数据库的企业级功能,但这样的成本也更高。

  HA(高可用)集群功能

  各数据库平台的集群功能如下:

  • Oracle RAC最适合HA集群,负载均衡和扩展;

  • MS SQL Server提供HA故障转移功能,但无负载均衡;

  • Sybase ASE 15集群与Oracle RAC功能相当;

  • TeraData本身就是一个分布式数据库平台;

  • MySQL集群声称TPC-C性能基准测试比Oracle RAC还高;

  • IBM DB2/UDB在运行AIX HACMP(高可用集群多处理)的IBM P系列/Power服务器和Veritas VCS/Sun等集群上运行得很好。

  高性能/低延迟/内存数据库

  • Oracle提供TimesTen内存数据库;

  • MySQL的集群使用内存存储引擎;

  • Sybase提供ASE内存数据库;

  • 另外,我们还可以使用RAMSAN/SSD(固态硬盘)安装SQL Server数据库,所有与数据库相关的磁盘I/O都发生在SSD上,而不是传统硬盘上,因此我们可以大大减少磁盘I/O延迟,提供I/O吞吐量,并提高数据库的整体性能;

  • 还有其它的内存数据库,如SQLite或eXtremeDB,但它们大多数要么只支持嵌入式系统,要么同一时间只支持单用户或单连接。

  可扩展性/性能

  • 使用Oracle RAC和Sybase ASE 15集群时,如果现有硬件不能满足性能要求,我们只需要向集群添加一台功能更强大的服务器,然后逐步替换掉其它节点;
  • 使用SQL Server集群时,因为它仅仅支持主动/被动模式,在实例级没有可扩展性,如果现有硬件满足不了需要,我们必须更换整个集群;

  • MySQL集群也支持向所有节点都处于活动的集群添加节点,但它是一个无共享集群,节点越多意味着有更多的数据库副本,更多的存储和在所有节点之间复制数据时需要更多的网络流量。

  复制
  • Sybase:Sybase拥有最好的复制解决方案,超过了Oracle的数据卫士和SQL Server的复制解决方案(即使用它的镜像/日志传送/事务复制,SQL Server的复制仍然远远差于Sybase的复制服务器);

  Sybase的异构复制和同质复制是Sybase公司上世纪90年代被华尔街排除但却受到许多大公司使用的主要原因之一。

  Sybase复制可以在数据库级(主动/主动复制,比SQL Server的镜像更好),事务级(与SQL Server的事务复制类似),表级,存储过程级,函数级,MSA(多站点可用)以及通过日志传送(复制世界中穷人的解决方案)实现,它的镜像激活器结合EMC/SRDF可以真正保证在计划内和计划外停机时ZDL(零数据丢失)。

  • SQL Server:SQL Server复制可以通过日志传送和数据库镜像实现(主动/被动,R/W或只读),支持对象级(表)粒度事务复制。

  • Oracle:Oracle的数据卫士是数据库克隆和灾难恢复最佳解决方案之一(使用RMAN)。

  • MySQL:MySQL提供无共享集群,基本上所有活动节点都是同步复制的,它的异步复制也支持事务和对象级复制。

  • 存储级解决方案:使用EMC的BCV,NetApp的快照管理器,日立的快照,Veritas的卷复制器,数据复制可以发生在磁盘块级和卷级。

  混合系统

  通常情况下,后端数据库存储了大量的数据,在检索数据(数据排序,分组,汇总和计算)时会出现性能问题,当运行速度变慢时,会影响到数据写入过程。

  因此,对于这些类型的应用程序,我们希望数据库能很好地处理大量数据,也可以很好地处理读/写阻塞问题。

  • Oracle
  Oracle是这种系统的最佳选择,因为在Oracle中,读/写程序不会相互阻止对方,数据在整个读取过程/会话/事务中都是一致的,系统开销主要发生了内存锁和重做日志上。

  • SQL Server
  SQL Server 2005的新快照隔离使用了Oracle同样的行版本化功能,但在tempdb中会产生更多的IO。

  • Sybase ASE
  Sybase ASE的读/写程序会相互阻塞对方,但Sybase IQ使用快照版本化管理解决了这个阻塞问题。

  • 其它数据库
  还有其它一些数据库也不存在阻塞问题,但其中一些甚至不遵从ACID(原子性,一致性,隔离性和持久性)标准。

  数据仓库

  企业建立数据仓库存储/归档所有历史数据,以及他们认为需要放在数据库中的数据,通常,非规范化的数据进入数据仓库,多维度为OLAP和商业智能(BI)解决方案提供快速检索。

  数据仓库也用于新的或增强的业务战略回溯测试,此外,数据仓库中的数据是呈指数增长而非线性增长的。

  基于列的关系数据库优势

  基于列的关系数据库具有很大的优势,因为它天生就是多维的,每一列都是自我索引的(B tree)。

  典型的基于列的数据库有Google的Big Table,Sybase IQ,Vertica和基于MySQL构建的KickFire。

  平均而言,这些基于列的数据库比传统的基于行的关系数据库(如Oracle,SQL Server,Sybase ASE,TeraData,DB2和MySQL)在数据检索速度上要快60到100倍,但在基于行级进行数据更新时它们的速度较慢,到目前为止,Sybase IQ似乎是这一领域的领头羊,号称世界上最大的数据仓库(超过1P字节)就是用的Sybase IQ。

  

  总体而言,基于行的关系数据(SQL Server,Oracle,Informix,DB2/UDB,MySQL,Sybase ASE等)适合OLTP应用,而基于列的关系数据库(Sybase IQ,KickFire,Vertica等)更适合OLAP/DSS和数据仓库应用。

  注意:那些时间序列数据库如OneTick,kdb+和Vhayu都不能算是关系数据库,它们的存储结构是基于文件的,每一列的数据都使用一个单独的文件存储,基本上算是基于列的数据库,基于列的数据库也可用于回溯测试。此外,基于行的数据仓库(立方体)中的数据是呈指数级增长,但基于列的数据仓库中的数据是呈线性增长的。

  传统上,Oracle在数据仓库领域处于领先的优势,但现在在基于列的关系数据库(如Sybase IQ,Vertica和KickFire)面前已经失去优势,Google正在使用的Big Table也是一种基于列的数据库/存储系统。

如何选择数据库