首页 > 代码库 > MongoDB 分片管理
MongoDB 分片管理
在MongoDB(版本 3.2.9)中,分片集群(sharded cluster)是一种水平扩展数据库系统性能的方法,能够将数据集分布式存储在不同的分片(shard)上,每个分片只保存数据集的一部分,MongoDB保证各个分片之间不会有重复的数据,所有分片保存的数据之和就是完整的数据集。分片集群将数据集分布式存储,能够将负载分摊到多个分片上,每个分片只负责读写一部分数据,充分利用了各个shard的系统资源,提高数据库系统的吞吐量。
数据集被拆分成数据块(chunk),每个数据块包含多个doc,数据块分布式存储在分片集群中(腾云科技ty300.com)。MongoDB负责追踪数据块在shard上的分布信息,每个分片存储哪些数据块,叫做分片的元数据,保存在config server上的数据库 config中,一般使用3台config server,所有config server中的config数据库必须完全相同。通过mongos能够直接访问数据库config,查看分片的元数据;mongo shell 提供 sh 辅助函数,能够安全地查看分片集群的元数据信息。
对任何一个shard进行查询,只会获取collection在当前分片上的数据子集,不是整个数据集。Application 只需要连接到mongos,对其进行的读写操作,mongos自动将读写请求路由到相应的shard(勤快学qkxue.net)。MongoDB通过mongos将分片的底层实现对Application透明,在Application看来,访问的是整个数据集。
一,主分片
在分片集群中,不是每个集合都会分布式存储,只有使用sh.shardCollection()显式将collection分片后,该集合才会分布式存储在不同的shard中。对于非分片集合(un-sharded collection),其数据只会存储在主分片(Primary shard)中,默认情况下,主分片是指数据库最初创建的shard,用于存储该数据库中非分片集合的数据。每个数据库都有一个主分片。
Each database in a sharded cluster has a primary shard that holds all the un-sharded collections for that database. Each database has its own primary shard.
例如,一个分片集群有三个分片:shard1,shard2,shard3,在分片shard1创建一个数据库blog。如果将数据库bolg分片,那么MongoDB会自动在shard2,shard3上创建一个结构相同的数据库blog,数据库blog的Primary Shard是Shard1。
图示,Collection2的主分片是ShardA。
使用 movePrimary命令变更数据库默认的Primary shard,非分片集合将会从当前shard移动到新的主分片。
db.runCommand( { movePrimary : "test", to : "shard0001" } )
在使用movePrimary命令变更数据库的主分片之后,config server中的配置信息是最新的,mongos缓存的配置信息变得过时了。MongoDB提供命令:flushRouterConfig 强制mongos从config server获取最新的配置信息,刷新mongos的缓存。
db.adminCommand({"flushRouterConfig":1})
二,分片的元数据
不要直接到config server上查看分片集群的元数据信息,这些数据非常重要,安全的方式是通过mongos连接到config数据查看,或者使用sh辅助函数查看。
使用sh辅助函数查看
sh.status()
连接到mongos查看config数据库中的集合
mongos> use config
1,shards 集合保存分片信息
db.shards.find()
shard的数据存储在host指定的 replica set 或 standalone mongod中。
{ "_id" : "shard_name", "host" : "replica_set_name/host:port", "tag":[shard_tag1,shard_tag2] }
2,databases集合保存分片集群中所有数据库的信息,不管数据库是否分片
db.databases.find()
如果在数据库上执行sh.enableSharding("db_name"),那么字段partitioned字段值就是true;primary 字段指定数据库的主分片(primary shard)。
{ "_id" : "test", "primary" : "rs0", "partitioned" : true}
3,collections集合保存所有已分片集合的信息,不包括非分片集合(un-sharded collections)
key是:分片的片键
db.collections.find(){ "_id" : "test.foo", "lastmodEpoch" : ObjectId("57dcd4899bd7f7111ec15f16"), "lastmod" : ISODate("1970-02-19T17:02:47.296Z"), "dropped" : false, "key" : { "_id" : 1 }, "unique" : true}
4,chunks 集合保存数据块信息,
ns:分片的集合,结构是:db_name.collection_name
min 和 max: 片键的最小值和最大值
shard:块所在的分片
db.chunks.find(){ "_id" : "test.foo-_id_MinKey", "lastmod" : Timestamp(1, 1), "lastmodEpoch" : ObjectId("57dcd4899bd7f7111ec15f16"), "ns" : "test.foo", "min" : { "_id" : 1 }, "max" : { "_id" : 3087 }, "shard" : "rs0"}
5,changelog集合记录分片集群的操作,包括chunk的拆分和迁移操作,Shard的增加或删除操作
what 字段:表示操作的类型,例如:multi-split表示chunk的拆分,
"what" : "addShard","what" : "shardCollection.start","what" : "shardCollection.end", "what" : "multi-split",
6,tags 记录shard的tag和对应的片键范围
{ "_id" : { "ns" : "records.users", "min" : { "zipcode" : "10001" } }, "ns" : "records.users", "min" : { "zipcode" : "10001" }, "max" : { "zipcode" : "10281" }, "tag" : "NYC"}
7,settings 集合记录均衡器状态和chunk的大小,默认的chunk size是64MB。
{ "_id" : "chunksize", "value" : 64 }
{ "_id" : "balancer", "stopped" : false }
8,locks 集合记录分布锁(distributed lock),保证只有一个mongos 实例能够在分片集群中执行管理任务。
mongos在担任balancer时,会获取一个分布锁,并向config.locks中插入一条doc。
稿源:勤快学QKXue.NET
阅读完整版MongoDB 分片管理
MongoDB 分片管理