首页 > 代码库 > <HBase><读写>
<HBase><读写>
Overview
- HBase中的一个big table,首先会按行划分成一些region(这些region之间是有序的,由startkey保证),每个region分配到不同的节点进行存储。因此,region是HBase分布式和负载均衡的最小单元。
- 对每个节点而言,它会对分配到的region是按列族进行存储的。也即,region被分为多个store(对应多个列族)。而store内部,又有一个memStore和多个storeFiles组成。
- 数据首先更新到memStore,memStore会内排序,而storeFile是由memStore flush到磁盘的,所以每个storeFile内部都是有序的。但是,本质上HBase进行的都是append操作(删除并不是真正的删除,而是打上delete的tag),所以是无法保证storeFiles之间有序的。
- storeFiles之间无序,那么当storeFiles个数过多时,必然造成效率下降,因此会对storeFiles做merge操作。也即当 StoreFile 文件数量超过设定值时,会触发合并操作,合并成一个大文件。
- 同样的,当region的大小达到阈值时,会被切分开,生成一个新的region,HMaster会对其进行管理,分配到合适的 regionserver。region的变化后,系统还需要对hbase:meta 表进行维护。
HBase:meta
- 在Hbase的老版本中,是包含-root-和.meta.表的,每次索引数据都要进行三次定位。在新版本中改成了只有HBase:meta表,它存在于Zookeeper中。
- 当我们在HBase中查找某rowkey时,首先要定位其所在的RegionServer,这就需要通过HBase:meta表来实现了。
- HBase:meta表本质上也是一张HBase表。
HBase Read
- 以上,查找某rowkey时:
- 通过Zookeeper中的HBase:meta表定位其所在region(RegionServer);【因为region之间是有序的,因此可以根据startKey来定位】
- 在RegionServer中查找:首先是BlockCache,然后是MemStore,再然后是StoreFiles(StoreFiles之间虽是无序的,但每个StoreFile内部是有序的)。
<HBase><读写>
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。