首页 > 代码库 > Mysql 索引实现原理. 聚集索引, 非聚集索引

Mysql 索引实现原理. 聚集索引, 非聚集索引

Mysql索引实现:

  B-tree,B是balance,一般用于数据库的索引。使用B-tree结构可以显著减少定位记录时所经历的中间过程,从而加快存取速度。而B+tree是B-tree的一个变种,MySQL就普遍使用B+tree实现其索引结构。  

  一般来说,索引本身也很大,不可能全部存储在内存中,因此索引往往以索引文件的形式存储的磁盘上。这样的话,索引查找过程中就要产生磁盘I/O消耗,相对于内存存取,I/O存取的消耗要高几个数量级,所以评价一个数据结构作为索引的优劣最重要的指标就是在查找过程中磁盘I/O操作次数的渐进复杂度。换句话说,索引的结构组织要尽量减少查找过程中磁盘I/O的存取次数。

  为了达到这个目的,磁盘按需读取,要求每次都会预读的长度一般为页的整数倍。而且数据库系统将一个节点的大小设为等于一个页,这样每个节点只需要一次I/O就可以完全载入。每次新建节点时,直接申请一个页的空间,这样就保证一个节点物理上也存储在一个页里,加之计算机存储分配都是按页对齐的,就实现了一个node只需一次I/O。并把B-tree中的m值设的非常大,就会让树的高度降低,有利于一次完全载入

B-Way查找树:

  一棵树的每个节点的度小于等于m。

  每个节点的键值数小于m每个节点的度小于等于m键值按顺序排列子树的键值要完全小于或大于或介于父节点之间的键值

技术分享

 

B-Tree树:

  B-tree又叫平衡多路查找树。一棵m阶的B-tree (m叉树)的特性如下: 

(其中ceil(x)是一个取上限的函数)

1) 树中每个结点至多有m个孩子;

2) 除根结点和叶子结点外,其它每个结点至少有有ceil(m / 2)个孩子;

3) 若根结点不是叶子结点,则至少有2个孩子(特殊情况:没有孩子的根结点,即根结点为叶子结点,整棵树只有一个根节点);

4) 所有叶子结点都出现在同一层,叶子结点不包含任何关键字信息(可以看做是外部结点或查询失败的结点,实际上这些结点不存在,指向这些结点的指针都为null);

5) 每个非终端结点中包含有n个关键字信息: (n,P0,K1,P1,K2,P2,......,Kn,Pn)。其中:

  a) Ki (i=1...n)为关键字,且关键字按顺序排序K(i-1)< Ki。

  b) Pi为指向子树根的接点,且指针P(i-1)指向子树种所有结点的关键字均小于Ki,但都大于K(i-1)。

  c) 关键字的个数n必须满足: ceil(m / 2)-1 <= n <= m-1。

技术分享

B+Tree树: 

  B+树是B-树的变体。

  有几点不同的地方:

  1. 非叶子结点的子树指针与关键字个数相同
  2. 为所有叶子结点增加一个链指针
  3. 所有关键字都在叶子结点出现

技术分享

 

二、聚集索引, 非聚集索引

聚集索引:

  该索引中键值的逻辑顺序决定了表中相应行的物理顺序。 

  聚集索引确定表中数据的物理顺序。聚集索引类似于电话簿,后者按姓氏排列数据。由于聚集索引规定数据在表中的物理存储顺序,因此一个表只能包含一个聚集索引。但该索引可以包含多个列(组合索引),就像电话簿按姓氏和名字进行组织一样。 

非聚集索引:  

  该索引中索引的逻辑顺序与磁盘上行的物理存储顺序不同。 

  索引是通过二叉树的数据结构来描述的,我们可以这么理解聚簇索引:索引的叶节点就是数据节点。而非聚簇索引的叶节点仍然是索引节点,只不过有一个指针指向对应的数据块。如下图: 

Mysql 索引实现原理. 聚集索引, 非聚集索引