Life Will Change Lyn
  1. 1 Life Will Change Lyn
  2. 2 Last Surprise Lyn
  3. 3 Libertus Chen-U
  4. 4 One Last You Jen Bird
  5. 5 Time Bomb Veela
  6. 6 Quiet Storm Lyn
  7. 7 Warcry mpi
  8. 8 Flower Of Life 发热巫女
  9. 9 The Night We Stood Lyn
  10. 10 Hypocrite Nush
  11. 11 かかってこいよ NakamuraEmi
2019-12-29 19:02:25

索引分类概览

现在已经知道了MySQL中的索引设计的数据结构是基于B+树的,但这对于索引这个概念而言还只是冰山一角。在深入MySQL的索引实际应用之前,必须对索引有个全局理解。这篇文章就讨论一下围绕着索引产生的相关前置知识。

索引数据模型

首先就要谈和B+树平行的数据模型概念,实际上MySQL中并不是只有B+树这样一种实现方式。数据模型的常规设计可以分为如下三类。

数组

最好理解的一种,毕竟算是日常用到最多的一种数据结构了。优缺点也很明显,查询高效,更新低效。对应到数据库中的话,就是等值查询和范围查询的性能都非常高,但更新数据的性能就太低了。这样优缺点明显的模型注定只能用到特殊的只查不改的场景下,比如静态存储引擎。

二叉搜索树

这也就是上篇文章中详细分析的数据模型了,作为查询和更新的效率折中模型,被广泛应用到数据库中。

哈希表

也是比较常用的基于key-value的存储结构,通过Hash算法将key转化为一个存储value的确定位置。原理很简单,不过需要关注一个Hash冲突问题:不同的输入可能被映射到同一个位置上,一般解决方案是在确定位置上再设计一个桶结构存储Hash冲突的数据。

了解了哈希表的数据结构后,优缺点也就很明显了。首先是优点:

  • 等值查询的性能很高,相比于数组的O(n)更进一步的提升到了O(1)

缺点如下:

  • 因为哈希表的无序性,不支持范围查询和排序。
  • 即使是等值查询也需要避免hash冲突带来的性能下降。

综上可以看出同样是在特定场景下才能发挥优势的数据模型,相比于数组更为极端一些:排斥范围和排序查询需求,但在等值查询上做到最优。比如Redis就是一个很好的实例。

当然,由于hash索引的等值查询效率实在优秀,MySQL也针对了一些特定场景将其融合到了其设计中。就是自适应Hash索引

如果某个数据页经常按照某个条件被访问,MySQL就会将这个数据页的地址根据条件存储到Hash表中,这样的话在下次查询就可以跳过B+树索引,采用Hash索引更迅速的得到结果。

可以通过innodb_adaptive_hash_index这个变量控制是否开启这个特性。相信根据变量名你也注意到了,这个特性其实是InnoDB提供的,也是InnoDB的三大关键特性之一。另外两大特性在之后的文章的合适部分再介绍。

按物理实现分类

了解了索引的常用数据模型之后,就可以进一步的探究在InnoDB中更细节的索引划分了。先从最常规的一次索引查询入手:假设我们有一个主键为ID,索引为k的表如下。

如果使用主键查询,则只需要搜索主键构成的索引树。使用k查询的话,要先从k构成的索引树得到结果行对应的主键ID,再根据ID回到主键索引树得到结果。

前者叶子节点中存储的是真实的行数据,也就是说数据行和键值聚簇的存储在一起,这种物理实现称为聚簇索引。后者的叶子节点中不保存真实行数据,只保存真实行数据的指针,也就是数据行和键值分离,不关心数据行的存储结构,这种物理实现相对的就叫非聚簇索引。可以看到非聚簇索引要经过两次查询,第二次查询的过程也就是俗称的回表

正常来说非聚簇索引的查询效率是不如聚簇查询的,但InnoDB中除了主键索引的大多数索引都是非聚簇索引,因为聚簇索引插入和更新的代价相当高,包括行移动和可能的数据页分裂操作,非聚簇索引相比之下的查询效率降低也还是可以接受。

按功能分类

了解了索引的物理实现,再看在物理实现下的不同索引的功能。先从最特殊的主键索引入手。

主键索引

因为每张表都会有一个主键索引作为约束,即使不声明也会隐式的创建,可以把主键看做这张表的ID。简单来说,就是在普通索引下,新增了数据列的唯一性约束,非空值约束,同时每个表只能有一个,物理实现上使用了聚簇索引。

唯一索引

也就等于在主键索引的数据列唯一性约束了。唯一索引的数据列只包含各不相同的值,除了避免数据重复外,简化了索引管理,还能提高查询速度。

普通索引

就是常规索引,唯一的需求就是新建非聚簇索引对应的B+树提高查询速度。

全文索引

主要用来完成查找文本中的关键字需求,实现和常规索引有很大区别。比如要匹配“abc"这一串文字,正常来说会使用like查询,但没有用左边前缀搜索时是无法命中普通索引的,所以就需要使用全文索引。对于小型的全文索引需求,InnoDB有内置的全文索引,如果处理更复杂的场景,更推荐Elasticsearch这样的专用全文搜索引擎。

空间索引

B+树索引很难处理空间相关的场景数据。想像一下要搜索(x, y, z)的三维数据,只能根据xyz三个字段联合索引,但联合索引有优先级的区分,空间索引的数据都是平行关系。进一步的,当空间数据不止是三维,成多维,线或者面时都是更麻烦的问题,所以需要一种独立的空间索引模式处理这些场景。MySQL也提供了创建空间索引的对应方案。

按字段数量分类

索引不仅可以根据单字段创建,还可以组合多个列一起创建联合索引。基于此又衍生出多种查询优化的相关规则。

覆盖索引

之前提到了基于普通索引的查询有回表的过程,因为普通索引树的叶子节点只记录的主键名。那如果我们查询的信息刚好是主键呢?理所当然的,普通索引树上就能直接返回结果,不需要回表。这种普通索引树已经覆盖了我们需求的查询,就叫做覆盖索引。

基于此,正常来说,覆盖索引只能在主键上的查询起作用,但如果使用联合索引结合覆盖索引,就能优化到具体目标字段了。举例来说,有张表有根据ID频繁查找姓名的需求,我们就可以建立ID和姓名的联合索引。

最左前缀原则

一个索引不仅可以使单字段或者联合字段的查询上收益,还满足最左前缀原则:只要查询字段是字符串索引的最左X个字符,或者联合索引的最左N个字段都能利用该索引提高性能。

举个例子,如果以name建立索引,like查询不以%开头的条件都可以利用上该索引。如果以nameage建立联合索引,单独对name查询也可以利用上该索引,但对age查询则不行。

小结

这篇文章从全局的角度介绍了一下数据库中常见的索引类型,之后就该根据具体案例分析不同场景下应该建立什么类型的索引了。

-- EOF --

添加在分类「 前端开发 」下,并被添加 「数据库」 标签。