1. 哈希索引
加速查找速度的数据结构,常见的有两类.
- 树,例如平衡二叉树,增删查改的平均时间复杂度为O(logn).
- 哈希.例如哈希表.增删查改的平均时间复杂度为O(1).
采用hash进行检索的效率非常高.基本一次检索就可以找到数据.而b+树还有从上到下进行查找.从效率上来说,hash比b+树更快.
在hash的方式下,一个元素经过hash函数计算得到的槽的位置.该函数将关键字映射到哈希表的槽位上.槽位其实也就是数组的一个元素而已.哈希函数可能会将两个不同的关键字映射到一个槽位上,这叫做哈希碰撞.我们可以用拉链法解决.即将hash在同一槽位的元素放在一个单向链表中,当链表过长,链表会被改造为红黑树.
2. 哈希索引的缺陷
- 哈希索引只能满足=,<>,IN等查询,如果进行范围查询,哈希表的索引,时间复杂度会退化为O(n),而b+树仍然保持为O(logn).
- 哈希索引的数据的存储是无序的,所以在ORDER BY的情况下,使用hash索引还需要对数据进行重新排序.
- 对于联合索引的情况,hash值是将联合索引键合并一起后来计算的.无法对单独的一个键或者几个索引键进行查询.
- 对于等值查询来说,hash索引的效率很高.但对于索引列存在很多重复值时,效率会很低.遇到哈希冲突时,需要遍历桶中的行指针来比较,找到查询的关键字.非常耗时.
Memory是支持哈希索引的.而InnoDB和MyISAM是不支持的.但InnoDB提供了自适应的哈希索引.如果某个数据经常被访问,当满足一定条件时,就会将这个数据页的地址存放在哈希表中,下次查询时,就可以直接找到这个页面的所在位置.
采用自适应哈希索引的目的是为了方便根据SQL条件迅速定位到叶子节点,特别是当b+树比较深的时候,通过自适应hash索引可以明显提高数据的检索效率.