聚簇索引和聚簇索引介绍

转载自  聚簇索引和聚簇索引介绍

一.    什么是索引和建立索引的好处

  • 什么是索引

  在数据库中,索引的含义与日常意义上的“索引”一词并无多大区别,与书中的索引一样,数据库中的索引使您可以快速找到表中的特定信息。索引包含从表中一个或多个列生成的键,以及映射到指定数据的存储位置的指针,也就是说索引由键和 指针组成。它是用于提高数据库表数据访问速度的数据库对象。

  • 建立索引的好处:

    • 索引可以避免全表扫描。多数查询可以仅扫描少量索引页及数据页,而不是遍历所有数据页。
    • 对于非聚集索引,有些查询甚至可以不访问数据页。如字典的目录就可以查到所有拼音第一字母为z 的所有字。
    •  聚集索引可以避免数据插入操作集中于表的最后一个数据页。
    •  一些情况下,索引还可用于避免排序操作。

二.基础知识

2.1 页

   数据库文件存储是已页为存储单元的,一个页是8K(8192Byte),一个页就可以存放N行数据。我们常用的页类型就是数据页和索引页。一个页中除了存放基本数据之外还需要存放一些其他的数据,如页的信息、偏移量等,如下图所示。

   虽然SQLServer是以页为单位存储数据,但是其分配空间是以一个盘区为单位的(8个页=64K),这样做的目的主要是为提高I/O的性能。

 

一条索引记录中包含的基本信息包括:键值 + 逻辑指针。

 

SQLServer中使用页为存储单元的,那么在建立索引时,其索引节点就是页了,然后树的键值就是存放到这些页(节点)中的。就是说表中的数据行就是存放到页上的,一个表有多个页构成,这些页以树的结构存放。

2.2 B树

   B树即二叉搜索树,所有非叶子节点最低拥有两个子节点,基本信息如下图所示。都是小的元素放左边,大的元素放右边。比如说要查找某个元素,其时间复杂度就对应该元素的深度,如要查询9,从根节点开始,只要比较三次就找到他了,其查询效率是非常高的。

   子节点:最多两个子节点(指针分别指向Left和Right)

阶数(节点子节点个数):2

深度:就是层数,各个叶子节点不一定一样,如节点21的深度为4,40的深度为3

 

 

2.2 B-树

B-树是一中多路搜索树,其阶数可以自定义(>2),是很多数据及文件系统应用的一种索引结构,基本特征如:

1) 阶数(M)>2,即孩子数量大于2个

2) 每个结点存放至少M/2-1(取上整)和至多M-1个关键字;(至少2个关键字)

3) 非叶子结点上的多个关键字是按照顺序排列的:K[1], K[2], …, K[M-1];且K[i] < K[i+1];

4) 所有叶子节点都位于同一层,因此叶子节点的深度都是一样的

5) 非叶子结点的关键字个数=指向儿子的指针个数-1;

6) 非叶子结点的指针:P[1], P[2], …, P[M];其中P[1]指向关键字小于K[1]的子树,P[M]指向关键字大于K[M-1]的子树,其它P[i]指向关键字属于(K[i-1], K[i])的子树;

如下图是一个三阶的B-树,节点[18]有两个指针分别指向其2个子节点。

 

这时如果要插入一个值17,其处理步骤:

1) 从根节点进入,17小于22,进入左边的节点[18];

2) [18]不是叶子节点,继续向下搜索,17小于18,进入其左边的子节点[12,16];

3) [12,16]为叶子节点,插入到该节点;

4) 节点[12,16,17]元素大于2了(3阶树的节点关键字数量应>3/2-1,<3-1),因此该节点需要分裂,分裂中间的元素16到父节点18中去;

5) 12,17分裂成了两个子节点了;

分裂后的效果如下图

 

   以上图片效果来自一个外国大学里面的的在线版B-树的测试,网站:http://www.cs.usfca.edu/~galles/visualization/BTree.html ,大家可以去这个网站测试,效果很直观,外国人就是牛。本人以前用C#+GDI实现过类似的效果,结果还是可以的,就是当树太大的时候,布局不好处理了。

 

2.3 B+树

B+树是B-树的变体,也是一种多路搜索树,一棵m 阶的B+树和m 阶的B-树的差异在于: 

l 非叶子节点的子节点和其关键字相同,即节点有三个元素(关键字),他就肯定有三个子节点; 

l 非叶子节点的子节点P[i],指向关键字值属于[K[i], K[i+1])的子树(B-树是开区间); 

l 所有叶子节点增加一个链指针; 

l 所有关键字的数据都在叶子节点中;

 如下图所示,图片来自网络(http://www.cnblogs.com/chjw8016/archive/2011/03/08/1976891.html)。

 

 

三:什么是聚集索引

3.1           聚集索引定义

聚集索引是根据数据行的键值在表中排序存储数据行。索引定义中包含聚集索引列。每个表只能有一个聚集索引。只有当表包含聚集索引时,表中的数据行才按排序顺序存储。如果表具有聚集索引,则该表称为聚集表。集索引决定了表数据的存储顺序,如果表没有聚集索引,则其数据行存储在一个称为堆的无序结构中。

 

3.2           聚集索引的结构

对于某个聚集索引,索引指向该聚集索引某个特定分区(数据页)的顶部。SQL Server 将在索引中向下移动以查找与某个聚集索引键对应的行。原因是聚集索引的索引顺序就是数据排列顺序。

 

  •  聚集索引与查询操作

  • 如上图,在建立聚集索引后,当需要在根据此字段查找特定的记录时,数据库系统会根据特定的系统表查找的此索引的根,然后根据指针查找下一个,直到找到。数据查询时首先是对索引表查询,如果此时索引表在缓存中可以找到,则可以避免一次IO操作。在索引表中找到所需数据索引值后,就可以确定目标数据行所在的数据位置,从而读取数据。
  •  聚集索引与插入和删除操作

  • 插入数据时,首先根据索引找到对应的数据页,然后通过挪动已有的记录为新数据腾出空间,最后插入数据。
  • 删除数据时将导致其下方的数据行向上移动以填充删除记录造成的空白。
  • 对于数据的删除操作,可能导致索引页中仅有一条记录,这时,该记录可能会被移至邻近的索引页中,原索引页将被回收,即所谓的“索引合并”。同样插入数据页会更改索引。每一次索引更改都是一次IO操作。
  • 聚集索引的建立会降低数据插入和删除的效率。

四.       什么是非聚集索引

4.1           非聚集索引定义

非聚集索引并不是在物理上排列数据,即索引中的逻辑顺序并不等同于表中行的物理顺序,索引是指向表中行的位置的指针,这些指针本身是有序的,通过这些指针可以在表中快速定位数据。

 

4.2           非聚集索引的结构

由于非聚集索引数据存储时无序的,所以在非聚集索引中指针包含数据行在数据页中的偏移量。即指针由 数据页 + 数据行偏移量 组成。

 

  •  非聚集索引的查询

  • 如上图,在建立非聚集索引后,当需要在根据此字段查找特定的记录时,数据库系统会根据特定的系统表查找的此索引的根,然后根据指针查找,直到找到。数据查询时首先是对索引表查询,如果此时索引表在缓存中可以找到,则可以避免一次IO操作。在索引表中找到所需数据索引值后,就可以确定目标数据行所在的数据位置,从而读取数据。
  • 非聚集索引的插入删除

    •   如果一张表包含一个非聚集索引但没有聚集索引,则新的数据将被插入到最末一个数据页中,然后非聚集索引将被更新。如果也包含聚集索引,该聚集索引将被用于查找新行将要处于什么位置,随后,聚集索引、以及非聚集索引将被更新。

  如果在删除命令的Where子句中包含的列上,建有非聚集索引,那么该非聚集索引将被用于查找数据行的位置,数据删除之后,位于索引叶子上的对应记录也将被删除。如果该表上有其它非聚集索引,则它们叶子结点上的相应数据也要删除

 

 五。聚集索引和非聚集的区别

聚集索引和非聚集索引的根本区别是数据记录的排列顺序和索引的排列顺序是否一致,聚集索引表记录的排列顺序与索引的排列顺序一致,优点是查询速度快,因为一旦具有第一个索引值的纪录被找到,具有连续索引值的记录也一定物理的紧跟其后,从而缩小了搜索范围,对于返回某一范围的数据效果最好。

聚集索引的缺点是对表进行修改速度较慢,这是为了保持表中的记录的物理顺序与索引的顺序一致,而把记录插入到数据页的相应位置,必须在数据页中进行数据重排,降低了执行速度。
  非聚集索引指定了表中记录的逻辑顺序,数据记录的物理顺序和索引的顺序不一致,聚集索引和非聚集索引都采用了B树的结构,但非聚集索引的叶子层顺序并不与实际的数据页相同,而采用指向表中的记录在数据页中位置的方式。非聚集索引比聚集索引层次多,添加记录不会引起数据顺序的重组。在有大量不同数据的列上建立非聚集索引,可以提高数据的查询和修改速度。

在对聚集索引列查询时,聚集索引的速度要比非聚集索引速度快。

在对聚集索引列排序时,聚集索引的速度要比非聚集索引速度快。但是如果数据量比较大时,如10万以上,则二者的速度差别不明显。

 聚集索引和非聚集的建立原则

在创建索引时要做到三个适当,即在适当的表上、适当的列上创建适当数量的索引。虽然这可以通过一句话来概括优化的索引的基本准则,但是要做到这一点的话,需要做出很大的努力。具体的来说,要做到这个三个适当有如下几个要求。

5.1           根据表的大小来创建索引。

虽然给表创建索引,可以提高查询的效率。但是需要注意的是,索引也需要一定的开销的。为此并不是说给所有的表都创建索引,那么就可以提高数据库的性能。这个认识是错误的。给所有的表都创建了索引,那么其反而会给数据库的性能造成负面的影响。因为此时滥用索引的开销可能已经远远大于由此带来的性能方面的收益。所以,数据库管理员首先需要做到,为合适的表来建立索引,而不是为所有的表建立索引。

一般来说,不需要为比较小的表创建索引。因为即使建立了索引,其性能也不会得到很大的改善。相反索引建立的开销,如维护成本等等,要比这个要大。也就是说,付出的要比得到的多,显然违反常理。

另外,就是对于超大的表,也不一定要建立索引。有些表虽然比较大,记录数量非常的多。但是此时为这个表建立索引并一定的合适。对于一些超大的表,建立索引有时候往往不能够达到预计的效果。而且在大表上建立索引,其索引的开销要比普通的表大的多。那么到底是否给大表建立索引呢?主要是看两个方面的内容。首先是需要关注一下,在这张大表中经常需要查询的记录数量。一般来说,如果经常需要查询的数据不超过10%到15%的话,那就没有必要为其建立索引的必要。因为此时建立索引的开销可能要比性能的改善大的多。如果数据库管理员需要得出一个比较精确的结论,那么就需要进行测试分析。

5.2           根据列的特征来创建索引

列的特点不同,索引创建的效果也不同。需要了解为哪些列创建索引可以起到事半功倍的效果。同时也需要了解为哪些列创建索引反而起到的是事倍功半的效果。

索引设置的是否恰当,不仅跟数据库设计架构有关,而且还跟企业的经济业务相关。虽然一开始已经做了索引的优化工作。但是随着后来经济数据的增加,这个索引的效果会越来越打折扣。所以需要隔一段时间,对数据库的索引进行优化。该去掉的去掉,该调整的调整,以提高数据库的性能。

 

5.3           在一个表上创建多少索引合适

通常来说,表的索引越多,其查询的速度也就越快。但是,表的更新速度则会降低。这主要是因为表的更新同时也是索引的更新。到底在表中创建多少索引合适,就需要在这个更新速度与查询速度之间取得一个均衡点。如对于一些数据仓库或者决策型数据库系统,其主要用来进行查询。相关的记录往往是在数据库初始化的时候导入。此时,设置的索引多一点,可以提高数据库的查询性能。同时因为记录不怎么更新,所以索引比较多的情况下,也不会影响到更新的速度。相反,如果那些表中经常需要更新记录,如一些事务型的应用系统,数据更新操作是家常便饭的事情。此时如果在一张表中建立过多的索引,则会影响到更新的速度。由于更新操作比较频繁,所以对其的负面影响,要比查询效率提升要大的多。此时就需要限制索引的数量,只在一些必要的字段上建立索引。

总之,在适当的表、适当的列上建立适当的索引。具体的索引优化内容还是需要在日常工作中继续体会与总结。

下面的表总结了何时使用聚集索引或非聚集索引:

动作描述

使用聚集索引

使用非聚集索引

列经常被分组排序

返回某范围内的数据

不应

一个或极少不同值

不应

不应

小数目的不同值

不应

大数目的不同值

不应

频繁更新的列

不应

外键列

主键列

频繁修改索引列

不应

 注:具体参考数据库\聚簇索引和非聚簇索引.ppt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/326546.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

admiration音标是什么_英语admiration的意思解释|读音发音|相关词语_英语词典_词林在线词典...

admirationad.mi.ra.tion[ˌdmərєʃən; ˌdməˋrєiʃn]《admire 的名词》名词1 (U) 赞叹,钦佩,赞赏; 憧憬,羡慕[of, for]feel [have] ~ for? 钦佩 [佩服] …in ~ of? 赞赏…with ~赞赏 [钦佩] 地2 [the ~]众人赞赏之对象[of]She is the ~ of her students.她是学生们钦慕…

Visual Studio 20周年软件趋势随想

从2002年开始&#xff0c;.net让开发人员能快速构建和部署应用程序&#xff0c;便捷的开发windows和web服务器应用&#xff0c;同时著名的hacker Miguel de Icaza ,Miguel 为了GNOME项目启动了另一存志高远的项目&#xff1a;Mono&#xff0c;一个Microsoft .NET Framework的自…

普里姆算法(修路问题)+图解

图解 代码实现 package com.atguigu.prim;import java.util.Arrays;/*** 创建人 wdl* 创建时间 2021/4/5* 描述*/ public class PrimAlgorithm {public static void main(String[] args) {//测试看看图是否创建OKchar[] data {A, B, C, D, E, F, G};int verxs data.length;/…

excel如何生成mysql的sql语句_excel 批量生成SQL语句

文章来源&#xff1a;https://www.cnblogs.com/allen0118/p/3726455.html我们经常会遇到这样的要求&#xff1a;用户给发过来一些数据&#xff0c;要我们直接给存放到数据库里面&#xff0c;有的是Insert&#xff0c;有的是Update等等&#xff0c;少量的数据我们可以采取最原始…

Visual Studio 2017 已知问题 Qamp;amp;A

已知问题 以下是有关此版本中的已知问题和可用解决方法的说明。M姐会给大家进行详细的解答 安装问题编辑器和 IDE 问题NuGet 问题实时单元测试问题测试工具问题轻量级解决方案加载问题Web 工具已知问题.NET Core 工具问题“打开文件夹”问题扩展性问题Application Insights 问题…

2017蓝桥杯省赛---java---B---8(包子凑数)

题目描述 标题&#xff1a;包子凑数小明几乎每天早晨都会在一家包子铺吃早餐。他发现这家包子铺有N种蒸笼&#xff0c;其中第i种蒸笼恰好能放Ai个包子。每种蒸笼都有非常多笼&#xff0c;可以认为是无限笼。每当有顾客想买X个包子&#xff0c;卖包子的大叔就会迅速选出若干笼包…

java 配置mybatis_java mybatis框架的配置

一个框架的使用&#xff0c;必然离不开其中的组件支持。我们在下载完mybatis框架后&#xff0c;因为大部分的内部结构还没有启动&#xff0c;就要手动的对其进行配置。在之前有提到&#xff0c;mybatis框架的作用就有数据库方面的&#xff0c;所以本篇文章带来了数据库和sql方面…

2017蓝桥杯省赛---java---B---9(分巧克力)

题目描述 标题&#xff1a; 分巧克力儿童节那天有K位小朋友到小明家做客。小明拿出了珍藏的巧克力招待小朋友们。小明一共有N块巧克力&#xff0c;其中第i块是Hi x Wi的方格组成的长方形。为了公平起见&#xff0c;小明需要从这 N 块巧克力中切出K块巧克力分给小朋友们。切出的…

C#7.0之ref locals and returns (局部变量和引用返回)

首先我们知道 ref关键字是将值传递变为引用传递 那么我们先来看看ref locals(ref局部变量) 列子代码如下: static void Main(string[] args) { int x 3; ref int x1 ref x; //注意这里,我们通过ref关键字 把x赋给了x1 x1 2; Console.WriteLine($"改变后的变量 {nameo…

insert ... on duplicate key update产生death lock死锁原理

转载自 insert ... on duplicate key update产生death lock死锁原理 前言 编辑 我们在实际业务场景中&#xff0c;经常会有一个这样的需求&#xff0c;插入某条记录&#xff0c;如果已经存在了则更新它如果更新日期或者某些列上的累加操作等&#xff0c;我们肯定会想到使用I…

2018蓝桥杯省赛---java---B---4(测试次数)

题目描述 思路分析 最佳策略、最坏运气 打表法 代码实现 package com.atguigu.TEST;class Main{public static void main(String[] args) {int[][] d new int[1001][4];//有j个手机测试i层楼需要扔几次for (int i 1; i < 1000; i) {d[i][1]i;//1个手机扔i次可以测试i层…

[干货来袭]C#7.0新特性(VS2017可用)

前言 微软昨天发布了新的VS 2017 ..随之而来的还有很多很多东西... .NET新版本 ASP.NET新版本...等等..太多..实在没消化.. 分享一下其实2016年12月就已经公布了的C#7.0的新特性吧,虽然很早就出来了,但咱这IDE不支持啊.. 不过在昨天的VS2017中已经完美可以支持使用了. E文好的,…

在MySQL的InnoDB存储引擎中count(*)函数的优化

转载自 在MySQL的InnoDB存储引擎中count(*)函数的优化 写这篇文章之前已经看过了很多数据库方面的优化内容&#xff0c;大部分都是加索引、使用事务、要什么select什么等等。然而&#xff0c;只是停留在阅读的层面上&#xff0c;很少有实践&#xff0c;因为没有遇到真实的项目…

后端架构高可用可伸缩讲解之高可用

去年参加了一个技术分享活动&#xff0c;七牛的一个技术大牛给简要的介绍了一些高可用可伸缩的一些最佳实践&#xff0c;虽然只是一次简短的介绍&#xff0c;但是依然从中学到了很多东西&#xff0c;PPT内容主要分以下几个部分: 入口层高可用业务层高可用缓存层高可用数据库高可…

2019蓝桥杯省赛---java---B---1(组队)

题目描述 【问题描述】作为篮球队教练&#xff0c;你需要从以下名单中选出 1 号位至 5 号位各一名球员&#xff0c;组成球队的首发阵容。每位球员担任 1 号位至 5 号位时的评分如下表所示。请你计算首发阵容 1 号位至 5 号位的评分之和最大可能是多少&#xff1f;&#xff08;…

Asp.Net Core Authentication Middleware And Generate Token

或者应该包含什么信息呢&#xff1f; 1.这个人是谁&#xff1f; 2.这个人可以用此token访问什么样的内容&#xff1f;&#xff08;scope&#xff09; 3.token的过期时间 (expire) 4.谁发行的token。 5.其他任何你希望加入的声明&#xff08;Claims&#xff09; 那我们为什么要使…

数据库 - 事务管理(ACID)隔离级别 事务传播行为

转载自 数据库 - 事务管理&#xff08;ACID&#xff09;隔离级别 事务传播行为 总览&#xff1a; 事务的4大特性&#xff08;ACID) 原子性&#xff08;Atomicity&#xff09;   原子性是指事务包含的所有操作要么全部成功&#xff0c;要么全部失败回滚&#xff0c;这和前…

克鲁斯卡尔算法(公交站问题)

应用场景 思路分析 代码实现 package com.atguigu.kruskal;import java.util.Arrays;/*** 创建人 wdl* 创建时间 2021/4/6* 描述*/ public class KruskalCase {private int edgNum;//边的个数private char[] vertexs;//顶点数组private int[][] matrix;//邻接矩阵//使用INF表示…

分布式系列文章——Paxos算法原理与推导

Paxos算法在分布式领域具有非常重要的地位。但是Paxos算法有两个比较明显的缺点&#xff1a;1.难以理解 2.工程实现更难。 网上有很多讲解Paxos算法的文章&#xff0c;但是质量参差不齐。看了很多关于Paxos的资料后发现&#xff0c;学习Paxos最好的资料是论文《Paxos Made Simp…

java的jdbc驱动server_win7下java用jdbc驱动来连接sql server的方法 (转载)

第一步&#xff1a;下载安装Microsoft SQL Server 2000 Service Pack 4&#xff0c;也就是sql2000的sp4补丁地址如下&#xff1a;第二步&#xff1a;下载jdbc的驱动,解压到任一位置中&#xff0c;下载地址&#xff1a;第三步&#xff1a;就是创建一个java工程&#xff0c;再在w…