关系数据库设计及优化原则

    一直以来就想总结一下自己这么多年来在关系数据库上积累的经验。奈何自己是一个比较懒的人一直不想动手去写。扎克伯格曾说过:“想做一件事的话,最好的办法就是先开始”。索性就先写一点东西,这些东西不会太长,自然也不会包括太多细节(如果有纸上谈兵的情况,也敬请谅解)。

    本文的主要内容是对关系数据库的设计及优化总结出一些基本原则,这些原则可以帮助提高数据库的设计质量的同时避免一些常见的性能问题。(软件行业没有银弹,任何原则是指一种参考,困难的是懂得何时打破这些原则)

原则一 OLTP负载尽量遵循第三范式

    不少程序员对数据库范式理解不透彻,甚至嗤之以鼻,为了简便在不同的表冗余字段,甚至害怕一对一,一对多,多对多这种关系。阿里还流传着不要关联数据表的神奇传说。关系数据库不使用关系,那就没有必要用关系数据库了。

    遵守第三范式带来的好就是减少数据冗余,同时使得模型中对单一表的CRUD操作不会互相影响,专业术语叫做更新异常。更新异常往往是大量bug的滋生地。更新异常甚至会大大影响查询性能。

    最后重申一下本条原则适用范围,当你在使用关系数据库(键值对,文档数据库除外)去设计业务模型的时候(OLTP负载就是频繁的增加删除修改型的应用场景),尽量遵循业务实体中的关系,并将它们设计为满足第三范式的数据模型。

原则二 选择正确的数据类型和长度

    很多程序员在设计数据类型和长度方面显得非常草率,甚至是不负责任的。例如将日期类型存储为字符串型,将数字类型也设计为字符串型,一切类型均为字符串型,并随意给与50,100,200的可变长度,一了百了。这种随意性是对程序质量的亵渎。很多人说这不影响开发,能跑起来就行了。

    本条原则要强调,针对你要解决的问题请慎重选择数据类型。例如时间请用合适的日期类型(datetime,date, smalldate)。整数请选择int,bigint等,货币类型请选择decimal类型。不合适的类型会导致数据转换,在程序中也会导致数据转换,这不仅仅是性能杀手,更是众多bug的来源。

    请慎重选择适合的长度,如果业务需求仅需要10个长度的字符,那就给与10个长度,不要因为害怕长度不够而给与20个或者200个长度。慷慨往往是不明智的。

     在具有大量数据的表中,不合适的长度会浪费大量存储空间,这将导致数据库每一页中存储的数据行数就会变少,数据库引擎加载到内存中的页也就随之变少,进而影响到查询的性能。同时数据库的备份也明显增大,影响备份还原的效率。

    如果遵循本条原则精心选择数据类型和长度(尤其是对那些可能包含海量数据的大表)将显著提高数据模型的设计质量,为后续的程序开发奠定了良好的基础。

原则三 请正确创建索引

    在我的早期职业生涯的时候,曾遇到过不给任何表增加索引的设计(仅有主键),理由是索引会减缓INSERT,UPDATE效率。也遇到过给每个字段都增加索引的匪夷所思的设计。

    要了解如何正确使用索引,必须了解索引是提高查询效率?大多数人都知道索引类似书本最后一页的词汇索引,告诉你某一词汇在书中的多少页。但很多人对多因的基本结构缺乏了解,虽然大多知道索引是B-Tree,但不知道B-Tree为什么能提高查询效率。简单的讲就是B-Tree是一颗特殊的平衡树,找到某一数据所用的时间总是一定的。例如:在1000000万个订单中找到任意订单记录所需时间是一样的。这是由B-Tree结构保证的,数据库引擎从根节点出发查找一条特定记录总是跨越2-3层,所以时间总是相等的,这个时间并不与数据量相关,而仅仅与树的深度相关。这就是索引能提高查询效率的基本原理。

    请创建合适的聚集索引,很多人把聚集索引和主键相混淆,因为大多数数据库引擎会自动在主键上创建聚集索引。其实聚集索引就是按照主键顺序来实际组织磁盘上数据的物理顺序,因为物理数据只能按照一种顺序组织,所以一个表只能有一个聚集索引。聚集索引就是物理数据本身,这是一个非常重要的概念。聚集索引一般使用自增长的数据类型,int类型是大多数的选择,这可以避免数据库引擎维护聚集索引。

    创建合适的非聚集索引,按照某些字段查询记录的需求是非聚集索引使用的适合场景,例如按照姓名,年龄,性别查询一些员工的时候,如果在这三个字段上创建一个非聚集索引,将会显著改善查询性能。非聚集索引的页只包含非聚集索引数据,如果要查询表中其他列的数据,就要做一次lookup操作通过聚集索引把对应的记录提取出来。(为避免lookup操作,就产生了覆盖索引)

    考虑创建覆盖索引,例如很多场景下仅需要根据姓名查询,但是需要同时提取年龄等信息(select name,age where name = ’张三‘), 我们仅仅为name创建一个非聚集索引就可以大幅度提高查询效率,但如果为name在增加一个覆盖索引name(age),就可以直接从索引中提取需要的数据,而不必要再去做一个lookup操作从聚集索引中查找,这将大大提高查询性能。

    考虑重建索引,对索引性能影响最大的就是碎片,频繁的insert,update 可能会导致大量的页拆分,进而导致索引页的连续地址和物理的连续地址不同,影响索引顺序扫描,导致性能下降。索引中有个填充率的参数就是为了避免页拆分而预留的空间,但是填充率过低又会导致索引页过多降低索引查询效率。所以好的解决办法是当碎片过多的时候,可以考虑重建索引。重建后索引页的顺序和物理顺序会保持一直。

    索引带来的附加好处,索引带来查询性能提升的同时,还可以大大降低锁的争用,因为查询可以利用索引,优化器会尽可能少的对数据行和页进行加锁,并发能力就可能提高。优化器可以利用索引的排序,有效降低对CPU的消耗。对于Order by 或 gourp by 子句将会带来性能提升,同时降低CPU使用率。CPU使用率降低会提高数据库服务器的吞吐量。

    最后,请为那些经常被执行的查询创建合适的索引(主要分析where后面的条件)。同时请谨慎考虑索引创建,如果你不确定数据库引擎是否正确使用索引,请不要随意创建索引,因为索引会占用磁盘空间,还会导致insert,update效率降低。

原则四 使用合适的隔离级别(以SQLServer为例)

    关系数据库最大的基本特征就是保持数据一致性,为了保持数据一致性而施加了很多锁。事务的隔离级别主要是用于控制某一事务受其他事务的影响的程度,这一程度会影响其他事务对同一数据的读取和修改操作,进而影响并发能力。

    较低的隔离级别可以增强许多用户同时访问数据的能力,但也增加了用户可能遇到的并发副作用(例如脏读或丢失更新)的数量。相反,较高的隔离级别减少了用户可能遇到的并发副作用的类型,但需要更多的系统资源,并增加了一个事务阻塞其他事务的可能性。应平衡应用程序的数据完整性要求与每个隔离级别的开销,在此基础上选择相应的隔离级别。最高隔离级别(可序列化)保证事务在每次重复读取操作时都能准确检索到相同的数据,但需要通过执行某种级别的锁定来完成此操作,而锁定可能会影响多用户系统中的其他用户。最低隔离级别(未提交读)可以检索其他事务已经修改、但未提交的数据。在未提交读中,所有并发副作用都可能发生,但因为没有读取锁定或版本控制,所以开销最少。

 重要

选择事务隔离级别不影响为保护数据修改而获取的锁。事务总是在其修改的任何数据上获取排他锁并在事务完成之前持有该锁,不管为该事务设置了什么样的隔离级别。对于读取操作,事务隔离级别主要定义保护级别,以防受到其他事务所做更改的影响。

    例如SQLServer的默认隔离级别READ COMMITTED,数据库引擎会使用共享锁防止其他事务在当前事务执行读取操作期间修改行。共享锁还会阻止语句在其他事务完成之前读取由这些事务修改的行。共享锁类型确定它将于何时释放。行锁在处理下一行之前释放。页锁在读取下一页时释放,表锁在语句完成时释放。如果查询某个表中获取大量数据并未有效使用索引,共享锁可能会升级到锁页和锁表,其他对该表的insert update delete操作将不得不等到锁释放,给用户带来的影响就是这些操作变慢了。

    如果业务允许读取一定的未提交数据,可以考虑使用 READ UNCOMMITTED,数据库引擎会使用最少的锁,当查询数据时候,不会阻塞insert update delete 操作。一般对于查询日志表,审计表等允许容忍一定的脏读情况下使用该隔离级别,这样可以不阻塞业务表的操作。

    如果需要更高的一致性,例如在一个事务修改某一行但未提交时候,限制其他事务修改同样的行,那么可以使用 REPEATABLE READ。但是并发级别会大大降低,除非你确保需要此种业务场景,否则应谨慎使用。

    对于需要频读取数据,并又要尽量保证不阻塞其他事务insert,update,delete操作的场景,编写查询语句的时候可以考虑使用READ_COMMITTED_SNAPSHOT 隔离级别。已提交读隔离使用行版本控制提供语句级读取一致性。读取操作只需要 SCH-S 表级别的锁,不需要页锁或行锁。也就是说,SQL Server数据库引擎使用行版本控制来呈现每个语句,其中包含在语句开始时存在的数据的事务一致性快照。不使用锁来防止其他事务更新数据。 该隔离级别会导致更新时候出现版本冲突异常,这点需要应用程序抓取异常并进行重试。该隔离级别就可以满足读写互不影响。(很多人并未完全理解事务隔离级别,就盲目采用所谓读写分离技术增加设计的复杂度。)

总结

    关系数据库引擎依然是当今最最流行,满足常见商业逻辑需要的ACID特性的技术之一,并且建立在可靠的数学集合理论之上。设计精良的关系数据库模型会提升应用程序的可靠性。设计糟糕的模型会导致上层应用的失败。

    以上所属的一些原则有助于提提高数据模型设计的质量,充分利用数据库提供的特性,可以简化设计方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/281292.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java B2B2C springmvc mybatis电子商务平台源码-消息队列之RocketMQ

RocketMQ出自阿里公司的开源产品,用 Java 语言实现,在设计时参考了 Kafka,并做出了自己的一些改进,消息可靠性上比 Kafka 更好。RocketMQ在阿里集团被广泛应用在订单,交易,充值,流计算&#xff…

VSCode同步设置

2022/4/1 更新 刚刚发现还有人在看这篇文章,这里更新一下,VSCode 从1.48版本开始已经内置了同步功能,可以不用再使用Settings Sync插件了。 点击左下角的用户或者设置的 Sign in to Sync Setting,使用GitHub或者Microsoft账户登…

配置三台服务器组成的ELK集群(二)

上一篇里主要是介绍了ES和ES-Head的安装过程,这一篇继续介绍ELK集群的其他核心组件安装过程。 五、安装Logstash: 本案的Logstash安装在10.113.130.117上;燃鹅,Logstash也可以利用多台组成集群,如果未来单台处理不过来…

Discuz X3.2源码解析 discuz_application类(转自百度)

discuz_application在/source/class/discuz/discuz_application.php中。 discuz_application继承自抽象类discuz_base discuz_application主要实现对运行环境、配置、输入、输出、数据库、设置、用户、session、移动模块、计划任务、手机预览等方面的初始化。 instance()函数来…

.NET性能优化-是时候换个序列化协议了

计算机单机性能一直受到摩尔定律的约束,随着移动互联网的兴趣,单机性能不足的瓶颈越来越明显,制约着整个行业的发展。不过我们虽然不能无止境的纵向扩容系统,但是我们可以分布式、横向的扩容系统,这听起来非常的美好&a…

Kubernetes-基于Helm安装部署高可用的Redis

1、Redis简介 Redis是一个开放源代码(BSD许可证)的代理,其在内存中存储数据,可以代理数据库、缓存和消息。它支持字符串、散列、列表、集合和位图等数据结构。Redis 是一个高性能的key-value数据库, 它在很大程度改进了…

Vue 深度监听和初始绑定

vue的监听属性普通方式无法监听对象内部属性的改变,并且初始化时不会监听数据对象。 vue为监听属性提供了一种对象方法 watch: {option.size: {// handler为默认执行的方法handler (newValue, oldValue) {this.size newValue},// 立即执行handler方法…

markdown流程图画法小结

markdown流程图画法小结markdown画图流程图 最简单的流程图为例mermaid! graph TD A --> B //在没有(),[].{}等括号的情况之下,图标默认名字就是字母 A --> C C --> D B --> D 给图标添加名字,改变只有矩阵图形,在箭头上添加文字…

hihocoder 1689 - 推断大小关系(图论+二分)

题目链接 https://vjudge.net/problem/HihoCoder-1689有N个整数A1, A2, ... AN&#xff0c;现在我们知道M条关于这N个整数的信息。每条信息是&#xff1a;Ai < Aj 或者 Ai Aj 小Hi希望你能从第一条信息开始依次逐条处理这些信息。一旦能推断出A1和AN的大小关系就立即停止。…

32岁京东毕业程序员,走投无路当了外企外包,闲得心里发慌,到点下班浑身不自在!...

‍‍当一位京东程序员进入外企当外包会怎么样&#xff1f;顺利躺平&#xff0c;实现wlb&#xff08;工作生活平衡&#xff09;吗&#xff1f;未必&#xff0c;因为人是一种很奇怪的动物。这位网友说&#xff1a;32岁京东毕业程序员&#xff0c;找了几个月工作一直没有合适的&am…

SpringBoot+Shiro学习(四):Realm授权

上一节我们讲了自定义Realm中的认证&#xff08;doGetAuthenticationInfo&#xff09;&#xff0c;这节我们继续讲另一个方法doGetAuthorizationInfo授权 授权流程 流程如下&#xff1a; 首先调用Subject.isPermitted/hasRole接口&#xff0c;其会委托给SecurityManager&#x…

Git放弃文件修改

已提交 # 撤销提交&#xff0c;保留修改内容 git reset <commit_id># 撤销提交&#xff0c;不保留修改内容 git reset --hard <commit_id>已暂存文件 # 撤销单个文件暂存 git reset HEAD <filename># 撤销所有文件/文件夹暂存 git reset HEAD .已跟踪未暂存…

[LeetCode][Java] Unique Paths II

题目&#xff1a; Follow up for "Unique Paths": Now consider if some obstacles are added to the grids. How many unique paths would there be? An obstacle and empty space is marked as 1 and 0 respectively in the grid. For example, There is one obst…

lua windows下编译

从Lua5.1开始官方给出的文件只有源代码和makefile文件了&#xff0c;官网给出的bulid方式也是在linux平台&#xff0c;如果只是想找个库使用下可以到这里来下载&#xff1a;http://joedf.ahkscript.org/LuaBuilds/ &#xff0c;如果需要自定修改库配置的话&#xff0c;就需要自…

XAML 创建浏览器应用程序

XAML 创建浏览器应用程序XAML 创建浏览器应用程序作者&#xff1a;WPFDevelopersOrg - 驚鏵原文链接&#xff1a;https://learn.microsoft.com/zh-cn/dotnet/desktop/wpf/app-development/wpf-xaml-browser-applications-overview?viewnetframeworkdesktop-4.8框架使用.NET40&…

Git 合并分支选项 --squash 合并提交历史

git merge --squash <branchname>--squash选项的含义是&#xff1a;本地文件内容与不使用该选项的合并结果相同&#xff0c;但是不提交、不移动HEAD&#xff0c;因此需要一条额外的commit命令。其效果相当于将another分支上的多个commit合并成一个&#xff0c;放在当前分…

Kubernetes共享使用Ceph存储

目录 简要概述环境测试结果验证简要概述 Kubernetes pod 结合Ceph rbd块设备的使用&#xff0c;让Docker 数据存储在Ceph,重启Docker或k8s RC重新 调 度pod 不会引起数据来回迁移。 工作原理无非就是拿到ceph集群的key作为认证&#xff0c;远程rbdmap映射挂载使用。那么就要启用…

在Activity不可见时暂停WebView的语音播放,可见时继续播放之前的语音

private AudioManager mAudioManager;private AudioManager.OnAudioFocusChangeListener mFocusChangeListener; Override protected void onPause() {   super.onPause();   stopPlayVoice(); } Override protected void onResume() {   super.onResume();   startPla…

MFC界面库BCGControlBar v25.3新版亮点:Dialogs和Forms

2019独角兽企业重金招聘Python工程师标准>>> 亲爱的BCGSoft用户&#xff0c;我们非常高兴地宣布BCGControlBar Professional for MFC和BCGSuite for MFC v25.3正式发布&#xff01;新版本添加了对Visual Studio 2017的支持、增强对Windows 10的支持等。接下来几篇文…

基于 .NET 7 的 QUIC 实现 Echo 服务

前言随着今年6月份的 HTTP/3 协议的正式发布&#xff0c;它背后的网络传输协议 QUIC&#xff0c;凭借其高效的传输效率和多路并发的能力&#xff0c;也大概率会取代我们熟悉的使用了几十年的 TCP&#xff0c;成为互联网的下一代标准传输协议。在去年 .NET 6 发布的时候&#xf…