MySQL单表千万级数据查询优化大家怎么说(评论有亮点)

在这里插入图片描述

题图来自APOD

上次写了一篇MySQL优化实战的文章“MySQL千万级数据从190秒优化到1秒全过程”。

这篇文章主要还是在实战MySQL优化,所以从造数据到查询SQL优化SQL都没有业务或者其它依赖,优化的技巧也不涉及软件架构就是纯SQL优化。

由于笔者经验有限和篇幅限制没有展开讲很多细节,其中有很多争议的地方也在原帖进行了回复。

通过大家的讨论学习到很多东西。有句话在技术学习这块说的挺好,“一个人走的慢,一群人走的快”。通过讨论可以发现MySQL千万数据的全貌大概是怎样的。

以下enjoy~

千万数据的信息

原帖中实际产生的数据量有1500W行数据,以下基于此说明。

名称说明
行数1500W
磁盘大小字段少,接近2GB
单表查询时间查询快
关联查询时间查询很慢

《阿里巴巴Java开发手册》有这么一条规约:

【推荐】单表行数超过 500 万行或者单表容量超过 2GB,才推荐进行分库分表。
说明:如果预计三年后的数据量根本达不到这个级别,请不要在创建表时就分库分表。

千万级数据在互联网公司是推荐分表的。笔者从事的传统行业千万级的大表还是很常见的~

笔者由此得出“千万级数据对于MySQL来说就是不太合理的一个存在”,至于是否合理也是仁者见仁智者见智了~

怎么优化的

  • 怼索引
  • 怼覆盖索引
  • 小表驱动大表
  • 强制索引
  • 减少数据量

优化技巧中,其中有的有效、有的没效果。

尤其是很多优化技巧涉及到千万级才会出现,也就是隐藏技巧,比如强制索引。最实用的还是覆盖索引。

有些技巧只是提及没有实际操作。以后会按照这种方式展展开写,欢迎关注。

大家怎么说

反向逻辑的

方向操作主要就是反PUA了,虽然写的文章水平一般,但是这波方向操作我是佩服的~
虽然技术确实能实现需求,但常在职场主打的一个就是身心愉悦~

  • 软件层面优化不了,那就交给硬件,硬件层面优化不了,那就交给人力

  • 你记住代码和人有一个能跑就行

  • 老板说,优化不了代码我们就优化需求,优化不了需求我们就优化客户

  • 千辛万苦优化到1秒,领导来了一句:“谁让你这么改的?给我改回去!”

  • 哈哈哈,甲方还没提需求,你就给我优化了,谁给钱啊

  • 迟早都是Oracle收割的韭菜

  • 我有5亿钱包数据,怎么优化都打不到秒出!

反对的

这个意见没毛病,千万数据在MySQL也很常见。
但是笔者在阿里云做过验证,配置是8核心16G内存,同样的脚本在阿里云MYSQL中验证最少还是需要3s+
单机MYSQL千万数据看来确实是很多业务无法允许的瓶颈了~

  • 哈哈,需求从“统计每个用户的订单总额”,变成“统计某几个用户的订单总额”,你小子是懂优化的

  • 优化不了就改需求是吧?优化思路是不对的,最后输出结果都不一样了

  • 抛开需求谈设计就是耍流氓…

  • 最后一部分,真 到了一秒

  • 单表千万数据量没什么不合理的,一次group by出所有的用户不分页才不合理。

  • 那是你们家的mysql支持不了单表1000w。我们家的可以,而且速度还很好。

支持的

主打的就是实战优化技巧,希望多多输出学习输出实战才能闭环增长呢

  • 本身这种全量查询大量数据的需求就不合理,当然是要优化业务了

  • 虽然但是哈哈哈哈 但是你这个文章给出的SQL和存储过程都可以直接使用并且调试步骤都有,拿来试试玩玩涨涨操作知识也挺好的呀~ 支持~

技术类的

这部分讨论主要停留在技术层面,软件硬件优化还是有很多的,可以看出平台里面还是很多潜水大牛的~

  • 我记得mysql的join缓冲区,有个设置,调大点,join效率会有明显提升

  • 是的 但是一般都有自适应

  • 数据库级别优化本来就是有极限的,最终都得靠应用级别优化

  • 个人习惯先用小表驱动大表, 添加索引和减少数据量进行优化。因为覆盖索引添加了查询的列很多时候只优化了当下的查询,但如果有很多相类似的sql要查询就很容易创建越来越多列,查询时间又没有减少

  • 千万级的数据量得用分库分表,还要用缓存,光索引是没有用的,在想啥呢

  • mysql适合互联网科技服务的业务场景,就是用户只看自己的数据,联表业务场景不多的情况。要是来一个传统企业级数据场景就难搞了,比如银行流水数据,企业内部财务订单数据,几个千万级的大表级联就很慢很慢了,这时候还是推荐上oracle和sqlserver商业数据库了,再不济也得来个pg。免费mysql存储海量数据的代价是人员成本高,硬件授权虽贵,但现在开发人员工资也不低。

  • 之前测试过阿里云的mysql,8c16g ssd 配置,1.2亿条数据 查询 23 毫秒,感觉阿里云有点厉害

  • 同样的脚本在阿里云MYSQL中验证最少还是需要3s+~配置是8核心16G内存,单机MYSQL千万数据看来确实是很多业务无法允许的瓶颈了~

  • 首先,MySQL千万数据,在MySQL8.0以上的版本默认配置下轻松驾驭。除非你是7年以上的老服务器,或者是虚拟机,或者你本地点测试。分区优化后,2000万性能损失也不大。隔壁部门单表5000万了,还在叠加。另外,文章整体不错,点赞!还有,分表慎用,切勿只为数据分流而分表。

  • 还有物理配置也算一个

  • MySQL没碰到,二十多年前,在Oracle上遇到,新系统,全系统初始化库存的时候,同事写的脚本,要执行六个小时,调整了下,大概不到二十分钟。

他山之石

文章确实还有很多完善的地方,比如硬件配置是性能测试的基准没有体现出来。

MySQL千万数据究竟大吗?结论是大但不是天花板。

不是关系型数据库的天花板也不是软件优化的天花板。

但是怎么说,MySQL作为被Oracle收购的一个开源软件,更像是一个弃子一样,所以各大云服务厂商都优化和迭代了MySQL,性能好很多~

软件的分层设计很重要,缓存、软件、代理、持久化每个环节的综合设计可以让软件很能打,平摊各个环节的取舍也就降低了风险~

关于作者

来自一线全栈程序员nine的探索与实践,持续迭代中。

欢迎评论、点赞、收藏、关注。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/865956.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SQL Server和Oracle数据库的实时同步

数据同步在大数据应用中扮演着关键角色,它确保了数据的实时性和一致性,为数据分析和决策提供了重要支持。常见的数据同步方式包括ETL实时同步和实时ETL工具,后者可以基于日志追踪或触发器进行分类。不同的数据库系统针对实时同步也有各自的实…

数据采集技术:selenium/正则匹配/xpath/beautifulsoup爬虫实例

专栏介绍 1.专栏面向零基础或基础较差的机器学习入门的读者朋友,旨在利用实际代码案例和通俗化文字说明,使读者朋友快速上手机器学习及其相关知识体系。 2.专栏内容上包括数据采集、数据读写、数据预处理、分类\回归\聚类算法、可视化等技术。 3.需要强…

电影解说 剪辑实战带货全新蓝海市场,电影解说实战课程(16节)

课程目录 1-影视解说自媒体带货新玩法_1.mp4 2-影视解说选品及解说规范标准_1.mp4 3-电影解说的脚本模版及流程_1.mp4 4-电影解说编写文案及爆火规律_1.mp4 5-手把手教你影视素材哪里找_1.mp4 6-影视解说剪辑、配音及创收方式_1.mp4 7-电影解说剪辑的实操课程A_1.mp4 8…

关于Ubuntu系统中.config文件夹如何找到

Ubuntu中QT项目使用了setting保存配置,但是找不到配置文件保存了在哪里,找了一下: 因为QT里取的名字是: 于是下载everything搜索Nio,发现目录为/home/nio/.config 虽然已经下载了everything找到了,但是发现…

fyne常用内置颜色

常用内置颜色 在theme包里有一个关于颜色的color.go 常用颜色如下: theme.PrimaryColor() theme.WarningColor() theme.SuccessColor() theme.ErrorColor() theme.ShadowColor() theme.HyperlinkColor()最终这些会返回color.Color接口。 效果图: theme.HyperlinkColor()和t…

VTK- 面绘制体绘制

在VTK中,面绘制(Surface Rendering)和体绘制(Volume Rendering)是两种常见的三维数据可视化方法。面绘制和体绘制是计算机图形学中用于三维数据可视化的重要技术,尤其在医学成像、科学可视化和计算机辅助设…

Android广播机制

简介 某个网络的IP范围是192.168.0.XXX,子网 掩码是255.255.255.0,那么这个网络的广播地址就是192.168.0.255。广播数据包会被发送到同一 网络上的所有端口,这样在该网络中的每台主机都将会收到这条广播。为了便于进行系统级别的消息通知&…

游戏行业情报 | 手机玩3A终是空想?iOS版3A大作销量滑铁卢

2023年9月的苹果发布会上,苹果宣布iPhone15 Pro系列首发配备的A17 Pro芯片将能够支持3A游戏的游玩,随着该系列设备的发布,《生化危机 4》、《生化危机:村庄》、《死亡搁浅》和《刺客信条:幻景》等大作先后登陆iOS平台。…

Qt 使用 QZipReader 解压文件

Qt 使用 QZipReader 解压文件 文章目录 Qt 使用 QZipReader 解压文件摘要关于 QZipReader使用 QZipReader代码解释: 快速解 extractAll 关键字: Qt、 QZipReader、 extractAll、 Zip、 解压缩 摘要 每日一坑,坑坑难过,今日在…

2024年度 | 推荐PC端时间规划、项目管理软件(最新)

PingCode:适用于IT团队的项目/任务管理。 https://pingcode.com/ Worktile:团队通用的任务规划工具。 https://worktile.com/ Todoist:个人任务管理工具,支持跨平台同步。 Todoist | 管理您工作和生活的To Do List Pomodoro Ti…

Android选择题界面的设计——线性布局实操

目录 任务目标任务分析任务实施 任务目标 使用TextView、Button、CheckBox等实现一个选择题界面,界面如图1所示。 图1 选择题界面效果图 任务分析 上述界面可以分解为上下两部分,上面部分可以使用横向的线性布局来完成,下面部分可以使用…

独家带你get懂印尼直播工具APP借助海外快手kwai短视频广告推广优势

独家带你get懂印尼直播工具APP借助海外快手kwai短视频广告推广优势 随着全球互联网的迅猛发展和移动互联网的普及,广告投放已经成为企业扩大品牌影响力、获取潜在客户的重要手段之一。在印尼这一充满活力的市场中,直播工具APP的广告投放尤为关键。海外快…

快速了解 | 企业代码签名证书怎么弄

企业代码签名证书是用于签名软件、驱动程序、代码库等的数字证书,它能够保证软件的完整性和来源的真实性,从而提升用户对软件的信任度,消除电脑系统对于“未知发布者”软件的安装拦截和弹窗警告,消除微软的SmartScreen提醒。 1、…

ArmPiPro-多人同时开发

V0.0 2024.07.04 ROS节点间的通信是分布式的,也就是节点可以运行在不同的”主机“上,这些主机包括安装在机器人上的主控(Pi4)、通过串口连接PI4的烧写有Serialros的MCU从控、负责视觉开发的VM1、负责移动的VM2、负责机械臂的VM3都…

【自适应滤波系列四】回声消除(Acoustic Echo Cancellation, AEC)信号模型及其本质

什么是回声 关于回声的产生与传播,凌逆战(https://www.cnblogs.com/LXP-Never)大佬在其博客中阐述得很详细,可以去看他的博客,下面部分图片来源于其博客 回声就是声音信号经过一系列反射之后,又听到了自己讲话的声音,这就是回声。一些回声是必要的,比如剧院里的音乐回声…

海豚调度监控:新增依赖缺失巡检,上游改动再也不用担心了!

💡 本系列文章是 DolphinScheduler 由浅入深的教程,涵盖搭建、二开迭代、核心原理解读、运维和管理等一系列内容。适用于想对 DolphinScheduler了解或想要加深理解的读者。 祝开卷有益:) 用过 DolphinScheduler 的小伙伴应该都知道,Dolphin…

代理IP和VPN有什么区别?该怎么选择?

今天我们来聊聊很多人关心的一个问题——代理IP和VPN到底有什么区别?虽然它们听起来差不多,但其实有很大的不同。这篇文章,小编就带大家一起了解一下吧! 什么是代理IP? 代理IP是一种通过代理服务器替换用户真实IP地址…

第3章.中央服务器的物联网模式--AI/ML集成

第3章.中央服务器的物联网模式 本章列出了由于存储和/或计算需求而部署在中央服务器上以及部署在边缘(本地)或云上的体系结构模式。 这些模式基于现场设备生成的数据提供见解,使用附加数据(来自附加系统,如企业系统&am…

【数据结构】建堆的时间复杂度

一.向下调整建堆 1.二叉树层数与总节点个数关系 层数一定时,在二叉树节点个数最大的情况下,二叉树为满二叉树,如下图所示,可以清晰地看到在满二叉树中第h层有2^(h-1)个节点,总节点N就等于一个等比数列的求和&#xf…

6.基于SpringBoot的SSMP整合案例-业务层开发

目录 1.业务层标准开发 1.1接口定义 1.2实现类定义 1.3测试类定义 1.4小结: 2.业务层快速开发 2.1使用MyBatisP1us提供有业务层通用接口(ISerivce)与业务层通用实现类(ServiceImpl),t> 接口定义: 实现类定义: 测试类: …