TiDB in 2023, 一次简单的回顾丨PingCAP 唐刘

2023 年已经过去,TiDB 经过了一年的迭代,又往前进步了一点点,我们非常自豪的看到,TiDB 正在不断地帮助我们的客户成功,包括但不限于:

○ 首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

○ 国产数据库的珠穆朗玛峰,到底在哪里?

○ Scaling TiDB To 1 Million QPS ( https://blog.flipkart.tech/scaling-tidb-to-1-million-qps-d556aa6a16ef )

○ ……

要取得上面的成绩并不容易,在 2023 年我们也经历了很多,下面,我会简单的梳理回顾下,我们在 2023 年一些有意思的事情。

TiDB 6.5

在 2022 年的年底,我们发布 了 TiDB 6.5 LTS 版本, 这个版本我是非常期待的。实际结果来看,到 2023 年截止,TiDB 6.5 已经逐渐成为客户最重度的使用版本。

在 TiDB 6.5 之前,用户高频吐槽我们的一个问题就是 - 有时候来了一个大查询,直接把 TiDB Server 给弄 OOM 了,这样影响了一批其他的请求。所以我们在 TiDB 6.5 重点解决了 OOM 问题,结果也是很令人满意的,下图是我们实际在 TiDB Cloud 上面客户集群的报警情况,可以看到,TiDB OOM 的问题下降的非常明显。

不光在 TiDB Cloud 上面,我自己也从客户那边得到了非常多的直接反馈。 除了 OOM 问题的缓解,在 TiDB 6.5 里面,我们还重点的优化了 DDL 的速度,增强了优化器的能力等等。 所以在 2023 年一开始,我是信心满满的,觉得 TiDB 6.5 版本已经很不错。 现在想想,我那时候真的太天真了。

『不错』这个 flag 立了之后,立刻被打脸。TiDB 6.5 解决了不少之前客户遗留的问题,不过当客户开始更大规模使用 TiDB, 把 TiDB 用到更 critical 或者更复杂的场景的时候,新的问题又来了。

TiDB 7.1

在 2023 年有一段时间,我一般见到做数据库的朋友,都会问他们一个看起来比较好玩的问题,『你的客户有试过一次性导入一张 50TB 大小的单表吗?』如果是做 TP 数据库的朋友,通常会来一句『哪有这样的场景?』

嗯,我本来也以为,『哪有这样的场景?』,直到我们一个北美的客户真的进行了这样的操作。他们在 4 月份的时候开启了一次单表 50TB 的导入操作,开始的结果是悲催的 - 无论客户怎么操作,导入都遇到各种各样的问题,包括但不限于数据倾斜打满了一台 TiKV 的磁盘,PD 在 scatter region 的时候太慢导致的导入 timeout 等。本来我们希望帮助客户去操作导入,这样我们遇到问题之后能直接修复,然后继续,不过这个提议被客户直接拒绝,因为他们就是要自己亲自验证,能一次性的导入成功。

随着客户多次导入失败,客户生气的放下狠话,如果一周后还搞不定,那么就不用 TiDB 了。压力到了我们这边,我们开始了几乎连轴转的导入增强工作,终于在一周后,客户直接一次性的单表 50TB 数据导入成功。

这一次的导入优化经历,让我们学习到了很多,如果有机会后面可以再开文章详细说明。当然也有很大的收获,在北美这个客户导入成功一周以后,我们日本的一个客户进行了单表 100TB 的数据导入,结果当然是非常振奋人心的。

挑战还不仅仅限于此,又是北美的一个重要客户,他们将他们自己非常核心的一个元信息管理的业务放到了 TiDB 上面,然后这个业务大部分时候都只是涉及到 meta 的简单操作,属于 TP workload,不过也有不少的时候,他们需要直接进行一些轻量级的复杂查询,而且明确要求了当这样的复杂查询过来的时候,几乎完全不能影响他们的 TP workload。这个在 TiDB 6.5 还是比较有挑战的。而不光是这个客户,我们也发现,越来越多的客户将多个负载跑在一个 TiDB 集群,负载之间的隔离就变得尤其重要。于是我们跟这个客户一起开始了 resource control 的开发,也取得了非常不错的效果。

上面只是分 享了 TiDB 7.1 LTS 两个功 能的开发经历,我们也非常欣喜的看到,这些功能都得到了客户非常积极正向的反馈。也坚定了我们 - 聚焦样板客户的业务场景,不断打磨 TiDB,支持好这些业务场景,复制到其他客户,助力客户成功。

TiDB 7.5

随着越来越多的客户将 TiDB 用在非常核心的系统上面,在发布 TiDB 7.1 之后,我们决定,在 TiDB 7.5 LTS 版本,我们将专注于产品质量的提升。产品质量是一个很大的话题,这里仅仅列一些我们做的一点工作。

我们认为,要控制版本质量,一个非常朴素的逻辑就是少做 feature,当然我们不可能不做 feature,所以这一定是基于我们当前团队带宽的一个平衡和折中。下面是我们大概统计的不同 LTS 版本开发的 feature 个数,可以明显的看到,趋势是明显减少的。因为做的 feature 少,多出来的带宽我们就用到更多的质量加固的工作上面,所以我非常有理由相信,我们的 TiDB 的质量会越来越好。

减少 feature 个数对于研发工程师来说是一个极大的挑战,因为在很多研发的脑子里面,还是固有的认为我要通过做更多的 feature 来拿到更好的绩效,以及晋升。所以在 2023,我们花了大量的时间来解释为啥我们要控制 feature 个数,加固质量等,而且也会在绩效上面对相关工作的同学进行了倾斜。

这里大家可能会有另一个疑惑,就是我们 feature 做的少,产品的竞争力是不是就不行了?之前我也是这样的认为,不过后来我发现,我自己做为程序员也一样,我们太容易低估业务的复杂度,而高估自己的技术能力,所以总认为自己能开发很多 feature。不过后来我认识到,与其开发 10 个半吊子的 feature,真的还不如好好的开发 5 个或者更少的开箱即用的 feature,这样给客户的感受会更好。这也是我们后面会持续努力的目标。

譬如在 7.5 里面,我们花了大量的经历仍然去完善和优化 resource control,譬如我们引入了 runaway query 机制,给用户提供了对于 heavy query 的控制机制,更好的防止了一些突发 heavy query 引起的 TP 业务抖动问题,效果如下:

除了控制 feature 的个数,我们还致力于提升我们自己的测试效率,2023 年一个非常大的工作就是将很多写在 unit test 文件里面的 integration tests 挪出去,让 UT 真的变成 UT,详细见这个 issue - Split integration tests(IT) and unit tests(UT) in TiDB repo ( https://github.com/pingcap/tidb/issues/45961 )。这个工作非常的重要,在没开始之前,如果我们在本地单纯的跑 TiDB 的 UT 测试,不出意外,大概率会跑挂,即使通过,耗时也接近 50 分钟,而这个工作开始一段时间之后,我们当前跑完 UT 只需要 15 分钟(后面还会继续优化),这个对于我们自身的测试效率是一个极大的提升,当效率提升之后,我们就能有更多的时间写代码,加测试了。

这里仅仅只是简单的列了一些我们在质量上面做的事情,如果后面有机会,我可以专门写一篇文章讲讲 2023 年 TiDB 在质量上面做的工作。坦白的说,直到现在,我也没找到一系列很好的指标来评估我们发出去的一个版本质量到底好不好,无论我们做了多少的测试,我总认为是不够的。

小结

上面就是 TiDB 2023 的一个简单的回顾了,我们在 2023 年真的取得了许多非常不错的成绩。总结来说,就是我们发布了一个不错的产品,以及明确了以稳定性为基础的研发策略。回顾 2023,我们也有不少做错的地方,也走了一些弯路,这个有机会,后面再重新开一个新坑,讲讲『那些年我们开发 TiDB 所踩过的坑 :-) 』。

对于 2024 年,在 TiDB 上面,我们也会非常聚焦,首先仍然会以稳定性为基础,在这个基础上面,我们会投入带宽来改进 TiDB 的可观测性以及提升一些场景下面的性能,具体的大家可以关注我们 TiDB 的 roadmap,我们会定期的刷新。

在 2023 年,我们在 cloud 上面也取得了不错的进展,在后面一篇文章中,我就会来讲讲 “TiDB Cloud in 2023”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/684787.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

找负环(图论基础)

文章目录 负环spfa找负环方法一方法二实际效果 负环 环内路径上的权值和为负。 spfa找负环 两种基本的方法 统计每一个点的入队次数,如果一个点入队了n次,则说明存在负环统计当前每个点中的最短路中所包含的边数,如果当前某个点的最短路所…

pytest教程-10-allue2生成html报告

领取资料,咨询答疑,请➕wei: June__Go 上一小节我们学习了pytest-html生成html报告的方法,本小节我们讲解一下使用allue2生成html报告。 自动化测试执行完成后我们需要展示给其他人看,这就要有自动化测试报告了。复杂的测试报告…

关于DVWA靶场Command Injection(命令注入)乱码的解决方案

乱码如下图: 出现乱码一般都是编码方式的问题,我们只需要对其换一种编码方式输出即可 靶场在 WWW 目录下,在靶场所在路径下有一个 dvwa 文件夹 进入之后找到 includes 文件夹 进入找到文件 dvwaPage.inc.php 右键,使用记事本打开…

C# CAD交互界面-自定义面板集-查找定位(六)

运行环境 vs2022 c# cad2016 调试成功 一、代码说明 1. 类成员变量声明&#xff1a; List<ObjectId> objectIds new List<ObjectId>(); // 用于存储AutoCAD实体对象的ObjectId列表 private static Autodesk.AutoCAD.Windows.PaletteSet _ps2; // 自定义浮动面板…

我的NPI项目之Android USB 系列(一) - USB的发展历史

设计目的 USB was designed to standardize the connection of peripherals to personal computers, both to exchange data and to supply electric power. 一个是为了标准化电脑连接外设的方法。 能够支持电脑和外设的数据交互和&#xff08;对外&#xff09;供电。 目前已…

【游戏开发各岗位的优势和劣势】

游戏开发各岗位的优势和劣势 在这个充满创意和技术的时代&#xff0c;游戏行业成为众多创新人才追求梦想的热土。对于那些准备踏入这个充满挑战与机遇的领域的新人来说&#xff0c;了解游戏开发的各个岗位及其独特性是至关重要的。游戏程序员、美术设计师和游戏策划——这三个…

【Docker】Docker Container操作案例 | 综合实战

文章目录 Docker Container操作案例容器的基本操作容器状态迁移容器批量处理技巧容器交互模式attached模式detached模式interactive模式 容器与宿主机内容复制容器自动删除容器自动重启容器环境变量设置容器详情查看容器执行单行命令容器镜像导入导出容器日志查看容器资源查看 …

【牛客面试必刷TOP101】Day22.BM16 删除有序链表中重复的元素-II和BM21 旋转数组的最小数字

作者简介&#xff1a;大家好&#xff0c;我是未央&#xff1b; 博客首页&#xff1a;未央.303 系列专栏&#xff1a;牛客面试必刷TOP101 每日一句&#xff1a;人的一生&#xff0c;可以有所作为的时机只有一次&#xff0c;那就是现在&#xff01;&#xff01;&#xff01;&…

c++之function和bind详解-SurfaceFlinger学习必备语法基础

背景 C中的function和bind是为了更方便地进行函数对象的封装和调用而设计的&#xff0c;在SurfaceFlinger源码中也是有很多使用部分。 比如分析Vsync相关源码时候有相关回调时候 可以看到这里的mRegistration就有个参数是 std::bind,怎么这里就可以进行回调呢&#xff1f; 所…

HTB pwn Evil Corp

程序分析 初始化功能 申请了一块正常块和一块可以执行shellcode的空间 登录 向正常块写入数据 字符宽度转换 漏洞分析 所有的输入都使用了fgetws函数这个函数,这个函数会把整个串的每一个字符按最低两个宽来接收输入,如果存在unicode32等等更宽的字符这个函数会把每个字符都…

蓝桥杯:C++二分算法

在基本算法中&#xff0c;二分法的应用非常广泛&#xff0c;它是一种思路简单、编程容易、效率极高的算法。蓝桥杯软件类大赛中需要应用二分法的题目很常见。 二分法有整数二分和实数二分两种应用场景 二分法的概念 二分法的概念很简单&#xff0c;每次把搜索范围缩小为上一…

AJAX——AJAX入门

1 什么是AJAX&#xff1f; Ajax&#xff08;Asynchronous JavaScript and XML&#xff09;是一种用于在Web应用程序中实现异步通信的技术。 简单点说&#xff0c;就是使用XMLHttpRequest对象与服务器通信。它可以使用JSON、XML、HTML和test文本等格式发送和接收数据。 AJAX最吸…

【深入理解BEVFormer】BEVFormer

任务场景 多模态融合和多传感器融合 BEV&#xff1a;鸟瞰图 这个特征空间与每个视角都相关 早期是用后融合&#xff0c;目前比较流行的是特征级融合 自身运动补偿&#xff1a;如果按照像素点进行特征对齐&#xff0c;需要指定偏移量 x y两个方向 特征空间是自己定义的&#xf…

NumPyML 源码解析(五)

numpy-ml\numpy_ml\preprocessing\nlp.py # 导入必要的库和模块 import re import heapq import os.path as op from collections import Counter, OrderedDict, defaultdict import numpy as np# 定义英文停用词列表&#xff0c;来源于"Glasgow Information Retrieval G…

NBlog个人博客部署过程记录 -- 后端springboot + 前端vue

项目是fork的Naccl大佬NBlog项目&#xff0c;页面做的相当漂亮&#xff0c;所以选择了这个。可以参考2.3的效果图 惭愧&#xff0c;工作两年了也每个自己的博客系统&#xff0c;趁着过年时间&#xff0c;开始搭建一下. NBlog原项目的github链接&#xff1a;Naccl/NBlog: &#…

毕业设计vue+php幼儿园网站系统yl567

幼儿园网站系统。采用vscode集成IDE对幼儿园网站系统统进行开发,整合系统的各个模块。 拟开发的幼儿园网站系统通过测试,确保在最大负载的情况下稳定运转,各个模块工作正常,具有较高的可用性。系统整体界面简洁美观,用户使用简单,满足用户需要。在因特网发展迅猛的当今社会,幼儿…

【计算机网络】网络层之IP协议

文章目录 1.基本概念2.协议头格式3.网段划分4.特殊的IP地址5.IP地址的数量限制6.私有IP地址和公网IP地址7.路由 1.基本概念 IP地址是定位主机的&#xff0c;具有一个将数据报从A主机跨网络可靠的送到B主机的能力。 但是有能力就一定能做到吗&#xff0c;只能说有很大的概率。…

[职场] 事业单位医疗岗常见的面试题目 #微信#微信#微信

事业单位医疗岗常见的面试题目 面试是步入社会以及就业过程中必须经历的一个首要阶段&#xff0c;也是实现就业必经的之道&#xff0c;可以说面试是双向选择和考试考核评价的过程&#xff0c;是企业选择应聘者的同时也应聘者也在选择企业。 一.常见的面试题目 1.对医学基础知…

计网体系结构

计算机网络的概述 概念 网络&#xff1a;网状类的东西或系统。 计算机网络&#xff1a;是一个将分散的、具有独立性功能的计算机系统&#xff0c;通过通信设备与线路连接起来&#xff0c;由功能完善的软件实现资源共享和信息传递的系统。即计算机网络是互连(通过通信链路互连…

C/C++中的max函数如何使用?哪个头文件?多个数字可以用max吗?

在C中&#xff0c;max函数是一个非常实用的函数&#xff0c;它用于比较两个或更多数值并返回其中的最大值。这个函数在头文件中定义。 下面是如何在C中使用max函数的一些示例&#xff1a; #include <iostream> #include <algorithm> // 引入algorithm头文件以使…