蚂蚁金服OceanBase挑战TPCC丨TPC-C基准测试之链路层优化

导语

在 TPC-C 标准定义中,测试系统分为 RTE(Remote Terminal Emulator)和 SUT 两部分。在实际的 TPC-C 测试流程中,不只是对 DB 端能力的考验,对链路中的所有组件都存在极大的资源消耗和压力。以这次 6088万 tpmC 测试结果看,我们一共在 64 台 64C128G 的云服务器上运行了 960 个 RTE 客户端,来模拟总计 47942400 个用户 Terminal,最后还需要基于这么多 RTE 统计结果进行一致性和持久化审计验证。而 SUT 又拆分为三部分:WAS(Web Application Server) 、OceanBase Proxy(OBProxy) 和 OceanBaseServer(OBServer)。RTE 的请求到 WAS,然后 WAS 通过 OceanBase 客户端来访问 OBProxy,OBProxy 会将请求转发到后端 OceanBase 集群中最佳的 ObServer 去执行请求。WAS 和 OBProxy 是 RTE 和 OBServer 之间的桥梁,这个桥梁对于承载压力起着至关重要的作用。本次TPC-C 基准测试中,OceanBase 访问链路上主要涉及两个组件:

ODBC接口及驱动
TPC-C 测试中,WAS请求 OceanBase 采用了 ODBC 接口。ODBC(Open Database Connectivity)是 Microsoft 提出的数据访问规范,ODBC 在大多数 DBMS 上都可以使用,OceanBase 也提供了 ODBC 接口访问能力。感兴趣的用户可以查阅 ODBC API说明 快速上手使用,使用 ODBC 的用户可以直接使用该接口无缝迁移的访问 OceanBase。ODBC 接口及驱动集成到 WAS 内部,作为请求 OceanBase 的客户端。

OBProxy代理
OceanBase 实现了OBProxy 代理服务器来解决数据库链路上的路由及容灾问题。OBProxy 会感知数据副本地址和分区规则,不参与 SQL 引擎参与执行计划的生成调度,主要负责 SQL 路由和转发。这种架构设计中,OBProxy 承担了基础的路由和容灾功能,而数据库的功能全部交由 ObServer 实现。这样更加简单明确的分工可以各组件性能做的更加极致,OBProxy 也做到了完全无状态,只需要添加节点即可实现代理能力的水平扩容,OceanBase整体也能做到数据库的最高性能。


TPC-C 基准 OceanBase 链路访问图

TPC-C 是一个非常严苛的基准测试模型,考验的是一个完备的关系数据库系统全链路的能力,任何一个环节有瓶颈均无法发挥数据库的最大性能,接下来本文会分别在性能、成本及服务持续三个方面来说明下是如何优化 OceanBase 链路上的组件。

链路性能优化

在 蚂蚁金服OceanBase挑战TPCC | TPC-C基准测试之SQL优化 已经提到,从整个链路的角度来看,SQL 所需要的执行时间是非常短暂的,大量时间花费在与客户端的交互过程中,造成资源的浪费和耗时的增加,为此 OBServer提供 Prepared Statement、存储过程和 ARRAY BINDING 能力。客户端和 OBProxy 针对该能力进行支持以使其真正发挥作用。同时客户端本身也进行一些优化提升链路性能,接下来主要介绍链路性能部分的优化点:

提供异步接口能力
通常使用数据库访问都是同步接口,同步接口开发方便,但客户端受网络交互耗时影响大,并发能力受到限制。使用多线程的方式可以帮助提升并发能力,但机器的线程资源是宝贵的,过多的线程会增加机器线程切换的开销,限制了并发能力。为使 WAS 可以达到更高的吞吐能力,我们基于事件驱动机制在 ODBC 接口内增加异步接口的支持。使用异步接口,WAS 单个线程内可以在发送请求后无需等待执行结果继续在其他 Session 上发送请求,通过充分使用线程资源从而大幅提升吞吐能力。异步接口本身参考 ODBC 接口规范,用户调用异步接口会立即返回,如果尚未执行完成则返回SQL_STILL_EXECUTING,用户可以轮询接口直到执行完成返回成功(SQL_SUCCESS)或者失败(SQL_ERROR),也可以基于网络事件驱动,在有结果返回时再次调用接口获取结果。使用异步接口,可以在少量线程资源下轻松支持大量的并发连接,极大的提升了 WAS 的并发能力,机器资源的利用率也得到提升,大幅降低压测成本。

提供 Prepared Statement 能力
PreparedStatement 是一种二进制的请求交互协议,一次 PSSQL 文本传输,多次执行,OBProxy SQL 引擎会缓存 PS SQL 文本以及解析结果,每条 PS SQL 只需要执行一次 Prepare 操作,后续所有 Session 上的每次执行只需要传入对应的 Statement Id,就可以从缓存中找到对应的 SQL 解析结果,结合传入的参数,可以很快的计算出 OBServer 的路由信息,转发性能更为高效。同时,作为代理层的 OBProxy 也很好的支持了 OBServer 的分布式特性,当 Client Session 需要切换 Server Session 时,无需再次发送 PS SQL 和 Execute 阶段时的类型数据,OBProxy 可以自行判断并决定是否需要同步 PS SQL 或加上类型数据。通过 Prepared Statement 能力,可以有效减低系统间的交互成本,提升性能,相比普通 SQL 文本的交互方式,省去了大量 SQL 文本的传输以及请求文本解析的 CPU 开销。

存储过程
对于存储过程,OBProxy 做了大量优化,存储过程通常包含多条 SQL,不同 SQL 通常需要路由到不同 OBServer 上执行,产生大量远程执行。远程执行不仅会增加 RT,也会占用更多的 CPU 资源,因此,OBProxy 的 SQL 引擎会解析存储过程中的 SQL,计算最优策略,将存储过程调用发往最合适的 OBServer 上执行,尽可能的减少远程执行次数。OBProxy 也会缓存存储过程的解析结果和路由信息,用以省去每次硬解析带来的 CPU 开销。

复杂类型
我们在 OceanBase 原有传输协议上重新做了扩展,使得整个链路支持复杂类型的传输。同时,OBProxy新增了复杂数据类型的解析,能够根据复杂类型数据来计算路由和分区裁剪。通过支持复杂类型,可以提高每次传输携带的数据信息,有效减少交互次数,也能够根据复杂类型的数据计算最佳路由策略,尽可能的路由到分区更多的 OBServer 上,减少远程执行次数。正是有了 OBProxy 对于数组等复杂类型的支持,才使得客户端可以更好的使用存储过程和 ARRAY BINDING 的能力。

代理资源占用

OBProxy 代理采用多线程异步框架和透明流式转发的设计,保证了数据的高性能转发(单核 5 万 QPS、转发 RT 30~50us),以及自身对机器资源的最小消耗。在 TPC-C 基准测试中,我们也采用了本地的形式部署到 WAS 端,这样可以最大程度的的减少客户端到代理层的网络开销。在本次测试中,OBProxy代理层部署到 64 台客户端机器上,每台机器上使用到了 10 个 Core,一共占用 640 Cores,仅占整体 CPU 测试成本的 7% 左右,几乎没有使用存储资源,资源占用比例小且支持水平扩容。

持续服务能力

OceanBase 提供了高可用的数据库服务,在出现机器不可用的场景下,不需要有任何人工干预数据库依然能够持续提供服务,在本次 TPC-C 做 Durability 测试强制断电操作中,OceanBase 就表现出无人工干预下的数据库持续服务的能力,大大超出审计员的期望。

OceanBase 针对强制断电这种单机故障场景,OBProxy 有包含黑名单和灰名单两种机制,用于处理 OBServer错峰合并、升级、宕机、启动/停止,网络分区等状态。黑名单采取定期刷新维护,由 OBServer 反馈哪些服务器节点不能提供服务。灰名单则采取主动触发维护,当 OBProxy 转发请求给 OBServer,如果发现 OBServer 返回特定的系统错误,或者 OBServer 在一段时间内有多次连续不可用,则将该 OBServer 加入灰名单。黑名单中的 OBServer 不会被访问,灰名单中的 OBServer 每隔一段时间会重试一次,检查是否需要洗白,以避免长时间将OBServer 降级。通过 OceanBase 这样的机制,能够保障 TPC-C Durability 测试过程中的数据库持续服务能力。

总结

OceanBase 链路层为客户提供了端到端的完整解决方案,其自研的传输协议能够非常灵活的支持 SQL 特性和交互协议,实现了标准的数据库访问接口并支持 Oracle 兼容模式,可以达到数据库的易用性、高性能、服务持续的最大平衡。后续会持续优化传输协议以达到最高的传输及交互效率,完善数据库访问标准接口,为用户提供一个更为成熟的数据库服务。


原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/517698.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

由于找不到msvcp140.dll无法继续执行代码

下载安装微软常用运行库合集即可解决 https://www.cr173.com/soft/106037.html

知己知彼,百战百胜!如何做好干系人管理

作者|章冀灶(晟远) 出品|阿里巴巴新零售淘系技术部 众所周知,高效的沟通是项目成败重要的影响因素。沟通在项目管理过程中扮演了极其重要的作用,而沟通对象又是完整的基于项目干系人,所以在项目管理过程中干系人管理就显得尤为重要&#xff…

彻底弄懂为什么不能把栈上分配的数组(字符串)作为返回值

背景 最近准备一个教程&#xff0c;案例的过程中准备了如下代码碎片&#xff0c;演示解析http scheme #include <stdio.h> #include <stdlib.h> #include <string.h>char *parse_scheme(const char *url) {char *p strstr(url,"://");return st…

健壮F.T.+新裸金属重磅发布!全新升级版ZStack加速新基建!

6月2日&#xff0c;以“健壮F.T.新裸金属 新基建下的新IaaS”为主题的2020年ZStack新品线上超级发布会引爆了企业级云市场。面向新基建发展契机&#xff0c;致力于普惠云计算的ZStack与英特尔、阿里云等伙伴强势携手发布2大重磅新品&#xff1a;首个采用了F.T.技术的ZStack Min…

使用datax同步cassandra数据

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台&#xff0c;实现各种异构数据源之间高效的数据同步功能。最近&#xff0c;阿里云cassandra团队为datax提供了cassandra读写插件&#xff0c;进一步丰富了datax支持的数据源&#xff0c;可以很方便实现cassandra之间以…

整理了一份 Docker系统知识,从安装到熟练操作看这篇就够了 | 原力计划

作者 | IronmanJay责编 | 王晓曼出品 | CSDN博客Docker 基础介绍下图为 Docker 图标&#xff08;是一个鲸鱼上面是集装箱&#xff09;。1、我们为什么要使用Docker当我们在工作中&#xff0c;一款产品从开发设计到上线运行&#xff0c;其中需要开发人员和运维工程师&#xff0c…

阿里巴巴的云原生与开发者

摘要&#xff1a;利用云原生技术构建应用简便快捷&#xff0c;部署应用轻松自如&#xff0c;运行应用按需伸缩。如今&#xff0c;云原生已经成为下一代技术发展的趋势。在 2019 杭州云栖大会开发者峰会上&#xff0c;阿里巴巴资深技术专家李响就为大家分享了阿里巴巴的云原生技…

(企业案例)使用Nacos持久化规则,改造sentinel-dashboard

文章目录一、前言1. 版本选取2. 克隆代码3. 导入 IDEA二、全局修改2.1. 修改 POM2.2. 修改配置文件三、后端代码修改3.1. 包结构部分3.2. nacos 配置文件四、创建规则与 Nacos 交互类4.1. 创建授权规则与 Nacos 交互类4.2. 创建降级规则与 Nacos 交互类4.3. 创建流控规则与 Nac…

如何基于 Nacos 和 Sentinel ,实现灰度路由和流量防护一体化

Nepxion Discovery框架在实现灰度发布和路由功能前提下&#xff0c;结合Nacos和Sentinel&#xff0c;对流量再实施一层防护措施&#xff0c;更能达到企业级的流量安全控制的目的。它的功能包括&#xff1a; 封装远程配置中心和本地规则文件的读取逻辑&#xff0c;即优先读取远…

神操作!一行Python代码搞定一款游戏?给力!

来源&#xff1a;pypl编程榜一直以来Python长期霸占编程语言排行榜前三位&#xff0c;其简洁&#xff0c;功能强大的特性使越来越多的小伙伴开始学习Python 。甚至K12的同学都开始学习Python 编程。新手入门的时候趣味性其实最重要的。那么一行Python 代码到底能玩出什么花样&a…

详解阿里云数据中台,一篇文章全面了解大数据“网红”

一直想写一篇关于数据中台正面文章&#xff0c;现在有闲时做些总结&#xff0c;想充分诠释一下DT内部人如何看待数据中台。 数据中台的概念是最早由阿里巴巴首次提出&#xff0c;是为了应对内部众多业务部门千变万化的数据需求和高速时效性的要求而成长起来的&#xff0c;它既要…

云原生时代,蚂蚁金服公开了新的金融混合云架构

蚂蚁金服在过去十五年重塑支付改变生活&#xff0c;为全球超过十二亿人提供服务&#xff0c;这些背后离不开技术的支撑。在 2019 杭州云栖大会上&#xff0c;蚂蚁金服将十五年来的技术沉淀&#xff0c;以及面向未来的金融技术创新和参会者分享。我们将其中的优秀演讲整理成文并…

Python 薪资降温?不存在的

当你学习编程时&#xff0c;最先被困扰在哪一步&#xff1f;是不是很容易陷入在语法之类的细节而忽视基础概念&#xff1f;解决当前任务的最佳方法是什么&#xff1f;在多种编程语言之间来回切换&#xff0c;却感觉不到效率的提高&#xff1f;0 基础学习编程&#xff0c;最先入…

隐私与AI兼得,蚂蚁金服是如何做到的?

蚂蚁金服在过去十五年重塑支付改变生活&#xff0c;为全球超过十二亿人提供服务&#xff0c;这些背后离不开技术的支撑。在 2019 杭州云栖大会上&#xff0c;蚂蚁金服将十五年来的技术沉淀&#xff0c;以及面向未来的金融技术创新和参会者分享。我们将其中的优秀演讲整理成文并…

Nacos配置中心规范

文章目录一、版本选取和概念理解1. 版本选择2.Namespace3. 如何进行配置和服务的管理、隔离&#xff08;Group&#xff09;二、方案选取1. 命名空间创建2. Namespace实施方案三、nacos配置实战3.1. dev环境配置创建3.2. test环境配置创建四、代码coding实战4.1. 创建2项目4.2. …

干货|Flutter 原理与闲鱼深度实践

王康&#xff08;正物&#xff09;—— Flutter 官方成员 阿里巴巴技术专家&#xff0c;之前主要负责 Flutter 在闲鱼中的混合开发体系&#xff0c;目前重点关注 Flutter 深入度以及生态相关的工作。本文将分享三方面内容&#xff0c; Flutter 的原理、 Flutter 在闲鱼中的应用…

云计算,巨头们的背水一战

作者 | 马超责编 | 伍杏玲头图 | CSDN 下载自视觉中国出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;最近国内各IT巨头技术布局都颇有看点&#xff0c;先是腾讯宣布将投入5000亿&#xff0c;用于新基建的进一步布局&#xff08;将重点投入云计算、人工智能、区块链…

基于函数计算的 Serverless AI 推理

前言概述 本文介绍了使用函数计算部署深度学习 AI 推理的最佳实践, 其中包括使用 FUN 工具一键部署安装第三方依赖、一键部署、本地调试以及压测评估&#xff0c; 全方位展现函数计算的开发敏捷特性、自动弹性伸缩能力、免运维和完善的监控设施。 1.1 DEMO 概述 通过上传一个…

《Flutter in action》开放下载!闲鱼Flutter企业级实践精选

复制链接到浏览器 https://yq.aliyun.com/download/3792?utm_contentg_1000081730 下载。 闲鱼是国内最早使用Flutter的团队&#xff0c;也是Flutter业务线渗入最深的团队之一。 现在承载亿级流量的闲鱼将多年最佳实践经验整理成册&#xff0c;《Flutter in action》 正式面世…

阿里HBase高可用8年抗战回忆录

前言 2011年毕玄和竹庄两位大神将HBase引入阿里技术体系&#xff0c;2014年接力棒转到东8区第一位HBase commiter天梧手中&#xff0c;多年来与淘宝、旺旺、菜鸟、支付宝、高德、大文娱、阿里妈妈等几乎全BU合作伙伴携手共进&#xff0c;支撑了双十一大屏、支付宝账单、支付宝…