Uber 提升 Presto 集群稳定性的 GC 调优方法

Presto at Uber

Uber 利用开源的 Presto 查询各种数据源,无论是流式还是归档数据。Presto 的多功能性赋予我们做出基于数据的明智商业决策的能力。我们在两个地区运行了大约20个 Presto 集群,总共超过10,000个节点。我们有大约12,000个每周活跃用户,每天运行约500,000个查询,从 HDFS 读取约100 PB 的数据。现在,Presto 被用于查询各种数据源,如 Apache Hive、Apache Pinot、AresDb、MySQL、Elasticsearch 和 Apache Kafka,这是通过其可扩展的数据源连接器实现的。

3d958aecdc407bb06c29ac8ceb2c9e62.png

我们选择的集群类型可以满足各种请求,无论是交互式的还是批处理的。交互式工作负载适用于等待结果的仪表板/桌面用户,而批处理工作负载是根据预定的时间表运行的计划任务。我们的每个集群都根据其机器类型进行分类。我们的大部分集群由配备了超过300 GB 堆内存的大型机器组成,而其他集群由配备了不到200 GB 堆内存的小型机器组成,我们根据每个集群的大小和构成其的机器类型调整了每个集群的并发性。

每周,我们都会在所有生产集群中进行内存碎片优化活动。尽管我们一直在改善内存碎片问题,但我们仍然经常遭受全垃圾收集(长时间的暂停)的困扰,偶尔还会出现一些内存溢出错误。为了让你了解问题的严重性,我将向你展示 Presto 全 GC 的累计数量:

4adcbb490129541c944b3642700cdddc.png

每天 Presto Full GC 发生次数

G1GC 垃圾回收器简述

G1GC 是一种垃圾收集器,它的目标是在吞吐量和延迟之间找到平衡。G1 属于分代垃圾收集器,这和新型的并发垃圾收集器(如 Shenandoah,ZGC 等)有所不同。所谓的"分代",是指内存被分成短生命周期和长生命周期的对象。

首先,我们需要明白有两种类型的内存:栈内存和堆内存。栈内存的分配成本很低,只需要移动一个指针的位置即可,因此每当我们调用一个函数时,我们就减少栈指针的位置(栈是向下增长的),一旦我们完成了该函数,我们只需将指针位置增加,就完成了分配和回收,每个操作只需要一个语句。然而,堆内存的分配/回收则稍微复杂一些。对于 G1GC,其分配方式类似于栈内存,我们只需要移动一个指针的位置,但是回收则需要运行 GC。

在 Java 中,所有的对象都是在堆内存上分配的,那么我们在栈内存上分配的是什么呢?答案是,指向堆内存上对象的“指针”。然后对于堆内存,G1 将其划分为名为“区域”的小块。

G1 的目标是在堆内存上至少划分出 2,048 个区域。

1b1bae7b66adcccd2aab6ee5c094d59c.png

Heap 被分成一个一个区域

每个区域的大小是如何确定的呢?这主要取决于你的堆内存大小,其范围可以在1-32 MB之间。而这个具体的大小,由JVM决定,以确保我们至少有2048个这样的区域。

每个区域可以是年轻代(新生代),老年代(老生代),或者是还未分配的空闲区域。

7ae023da1c063a4a907eda723cc78f14.png

再深入一点,年轻代又被细分为 Eden 和 survivors 两部分。Eden  是所有新生成的对象分配的地方。对于 survivors 区域,它会创建两个不同的空间。这样做的原因何在?因为年轻代清除内存的方式是通过在不同区域之间复制对象,所以它需要一个空的幸存者区域来复制内存。

具体的过程是这样的:每当我们创建一个新的对象,这个对象就会在 Eden 区域被分配。当垃圾收集(GC)运行,如果这个对象还没有被回收,它就会被复制到 Survivor0 区域。下一次垃圾收集再次运行,如果这个对象仍然没有被回收,它就会被提升到 Survivor1 区域。这样,它就会在两个 survivors 区域之间来回复制,直到最后被提升到老年代。

简单总结一下,年轻代通过复制机制来释放内存。那么,我们什么时候会把对象分配到老年代呢?主要有两种情况:

  • G1设定了一个年龄阈值。每次年轻代的对象被复制,我们就会增加它的年龄。一旦达到这个阈值,它就会被复制到老年代。

  • 每个区域的大小在1-32 MB之间。任何大小达到或超过区域大小一半的对象,都会直接分配到老年代。G1称这种对象为巨大对象。

那么,G1是如何清理老年代的呢?它采用了一种叫做“并发标记和清扫”的算法。这是一个从根对象(如线程栈,全局变量等)开始的图遍历,遍历所有仍然被引用的对象。需要特别说明的是,G1使用了STAB(快照在开始时)策略,所以在它开始清扫后新生成的对象都会被认为是存活的,无论它的实际存活状态如何。一旦清扫完成,G1就能知道哪些对象仍然存活,那些已经死亡的对象可以在接下来的混合收集中被清理。

什么是混合收集?实际上,混合收集是一种包括老年代区域在内的年轻代收集方式。它会在另一个老年代区域中复制仍然存活的对象。这个过程对于减少内存碎片化至关重要。

那么,每个组件(Eden, survivor, old gen 等)的大小是由谁决定的呢?实际上,堆内存的大小是会变化的,虽然有一定的限制。比如,年轻代的大小只能占总堆内存的5-60%。

今天的讨论不需要深入到更高级的G1GC主题,所以让我们从我们在Uber所做的开始。

G1GC at Uber

当 Uber 开始更多地使用 Java 时,我们采用的是 OpenJDK 8。通常情况下,我们需要调整的唯一选项就是 -XX:InitiatingHeapOccupancyPercent=X。这个阈值决定了 G1 是否应该启动并发标记和清除的过程。

它的默认值是45%,这通常会导致 CPU 使用率的提高,因为任何使用缓存的服务最终都会超过这个阈值,并且会不断触发它。例如,服务 A 将所有用户数据存储在内存中,这导致老年代占据了堆内存的大约60%。这样一来,45%的阈值就总是会被触发。

那么我们应该如何进行调整呢?

  • 启用垃圾收集日志和垃圾收集指标

  • 在混合收集后寻找老年代利用率的最高点

  • 选择一个比峰值稍高的值——通常比峰值高出5-10%

但是,要注意,Presto 服务器现在运行在 JDK 11 上。我们怎么调整它们呢?这是我们首次尝试调整这个版本。为什么它会有所不同呢?Java 引入了动态 IHOP(InitiatingHeapOccupancyPercent)。因此,我们不再有一个固定的45%的默认值,而是有一个可以随时变化的值,这个值只能在垃圾收集日志中找到。

JDK 11 调优

动态 IHOP 是怎么计算出来的呢?它是通过将年轻代的当前大小和一个自由阈值(基本上是这个思路,但实际上使用的是一个稍微复杂一点的公式)相加得出的。这个自由阈值默认是总堆的 10%,作为一个缓冲区,让垃圾收集(GC)能够顺利完成(请记住,并发标记和清扫是和你的应用程序同时运行的)。

我们的操作流程如下(每一步之间,我们都会等待 1-2 周,以便有足够的数据来验证我们的实验结果)。我们先在一个集群上试验以下步骤,以避免影响到所有的用户。

增加更多的 GC 指标

我们没有年轻代和老年代的使用率数据,所以我们无法轻松地了解我们的使用率的历史情况。

将最大年轻代大小从 60% 降低到 20%

我们注意到年轻代有几次扩大的情况(总堆的 50%)。这导致了 GC 暂停时间过长,以及并发标记需要更长的时间才能重新运行。如果我们还在进行混合收集,那么并发标记就无法运行。

结果如何呢?

  • GC 暂停时间有所改善。

  • 并发标记仍然不理想。这是因为我们把最大大小减少了 40%,把这部分空间让给了老年代,导致并发标记还是开始得太晚。

将 Free space 从 10% 增加到 35%,将 Heap waste 从 5% 降低到 1%

首先,让我们来谈谈 Heap Waste 百分比。这个调整选项默认是 5%,告诉 G1 只有当垃圾超过总堆的 5% 时,才能释放任何垃圾。为什么这么做呢?这是为了避免在混合收集过程中出现长时间的 GC 暂停。当我们进行并发标记时,G1 会根据它们的使用率对老年代的区域进行排序,优先选择那些有更多空闲空间的区域,因为它们复制到新区域的速度更快。

对于我们的 300G 集群来说,这意味着有 15G 的空间永远不会被清理。我们决定根据过去的经验,将这个数值降低到 3G(-XX:G1HeapWastePercent=1)。

对于 free space,我们分析了几个 GC 日志,发现在混合收集(mixed collections)后,使用率保持在 20-35%。因此,20% 的最大年轻代加上 35% 的 free space 会给我们一个 45% 的阈值(100-(35+20)%)。有了这个配置,我们至少有 10% 的缓冲区(35 到 45%)可以用来清理一些垃圾。

结果如何呢?

  • 1% 的 Heap Waste 似乎太多了,我们开始看到大于 1s 的长暂停。这个改变是有帮助的,因为有了 GC 日志,我们能够确定长暂停开始发生是在混合收集试图从 2% -> 1% 的垃圾时。

  • 35% 的 free space 表现良好。全 GCs 减少了(~80% 对于这个集群)。

将 free space 从 35% 增加到 40% 和将 Heap Waste 从 1% 增加到 2%

结果是:

  • 2% 的 Heap Waste 给我们提供了额外的 9G 空间,对延迟的影响也很小(~50-100ms vs. 1-1.5s with 1%)。

  • 40% 的 free space 比 35% 的表现稍好一些,但我们并没有得到太多的提升(85-90% vs. 80%)。我们决定不再增加,以避免抖动。

在另一个集群上尝试相同的调整选项

我们在一个新的集群上测试了相同的配置,并在尝试所有的之前验证了行为,以了解影响。我们决定抓取过去几周内 Full GCs 最多的集群。部署后的 24 小时,我们就能看到影响:

12cb6e00991f501a4725f2145b73df37.png

以前,只过了几个小时,我们就开始看到 Full GCs,但是在这些改变后,我们没有看到任何 FGC。

总结

在对上述调优进行了几周的测试后,我们决定在所有集群中统一使用这些标志。当这些标志被添加或更新后,所有的集群都能以最小的内部 OOM 错误达到最佳性能。这项改变提高了 Presto 集群的稳定性,减少了因 OOM 错误而需要重新执行的查询,从而提升了 Presto 集群的整体性能。我们最终调优中使用的标志包括:

  • -XX:+UnlockExperimentalVMOptions

  • -XX:G1MaxNewSizePercent=20

  • -XX:G1ReservePercent=40

  • -XX:G1HeapWastePercent=2

这些调优参数是专门针对 Uber 中 Presto 的使用场景而设定的,经过多轮调优后最终确定。我们预期,每个组织的参数设置可能会因其特定的工作负载而有所不同,需要根据具体情况进行逐个调优。启用这些标志后,虽然我们会看到更频繁的垃圾收集,但它们使我们的 Presto 集群更加稳定,减轻了负责人的值班压力。

对于我们所有的集群,我们观察到了以下的影响:

79f852f83d90fd16bf95563514988677.png

3be51ad62d503d1d71db40179f2d8e53.png

后续规划

我们大部分的垃圾回收优化工作都集中在面向产品的应用上,对于存储应用的优化并未给予足够的关注。因此,我们计划将调优工作扩展到 Uber 提供的其他解决方案上。这将是一次有趣的学习过程,因为存储应用通常会使用大量的堆内存,这与我们通常优化的对象有所不同。一旦我们收集到更多的数据,我们会与社区分享。

在 Presto 上进行的垃圾回收优化工作就是一个很好的例子,它向我们展示了优化垃圾回收如何提升系统的整体性能和稳定性。我们接下来的工作重点将是进一步优化 Presto 集群的垃圾回收,特别是在那些性能较弱且仍然遇到全垃圾回收问题的机器上,以提高系统的整体稳定性。

所有列出的优化措施都是专为 Uber 中的 Presto 部署设计的,不能直接应用到其他服务上。列出的参数只是为了演示我们在优化过程中使用了哪些参数。此外,我们还会提出一些最佳实践和指导原则,这些原则可以根据 Uber 的存储应用的一般使用情况来使用,作为我们优化的起点。这将使我们有能力改进所有的存储应用,从而提高整体的稳定性和性能。

本文翻译:https://www.uber.com/en-HK/blog/uber-gc-tuning-for-improved-presto-reliability/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/24683.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HIP的应用可移植性

Application portability with HIP — ROCm Blogs (amd.com) 许多科学应用程序在配备AMD的计算平台和超级计算机上运行,包括Frontier,这是世界上第一台Exascale系统。这些来自不同科学领域的应用程序通过使用Heterogeneous-compute Interface for Portab…

Socket编程学习笔记之TCP与UDP

Socket: Socket是什么呢? 是一套用于不同主机间通讯的API,是应用层与TCP/IP协议族通信的中间软件抽象层。 是一组接口。在设计模式中,Socket其实就是一个门面模式,它把复杂的TCP/IP协议族隐藏在Socket接口后面&#…

【Python报错】已解决ModuleNotFoundError: No module named ‘xxx‘ in Jupyter Notebook

解决Python报错:ModuleNotFoundError: No module named ‘xxx’ in Jupyter Notebook 在使用Jupyter Notebook进行数据分析或科学计算时,我们经常需要导入各种Python模块。如果你遇到了ModuleNotFoundError: No module named xxx的错误,这通常…

STM32F103C8T6基于HAL库移植uC/OS-III

文章目录 一、建立STM32CubeMX工程二、移植1、 uC/OS-III源码2、移植过程 三、配置相关代码1、bsp.c和bsp.h2、main.c3、修改启动代码4、修改app_cfg.h文件5、修改includes.h文件6、修改lib_cfg.h文件 四、编译与烧录总结参考资料 学习嵌入式实时操作系统(RTOS&…

Django 里实现表格内容上传

先看效果图: 当没有添加数据,就按 提交 键就会出现报错 下面是操作步骤 1. 先在 views.py 文件里做添加 # 在 views.py class AssetModelForm(forms.ModelForm):#newField forms.CharField()class Meta:model models.AssetSet fields [name, pri…

基于zyyo主页与無名の主页合并二改,一款适合新手的个人主页

pengzi主页🙋 项目地址 简洁的布局:主页应该有清晰的布局,包括一个简洁的导航菜单和易于浏览的内容区域。避免使用过多的花哨效果,保持页面简洁明了。 个人资料介绍:在主页上展示一段简短的个人介绍,包括…

电机专用32位MCU PY32MD310,Arm® Cortex-M0+内核

PY32MD310是一颗专为电机控制设计的MCU,非常适合用做三相/单相 BLDC/PMSM 的主控芯片。芯片采用了高性能的 32 位 ARM Cortex-M0 内核,QFN32封装。内置最大 64 Kbytes flash 和 8 Kbytes SRAM 存储器,最高48 MHz工作频率,多达 16 …

C++全栈聊天项目(21) 滚动聊天布局设计

滚动聊天布局设计 我们的聊天布局如下图 最外层的是一个chatview(黑色), chatview内部在添加一个MainLayout(蓝色),MainLayout内部添加一个scrollarea(红色),scrollarea内部包含一个widget&…

西米支付:刷卡手续费进入高费率时代! 十多家支付机构公布最新收费标准

《非银行支付机构监督管理条例》自5月1日施行以来,越来越多支付机构落实收费透明化。 支付界注意到,日前,拉卡拉、银联商务两家持牌支付公司公布了新的收单业务收费标准。 拉卡拉在其官网公布了最新的“收费项目及收费标准公示”&#xff0…

GSS7000卫星导航模拟器结合RTKLIB 接收NTRIP网络RTCM数据以输出RS232

本文聚焦,使用GSS7000仿真GNSS NTRIP,利用开源工具RTKLIB 作为NTRIP Client 接受GSS7000仿真的RTCM数据, 并通过STRSVR将收到的RTCM数据通过USB-RS232数据线吐出,并转给DUT,让其获得RTK -FIXED 固定解。 废话不多说&a…

独享IP VS 原生IP,二者的区别与定义详解

原生IP:原生IP是指由Internet服务提供商(ISP)直接分配给用户的IP地址,这些IP地址通常反映了用户的实际地理位置和网络连接。原生IP是用户在其所在地区或国家使用的真实IP地址,与用户的物理位置直接相关。在跨境电商中&…

2024教资认定报名流程,点赞收藏!

2024年要进行教资认定的宝子们提早准备 🔥教资认定网上报名流程概览 一、进入教资认定网报入口 二、进行实名核验 三、申请网报时间查询 四、个人信息维护 五、认定申请报名 🔥教资认定所需材料 1⃣️身份证 2⃣️户口本/居住证/学…

基本 MOSFET 恒流源

恒流源在电路分析练习和网络定理中占有重要地位,然后它们似乎或多或少消失了。。。除非你是IC设计师。尽管在典型 PCB 设计中很少遇到,但电流源在模拟 IC 领域却无处不在。这是因为它们 1) 用于偏置,2) 作为有源负载。 偏置: 用作…

Docker搭建可道云

Docker搭建可道云(存储) 文章目录 Docker搭建可道云(存储)介绍资源列表基础环境一、安装Docker二、配置Docker加速器三、搭建可道云私有云盘3.1、编写Dockerfile3.2、上传资源到指定目录3.3、查看目录下所有资源 四、构建镜像五、…

【学术小白成长之路】01三方演化博弈(基于复制动态方程) -基础概念与模型构建

1.演化博弈基础知识 经典博弈论起源于1944年Von Neumann和Morgenstern合著的《博弈论与经济学行为》,是研究理性决策者之间竞争和合作关系的数学方法。 博弈论主要研究完全理性的博弈个体为实现利益最大化而做的策略选择,在过去几十年取得了极大发展&am…

计算机网络--物理层

计算机网络--计算机网络概念 计算机网络--物理层 计算机网络--数据链路层 计算机网络--网络层 计算机网络--传输层 计算机网络--应用层 1. 基本概念 物理层的概念:物理层解决如何在在连接各种计算机的传输媒体上传输数据比特流,而不是指具体的传输…

Python 如何判断一组数呈上升还是下降趋势

在数据分析和统计处理中,我们经常需要判断一组数的趋势是上升还是下降。这在金融市场分析、销售数据监控以及科学研究中都十分常见。本文将介绍如何使用Python来判断一组数的趋势,并结合实际案例进行详细阐述。 一、基本方法 判断一组数的趋势主要有以…

【CS.DB】从零到精通:这可能是全网最全面最强大的SQL入门教程

文章目录 1. 什么是SQL?1.1 SQL的历史1.1.1 SQL的标准化过程 2. SQL基础语法2.1 数据库操作2.1.1 创建数据库2.1.2 删除数据库 2.2 表操作2.2.1 创建表2.2.2 删除表2.2.3 修改表 2.3 数据操作2.3.1 插入数据2.3.2 更新数据2.3.3 删除数据 2.4 查询数据2.4.1 基本查询…

读取文件

自学python如何成为大佬(目录):自学python如何成为大佬(目录)_利用python语言智能手机的默认语言实战一-CSDN博客 在Python中打开文件后,除了可以向其写入或追加内容,还可以读取文件中的内容。读取文件内容主要分为以下几种情况: 1 读取指…

react 基础样式的控制(行内和className)

import ./index.cssconst style{color:red,font-size:150px }function App() {return (<div className"App"><h1>行内样式控制</h1><h1 style{{color:red,font-size:150px}} >asd </h1><span style{style} >asd </span>&l…