JVM性能提升50%,聊一聊背后的秘密武器Alibaba Dragonwell

简介: 你要知道的关于Alibaba Dragonwell一些重要优化措施。

9758F457-6F07-4076-AE86-9797DAE702DD.png

今年四月五日,阿里云开放了新一代ECS实例的邀测[1],Alibaba Dragonwell也在新ECS上进行了极致的优化。相比于之前的dragonwell_11.0.8.3版本,即将发布的dragonwell_11.0.11.6在SPECjbb2015[2] composite模式测试中,系统吞吐量max-jOPS提升55%,响应时间约束下的系统吞吐量critical-jOPS提升602%

如下图所示,图中数据做了归一化处理,以11.0.8.3_GA的critical-jOPS为1个基准单位。测试环境:阿里云80核,256g内存ECS实例,操作系统为Alinux3 [3]。

C6C6751C-354B-4e55-9FB0-F7FB9C12A6A3.png

Alibaba Dragonwell

过去的十几年中,Java在阿里巴巴内部迅猛发展。阿里内使用Java语言编写的应用越来越多,数万的Java开发者每年产出超过十亿行Java代码,这些代码都运行在阿里巴巴内部的OpenJDK定制版AJDK上。

Alibaba Dragonwell是AJDK的开源版[4](github链接见文章末尾),使用和OpenJDK一样的License,并永久免费。Alibaba Dragonwell有8和11两个版本,于2019年开源,当时仅支持x86-64架构,在2020年扩展到AArch64平台。

Alibaba Dragonwell结合阿里在线电商、金融、物流等各个业务场景做了大量细致优化,添加了协程/多租户/Jwarmup等诸多自研特性,并且在阿里云超大规模的服务器集群上经受了长时间大规模的验证。

调优方案与工具

由于SPECjbb2015动辄就需要两个小时才能得到一次完整的跑分分数,为了压榨性能调优单位时间内我们所能获得的信息量和性能试验的效率,我们开发了自动测试平台和性能分析工具来辅助SPECjbb2015性能调优,并且这套方法可以用在未来更多类似的性能调优案例中。

自动测试平台可以自动发起测试,并且在测试过程中调用基于perf的性能分析工具来采集CPU微架构数据以及系统热点数据,从而收集到每次实验过程中的关键性能数据,并将数据存档以可视化界面的形式展现,方便未来回顾和分析。

同时为了避免SPECjbb2015单次实验耗时长影响效率,跑性能实验时我们采用了SPECjbb2015特殊的PRESET模式。该模式下可以指定压力指定时间来启动性能测试,不仅方便调优系统进行性能采集,还可以观察在一定压力下SPECjbb2015的系统热点和微架构数据情况。

我们通过该套调优系统获取到了Alibaba Dragonwell和其他JDK在跑SPECjbb2015时的热点和微架构数据,并且发现了诸多优化机会,如在GC热点和暂停时间上有较为明显的问题,从而深入到相关代码,并以性能数据为线索解决了相关的性能问题,具体的技术细节将在下文中向大家一一道来。

GC暂停时间优化

这项优化源于一个出人意料的发现,在SPECjbb2015中GC暂停时间竟然超过了总运行时间的20%,并且稳定复现。

通过上一小节中提到的调优系统,定位到出问题的是一个GC任务队列相关函数,并且明确的指向了原子Compare and Swap(CAS)相关代码。

37DF97A2-94CA-4bf4-BAE5-C1414307AF7D.png

新ECS采用的CPU架构中CAS主要有如下的两种实现方式:

  • 使用带load-aquire和store-release语义的指令对的实现方式
  • LSE指令集中的CAS专项指令

多数JVM在GC中使用第一种方法,然而第二种在高冲突的情况下性能更加出色,因此Dragonwell改变了编译方式,使用LSE指令集实现CAS,有效的减少了暂停时间。下图展示了优化效果,我们采集了SPECjbb2015运行在不同核数上的GC数据,并采用吞吐量作为衡量GC性能的指标。    

吞吐量 = (运行时间 – Stop-The-World时间)/运行时间 * 100%

C7499CC0-7ACC-4508-9E4E-B17F6D428A84.png

我们可以看到优化前的CAS方式会造成吞吐量随使用的核数增加而剧烈下降,在80核的情况下甚至不足80%,而使用LSE CAS后吞吐量稳定在99%以上

对这个优化的另外两点补充说明:

1. 此改动只针对JVM内部的CAS实现,不包括JIT(Just-In-Time)生成的代码。JIT会动态检查硬件特性,在支持LSE指令集的系统上会优先使用LSE指令集。

2. 除了使用LSE CAS外,改变GC队列算法减少CAS也可以达到减少暂停时间的效果,OpenJDK社区在新版本中采用了这种方法。不过两种办法并不冲突,Alibaba Dragonwell同时采用了两种优化,达到了最优效果。

快速序列化

Alibaba Dragonwell在保证兼容性基础上对java原生序列化进行了优化通过缓存大幅提高了性能。通过分析发现, 原生序列化瓶颈大多在于大量的class 查找,如在反序列化时需要获取对端类定义的元信息等。引入了一层通过类全限定名和类加载器映射到java类对象的缓存,减少了大量Class.forName的调用。

具体做法:在反序列化时获取到类描述符,再根据类描述符查找信息时将会受限从classCache中查找,命中则立即返回,如果没有找到当前classloader和类全限定名唯一指定的类对象,将会走默认的类查找流程并且将结果缓存。同时, 在反序列化时会大量调用latestUserDefinedLoader 来查找首个用户定义的类加载器,因为此过程较重(涉及一次JNI调用和爬栈)也进行了缓存。

指令融合

指令融合是指将多个指令使用效率更高的一条或者几条指令进行替换从而提高性能。

Dragonwell对内存屏障/内存读写/比较跳转等多个场景做了优化,由于篇幅限制而且此类优化原理较为类似,在此仅举一例,三条指令融合成一条,如下图所示。

461850E5-2D36-4924-9C30-623E07D534CD.png

上面介绍了Alibaba Dragonwell内部的一些优化,下面我们换一个角度,从参数调优方面介绍对SPECjbb2015的优化。

大内存系统开启压缩指针

SPECjbb2015是一个内存敏感型的测试,压缩指针对SPECjbb2015分数的提升非常明显。不过默认情况下使用压缩指针最大只能用32g内存,这对80核的系统来说实在是太小了。其实通过适当的参数组合,我们完全可以在更大的内存中使用压缩指针。

CA4EB2CA-E8EF-46d0-A7C0-EF3F388508EA.png

首先我们了解下压缩指针的基本原理。如上图所示,由于Java对象有明确的对齐要求,因此对象的地址必然由数个0结尾,0的个数由对齐位数决定。省略java对象地址结尾的数个0可解决内存而且不会丢失有效地址信息,需要访问对象时可以通过补0获得完整的地址。

由此可知,我们可以通过调整Java对象对齐位数控制压缩指针生效的最大内存。默认情况下Java为8字节对齐(3bit),加上压缩指针本身的的32bit,最多只能表示32g内存。但如果调整为32字节对齐,那么有37bit可以使用,也就是128g,这对于80核来说基本上够用了。

分层编译调优

分层编译是JVM最基础的机制之一,一般情况下对它改动比较少,不过在SPECjbb2015的场景下,在分层编译上仍有调优空间。首先介绍下分层编译。JVM在运行的时候动态的将字节码编译成机器码执行,JVM(hotspot)内部编译引擎主要有三个:

  1. 解释器:无编译开销,但解释执行效率很低。
  2. C1编译器:编译开销较低,生成代码质量一般。
  3. C2编译器:生成代码质量很高,但编译开销很高。

这三个编译引擎相互配合,执行次数较少的代码由解释器和C1负责,C2只编译热点代码,从而让Java可以达到峰值性能与编译开销的平衡,使应用运行更加平滑。

不过分层编译也有自己的缺点,一个较为明显的问题是它会增大生成代码的总量。下图展示SPECjbb2015运行时C1/C2编译方法数目。

5675C6A8-05C2-4ea6-9C5F-C489AEC406D5.png

图中Level1-3均为C1编译,根据收集运行信息的力度不同分为了三个等级,Level4为C2编译。我们可以看到C1编译了70%的方法,因此关闭分层编译,仅保留C2编译器可以减少生成代码,从而一定程度上提高高速缓存和叶表命中率。

对于SPECjbb2015来说,由于分数只取决于最后几分钟的峰值处理能力,前面大概两个小时的请求爬升阶段都可以视作预热,因此启动期的编译开销并不关键。我们可以关闭分层编译来减少生成代码,提高高速缓存和列表命中率。最终在测试中发现关闭分层编译生成代码总量由29M降低到9M,有明显减少。

本文总结了Alibaba Dragonwell的一些重要优化措施,请注意阿里承诺会持续的优化Dragonwell性能,同时更紧密地和OpenJDK等开源社区协作,贡献更多的定制化特性,促进Java技术的持续发展。

引用

[1] https://www.aliyun.com/daily-act/ecs/ecs_arm
[2] SPECjbb2015是一款模拟电商应用的权威基准测试程序,包含了购买下单、折扣优惠、库存计算、客户数据存储与分析等典型电商应用行为:https://www.spec.org/jbb2015/
[3]Alinux3:Alibaba Cloud Linux是阿里云推出的Linux发行版,它为云上应用程序环境提供Linux社区的最新增强功能,在提供云上最佳用户体验的同时,也针对阿里云基础设施做了深度的优化https://help.aliyun.com/document_detail/212631.html
[4] Alibaba Dragonwell是阿里巴巴开源JDK:https://github.com/alibaba/dragonwell8https://github.com/alibaba/dragonwell11

云上年中钜惠注册抽好礼!
8月31日前,用户注册登录阿里云即可抽iPhone12 Pro、Cherry机械键盘、天猫精灵等好礼!马上点此免费抽奖:http://click.aliyun.com/m/1000289891/

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/512659.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

34 年了,“杀”不死的 Perl!

作者 | 祝涛 出品 | CSDN(ID:CSDNnews)2021年12月18日,Perl迎来了自己34岁的生日。当程序员聊到Perl会聊些什么呢?在各大平台搜索Perl时,你会发现大家对Perl的态度呈现出一种两级分化的状态&#xff…

“不服跑个分?” 是噱头还是实力?

简介: Linux内核社区常常以跑分软件得分,来评价一个优化补丁的价值。让软件跑高分,就是实力的体现! 一、背景:性能之战 “不服跑个分”已经沦为手机行业的调侃用语,但是实话实说,在操作系统领域…

Medusa 又一个 Shopify 的开源替代品!

作者 | Eason来源 | 程序员巴士Medusa是一个开源的headless商务引擎,具有速度快且可定制的优点。由于 Medusa 分为 3 个核心组件 - 公开的REST API headless商务部分、商店的前端以及admin面板 - 大家可以自由地整体使用该平台或者来适配设置电子商店。在本教程系列…

coredump 瘦身风云

简介: minicoredump神也! 继上一篇非典型程序员青囊搞定内存泄露问题后,美美地睡了一觉。睡梦中,突然金光闪闪,万道光芒照进时光隧道,恍惚来到大唐神龙年间。青囊此时化身狄仁杰高级助理,陪同狄…

谁来拯救存量SGX1平台?又一个内核特性合并的血泪史

简介: 今天的故事主角,是一个被称为Flexible Launch Control的SGX平台特性。 前言 自从Intel内核开发人员Jarkko Sakkinen于2017年9月2日在intel-sgx-kernel-devlists.01.org邮件列表上发出v1版的SGX in-tree驱动以来,时间已经过去了3年多了…

DataWorks 功能实践速览

简介: DataWorks功能实践系列,帮助您解析业务实现过程中的痛点,提高业务功能使用效率! 功能推荐:独享数据集成资源组 如上期数据同步解决方案介绍,数据集成的批数据同步任务运行时,需要占用一…

spring 事务隔离级别和传播行为_Java工程师面试1000题146-Spring数据库事务传播属性和隔离级别...

146、简介一下Spring支持的数据库事务传播属性和隔离级别介绍Spring所支持的事务和传播属性之前,我们先了解一下SpringBean的作用域,与此题无关,仅做一下简单记录。在Spring中,可以在元素的scope属性中设置bean的作用域&#xff0…

长江存储发布PCle4.0 固态硬盘致态TiPro7000,顺序读取7400MB/s

2021年12月29日,长江存储重磅发布全新消费级旗舰固态硬盘产品致态TiPro7000。该产品采用基于Xtacking(晶栈) 2.0架构的长江存储第三代三维闪存芯片,支持PCle Gen4x4接口、NVMe 1.4协议,顺序读取速度高达7400MB/s。该产…

图像ISP处理——畸变校正算法

图像畸变校正算法主要用于矫正图像中因为摄像机镜头畸变而引起的形状和尺寸变化。摄像机镜头畸变主要包括径向畸变和切向畸变。以下是一些常见的图像畸变校正算法: 多项式畸变校正法(Polynomial Distortion Correction): 原理&am…

KubeDL 加入 CNCF Sandbox,加速 AI 产业云原生化

简介: 2021 年 6 月 23 日,云原生计算基金会(CNCF)宣布通过全球 TOC 投票接纳 KubeDL 成为 CNCF Sandbox 项目。KubeDL 是阿里开源的基于 Kubernetes 的 AI 工作负载管理框架,取自"Kubernetes-Deep-Learning"…

预登录握手失败_英雄联盟手游登录问题汇总

1、出现“无法安装完成”的情况已经获取了资格,但出现“无法安装完成”的情况,譬如谷歌商店的下载界面一直闪退、下载没进度、卡在安装中、卡在等待中怎么办?可前往第三方下载软件,(推荐介绍GamesToday)下载游戏。2、提示:目前还…

云云协同解决方案全景图发布 华为云助力科技企业云上创新

12月29日,以“云云协同 共创云上新价值”为主题的华为云&华为终端云服务创新峰会2022在京圆满召开。华为云与产业专家和企业代表们共同探讨了在产业数字化机遇与挑战并存的新形势下,如何推动产业升级,共创新价值。 会上,面向科…

解密万亿参数M6模型预训练背后的分布式框架Whale

简介: 最近,阿里云PAI团队和达摩院智能计算实验室一起发布“低碳版”巨模型M6,大幅降低万亿参数超大模型训练能耗。借助我们自研的Whale框架仅使用480卡GPU,即训练出了规模达人类神经元10倍的万亿参数多模态大模型M6,与…

居然之家:核心业务系统全面上云,采用PolarDB替代传统商业数据库

简介: 国内家居零售龙头企业居然之家完成7大核心业务系统全面上云工作,并实现ERP等核心业务系统从传统商业数据库向阿里云PolarDB云数据库的替换,助力业务系统整体处理能力提升50%以上,弹性能力提升3倍以上,大幅提升应…

c oracle实体模型,ADO.NET实体数据模型详细介绍

OleDbConnection,OracleConnection 或者SqlConnection这种连接,直接执行sql语句。现在的连接方式执行sql语句有了很大的不同,下面先看看简单的单表的增删改查操作,然后再看多表的关联查询,带参数查询等。一、ADO.NET E…

面向工业场景,如何实现绿色智能?

从瓦特的蒸汽机开始轰鸣,到爱迪生的电灯照亮黑暗,从埃尼阿克把0和1变成通用的语言,再到人工智能的无处不在。一次工业革命,会带来一次社会的演进,而每一次技术升级的背后,产业升级也几乎是必然。但产业发展…

云原生,开发者的黄金时代

简介: 如果说云是一种信仰,那么云原生就是一种态度,时代呼唤人人都应成为云原生开发者。 作者 | 丁宇(叔同),阿里巴巴研究员,阿里云云原生应用平台负责人 对开发者而言,这是一个最…

如何玩转 WebGL 并行计算

简介: 如今在 Web 端使用 WebGL 进行高性能计算已有不少实践,例如在端智能领域中的 tensorflow.js,再比如可视化领域中的 Stardust.js。 作者 | 沧东 来源 | 阿里技术公众号 如今在 Web 端使用 WebGL 进行高性能计算已有不少实践&#xff0c…

数字孪生+交通,到底有啥用?

作者 | 小枣君来源 | 鲜枣课堂这些年来,信息技术的发展有了明显变化。以云计算、大数据、人工智能为代表的算力技术演进,以及以全光网络、4G/5G、Wi-Fi 6为代表的联接力技术飞跃,使得人们对数字技术提出了更高的期望。人们希望在信息化的基础…

万物智联时代的终端智能「管家」 重磅升级:混合云IoT一体机

简介: 「混合云IoT一体机」边缘部署、开箱即用、安全稳定、智管易用,通过定制软件和硬件相结合,预先定制、集成、测试和优化,实现快速部署和远程运维,并提升后续系统可用性和运维效率,是万物互联时代企业数…