java 编写代码_Java 7:如何编写非常快速的Java代码

java 编写代码

当我第一次写此博客时,我的目的是向您介绍ThreadLocalRandom类,它是Java 7中新增的用于生成随机数的类。 我在一系列微基准测试中分析了ThreadLocalRandom的性能,以了解其在单线程环境中的性能。

结果相对令人惊讶:尽管代码非常相似,但ThreadLocalRandom速度是Math.random()两倍! 结果引起了我的兴趣,我决定对此进行进一步的研究。 我已经记录了我的分析过程。 它是对分析步骤,技术和一些JVM诊断工具的示例性介绍,以了解小型代码段的性能差异。 使用上述工具集和技术的一些经验将使您能够为特定的Hotspot目标环境编写更快的Java代码。

好的,这已经足够了,让我们开始吧! 我的机器是运行Windows XP的普通Intel 386 32位双核。

Math.random()处理Random的静态单例实例,而ThreadLocalRandom -> current() -> nextDouble()处理ThreadLocalRandom的线程本地实例,该实例是Random的子类。 ThreadLocal在对current()方法的每次调用中引入了变量查找的开销。 考虑到我刚才说的话,那么在单个线程中它的速度是Math.random()的两倍,这真的有点令人惊讶吗? 我没想到会有如此大的差异。

同样,我使用的是Heinz博客之一中介绍的微型基准测试框架。 Heinz开发的框架解决了在现代JVM上对Java程序进行基准测试时遇到的一些挑战。 这些挑战包括:热身,垃圾回收,Java时间API的准确性,测试准确性的验证等等。

这是我可运行的基准测试类:

public class ThreadLocalRandomGenerator implements BenchmarkRunnable {private double r;@Overridepublic void run() {r = r + ThreadLocalRandom.current().nextDouble();}public double getR() {return r;}@Overridepublic Object getResult() {return r;}}public class MathRandomGenerator implements BenchmarkRunnable {private double r;@Overridepublic void run() {r = r + Math.random();}public double getR() {return r;}@Overridepublic Object getResult() {return r;}
}

让我们使用Heinz的框架运行基准测试:

public class FirstBenchmark {private static List<BenchmarkRunnable> benchmarkTargets = Arrays.asList(new MathRandomGenerator(),new ThreadLocalRandomGenerator());public static void main(String[] args) {DecimalFormat df = new DecimalFormat("#.##");for (BenchmarkRunnable runnable : benchmarkTargets) {Average average = new PerformanceHarness().calculatePerf(new PerformanceChecker(1000, runnable), 5);System.out.println("Benchmark target: " + runnable.getClass().getSimpleName());System.out.println("Mean execution count: " + df.format(average.mean()));System.out.println("Standard deviation: " + df.format(average.stddev()));System.out.println("To avoid dead code coptimization: " + runnable.getResult());}}
}

注意:为了确保JVM不会将代码标识为“死代码”,我返回了一个字段变量,并立即打印出基准测试的结果。 这就是为什么我的可运行类实现名为RunnableBenchmark的接口。 我已经运行了三次基准测试。 第一次运行是在默认模式下,启用了内联和JIT优化:

Benchmark target: MathRandomGenerator
Mean execution count: 14773594,4
Standard deviation: 180484,9
To avoid dead code coptimization: 6.4005410634212025E7
Benchmark target: ThreadLocalRandomGenerator
Mean execution count: 29861911,6
Standard deviation: 723934,46
To avoid dead code coptimization: 1.0155096190946539E8

然后再次不进行JIT优化(VM选项-Xint ):

Benchmark target: MathRandomGenerator
Mean execution count: 963226,2
Standard deviation: 5009,28
To avoid dead code coptimization: 3296912.509302683
Benchmark target: ThreadLocalRandomGenerator
Mean execution count: 1093147,4
Standard deviation: 491,15
To avoid dead code coptimization: 3811259.7334526842

最后一个测试是使用JIT优化,但是使用-XX:MaxInlineSize=0 ,它(几乎)禁用了内联:

Benchmark target: MathRandomGenerator
Mean execution count: 13789245
Standard deviation: 200390,59
To avoid dead code coptimization: 4.802723374491231E7
Benchmark target: ThreadLocalRandomGenerator
Mean execution count: 24009159,8
Standard deviation: 149222,7
To avoid dead code coptimization: 8.378231170741305E7

让我们仔细地解释结果:借助完整的JVM JIT优化, ThreadLocalRanom速度是Math.random()两倍。 关闭JIT优化表明,两者的性能相同(差)。 方法内联似乎使性能相差30%。 其他差异可能归因于其他优化技术 。

JIT编译器可以更有效地调整ThreadLocalRandom原因之一是ThreadLocalRandom.next()的改进实现。

public class Random implements java.io.Serializable {
...protected int next(int bits) {long oldseed, nextseed;AtomicLong seed = this.seed;do {oldseed = seed.get();nextseed = (oldseed * multiplier + addend) & mask;} while (!seed.compareAndSet(oldseed, nextseed));return (int)(nextseed >>> (48 - bits));}
...
}public class ThreadLocalRandom extends Random {
...protected int next(int bits) {rnd = (rnd * multiplier + addend) & mask;return (int) (rnd >>> (48-bits));}
...
}

第一个片段显示Random.next() ,它在Math.random()的基准测试中大量使用。 与ThreadLocalRandom.next()相比,该方法需要更多的指令,尽管这两种方法都做同样的事情。 在Random类中, seed变量将全局共享状态存储到所有线程,并且每次调用next()方法时都会更改。 因此,需要AtomicLong安全地访问和更改对nextDouble()调用中的seed值。 另一方面, ThreadLocalRandom是–很好的–线程局部:-) next()方法不必是线程安全的,可以使用普通的long变量作为种子值。

关于方法内联和ThreadLocalRandom

方法内联是一种非常有效的JIT优化。 在频繁执行的热路径中,热点编译器决定将被调用方法(子方法)的代码内联到调用方方法(父方法)中。 内联具有重要的好处。 它大大降低了方法调用的动态频率,从而节省了执行这些方法调用所需的时间。 但更重要的是,内联会产生更大的代码块,以供优化程序使用。 这就造成了一种情况,大大提高了传统编译器优化的效率,克服了提高Java编程语言性能的主要障碍。”

从Java 7开始,您可以使用诊断JVM选项监视方法内联。 使用' -XX:+UnlockDiagnosticVMOptions -XX:+PrintInlining '运行代码将显示JIT编译器的内联工作。 以下是Math.random()基准测试输出的相关部分:

@ 13   java.util.Random::nextDouble (24 bytes)@ 3   java.util.Random::next (47 bytes)   callee is too large@ 13   java.util.Random::next (47 bytes)   callee is too large

JIT编译器无法内联Random.next()中调用的Random.nextDouble() 。 这是ThreaLocalRandom.next()的内联输出:

@ 8   java.util.Random::nextDouble (24 bytes)@ 3   java.util.concurrent.ThreadLocalRandom::next (31 bytes)@ 13   java.util.concurrent.ThreadLocalRandom::next (31 bytes)

由于next()方法较短(31个字节),因此可以内联。 因为在两个基准测试中都强烈调用next()方法,所以该日志表明方法内联可能是ThreadLocalRandom显着提高执行速度的原因之一。

为了验证并发现更多信息,需要深入研究汇编代码。 使用Java 7 JDK,可以将汇编代码打印到控制台中。 有关如何启用-XX:+PrintAssembly VM选项的信息,请参见此处 。 该选项将打印出JIT优化的代码,这意味着您可以看到JVM实际执行的代码。 我已经将相关的汇编代码复制到下面的链接中。

此处的ThreadLocalRandomGenerator.run()的汇编代码。
MathRandomGenerator.run()的汇编代码在此处 。
Math.random() 在此处调用的Random.next()的汇编代码。

汇编代码是特定于机器的低级代码, 比起bytecode读起来要复杂得多。 让我们尝试在我的基准测试中验证方法内联对性能的影响,以及:JIT编译器如何对待ThreadLocalRandomMath.random ()还有其他明显的区别吗? 在ThreadLocalRandomGenerator.run() ,没有对任何子例程(如Random.nextDouble()ThreatLocalRandom.next()过程调用。 对ThreadLocal.get()仅有一个虚拟的(因此很昂贵)方法调用(请参阅ThreadLocalRandomGenerator.run()程序集的第35行)。 其他所有代码都内联到ThreadLocalRandomGenerator.run() 。 在的情况下MathRandomGenerator.run()两个虚拟方法调用到Random.next()见块B4线204页及以后中的汇编代码MathRandomGenerator.run() 这一事实证实了我们的怀疑,即方法内联是导致性能差异的一个重要根本原因。 此外,由于同步的麻烦, Random.next()需要的汇编指令要多得多(并且有些昂贵!),这在执行速度方面也适得其反。

了解invokevirtual指令的开销

那么,为什么(虚拟)方法调用昂贵且方法内联如此有效? invokevirtual指令的指针不是类实例中具体方法的偏移量。 编译器不知道类实例的内部布局。 相反,它生成对实例方法的符号引用,这些符号引用存储在运行时常量池中。 这些运行时常量池项在运行时解析以确定实际的方法位置。 这种动态(运行时)绑定需要验证,准备和解决,​​这可能会大大影响性能。 (有关详细信息,请参见JVM规范中的调用方法和链接 )。

目前为止就这样了。 免责声明:当然,解决性能难题需要了解的主题列表无穷无尽。 除了微基准测试,JIT优化,方法内联,java字节代码,assemby语言等等之外,还有很多东西要理解。 同样,除了虚拟方法调用或昂贵的线程同步指令之外,还有更多导致性能差异的根本原因。 但是,我认为我介绍的主题是此类深入研究的一个很好的开始。 期待批评和愉快的评论!

参考资料:来自JCG合作伙伴 Niklas的“ Java 7:如何编写非常快速的Java代码”。


翻译自: https://www.javacodegeeks.com/2012/01/java-7-how-to-write-really-fast-java.html

java 编写代码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/357219.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

POJ 1172 DFS

&#xff08;感谢wzc学长的幻灯片&#xff09; 单组数据 注意从必经点能到标记过的点则此点不是分裂点。 //By: Sirius_Ren #include <cstdio> #include <queue> #include <cstring> using namespace std; int tot1,first[51],cnt,v[101],nxt[101],n,vis[51…

远程桌面在自己电脑显示很小的解决办法

背景:最近在某银行办公,使用的是云桌面,疫情期间有一周是在加班办公,使用自己的电脑登录云桌面,然后电脑屏幕显示云桌面很小,看文档及代码十分难受。问问同事,这个问题终于得到了解决。 显示如下: 这个云桌面在我电脑就显示2/3宽度的大小,看代码太难受了,排除右上角向…

《JavaScript100例|01》之javaScript实现俄罗斯方块,唤起了女朋友儿时的回忆!

导读&#xff1a;小时候我们经常打游戏玩俄罗斯方块&#xff0c;用的是游戏机。 现在我们学会了敲代码&#xff0c;简单用JS实现一下这个游戏把。 目录 先看效果 操作说明 代码实现 完整代码 先看效果 操作说明 打开编译器&#xff0c;讲代码复制进去&#xff0c;在浏览…

adf4351使用_ADF:将UI类别与动态表单一起使用

adf4351使用JDev 11g R2具有有趣的新功能“ UI类别”。 它使我们可以在视图对象定义级别上以声明方式对VO的属性进行分组。 例如&#xff0c;我的VEmployees视图对象的“ UI Categories”选项卡如下所示&#xff1a; 默认情况下&#xff0c;每个视图对象都有一个预定义的类别“…

使用JavaScript将小写金额转化为大写金额的两种常见方法

导读:在一些支付或者银行确认信息中经常需要将小写金额转换为大写金额,这里做一下归纳, 目录 效果图: 方法一:使用正则表达式 方法二:常规JavaScript实现 效果图: 前面小写,后面大写,这里使用vue测试,其它框架同理.小写是传值的字段money,大写直接调用函数dealBigMoney(money…

h5-列表

<header> <!-- a,div,header,span {-webkit-tap-highlight-color: rgba(255, 255, 255, 0); /*修改a、input和button点击时的蓝色外边框和灰色半透明背景*/ } --><div class"header"> <!-- .header {height: 44px;background: #ff8200;position…

什么是突变测试?

最近&#xff0c;我反复提到“ 突变测试 ”一词。 因为可以说这种方法能够以超出代码覆盖范围的方式检测测试安全网的空白&#xff0c;所以我花了一些时间来追赶这个话题&#xff0c;然后尝试一下。 这篇文章总结了我的发现&#xff0c;作为对该主题的快速介绍。 什么是变异测…

JavaScript数组常用的方法总结

导读&#xff1a;在实际开发中&#xff0c;前端工程师除了写页面布局及样式还要对后端返回的数据进行处理&#xff0c;返回的数据大多数是json格式&#xff0c;一般都是返回一个对象或者数组&#xff0c;下面对常用的数组的使用方法进行总结&#xff0c;方便在开发中手到擒来&a…

Python黑魔法,一行实现并行化

Python 在程序并行化方面多少有些声名狼藉。撇开技术上的问题&#xff0c;例如线程的实现和 GIL&#xff0c;我觉得错误的教学指导才是主要问题。常见的经典 Python 多线程、多进程教程多显得偏“重”。而且往往隔靴搔痒&#xff0c;没有深入探讨日常工作中最有用的内容。 传统…

2. python 参数个数可变的函数

如果想要定义一个参数个数不确定的函数&#xff0c; 可以通过*args,**kwargs实现&#xff1a; *args的使用&#xff1a; **kwargs的使用&#xff1a; 二者的混合使用&#xff1a; 另外还有一些关于调用函数时候的时候常用的技巧&#xff1a; 其和是等价的。 其和是等价的 当然也…

JavaScript常用工具类整理(总结版)

导读&#xff1a;在前端开发过程中需要对常用的功能模块进行封装&#xff0c;常用的方法多次调用需要整合&#xff0c;保证组件的复用性与程序的可维护性&#xff0c;这里总结一下&#xff0c;便于后续的使用&#xff01; 目录 1.全局声明工具类 2.定时器 3.判断变量是否是一…

axis2 json_带有Java和Axis2的JSON Web服务

axis2 json我最近遇到一位客户&#xff0c;要求我使用Java Web服务重建其旧产品。 他们希望它模块化并且易于使用。 我想到的第一件事是使用宁静的方法。 但是让我烦恼的是&#xff0c;Java宁静的方法是使用XML !&#xff0c;我更喜欢一种更简单的通信方式&#xff0c;易于理解…

如何对技术视频转换文章投稿进行二次创作

导读&#xff1a;在技术社区经常会收到一些大的平台&#xff08;华为云博客、infoq等平台的投稿任务&#xff09;&#xff0c;经过对数千篇通用技术稿件&#xff0c;积攒了一些小技巧。所以&#xff0c;在你创作之前还是要好好的看一下&#xff0c;希望对你有帮助&#xff01;看…

iOS开发-UIScrollView原理

转载:http://www.cnblogs.com/xiaofeixiang/p/5144256.html UIScrollView 在开发中是不可避免&#xff0c;关于UIScrollView都有自己一定的理解。滚动视图有两个需要理解的属性&#xff0c;frame和bounds&#xff0c;frame是定义了视 图在窗口的大小和位置&#xff0c;bounds表…

边缘计算如何实现海量IoT数据就地处理

1.什么是IoT边缘&#xff1f;Gartner数据显示&#xff0c;到2021年底将有超过50&#xff05;的大型企业部署至少一个边缘计算应用&#xff1b;到2023年底&#xff0c;50&#xff05;以上的大型企业将至少部署6个用于物联网或沉浸式体验的边缘计算应用。工业一体机的售价一般在1…

《鸿蒙理论知识02》HarmonyOS开发平台和工具

目录 1.应用和开发工具的演进 2.超 级 终 端 应 用 开 发 面 临 全 新 挑 战

用Lucene建立搜索索引

本文是我们名为“ Apache Lucene基础知识 ”的学院课程的一部分。 在本课程中&#xff0c;您将了解Lucene。 您将了解为什么这样的库很重要&#xff0c;然后了解Lucene中搜索的工作方式。 此外&#xff0c;您将学习如何将Lucene Search集成到您自己的应用程序中&#xff0c;以…

twitter api_Java应用程序上的Twitter API

twitter api是否曾想过将推文附加到Java应用程序&#xff1f; 我为此寻找了最好的API&#xff0c;很幸运&#xff0c;我找到了它&#xff01; http://twitter4j.org/ 一个简单的方法&#xff1a; 我们需要做的第一件事是在您的Twitter帐户中创建一个应用程序&#xff0c;为其授…

垂直和水平装饰

装饰器模式是在不更改其接口的情况下向对象添加功能的最佳方法之一。 我经常使用可组合装饰器&#xff0c;并且总是会问自己在功能列表必须可配置时如何正确设计它们。 我不确定我的答案是否正确&#xff0c;但是这里有一些值得深思的地方。 公寓&#xff08;1960&#xff09;…

cygwin配置git

对于windows用户来说&#xff0c;使用git bash经常会出现乱码情况&#xff0c;那么一款优质高尚的软件&#xff0c;值得推荐一下了&#xff0c;那就是cygwin 下载cygwin后&#xff0c;在安装过程中&#xff0c;安装git&#xff0c;安装vim编辑器 然后会在安装目录下看到类linux…