是什么让.NET7的Min和Max方法性能暴增了45倍?

简介

在之前的一篇文章.NET性能系列文章一:.NET7的性能改进中我们聊到Linq中的Min()Max()方法.NET7比.NET6有高达45倍的性能提升,当时Benchmark代码和结果如下所示:

[Params(1000)]
public int Length { get; set; }private int[] arr;[GlobalSetup]
public void GlobalSetup() => arr = Enumerable.Range(0, Length).ToArray();[Benchmark]
public int Min() => arr.Min();[Benchmark]
public int Max() => arr.Max();
方法运行时数组长度平均值比率分配
Minoutside_default.png10003,494.08 ns53.2432 B
Minoutside_default.png100065.64 ns1.00-
Maxoutside_default.png10003,025.41 ns45.9232 B
Maxoutside_default.png100065.93 ns1.00-
6eac8bb15e222896bcd82b9f69bb51c3.png

可以看到有高达45倍的性能提升,那就有小伙伴比较疑惑,在.NET7中到底是做了什么让它有如此大的性能提升?所以本文就通过.NET7中的一些pr带大家一起探索下.NET7的Min()Max()方法是如何变快的。

探索

首先我们打开.NET Runtime的仓库,应该没有人不会知道仓库的地址吧?里面包含了.NET运行时所有的代码,包括CLR和BCL库。地址如下所示:https://github.com/dotnet/runtime4f36a28dfbfadcfe5b9416ba1200a474.png然后我们熟练的根据命名空间System.Linq找到Linq所在的文件夹位置,如下所示:34033cb2be2cbb509f2c13a0c9c83ba4.png可以看到很多Linq相关的方法都在这个文件夹内,让我们先来找一找Max()方法所对应的类。就是下方所示,我们可以看到刚好异步小王子Stephen Toub大佬提交了一个优化代码。34ec0b3f4348763de6dc6459ebd20c93.png然后我们点击History查看这个类的提交历史,我们发现Stephen大佬在今年多次提交代码,都是优化其性能。740d9e49427d06b9d9eda27ce1061432.png找到Stephen大佬的第一个提交,我们发现在Max的代码中,多了一个特殊的路径,如果数据类型为int[],那么就走单独的一个方法重载,并在这个重载中启用了SIMD向量化,代码如下所示:339b3f8fb32900005370e3b1271dfa0a.pngSIMD向量化在我之前的多篇文章中都有提到(如:.NET如何快速比较两个byte数组是否相等[1]),它是CPU的特殊指令,使用它可以大幅度的增强运算性能,我猜这就是性能提升的原因。

我们可以看到在上面只为int[]做了优化,然后继续浏览了Stephen大佬的其它几个PR,Stephen大佬将代码抽象了一下,使用了泛型的特性,然后顺便为其它的基本值类型都做了优化。能享受到性能提升的有byte sbyte ushort short uint int ulong long nuint nintef3296c58a5e420c140d5c5018847c74.png

所以我们以最后一个提交为例,看看到底是用了什么SIMD指令,什么样的方法来提升的性能。抽取出来的核心代码如下所示:

private static T MinMaxInteger<T, TMinMax>(this IEnumerable<T> source)where T : struct, IBinaryInteger<T>where TMinMax : IMinMaxCalc<T>
{T value;if (source.TryGetSpan(out ReadOnlySpan<T> span)){if (span.IsEmpty){ThrowHelper.ThrowNoElementsException();}// 判断当前平台是否支持使用Vector-128 或者 总数据长度是否小于128位// Vector128是指硬件支持同时计算128位二进制数据if (!Vector128.IsHardwareAccelerated || span.Length < Vector128<T>.Count){// 进入到此路径,说明最基础的Vector128都不支持,那么直接使用for循环来比较value = span[0];for (int i = 1; i < span.Length; i++){if (TMinMax.Compare(span[i], value)){value = span[i];}}}// 判断当前平台是否支持使用Vector-256 或者 总数据长度是否小于256位// Vector256是指硬件支持同时计算256位二进制数据else if (!Vector256.IsHardwareAccelerated || span.Length < Vector256<T>.Count){// 进入到此路径,说明支持Vector128但不支持Vector256// 那么进入128位的向量化的比较// 获取当前数组的首地址,也就是指向第0个元素ref T current = ref MemoryMarshal.GetReference(span);// 获取Vector128能使用的最后地址,因为整个数组占用的bit位有可能不能被128整除// 也就是说最后的尾巴不够128位让CPU跑一次,那么就直接最后往前数128位,让CPU能完整的跑完ref T lastVectorStart = ref Unsafe.Add(ref current, span.Length - Vector128<T>.Count);// 从内存首地址加载0-127bit数据,作为最大值的基准Vector128<T> best = Vector128.LoadUnsafe(ref current);// 计算下一个的位置,也就是偏移128位current = ref Unsafe.Add(ref current, Vector128<T>.Count);// 循环比较 确保地址小于最后地址while (Unsafe.IsAddressLessThan(ref current, ref lastVectorStart)){// 此时TMinMax.Compare重载代码 => Vector128.Max(left, right);// Vector128.Max 会根据类型一一比较,每x位最大的返回,// 比如int就是每32位比较,详情可以看我后文的解析best = TMinMax.Compare(best, Vector128.LoadUnsafe(ref current));current = ref Unsafe.Add(ref current, Vector128<T>.Count);}// 最后一组Vector128进行比较best = TMinMax.Compare(best, Vector128.LoadUnsafe(ref lastVectorStart));// 由于Vector128最后的结果是128位,比如我们类型是int32,那么最后的结果就有// 4个int32元素,我们还需要从这4个int32元素中找到最大的value = best[0];for (int i = 1; i < Vector128<T>.Count; i++){// 这里 TMinMax.Compare就是简单的大小于比较// left > rightif (TMinMax.Compare(best[i], value)){value = best[i];}}}else{// Vector256执行流程和Vector128一致// 只是它能一次性判断256位,举个例子就是一个指令8个int32ref T current = ref MemoryMarshal.GetReference(span);ref T lastVectorStart = ref Unsafe.Add(ref current, span.Length - Vector256<T>.Count);Vector256<T> best = Vector256.LoadUnsafe(ref current);current = ref Unsafe.Add(ref current, Vector256<T>.Count);while (Unsafe.IsAddressLessThan(ref current, ref lastVectorStart)){best = TMinMax.Compare(best, Vector256.LoadUnsafe(ref current));current = ref Unsafe.Add(ref current, Vector256<T>.Count);}best = TMinMax.Compare(best, Vector256.LoadUnsafe(ref lastVectorStart));value = best[0];for (int i = 1; i < Vector256<T>.Count; i++){if (TMinMax.Compare(best[i], value)){value = best[i];}}}}else{// 如果不是基本类型的数组,那么进入迭代器,使用原始方法比较using (IEnumerator<T> e = source.GetEnumerator()){if (!e.MoveNext()){ThrowHelper.ThrowNoElementsException();}value = e.Current;while (e.MoveNext()){T x = e.Current;if (TMinMax.Compare(x, value)){value = x;}}}}return value;
}

以上就是代码的解析,相信很多人疑惑的地方就是Vector128.Max做了什么,我们可以构造一个代码,让大家简单的看出来发生了什么。代码和运行结果如下所示:

// 定义一个数组
var array = new int[] { 4, 3, 2, 1, 1, 2, 3, 4 };// 拿到数组首地址指针
ref int current = ref MemoryMarshal.GetReference(array.AsSpan());// 从首地址加载128位数据,上面是int32
// 所以x = 4, 3, 2, 1
var x = Vector128.LoadUnsafe(ref current);// 偏移128位以后,继续加载128位数据
// 所以y = 1, 2, 3, 4
var y = Vector128.LoadUnsafe(ref Unsafe.Add(ref current, Vector128<int>.Count));// 使用Vector128.Max进行计算
var result = Vector128.Max(x, y);// 打印输出结果
x.Dump();
y.Dump();
result.Dump();

ea03c41e1f0ce3898728c7d5d6b89ba8.png从运行的结果可以看到,result中保存的是xy对应位置的最大值,这样是不是就觉得清晰明了,Stephe大佬上文的代码就是做了这样一个操作。

同样,如果我们把int32换成int64,也就是long类型,由于一个元素占用64位,所以一次只能加载2个int64元素比较最大值,得出对应位置的最大值:c4170f42230a2c9168e4d297e2b5e4e9.png

最后使用下面的for循环代码,从result中找到最大的那个int32元素,从我们上文的案例中就是4,结果和代码如下所示:

var value = result[0];
for (int i = 1; i < Vector128<int>.Count; i++)
{if (value < result[i]){value = result[i];}
}

c048b700af2b701b8adfcee517a88957.png要注意的是,为了演示方便我这里数组bit长度刚好是128倍数,实际情况中需要考虑不是128倍数的场景。

总结

答案显而易见,试.NET7中Min()Max()方法性能暴增45倍的原因就是Stephe大佬对基本几个连续的值类型比较做了SIMD优化,而这样的优化在本次的.NET7版本中有非常多,后面有时间带大家一起看看SIMD又是如何提升其它方面的性能的。

参考资料

[1]

.NET如何快速比较两个byte数组是否相等: https://www.cnblogs.com/InCerry/p/dotnet-compare-two-byte-arrays.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/281556.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在Identity框架中使用RoleBasedAuthorization

本文将介绍在 Identity 框架中如何使用 Sang.AspNetCore.RoleBasedAuthorization[1] 库。核心介绍Identity 和 jwt 的基本配置我们在这里不再赘述&#xff0c;可以参考最后的项目样例。核心的代码主要为 IRolePermission 的实现。internal class MyRolePermission : IRolePermi…

Magicodes.IE 2.7.0-beta发布

2.7.0-beta2022.10.27使用SixLabors.ImageSharp替代System.Drawing&#xff0c;感谢linch90 &#xff08;见pr#454&#xff09;2.6.92022.10.26fix: 动态数据源导出到多个sheet的问题 &#xff08;见#449&#xff09;2.6.82022.10.18Excel模板导出添加API&#xff0c;以支持通过…

Ubuntu 18.04上Qmmp安装教程

Qmmp&#xff0c;一个开源的基于Qt的多媒体播放器。它具有多种音频文件格式支持&#xff0c;DSP效果&#xff0c;视觉效果;输出系统支持&#xff08;OSS4&#xff08;FreeBSD&#xff09;&#xff0c;ALSA&#xff08;Linux&#xff09;&#xff0c;Pulse Audio&#xff0c;JAC…

C# WPF 表格控件的前后台数据交互?

概述GridControl控件使用我们已经进行了实例讲解&#xff0c;这节内容我们列举一个特殊的应用场景&#xff1a;表格中有一列CheckBox&#xff0c;默认都处于勾选状态&#xff0c;当用户通过界面操作后&#xff0c;我们要确保用户至少选择了一项&#xff0c;相当于一次数据验证&…

Java(C#)基础差异-语法

1、long类型 Java long类型&#xff0c;若赋值大于int型的最大值&#xff0c;或小于int型的最小值&#xff0c;则需要在数字后加L或者l&#xff0c;表示该数值为长整数&#xff0c;如long num2147483650L。 举例如下&#xff1a; public static void main(String[] args) {/** …

android防止左向右滑出程序,Android——ViewPager禁止左右滑动的实现

目录1 背景用ViewPagerBottomNavigationView多个Fragment快速搭建的页面切换架构&#xff0c;一个有四个页面&#xff0c;因为测试需要&#xff0c;需要屏蔽掉中间的两个&#xff0c;做法是&#xff1a;设置不可点击选择&#xff1a;xml布局文件中&#xff0c;BottomNavigation…

Yii2 的快速配置 api 服务 yii2-fast-api

yii2-fast-api yii2-fast-api是一个Yii2框架的扩展&#xff0c;用于配置完善Yii2&#xff0c;以实现api的快速开发。 此扩展默认的场景是APP的后端接口开发&#xff0c;因此偏向于实用主义&#xff0c;并未完全采用restfull的标准&#xff0c;方便前端开发处理接口数据以及各种…

.NET6打包部署到Windows Service

1.安装Nuget包安装以下nuget包支持windows service<PackageReference Include"Microsoft.AspNetCore.Hosting.WindowsServices" Version"6.0.10" /> <PackageReference Include"Microsoft.Extensions.Hosting.WindowsServices" Version…

android emoji unicode编码表,unicode编码

unicode编码app是一款字符查找客户端应用&#xff0c;通过unicode编码可以方便寻找特定字符&#xff0c;查看字符表情详细的描述&#xff0c;并且利用unicode编码就可以快捷复制任意unicode编码&#xff0c;提高开发效率&#xff0c;非常的实用&#xff0c;快来下载unicode编码…

物联网商机诱人 芯片商大力搭建生态系统

应用需求变化多端的物联网&#xff0c;虽具备庞大的发展潜力及应用商机&#xff0c;但由于市场过于分散&#xff0c;几乎没有杀手应用可言&#xff0c;因此对有意耕耘相关市场的半导体业者而言&#xff0c;如何借力使力&#xff0c;寻找盟友共同搭建出的生态系统&#xff0c;遂…

ASP.NET Core 6框架揭秘实例演示[30]:利用路由开发REST API

借助路由系统提供的请求URL模式与对应终结点之间的映射关系&#xff0c;我们可以将具有相同URL模式的请求分发给与之匹配的终结点进行处理。ASP.NET的路由是通过EndpointRoutingMiddleware和EndpointMiddleware这两个中间件协作完成的&#xff0c;它们在ASP.NET平台上具有举足轻…

数据库(二)tab补全功能,使数据库支持简体中文,日志管理,备份脚本

一、如何在MySQL数据库中使用tab键补全功能 1.修改主配置文件/etc/my.cnf vim /etc/my.cnf [mysql] #no-auto-rehash auto-rehash 2.重启MySQL服务&#xff0c;登录测试 /etc/init.d/mysqld restart mysql -uroot -p (可在数据库中使用tab键&#xff09; 3.&#xff1b;临时支持…

企业数字化转型服务+方案

前言&#xff1a;本文的阅读对象是公司老板、或企业高层管理者&#xff01;1【背景介绍】数字经济与实体经济深度融合是助推我国经济高质量发展的重要环节。为加快数字中国建设&#xff0c;中央和地方政府都出台各类政策扶植数字化转型相关项目。马云在接受采访时也提到&#x…

.NET性能优化-使用ValueStringBuilder拼接字符串

前言这一次要和大家分享的一个Tips是在字符串拼接场景使用的&#xff0c;我们经常会遇到有很多短小的字符串需要拼接的场景&#xff0c;在这种场景下及其的不推荐使用String.Concat也就是使用运算符。 目前来说官方最推荐的方案就是使用StringBuilder来构建这些字符串&#xff…

STOLUCK:经济下行的当下 ,STO或将帮助中小企业度过寒冬

2018年被称为创业阵亡率特别高的一年&#xff0c;相关报道称有近20%的创业团队面临“后续融资跟不上&#xff0c;可能死在春天来临之前”的窘境。经济不景气的当下&#xff0c;上下游资金不足&#xff0c;信贷机构没钱&#xff0c;风投业捉襟见肘。实际今年3月份开始&#xff0…

浅析C# Dictionary实现原理

一、前言二、理论知识1、Hash 算法2、Hash 桶算法3、解决冲突算法三、Dictionary 实现1. Entry 结构体2. 其它关键私有变量3. Dictionary - Add 操作4. Dictionary - Find 操作5. Dictionary - Remove 操作6. Dictionary - Resize 操作(扩容)7. Dictionary - 再谈 Add 操作8. C…

猫晚流量再创记录,阿里云直播方案护航优酷2500万用户体验

2019独角兽企业重金招聘Python工程师标准>>> 对“剁手党而言&#xff0c;天猫双11早已经超越了简单的“买买买”&#xff0c;更是一场边看边玩的狂欢盛宴。今年的天猫双11狂欢夜晚会&#xff08;简称“猫晚”&#xff09;在上海举办&#xff0c;这台兼具年轻潮流与国…

python实现二叉树和它的七种遍历

介绍&#xff1a; 树是数据结构中非常重要的一种&#xff0c;主要的用途是用来提高查找效率&#xff0c;对于要重复查找的情况效果更佳&#xff0c;如二叉排序树、FP-树。另外可以用来提高编码效率&#xff0c;如哈弗曼树。 代码&#xff1a; 用python实现树的构造和几种遍历算…

.NET性能系列文章二:Newtonsoft.Json vs System.Text.Json

微软终于追上了&#xff1f;图片来自 Glenn Carstens-Peters[1]Unsplash[2]欢迎来到.NET 性能系列的另一章。这个系列的特点是对.NET 世界中许多不同的主题进行研究、基准和比较。正如标题所说的那样&#xff0c;重点在于使用最新的.NET7 的性能。你将看到哪种方法是实现特定主…

android gpu平板 推荐,性能强的不像话,最强安卓平板华为平板M6上手

原标题&#xff1a;性能强的不像话&#xff0c;最强安卓平板华为平板M6上手你为什么买平板电脑&#xff1f;当这一问题问出以后&#xff0c;许多朋友的表情都很微妙&#xff0c;随后大概率的回答则相当统一&#xff1a;"我买平板干嘛&#xff1f;"。其实得到这样一个…