.NET9 PreView2+.AOT ILC 的重大变化

RyuJIT 增强功能

1. 环路优化 (循环优化)

这种优化实际上是一种 for 循环叠加态的优化,for 循环叠加计算的过程中,会对其中部分变量进行感应。比如循环中放置 0 扩展 (第一个索引为 0),这种优化灵感来源于 LLVM 标量演化。下面看例子,说明下这个优化:

[MethodImpl(MethodImplOptions.NoInlining)]
static int Foo(int[] arr)
{int sum = 0;for (int i = 0; i < arr.Length; i++){sum += arr[i];}return sum;
}

未优化前:

G_M8112_IG01:sub      rsp, 40;; size=4 bbWeight=1 PerfScore 0.25
G_M8112_IG02:xor      eax, eaxxor      edx, edxmov      r8d, dword ptr [rcx+0x08]test     r8d, r8djle      SHORT G_M8112_IG04align    [0 bytes for IG03];; size=13 bbWeight=1 PerfScore 3.75
G_M8112_IG03:mov      r10d, edxadd      eax, dword ptr [rcx+4*r10+0x10]inc      edxcmp      r8d, edxjg       SHORT G_M8112_IG03;; size=15 bbWeight=4 PerfScore 19.00
G_M8112_IG04:add      rsp, 40ret      ;; size=5 bbWeight=1 PerfScore 1.25; Total bytes of code 37, prolog size 4, PerfScore 24.25,instruction count 14, allocated bytes for code 37 (MethodHash=d1cce04f) for method ConsoleApp34.Program:Foo(int[]):int (FullOpts)
; ============================================================

未优化前 37 字节,优化后:

G_M8112_IG01:  ;; offset=0x0000sub      rsp, 40;; size=4 bbWeight=1 PerfScore 0.25
G_M8112_IG02:  ;; offset=0x0004xor      eax, eaxmov      edx, dword ptr [rcx+0x08]test     edx, edxjle      SHORT G_M8112_IG04xor      r8d, r8dalign    [0 bytes for IG03];; size=12 bbWeight=1 PerfScore 3.75
G_M8112_IG03:  ;; offset=0x0010add      eax, dword ptr [rcx+4*r8+0x10]inc      r8dcmp      edx, r8djg       SHORT G_M8112_IG03;; size=13 bbWeight=4 PerfScore 18.00
G_M8112_IG04:  ;; offset=0x001Dadd      rsp, 40ret      ;; size=5 bbWeight=1 PerfScore 1.25; Total bytes of code 34, prolog size 4, PerfScore 23.25, 
instruction count 13, allocated bytes for code 34(MethodHash=d1cce04f) for method ConsoleApp34.Program:Foo(int[]):int (FullOpts)

优化后 34 字节,减少了 3 字节,优化的指令如下,刚好三字节。这里的优化点是减却寄存器置零或者赋值 (称之为放置 0 扩展),进行共用。

mov   41 89 d2  r10d, edx

2.NativeAOT 改进:内联 + TLS

这种优化,需要了解一些知识点。假如一个类成员被多个线程访问,一般的访问的时候会设置锁,以避免数据干扰。但是,这同时也产生性能问题。为了提高性能,可以把这个类成员放到线程本地存储 (TLS) 当中,访问的时候直接去线程本地存储获取,这样极大提高了性能。

但是这还不够,我们需要把访问类成员的代码进行内联。进一步提高性能,不然怎么能叫极致性能优化呢?

代码:

:  90000000   adrp  x0, 0 <System_Console_System_ConsoleKeyInfo____GetFieldHelper>5a2f0: R_AARCH64_TLSDESC_ADR_PAGE21  tls_InlinedThreadStatics5a2f4:  91000000   add  x0, x0, #0x05a2f4: R_AARCH64_TLSDESC_ADD_LO12  tls_InlinedThreadStatics5a2f8:  d53bd041   mrs  x1, tpidr_el05a2fc:  f9400002   ldr  x2, [x0]5a2fc: R_AARCH64_TLSDESC_LD64_LO12  tls_InlinedThreadStatics5a300:  d63f0040   blr  x25a300: R_AARCH64_TLSDESC_CALL  tls_InlinedThreadStatics5a304:  8b000020   add  x0, x1, x05a308:  f9400013   ldr  x19, [x0]

2.PGO 的改进:类型检查

PGO 是.NET8 的一大亮点,启用了动态配置文件引导优化 (PGO)。.NET9 Pre2 扩展了 PGO,以便分析更多的代码模式。启用分层编译后,RyuJIT 已经将检测插入到程序中以分析其行为;在使用优化重新编译时,RyuJIT 利用它在运行时构建的配置文件来做出特定于程序当前运行的决策。在预览版 2 中,RyuJIT 现在默认使用 PGO 数据来提高类型检查的性能。

一般来说,确定对象的类型需要调用运行时。这会带来一些性能上的损失,也就是说当进行类型检查的时候,运行时为了确保类型正确性,必须进行检查。通过.NET8 里面启用的 PGO,如果在 PGO 里面能够确定对象是某个类型,JIT 就会用一个快速路径编码,以比较快速的方式进行类型检查。并且在必要的时候退回到慢速路径 (常规检查)

bool IsList<T>(IEnumerable<T> source) => source is IList<T>;

如果 PGO 检测到 source 总是数组,则会快速路径返回 true,否则慢速路径进行检测

if (source is int[])
{return true;
}
else
{return slow_path(); // Let the runtime figure it out
}

ARM64 矢量化

.NET9 Pre2 支持了一种新的实现,利用 JIT 在 Arm64 上操作寄存器的加载和存储的能力。简单点来说,就是用 SEE,YMM 等一次性操控 32 字节或者 64 字节的寄存器处理更大量的数据,提升性能。

.NET9 AOT ILC

AOT 编译分成两个阶段,其一是生成 Obj 目标文件,其二则是通过链接器链接目标文件生成可执行二进制文件。这里的目标文件和可执行二进制文件都是分别对于相应的平台,比如 MacOS/Linux/Win 等等平台。

第一步生成 Obj 目标文件,因为多平台生成。所以.NET9 之前,微软采用了 LLVM 后端生成了目标文件。因为 LLVM 后端近乎绝对的统治力,它有一百多个指令集级别的后端生成,所以采用 LLVM 更符合开源特征。

但这一情况到了.NET9 发生了变化,.NET9 里面微软首次引入了 C# 代码生成目标文件,取代了 LLVM 默认的生成。但是 LLVM 并没有删除,而是同时存在。

这部分代码可以参考:

public static void EmitObject(string objectFilePath, IReadOnlyCollection<DependencyNode> nodes, NodeFactory factory, ObjectWritingOptions options, IObjectDumper dumper, Logger logger){var stopwatch = new Stopwatch();stopwatch.Start();if (Environment.GetEnvironmentVariable("DOTNET_USE_LLVM_OBJWRITER") == "1"){LegacyObjectWriter.EmitObject(objectFilePath, nodes, factory, options, dumper, logger);}else{ObjectWriter objectWriter =factory.Target.IsApplePlatform ? new MachObjectWriter(factory, options) :factory.Target.OperatingSystem == TargetOS.Windows ? new CoffObjectWriter(factory, options) :new ElfObjectWriter(factory, options);objectWriter.EmitObject(objectFilePath, nodes, dumper, logger);}stopwatch.Stop();if (logger.IsVerbose)logger.LogMessage($"Done writing object file in {stopwatch.Elapsed}");}

如果你不作任何设置,.NET9 默认的目标文件生成即是 C# 自举的代码。但是你如果习惯了 LLVM 的生成,也可以通过设置环境变量来开启之前的 LLVM 后端。具体如下:

CMD:          set    DOTNET_USE_LLVM_OBJWRITER=1
Powershell:   $env:  DOTNET_USE_LLVM_OBJWRITER=1
Unix/Linux:   export DOTNET_USE_LLVM_OBJWRITER=1dotnet xxx.dll

先设置环境变量,然后通过 dotnet 命令行运行托管 DLL 即可复现之前的 LLVM 后端生成。以上是各个平台的设置。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/796842.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

每天一个数据分析题(二百五十四)

在大数据时代背景下&#xff0c;我们使用的数据主要包含两种类别&#xff0c;一种称为结构化数据&#xff0c;另一种称为非结构化数据。请问以下哪个选项属于非结构化数据&#xff1f; A. 利润表 B. 短视频 C. 产品库存表 D. 产品进货表 题目来源于CDA模拟题库 点击此处获…

LeetCode 每日一题 2024/4/1-2024/4/7

记录了初步解题思路 以及本地实现代码&#xff1b;并不一定为最优 也希望大家能一起探讨 一起进步 目录 4/1 2810. 故障键盘4/2 894. 所有可能的真二叉树4/3 1379. 找出克隆二叉树中的相同节点4/4 2192. 有向无环图中一个节点的所有祖先4/5 1026. 节点与其祖先之间的最大差值4/…

8种专坑运维的 SQL 写法,性能降低100倍,您不来看看?

1、LIMIT 语句 分页查询是最常用的场景之一&#xff0c;但也通常也是最容易出问题的地方。比如对于下面简单的语句&#xff0c;一般 DBA 想到的办法是在 type&#xff0c;name&#xff0c; create_time 字段上加组合索引。这样条件排序都能有效的利用到索引&#xff0c;性能迅…

AIGC实战——ProGAN(Progressive Growing Generative Adversarial Network)

AIGC实战——ProGAN 0. 前言1. ProGAN2. 渐进式训练3. 其他技术3.1 小批标准差3.2 均等学习率3.3 逐像素归一化 4. 图像生成小结系列链接 0. 前言 我们已经学习了使用生成对抗网络 (Generative Adversarial Network, GAN) 解决各种图像生成任务。GAN 的模型架构和训练过程具有…

真实的招生办对话邮件及美国高校官网更新的反 AI 政策

这两年 ChatGPT 的热度水涨船高&#xff0c;其编写功能强大&#xff0c;且具备强大的信息整合效果&#xff0c;所以呈现的内容在一定程度上具备可读性。 那么&#xff0c;美国留学文书可以用 ChatGPT 写吗&#xff1f;使用是否有风险&#xff1f;外网博主 Kushi Uppu 在这个申…

C++20 semaphore(信号量) 详解

头文件在C20中是并发库技术规范&#xff08;Technical Specification, TS&#xff09;的一部分。信号量是同步原语&#xff0c;帮助控制多线程程序中对共享资源的访问。头文件提供了标准C方式来使用信号量。 使用环境 Windows&#xff1a;VS中打开项目属性&#xff0c;修改C语…

基于卷积神经网络的天气识别系统(pytorch框架)【python源码+UI界面+前端界面+功能源码详解】

功能演示&#xff1a; 天气识别系统&#xff0c;vgg16&#xff0c;mobilenet卷积神经网络&#xff08;pytorch框架&#xff09;_哔哩哔哩_bilibili &#xff08;一&#xff09;简介 基于卷积神经网络的天气识别系统是在pytorch框架下实现的&#xff0c;系统中有两个模型可选…

vue+elementUI实现表格组件的封装

效果图&#xff1a; 在父组件使用表格组件 <table-listref"table":stripe"true":loading"loading":set-table-h"slotProps.setMainCardBodyH":table-data"tableData":columns"columns.tableList || []":ra…

快速创建Python库文档:pdoc的简便之道

快速创建Python库文档:pdoc的简便之道 什么是pdoc&#xff1f; pdoc 是一个用于自动生成 Python 模块文档的库,它可以根据代码中的 docstrings 自动生成漂亮的文档网页. 为什么选择使用pdoc库&#xff1f; 简单易用: pdoc不需要复杂的配置,只需运行一个命令即可生成文档。 …

项目管理工具对比:甘特图与看板

许多项目管理工具都能帮助你规划、管理和跟踪项目&#xff0c;比如甘特图和看板。如果比较一下甘特图和看板&#xff0c;会发现两者在不同方面都对项目有价值。 让我们来看看看板与甘特图的区别&#xff0c;了解它们是如何工作的&#xff0c;以及各自的优缺点&#xff0c;看看…

基于Springboot的Java学习平台

采用技术 基于Springbootjava学习平台的设计与实现~ 开发语言&#xff1a;Java 数据库&#xff1a;MySQL 技术&#xff1a;SpringBootMyBatis 工具&#xff1a;IDEA/Ecilpse、Navicat、Maven 页面展示效果 系统功能模块 后台管理 用户注册 课程信息 作业信息 资料信息…

电工技术学习笔记——正弦交流电路

一、正弦交流电路 1. 正弦量的向量表示法 向量表示方法&#xff1a;正弦交流电路中&#xff0c;相量表示法是一种常用的方法&#xff0c;用于描述电压、电流及其相位关系。相量表示法将正弦交流信号表示为复数&#xff0c;通过复数的运算来描述电路中各种参数的相互关系 …

java中的正则表达式和异常

正则表达式&#xff1a; 作用一&#xff1a;用来校验数据格式是否合法 作用二&#xff1a;在文本中查找满足要求的内容 不用正则表达式&#xff1a;检验QQ号是否合法&#xff0c;要求全部是数字&#xff0c;长度在6-20&#xff0c;不能以0开头 public class test {public stat…

使用阿里云试用Elasticsearch学习:2.3 深入搜索——多字段搜索

查询很少是简单一句话的 match 匹配查询。通常我们需要用相同或不同的字符串查询一个或多个字段&#xff0c;也就是说&#xff0c;需要对多个查询语句以及它们相关度评分进行合理的合并。 有时候或许我们正查找作者 Leo Tolstoy 写的一本名为 War and Peace&#xff08;战争与…

【Linux实践室】Linux高级用户管理实战指南:创建与删除用户组操作详解

&#x1f308;个人主页&#xff1a;聆风吟_ &#x1f525;系列专栏&#xff1a;Linux实践室、网络奇遇记 &#x1f516;少年有梦不应止于心动&#xff0c;更要付诸行动。 文章目录 一. ⛳️任务描述二. ⛳️相关知识2.1 &#x1f514;Linux创建用户组命令2.1.1 知识点讲解2.1.2…

设计模式的区别

很多设计模式看起来或者感觉上差不多&#xff0c;其实不仅仅要从具体的实现方式来辨别&#xff0c;更要主要该种设计模式的意图。 那些容易混淆的设计模式&#xff0c;了解一下~_看了几种设计模式发现有点混乱,都差不多啊-CSDN博客

亲手开发全国海域潮汐表查询微信小程序详情教程及代码

最近在做一个全国海域潮汐表查询&#xff0c;可以为赶海钓鱼爱好者提供涨潮退潮时间表及潮高信息。 下面教大家怎么做一个这样的小程序。 主要功能&#xff0c;根据IP定位地理位置&#xff0c;自动查询出省份或城市的港口&#xff0c;进入后预测7天内港口潮汐表查询。 步骤&…

全坚固笔记本丨工业笔记本丨三防笔记本相较于普通笔记本有哪些优势?

三防笔记本和普通笔记本在设计和性能方面存在显著差异&#xff0c;三防笔记本相较于普通笔记本具备以下优势&#xff1a; 三防笔记本通常采用耐磨、耐摔的材料&#xff0c;并具有坚固的外壳设计&#xff0c;能够承受恶劣环境和意外碰撞&#xff0c;有效保护内部组件不受损坏。相…

【Linux】进程初步理解

个人主页 &#xff1a; zxctscl 如有转载请先通知 文章目录 1. 冯诺依曼体系结构1.1 认识冯诺依曼体系结构1.2 存储金字塔 2. 操作系统2.1 概念2.2 结构2.3 操作系统的管理 3. 进程3.1 进程描述3.2 Linux下的PCB 4. task_struct本身内部属性4.1 启动4.2 进程的创建方式4.2.1 父…

C/C++预处理过程

目录 前言&#xff1a; 1. 预定义符号 2. #define定义常量 3. #define定义宏 4. 带有副作用的宏参数 5. 宏替换的规则 6. 宏和函数的对比 7. #和## 8. 命名约定 9. #undef 10. 命令行定义 11. 条件编译 12. 头文件的包含 13. 其他预处理指令 总结&#x…