[C#] .NET8增加了Arm架构的多寄存器的查表函数(VectorTableLookup/VectorTableLookupExtension)

发现.NET8增加了Arm架构的多寄存器的查表函数(VectorTableLookup/VectorTableLookupExtension),这给编写SIMD向量化算法带来了方便。

一、指令说明

在学习Arm的AdvSimd(Neon)指令集时,发现它的Lookup(查表)功能,类似X86的Sse系列指令集中的字节Shuffle(换位。如 _mm_shuffle_epi8 )功能。
而且Arm的Lookup不仅支持单个向量的查表,且支持多个向量的查表。具体来说,是2~4个向量。
单个向量查表(如 vqvtbl1q_u8)时,只能在 16字节(128位)的范围内进行查表。而使用4个向量查表(如 vqtbl4q_u8 )时,能在 16*4=64字节(512位)的范围内进行查表。

.NET 5.0开始支持Arm的内在函数,但当时仅支持单个向量查表。
现在 .NET 8.0 补上了这个空缺。

二、API文档的变化

对于AdvSimd.Arm64.VectorTableLookup 方法,.NET 5.0 的文档是只有2个重载。

VectorTableLookup(Vector128<SByte>, Vector128<SByte>)    // int8x16_t vqvtbl1q_s8(int8x16_t t, uint8x16_t idx)
VectorTableLookup(Vector128<Byte>, Vector128<Byte>)    // uint8x16_t vqvtbl1q_u8(uint8x16_t t, uint8x16_t idx)

到了.NET 8.0 ,文档多了6个重载。

VectorTableLookup(ValueTuple<Vector128<Byte>,Vector128<Byte>,Vector128<Byte>,Vector128<Byte>>, Vector128<Byte>)        // uint8x16_t vqtbl4q_u8 (uint8x16x4_t t、uint8x16_t idx)
VectorTableLookup(ValueTuple<Vector128<Byte>,Vector128<Byte>,Vector128<Byte>>, Vector128<Byte>)    // uint8x16_t vqtbl3q_u8 (uint8x16x3_t t、uint8x16_t idx)
VectorTableLookup(ValueTuple<Vector128<Byte>,Vector128<Byte>>, Vector128<Byte>)    // uint8x16_t vqtbl2q_u8 (uint8x16x2_t t、uint8x16_t idx)
VectorTableLookup(ValueTuple<Vector128<SByte>,Vector128<SByte>,Vector128<SByte>,Vector128<SByte>>, Vector128<SByte>)    // int8x16_t vqtbl4q_s8 (int8x16x4_t t、uint8x16_t idx)
VectorTableLookup(ValueTuple<Vector128<SByte>,Vector128<SByte>,Vector128<SByte>>, Vector128<SByte>)    // int8x16_t vqtbl3q_s8 (int8x16x3_t t、uint8x16_t idx)
VectorTableLookup(ValueTuple<Vector128<SByte>,Vector128<SByte>>, Vector128<SByte>)    // int8x16_t vqtbl2q_s8 (int8x16x2_t t、uint8x16_t idx)

可见,2、3、4个向量的查表功能都加上了了。随后再区分一下 Byte/SByte 这2种类型,于是共增加了 3*2=6 个重载。

三、官方说明

查了一下,发现在官方博文《Arm64 Performance Improvements in .NET 8》(.NET 8 中的 Arm64 性能改进)里有说明。
这一段内容的机器翻译如下。

VectorTableLookup 和 VectorTableLookupExtension
在 .NET 8 中,我们在System.Runtime.Intrinsics.Arm命名空间下添加了两组新的 API:VectorTableLookup和 VectorTableLookupExtension。public static Vector64<byte> VectorTableLookup((Vector128<byte>, Vector128<byte>) table, Vector64<byte> byteIndexes);public static Vector64<byte> VectorTableLookup(Vector64<byte> defaultValues, (Vector128<byte>, Vector128<byte>) table, Vector64<byte> byteIndexes);让我们看一下每个 API 的示例。// Vector128<byte> a = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16
// Vector128<byte> b = 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160
// Vector64<byte> index = 3, 31, 4, 40, 18, 19, 30, 1Vector64<byte> ans = VectorTableLookup((a, b), index);// ans = 4, 160, 5, 0, 30, 40, 150, 2在上面的示例中,向量 a 和 b 被视为一个表,共有 32 个条目(16 个来自 a,16 个来自 b),索引从 0 开始。如果索引超出范围,例如在我们的示例中试图访问索引 40,API 将返回该超出范围索引的值 0。// Vector64<byte> d = 100, 200, 300, 400, 500, 600, 700, 800
// Vector128<byte> a = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16
// Vector128<byte> b = 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160
// Vector64<byte> index = 3, 31, 4, 40, 18, 19, 30, 1Vector64<byte> ans = VectorTableLookupExtension(d, (a, b), index);// ans = 4, 160, 5, 400, 30, 40, 150, 2与 VectorTableLookup相反,当使用VectorTableLookupExtension方法时,如果索引超出有效范围,则结果中的相应元素将由参数中提供的defaultValues值确定。值得注意的是,这些 API 还有其他变体,它们也在 3 实体和 4 实体元组上运行,为各种用例提供了灵活性。在 dotnet/runtime#85189 中,@MihaZupan 利用此 API 优化了 IndexOfAny,显著提高了 30% 的性能。同样,在 dotnet/runtime#87126 中,@SwapnilGaikwad 显著增强了 Guid 格式化器的性能,实现了高达 40% 的性能提升。这些优化表明,利用这一强大的 API 可以大幅提高性能。

四、X86平台的对应

X86的Sse、Avx系列指令集,仅支持单个向量查表。
直到Avx512系列指令集的出现,它增加了2个向量查表的指令 VPERMI2B

.NET8.0也增加了对Avx512系列指令集的支持,便支持了该指令。

对于512位向量,可以使用 Avx512Vbmi 类中的方法。

PermuteVar64x8x2(Vector512<Byte>, Vector512<Byte>, Vector512<Byte>)    // __m512i _mm512_permutex2var_epi8 (__m512i a, __m512i idx, __m512i b)
PermuteVar64x8x2(Vector512<SByte>, Vector512<SByte>, Vector512<SByte>)    // __m512i _mm512_permutex2var_epi8 (__m512i a, __m512i idx, __m512i b)

对于128、256位向量,可以使用 Avx512Vbmi.VL 类中的方法。

PermuteVar16x8x2(Vector128<Byte>, Vector128<Byte>, Vector128<Byte>)    // __m128i _mm_permutex2var_epi8 (__m128i a,__m128i idx,__m128i b)
PermuteVar16x8x2(Vector128<SByte>, Vector128<SByte>, Vector128<SByte>)    // __m128i _mm_permutex2var_epi8 (__m128i a,__m128i idx,__m128i b)PermuteVar32x8x2(Vector256<Byte>, Vector256<Byte>, Vector256<Byte>)    // __m256i _mm256_permutex2var_epi8 (__m256i a, __m256i idx, __m256i b)
PermuteVar32x8x2(Vector256<SByte>, Vector256<SByte>, Vector256<SByte>)    // __m256i _mm256_permutex2var_epi8 (__m256i a, __m256i idx, __m256i b)

参考文献

  • 《AdvSimd.Arm64.VectorTableLookup 方法》. https://learn.microsoft.com/zh-cn/dotnet/api/system.runtime.intrinsics.arm.advsimd.arm64.vectortablelookup?view=net-8.0
  • 《Avx512Vbmi.PermuteVar64x8x2 方法》. https://learn.microsoft.com/zh-cn/dotnet/api/system.runtime.intrinsics.x86.avx512vbmi.permutevar64x8x2?view=net-8.0
  • 《Avx512Vbmi.VL 类》. https://learn.microsoft.com/zh-cn/dotnet/api/system.runtime.intrinsics.x86.avx512vbmi.vl?view=net-8.0
  • Kunal Pathak《Arm64 Performance Improvements in .NET 8》. https://devblogs.microsoft.com/dotnet/this-arm64-performance-in-dotnet-8/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/766576.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Git Commit 提交规范,变更日志、版本发布自动化和 Emoji 提交标准

前言 Git Commit 是开发的日常操作, 一个优秀的 Commit Message 不仅有助于他人 Review, 还可以有效的输出 CHANGELOG, 对项目的管理实际至关重要, 但是实际工作中却常常被大家忽略&#xff0c;希望通过本文&#xff0c;能够帮助大家规范 Git Commit&#xff0c;并且展示相关 …

Spring Cloud微服务功能及其组件详细讲解

Spring Cloud微服务功能及其组件详细讲解 文章目录 Spring Cloud微服务功能及其组件详细讲解前言&#xff1a;什么是微服务&#xff1f;一、Spring Cloud原理简述二、核心组件1、服务发现——Nacos/Eureka/Consul1&#xff09;Nacos服务发现2&#xff09;Eureka服务发现3&#…

优化 - 排序算法

一、概念 冒泡排序从左往右比较相邻的两个元素&#xff0c;右比左小就换位&#xff0c;这样最大值就出现在了右边最后一个元素上&#xff0c;再从左边第一个元素开始往右比较到倒数第二个元素&#xff0c;如此重复...选择排序 通过线性查找&#xff08;从左往右挨个查找&#…

Mongodb入门到入土,安装到实战,外包半年学习的成果

这是我参与「第四届青训营 」笔记创作活动的的第27天&#xff0c;今天主要记录前端进阶必须掌握内容Mongodb数据库,从搭建环境到运行数据库,然后使用MongodB; 一、文章内容 数据库基础知识关系型数据库和非关系型数据库为什么学习Mongodb数据库环境搭建及运行MongodbMongodb命…

【进程概念】启动进程 | 查看进程 | 创建进程

目录 启动进程 查看进程 方法1&#xff1a;/proc 方法2&#xff1a;查看脚本 ​方法3&#xff1a;系统调用获取进程标示符❗❗ 终止进程 创建进程&#xff08;主fork) &#x1f642;查看父子进程的pid &#x1f642;进程创建/执行/终止 &#x1f642;多次重新启动进…

Pycharm运行yolov5报错Error: Failed to initialize: Bad git executable.错误的解决方案

一、报错代码 ImportError: Failed to initialize: Bad git executable. The git executable must be specified in one of the following ways:- be included in your $PATH- be set via $GIT_PYTHON_GIT_EXECUTABLE- explicitly set via git.refresh()All git commands will…

STM32 CAN的工作模式

STM32 CAN的工作模式 正常模式 正常模式下就是一个正常的CAN节点&#xff0c;可以向总线发送数据和接收数据。 静默模式 静默模式下&#xff0c;它自己的输出端的逻辑0数据会直接传输到它自己的输入端&#xff0c;逻辑1可以被发送到总线&#xff0c;所以它不能向总线发送显性…

鸿蒙开发实战:网络请求库【axios】

简介 [Axios] &#xff0c;是一个基于 promise 的网络请求库&#xff0c;可以运行 node.js 和浏览器中。本库基于[Axios]原库v1.3.4版本进行适配&#xff0c;使其可以运行在 OpenHarmony&#xff0c;并沿用其现有用法和特性。 http 请求Promise APIrequest 和 response 拦截器…

英语 单词记忆学习

关于足部的单词&#xff0c;可以从不同的角度来分类&#xff0c;比如解剖学、鞋类、运动等。以下是一些与足部相关的单词&#xff1a; ### 解剖学术语 1. **Ankle** (踝关节) - 脚与腿相接的部分。 2. **Arch** (足弓) - 脚底的弓形结构。 3. **Toe** (脚趾) - 脚的前端部分。…

Stable Diffusion实现光影字效果

昨天下午有人在群里发光影图片&#xff0c;大家都觉得很酷&#xff0c;我没怎么在意。直到早上我在小红书看到有人发同款图片&#xff0c;只是一晚上的时间点赞就超过了8000&#xff0c;而且评论数也很高&#xff0c;也可以做文字定制变现。研究了一下发现这个效果不难实现&…

数据结构/C++:哈希表

数据结构/C&#xff1a;哈希表 哈希表概念哈希函数直接定址法除留余数法 哈希冲突闭散列 - 开放定址法基本结构查找插入删除总代码展示 开散列 - 哈希桶基本结构查找插入删除代码展示 哈希表概念 在顺序表中&#xff0c;查找一个数据的时间复杂度为O(N)&#xff1b;在平衡树这…

AI大模型的训练与优化

AI大模型的训练与优化 前言摘要1. 计算资源分配与管理1.1分布式训练技术1.2异构计算策略1.3资源利用率监控与调优 2. 参数调优与正则化方法2.1学习率调度策略2.2正则化方法 3. 模型压缩与优化3.1模型剪枝&#xff08;Model Pruning&#xff09;3.2模型量化&#xff08;Model Qu…

宋仕强论道之华强北科技创新说

宋仕强论道之华强北科技创新说&#xff0c;“创新”是深圳市和华强北灵魂&#xff0c;创新再加上敢想敢干永不言败&#xff0c;造就了深圳市经济奇迹和华强北财富神话&#xff01;首次在深圳市落槌的“土地拍卖”&#xff0c;华强北“一米柜台”赋予独立经营权&#xff0c;把最…

通过jsDelivr实现Github的图床CDN加速

最近小伙伴们是否发现访问我的个人博客http://xiejava.ishareread.com/图片显示特别快了&#xff1f; 我的博客的图片是放在github上的&#xff0c;众所周知的原因&#xff0c;github访问不是很快&#xff0c;尤其是hexo博客用github做图床经常图片刷不出来。一直想换图床&…

提面 | 面试抽题

学习到更新日期面试抽题-1.2案例分析的思维本质2024-3-23 1提面抽屉论述问题的分类 1.1案例分析占总论 1.2案例分析的思维本质

rabbitmq 3.9.29 docker mac 管理员页面无法打开

SyntaxError: Unexpected token ‘catch’ SyntaxError: Unexpected token ‘catch’ at EJS.Compiler.compile (http://127.0.0.1:15672/js/ejs-1.0.min.js:1:6659) at new EJS (http://127.0.0.1:15672/js/ejs-1.0.min.js:1:1625) at format (http://127.0.0.1:15672/js/main…

【docker系列】深入理解 Docker 容器管理与清理

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

llvm后端

SelectionDAGBuilder是LLVM&#xff08;Low Level Virtual Machine&#xff09;编译器中的一个重要组件&#xff0c;它负责将LLVM中间表示&#xff08;Intermediate Representation&#xff0c;IR&#xff09;转换为SelectionDAG&#xff08;选择有向无环图&#xff09;的形式。…

Debezium日常分享系列之:Debezium2.5稳定版本之Mysql连接器

Debezium日常分享系列之&#xff1a;Debezium2.5稳定版本之Mysql连接器 Debezium日常分享系列之&#xff1a;Debezium2.5稳定版本之Mysql连接器的工作原理Debezium日常分享系列之&#xff1a;Debezium2.5稳定版本之Mysql连接器的数据变更事件Debezium日常分享系列之&#xff1a…

java selenium 元素点击不了

最近做了一个页面爬取&#xff0c;很有意思被机缘巧合下解决了。 这个元素很奇怪&#xff0c;用xpath可以定位元素&#xff0c;但是就是click()不了。 试过了网上搜的一些办法&#xff1a; //尝试一 WebElement a_tag driver.findElement(By.xpath("xxx")); a_tag…