5.7 汇编语言:汇编高效乘法运算

乘法指令是一种在CPU中实现的基本算术操作,用于计算两个数的乘积。在汇编语言中,乘法指令通常是通过mul(无符号乘法)imul(有符号乘法)这两个指令实现的。由于乘法指令在执行时所消耗的时钟周期较多,所以编译器在优化代码时通常会尝试将乘法操作转换为更高效的加法、和移位操作。

  • 对于较小的数,编译器可能会选择将乘法操作直接转换为加法操作。例如,将表达式a * b转换为a + a + ... + a(b次相加)的形式。这种方式可以通过循环展开、代码向量化等技术来优化。

  • 对于较大的数,编译器可能会使用位移和移位操作来代替乘法。例如,将表达式a * b转换为a << n + a << m的形式,其中nm为符合条件的位数。这种方式可以通过位移指令的高效性来加速运算。

当以上方式均无法进行优化时,编译器才会使用mul/imul指令来执行乘法操作。这两条指令可以对无符号数和有符号数进行乘法运算,即便这两条指令会使用更多的时钟周期,但乘法指令的计算效率相对于其他指令DIV来说仍然较低,因此在编写高效代码时,应尽可能地避免使用乘法操作,并结合使用上面提到的技巧进行优化。

7.1 使用IMUL指令完成乘法

要计算乘法在不考虑执行效率的情况下编译器通常会直接使用imul指令完成计算,imul指令在一些情况下可以比其他乘法指令(如mul指令)更快地执行乘法运算,但性能较低的原因主要是由于imul指令通常用于有符号数的乘法运算,并且在执行时需要处理符号位的扩展和溢出问题,这转换成了额外的指令和时钟周期的消耗。如果对于无符号整数或需要使用寄存器的低位或者高位结果的情况,使用imul指令可以提供一定的优势。

计算乘法时应遵循:

  • 如果乘数与被乘数都是8位 则把AL做乘数,结果放在AX
  • 如果乘数与被乘数都是16位 将把AX做乘数,结果放在EAX
  • 如果乘数与被乘数都是32位 将把EAX做乘数,结果放在EDX:EAX

乘法指令计算很简单,只需要累加乘数即可,如下所示则是一个简单的计算三个数相乘的汇编实现;

.datax DWORD ?y DWORD ?z DWORD ?szFmt BYTE '计算结果: %d',0dh,0ah,0
.codemain PROCmov dword ptr ds:[x],10mov dword ptr ds:[y],24mov dword ptr ds:[z],18; 计算 x * y * zmov eax,dword ptr ds:[x]imul eax,dword ptr ds:[y]imul eax,dword ptr ds:[z]invoke crt_printf,addr szFmt,eaxmain ENDP
END main

7.2 使用LEA指令替换乘法

在实际编程中,我们可以使用LEA指令来替代乘法操作,从而提高代码的执行效率。但读者需要注意,在使用LEA计算乘法时必须要保证乘数是2的次幂,并且乘数的范围必须是2/4/8这三个区间才可使用该指令,我们使用汇编来实现计算eax*8+2其汇编指令如下。

  • 假设 eax=5 计算 eax * 8 + 2 的结果,拆分过程如下:
  • 1.计算 lea ebx,dword ptr ds:[eax * 8 + 2] 这就相当于计算 ebx = (eax * 8) +2直接可得到结果。

第一个案例比较简单,可直接使用一条lea指令即可完成计算过程,只要保证被乘数是2的次幂即可。

.datax DWORD ?szFmt BYTE '计算结果: %d',0dh,0ah,0
.codemain PROC; 针对乘法的lea指令优化mov dword ptr ds:[x],5mov eax,dword ptr ds:[x]               ; eax = xxor ebx,ebx                            ; ebx = 0lea ebx,dword ptr ds:[eax * 8 + 2]     ; ebx = eax * 8 + 2invoke crt_printf,addr szFmt,ebxinvoke ExitProcess,0main ENDP
END main

7.3 使用LEA指令拆分计算

如果我们计算的乘法超出了2/4/8次幂范围,则需要对乘法进行拆分,拆分时也应遵循2的次幂原则,拆分后在分开来计算。

  • 假设 eax=3 计算 15 * eax 的结果,拆分过程如下:
  • 1.计算 lea edx,[eax * 4 + eax] 这就相当于计算 edx = (4 * eax) + eax = 5eax 其中的每个edx就相当于5个eax
  • 2.计算 lea edx,[edx * 2 + edx] 这就相当于计算 edx = (5 * eax) * 2 + (5 * eax)
  • 3.计算 (5eax * 2) = 10eax 接着计算 (5 * eax) = 5eax 最后得出 10eax + 5eax
  • 4.经过该过程可得出 eax * 15 = 45 最终计算3*15=45得到最终结果.

这个计算过程看似复杂,但如果将其转化为汇编指令那么只需要两条即可实现快速乘法运算。

.datax DWORD ?szFmt BYTE '计算结果: %d',0dh,0ah,0
.codemain PROC; 针对乘法的lea指令优化mov dword ptr ds:[x],3; 如果使用lea计算乘法,则乘数必须是2/4/8mov eax,dword ptr ds:[x]               ; eax = 3lea edx,dword ptr ds:[eax * 4 + eax]   ; edx = 4eax + eax 得出 5eax,也就是说每一个edx就代表5个eaxlea edx,dword ptr ds:[edx * 2 + edx]   ; edx = (5eax * 2) + 5eax 最终得出 15eaxinvoke crt_printf,addr szFmt,edx       ; edx = eax * 15 计算后得出 45invoke ExitProcess,0main ENDP
END main

7.4 使用LEA指令递减计算

如果计算乘法时乘数非2的次幂,这种情况下需要减去特定的值,例如当我们计算eax * 7时,由于7非二的次幂,我们无法通过lea指令进行计算,但我们可以计算eax * 8计算出的结果减去一个eax同样可以得到正确的值。

  • 假设 eax=3 计算 eax * 7 + 10 的结果,拆分过程如下:
  • 1.计算 lea edx,dword ptr ds:[eax * 8] 这就相当于计算 edx = (8 * eax)
  • 2.计算 sub edx,eax 这就相当于计算 edx = (8 * eax) - eax
  • 3.计算 add edx,10 这就相当于计算 edx = ( (8 * eax) - eax ) + 10
  • 4.经过如上计算,我们就可以计算出eax * 7 + 10的最终结果

这个计算过程看似复杂,但其实在汇编层面并不难构建,如下分别实现计算两个表达式求值过程。

.datax DWORD ?szFmt BYTE '计算结果: %d',0dh,0ah,0
.codemain PROC; 针对乘法的lea指令优化mov dword ptr ds:[x],3; 如果计算乘法时乘数非2的次幂,则此时需要减; 计算 edx = eax * 7 + 10mov eax,dword ptr ds:[x]               ; eax = 3 => 计算 eax * 7 + 10lea edx,dword ptr ds:[eax * 8]         ; edx = eax * 8sub edx,eax                            ; edx = edx - eaxadd edx,10                             ; edx = edx + 10invoke crt_printf,addr szFmt,edx       ; edx = eax * 7 + 10; 计算 edx = eax * 3 - 7mov eax,dword ptr ds:[x]               ; eax = 3 => 计算 eax * 3 - 7lea edx,dword ptr ds:[eax * 2]         ; edx = eax * 2add edx,eax                            ; edx = edx + eaxsub edx,7                              ; edx = edx - 7invoke crt_printf,addr szFmt,edx       ; edx = eax * 3 - 7invoke ExitProcess,0main ENDP
END main

7.5 使用SHL计算无符号乘法

通过使用逻辑左移同样可以实现2的次幂的高速乘法运算,但逻辑左移只能用于计算无符号乘法,且只能计算被乘数是2的次方的算式。

  • 计算时我们需要参考次方表,这里我列举出几个常用的次方数值:

  • 次方表: 1=>2 2=>4 3=>8 4=>16 5=>32 6=>64 7=>128

  • 次方表: 8=>256 9=>512 10=>1024 11=>2048 12=>4096 13=>8192 14=>16384

  • 假设 eax=3 计算 eax * 8 + 10 的结果,拆分过程如下:

  • 1.计算 shl eax,3 这就相当于计算 eax = eax * 2 ^(次方) 3 其公式相当于计算 eax = eax * 8

  • 2.计算 add eax,10 这就相当于计算 eax = (eax * 8) + 10

  • 3.最终即可得到计算结果也就是3*8+10得到34

通过使用逻辑左移,我们可以实现快速无符号乘法运算,如下代码是效率最高的一种。

.datax DWORD ?szFmt BYTE '计算结果: %d',0dh,0ah,0
.codemain PROCmov dword ptr ds:[x],3; 计算 eax = eax * 2 ^ 1 相当于计算 eax * 2mov eax,dword ptr ds:[x]shl eax,1invoke crt_printf,addr szFmt,eax; 计算 eax = eax * 2 ^ 2 相当于计算 eax * 4mov eax,dword ptr ds:[x]shl eax,2invoke crt_printf,addr szFmt,eax; 计算 eax = eax * 2 ^ 3 相当于计算 eax * 8mov eax,dword ptr ds:[x]shl eax,3add eax,10invoke crt_printf,addr szFmt,eaxinvoke ExitProcess,0main ENDP
END main

7.6 使用SAL计算有符号乘法

通过使用算数左移同样可以实现2的次幂的高速乘法运算,与逻辑左移不同,算术左移只能计算有符号乘法,且只能计算被乘数是2的次方的算式。

  • 计算时我们需要参考次方表,这里我列举出几个常用的次方数值:

  • 次方表: 1=>2 2=>4 3=>8 4=>16 5=>32 6=>64 7=>128

  • 次方表: 8=>256 9=>512 10=>1024 11=>2048 12=>4096 13=>8192 14=>16384

  • 假设 eax=-5,ebx=3 计算 (eax * 8) + (ebx * 4) 的结果,拆分过程如下:

  • 1.计算 sal eax,3 这就相当于计算 eax = (eax * 2 ^ 3 ) 其公式相当于计算 eax = eax * 8 结果是一个有符号数

  • 2.计算 shl ebx,2 这就相当于计算 ebx = (ebx * 2 ^2) 其公式相当于计算 ebx = ebx * 4 结果是一个无符号数

  • 3.最终将有符号与无符号数通过 add eax,ebx 相加,即可得到(eax * 8) + (ebx * 4)的最终结果-28

如下是通过算数左移,实现2的次幂的高速乘法运算,我们可以将算数运算与逻辑运算相加通过此方式提高运算效率。

.datax DWORD ?y DWORD ?szFmt BYTE '计算结果: %d',0dh,0ah,0
.codemain PROCmov dword ptr ds:[x],-5mov dword ptr ds:[y],3; 计算 eax = eax * 2 ^ 1 相当于计算 eax * 2mov eax,dword ptr ds:[x]sal eax,1invoke crt_printf,addr szFmt,eax; 计算 eax = eax * 2 ^ 2 相当于计算 eax * 4mov eax,dword ptr ds:[x]sal eax,2invoke crt_printf,addr szFmt,eax; 计算 eax = (eax * 2 ^ 3 ) + (ebx * 2 ^2) 相当于计算 (eax * 8) + (ebx * 4)mov eax,dword ptr ds:[x]mov ebx,dword ptr ds:[y]sal eax,3                  ; eax * 8 (有符号乘法)shl ebx,2                  ; ebx * 4 (无符号乘法)add eax,ebx                ; eax + ebxinvoke crt_printf,addr szFmt,eaxinvoke ExitProcess,0main ENDP
END main

乘法优化的知识点基本就这些,除了两个未知变量的相乘无法优化外,其他形式的乘法运算均可以进行优化,如果表达式中存在一个常量值,那编译器则会匹配各种优化策略,最后对不符合优化策略的运算进行调整,如果真的无法优化,则会使用原始乘法指令计算。

本文作者: 王瑞
本文链接: https://www.lyshark.com/post/ade8241c.html
版权声明: 本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/51703.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度学习处理文本(NLP)

文章目录 引言1. 反向传播1.1 实例流程实现1.2 前向传播1.3 计算损失1.4 反向传播误差1.5 更新权重1.6 迭代1.7 BackPropagation & Adam 代码实例 2. 优化器 -- Adam2.1 Adam解析2.2 代码实例 3. NLP任务4. 神经网络处理文本4.1 step1 字符数值化4.2 step 2 矩阵转化为向量…

成集云 | 抖店连接器客户静默下单催付数据同步钉钉 | 解决方案

源系统成集云目标系统 方案介绍 随着各品牌全渠道铺货&#xff0c;主播在平台上直播时客户下了订单后不能及时付款&#xff0c;第一时间客户收不到提醒&#xff0c;不仅造成了客户付款率下降&#xff0c;更大量消耗了企业的人力成本和经济。而成集云与钉钉深度合作&#xff0…

STM32--USART串口

文章目录 通信接口串口通信硬件电路电平标准参数时序 USART主要特性框图 数据帧发送器 波特率发生器SWART串口发送与接收工程串口收发数据包 通信接口 通信接口是指连接中央处理器&#xff08;CPU&#xff09;和标准通信子系统之间的接口&#xff0c;用于实现数据和控制信息在不…

创建型(二) - 单例模式

一、概念 单例设计模式&#xff08;Singleton Design Pattern&#xff09;&#xff1a;一个类只允许创建一个对象&#xff08;或者实例&#xff09;&#xff0c;那这个类就是一个单例类。 优点&#xff1a;在内存里只有一个实例&#xff0c;减少了内存的开销&#xff0c;避免…

element ui - el-select获取点击项的整个对象item

1.背景 在使用 el-select 的时候&#xff0c;经常会通过 change 事件来获取当前绑定的 value &#xff0c;即对象中默认的某个 value 值。但在某些特殊情况下&#xff0c;如果想要获取的是点击项的整个对象 item&#xff0c;该怎么做呢&#xff1f; 2.实例 elementUI 中是可…

嵌入式Linux开发实操(十二):PWM接口开发

# 前言 使用pwm实现LED点灯,可以说是嵌入式系统的一个基本案例。那么嵌入式linux系统下又如何实现pwm点led灯呢? # PWM在嵌入式linux下的操作指令 实际使用效果如下,可以通过shell指令将开发板对应的LED灯点亮。 点亮3个LED,则分别使用pwm1、pwm2和pwm3。 # PWM引脚的硬…

【面试经典150题】合并两个有序数组-JavaScript版

题目来源 初始思路&#xff1a;同时循环遍历两个数组&#xff0c;选出较小元素放入新数组。剩下一个没有被遍历完的数组的剩余元素直接拼接到新数组后。 错误示例&#xff1a; var merge function (nums1, m, nums2, n) {let i 0,j 0,nums3 [];while (i < m &&am…

谈一谈浏览器与Node.js中的JavaScript事件循环,宏任务与微任务机制

JavaScript中的异步代码 JavaScript是一个单线程非阻塞的脚本语言。这代表代码是执行在一个主线程上面的。但是JavaScript中有很多耗时的异步操作&#xff0c;例如AJAX&#xff0c;setTimeout等等&#xff1b;也有很多事件&#xff0c;例如用户触发的点击事件&#xff0c;鼠标…

[rk3568 RetroArch介绍游戏模拟器]

buildroot 添加 https://github.com/aduskett/retroarch-buildroot RetroArch 是款功能强大的跨平台模拟器&#xff0c;不但能够模拟许多不同的游戏主机&#xff0c;并且提供开源代码&#xff0c;可以 移植在Linux, Window, Android 等主流操作平台上。 RetroArch 的 API 的实现…

浅谈视频汇聚平台EasyCVR视频平台在城市安全综合监测预警台风天气中的重要作用

夏日已至&#xff0c;台风和暴雨等极端天气频繁出现。在城市运行过程中&#xff0c;台风所带来的暴雨可能会导致城市内涝等次生灾害&#xff0c;引发交通瘫痪、地铁停运、管网泄漏爆管、路面塌陷、防洪排涝、燃气爆炸、供热安全、管廊安全、消防火灾等安全隐患&#xff0c;影响…

性能优化——分库分表

1、什么是分库分表 1.1、分表 将同一个库中的一张表&#xff08;比如SPU表&#xff09;按某种方式&#xff08;垂直拆分、水平拆分&#xff09;拆分成SPU1、SPU2、SPU3、SPU4…等若干张表&#xff0c;如下图所示&#xff1a; 1.2、分库 在表数据不变的情况下&#xff0c;对…

【Unity3D赛车游戏】【四】在Unity中添加阿克曼转向,下压力,质心会让汽车更稳定

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;元宇宙-秩沅 &#x1f468;‍&#x1f4bb; hallo 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍&#x1f4bb; 本文由 秩沅 原创 &#x1f468;‍&#x1f4bb; 收录于专栏&#xff1a;Uni…

C++实现字符串的逆置

目录 C和C的区别 【1】C对C的扩充 【2】C对C的兼容 第一个C程序 【1】hello world 【2】cout标准输出流对象 i&#xff09;介绍 ii&#xff09;运算 iii&#xff09;cout的使用 iv&#xff09;使用cout指定格式的输出 练习&#xff1a;1、输出斐波那契的前10项。 【3】…

《Linux从练气到飞升》No.17 进程创建

&#x1f57a;作者&#xff1a; 主页 我的专栏C语言从0到1探秘C数据结构从0到1探秘Linux菜鸟刷题集 &#x1f618;欢迎关注&#xff1a;&#x1f44d;点赞&#x1f64c;收藏✍️留言 &#x1f3c7;码字不易&#xff0c;你的&#x1f44d;点赞&#x1f64c;收藏❤️关注对我真的…

VB超市配送运输管理系统设计与实现

摘要: 连锁经营从九十年代初进入中国市场以来,由于具有批量进货、集中配送、统一管理、统一价格的优点,表现出良好的发展势头。发展连锁业,配送中心的建设是关键。本文以我国某大型连锁超市的配送中心信息化管理为实际背景,介绍了连锁超市配送中心运输管理信息系统设计开发…

开学需要买哪些电容笔?ipad可以用的手写笔

因为iPad的功能亮眼&#xff0c;让iPad的用户越来越多&#xff0c;并且越来越受欢迎。用来画画、做笔记都很有用&#xff0c;但要是用来看电视、打游戏的话&#xff0c;使用价值就显得低了。如果你不想买一支价格不菲的苹果电容笔&#xff0c;或是只是想要日常用于书写记录&…

Day04-Vue基础-监听器-双向绑定-组件通信

Day04-Vue基础-监听器-双向绑定-组件通信 一 侦听器 语法一 <template><div>{{name}}<br><button @click="update1">修改1</button><

【云原生】Docker Cgroups资源控制管理

目录 一、cgroups简介 cgroups有四大功能&#xff1a; 二、cpu时间片的概念 三、对CPU使用的限制 3.1 设置CPU使用率上限 &#xff08;1&#xff09;查看容器的默认CPU使用限制 &#xff08;2&#xff09;进行压力测试 &#xff08;3&#xff09;创建容器时设置CPU使用时…

Linux下套接字TCP实现网络通信

Linux下套接字TCP实现网络通信 文章目录 Linux下套接字TCP实现网络通信1.引言2.具体实现2.1接口介绍1.socket()2.bind()3.listen()4.accept()5.connect() 2.2 服务器端server.hpp2.3服务端server.cc2.4客户端client.cc 1.引言 ​ 套接字(Socket)是计算机网络中实现网络通信的一…

Linux笔记--Ubuntu设置sftp服务

目录 1--修改配置文件 2--注销代码 3--更改代码 4--重启服务 1--修改配置文件 vim /etc/ssh/sshd_config 2--注销代码 ① 注销&#xff1a; Subsystem sftp /usr/libexec/openssh/sftp-server ② 更改为&#xff1a; Subsystem sftp internal-sftp 3--更改代码 Per…