IAR 编译优化等级详解

目录

1.编译时优化器何时介入

2.编译优化等级汇总

3.优化项解读

3.1 代码移动

3.2 函数内联

3.3 循环交换

3.4 循环展开

3.5 公用表达式消除

3.6 链接阶段的优化

4 小结


大家好,这里是快乐的肌肉。

最近在迁移工程到IAR编译器上,发现编译优化等级变成了Low\Medium\High等,这与之前GCC优化等级-O1\2\3等有什么不同呢?

因此简单总结一下。

1.编译时优化器何时介入

首先回顾一下编译原理,编译器首先通过解析器把C代码生成中间代码,紧接着将中间代码通过代码生成器生成汇编代码,然后由汇编器Assmber将汇编代码转换成目标机器码,最后通过链接器Linker将所有的目标机器码链接成elf格式等的可执行二进制代码文件,如下图:

而所谓的优化也就是在每个过程中例如中间代码生成、汇编代码生成、机器码链接等等进行size、运行速度等不同方向上的优化, 如下图所示:

2.编译优化等级汇总

这里将GCC和IAR的优化等级进行汇总。

以GCC的优化等级为例,具体的优化内容主要包括:

  • O0:几乎不优化,目的是减少编译时间,保证代码调试顺畅;
  • O1:编译器优化代码大小和执行时间,但是不执行任何需要大量编译时间的优化。简单的包括分支优化、堆栈调整、敞亮合并等等
  • O2:执行大部分优化,但不会考虑时间和空间互换的优化,它在O1等级基础上增加了新的优化项,包括函数对齐、窥视孔优化等;
  • 03:在O2基础上,新增函数克隆、循环交换等;
  • Os:专门为大小进行优化,该优化方式采用了O2除增加几个代码大小(如函数对齐等)的全部优化项;
  • Ofast:采用O3全部优化项,为运行时间做优化;
  • Og:提升调试体验,在保持快速编译和良好调试体验的同时提供合理的优化级别;比O0好一点

在IAR的编译优化选项里,总共提供了4个优化等级:None、Low、Medium、High;针对High等级又分为了不同子优化选项:Balanced、Size、Speed,如下图:

经测试,

None、Low只会做无用代码、冗余标签、冗余分支消除等优化,适合调试;

Medium主要优化代码逻辑、公共子表达式消除等,如下图:

High则几乎勾选了所有优化项,如下:

向量化仅在 High -> Speed有效。经IAR Help文档总结如下:

所以接下来,我们来逐步解析上述优化项具体含义。

3.优化项解读

3.1 代码移动

代码移动,移除了循环中不变表达式和公共子表达式的求值,以避免重复求值。这种优化在中等及以上优化级别执行,通常会减少代码大小和执行时间。例如代码

uint8 a=100;
while(a>0)
{b= x+y;if(a % b == 0)print(“a= %d;b=%d”,a,b);a--;
}

逻辑不管吧这种情况很明显,b=x+y,只需要在最开始计算一次就可以了,如果我们静态代码review不仔细,编译器就会帮我们把b=x+y移出循环,以减少程序计算和内存访问次数;当然这个只在Medium及以上优化等级出现。

3.2 函数内联

调Vector代码的时候,经常遇到local inline的函数调不了,有时候发现即使去掉inline修饰,仍然打不了断点,现在想可能就与这个优化等级有关。

所谓函数内联,就是编译时把已知的函数集成展开到调用者的函数体中,以消除调用的开销,但可能会增加code size。

一般来说,要看内联是否成功,需要到把反汇编出来,如下图:

3.3 循环交换

更改循环顺序,利用循环体里的cache使用效率,同时允许进一步循环优化,例如向量运算的时候,代码如下:

for (int i = 0; i < N; i++)for (int j = 0; j < N; j++)for (int k = 0; k < N; k++)c[i][j] = c[i][j] + a[i][k]*b[k][j];

开启循环交换优化后,代码优化如下:

for (int i = 0; i < N; i++)for (int k = 0; k < N; k++)for (int j = 0; j < N; j++)c[i][j] = c[i][j] + a[i][k]*b[k][j];

可以看到,k和j进行了交换,为啥会做这种优化?这是因为cache的空间局部性原理,我们来看:

在原代码里数组b[k][j]的访问顺序为b[ k ][ j ] -> b[ k+1 ][ j ]...,而数据是按字节顺序存储的,这个访问顺序和存储顺序不一致,导致了空间局部性差,因此编译器在优化时将k和j进行交换,使得b[k][j]的访问顺序变成了b[k][j] -> b[k][j+1]...。

这在矢量运算里可以有效提高cache命中率和使用性能。

3.4 循环展开

循环展开意味着循环的代码体是重复的,循环的迭代次数可以在编译时确定。循环展开通过在几个迭代中平摊循环开销来减少循环开销。
这种优化对于较小的循环最为有效,在较小的循环中,循环开销可能占整个循环主体的很大一部分。

3.5 公用表达式消除

这个我最开始还没看懂是啥意思。

其实就是在编译器优化阶段,消除了程序了重复计算的一些表达式,例如代码:

y = a*b +c;
z = a*b/d;

a*b属于上述两个等式共同表达式,只需要计算一次即可,变为如下:

tempVar = a*b;
y = tempVar +c;
z = tempVar/d;

看起来很简单,但如果是计算公式非常复杂,这个优化就比较有效果了。

 同样的,这个优化选项也只在medium以上有效。

3.6 链接阶段的优化

在IAR里的Linker里同样提供了一些优化选项,如下图所示:

inline small routines:内联小函数,对小函数的调用替换为函数的本体,无法打断点的定位方向又增加一个;

Merge duplicate sections:合并相同内容的只读段,保留副本,从而将对任何重复段的所有引用重定向到保留的段。

4 小结

可以看到,在IAR里这些编译优化选项基本都是针对代码性能进行优化,其中循环展开和函数内联会增加代码大小。

所以在量产阶段到底应该用什么样的优化选项,这个需要好好琢磨一下。

  • 从MCU的Flash容量来看,对于工程项目来说优化代码大小肯定是首先考虑的,这样可以节省硬件成本;
  • 从软件开发角度来看,对于调用频率很高的代码段甚至是源文件可以进行单独性能优化,在IAR源文件里提供了这样的配置方式:

  • 在一些低功耗应用,例如IBS每几分钟唤醒CPU检查汽车小电瓶有没有馈电,然后CPU重新回到深度睡眠状态。这时候IBS的功耗 = CPU深度睡眠的静态功耗 + 任务运行的动态功耗之和。一般来说,动态功耗在mA级别,因此如果对于功耗要求特别高的应用,把唤醒后要执行的任务进行性能优化,也可以减少功耗。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/869730.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI赛道成功的“小”AI平台,都在做什么?

在深入了解30多家跨界拓展AI赛道业务的企业后&#xff0c;我们发现大家对目前的AI市场存在一定程度的误解&#xff1a;即认为在AI领域想要分一杯羹&#xff0c;只需要搞几个API&#xff0c;把大语言模型、绘画、视频、数字人等功能都放上去&#xff0c;可能就有机会占一席之地了…

递归 迷宫问题-java

1&#xff09;findWay方法是为了找出走出迷宫的路径&#xff0c;找到返回true&#xff0c;否则返回false 2&#xff09;&#xff08;i&#xff0c;j&#xff09;是老鼠的位置&#xff0c;初始化的位置为&#xff08;1&#xff0c;1&#xff09; 3&#xff09;因为是递归找路&am…

2024年网络监控软件排名|10大网络监控软件是哪些

网络安全&#xff0c;小到关系到企业的生死存亡&#xff0c;大到关系到国家的生死存亡。 因此网络安全刻不容缓&#xff0c;在这里推荐网络监控软件。 2024年这10款软件火爆监控市场。 1.安企神软件&#xff1a; 7天免费试用https://work.weixin.qq.com/ca/cawcde06a33907e6…

【Linux】一文看懂Linux静态库和动态库

文章目录 一、静态库&#xff08;Static Library&#xff09;二、动态库&#xff08;Dynamic Library&#xff09;三、静态库和动态库的比较四、静态库的制作与使用五、动态库的制作与使用六、如何区分链接的是动态库还是静态库 在Linux系统编程中&#xff0c;库是一组预先编写…

【全面讲解下Foxit Reader】

&#x1f3a5;博主&#xff1a;程序员不想YY啊 &#x1f4ab;CSDN优质创作者&#xff0c;CSDN实力新星&#xff0c;CSDN博客专家 &#x1f917;点赞&#x1f388;收藏⭐再看&#x1f4ab;养成习惯 ✨希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出…

3年经验的B端产品经理,应该是什么水平?

问你一个问题&#xff1a;你觉得3年经验的B端产品经理&#xff0c;应该是什么水平&#xff1f;很多朋友可能也没有仔细想过&#xff0c;自己3年后应该达到一个什么水平&#xff1f;能做什么体量的业务&#xff1f;要能拿多少薪资&#xff1f; 前几天和一个B端产品经理聊天&…

SQL之delete、truncate和drop区别

MySQL删除数据的方式都有哪些&#xff1f; 常用的三种删除方式&#xff1a;通过 delete、truncate、drop 关键字进行删除&#xff1b;这三种都可以用来删除数据&#xff0c;但场景不同。 一、从执行速度上来说 drop > truncate >> DELETE;二、从原理上讲 1、DELET…

ctfshow-web入门-文件上传(web161、web162、web163)远程包含

目录 1、web161 2、web162 3、web163 1、web161 先传配置文件&#xff0c;可以上传成功 因为我前面给的 .user.ini 都是带了图片头 GIF89a 的&#xff0c;前面的题这个图片头可以去掉&#xff0c;但是在这里如果去掉是不行的。 因此后面上传的东西我们都带上这个图片头&…

FPGA程序设计

在设计FPGA时&#xff0c;多运用模块化的思想取设计模块&#xff0c;将某一功能设计成module。 设计之前要先画一下模块设计图&#xff0c;列出输入输出接口&#xff0c;再进一步设计内部功能。 状态机要画图&#xff0c;确定每个状态和状态之间怎么切换。状态用localparam定…

宏碁F5-572G-59K3笔记本笔记本电脑拆机清灰教程(详解)

1. 前言 我的笔记本开机比较慢&#xff0c;没有固态&#xff0c;听说最近固态比较便宜&#xff0c;就想入手一个&#xff0c;于是拆笔记本看一下有没有可以安的装位置。&#xff08;友情提示&#xff0c;在拆机之前记得洗手并擦干&#xff0c;以防静电损坏电源器件&#xff09…

视频版权音乐处理☞AI分离人声、音效、背景音乐的需求和进展-2024

随着互联网的普及和短视频的兴起&#xff0c;视频内容的全球各大平台分发越来越普遍。然而&#xff0c;不同国家和地区的音乐版权、不同社媒平台拥有的版权和处理政策都存在差异&#xff0c;因此同一个视频在多渠道分发的时候就会产生版权侵权风险。如何既能满足全球多渠道、多…

【UE5】调用ASR接口,录制系统输出。录制音频采样率不匹配

暂时测出window能用。阿里的ASR接口当前仅支持8000和16000。UE默认采样44100。

补码一位乘法原理(布斯编码详讲)

最近在看补码乘法的时候&#xff0c;感觉到很奇怪的一点&#xff0c;那就是补码的一位乘法&#xff0c;就是上网查了大量的资料都没有理解到它真正的原理&#xff0c;总感觉还是不会。那么&#xff0c;补码乘法的原理到底是什么呢&#xff1f;而让我们一直困惑的点是哪里呢&…

9.3 栅格图层符号化单波段伪彩色渲染

文章目录 前言单波段伪彩色QGis设置为单波段伪彩色二次开发代码实现单波段伪彩色 总结 前言 介绍栅格图层数据渲染之单波段伪彩色渲染说明&#xff1a;文章中的示例代码均来自开源项目qgis_cpp_api_apps 单波段伪彩色 使用单波段假彩色渲染栅格图层能够使用配色方案&#xff…

昇思25天学习打卡营第22天 | Shufflenet图像分类

ShuffleNet图像分类 当前案例不支持在GPU设备上静态图模式运行&#xff0c;其他模式运行皆支持。 ShuffleNet网络介绍 ShuffleNetV1是旷视科技提出的一种计算高效的CNN模型&#xff0c;和MobileNet, SqueezeNet等一样主要应用在移动端&#xff0c;所以模型的设计目标就是利用有…

【Linux】进程(9):进程控制3(进程程序替换)

大家好&#xff0c;我是苏貝&#xff0c;本篇博客带大家了解Linux进程&#xff08;9&#xff09;进程控制1&#xff0c;如果你觉得我写的还不错的话&#xff0c;可以给我一个赞&#x1f44d;吗&#xff0c;感谢❤️ 目录 &#xff08;A&#xff09;什么是进程程序替换&#xf…

js实现图片放大镜功能,简单明了

写购物项目的时候&#xff0c;需要放大图片&#xff0c;这里用js写了一个方法&#xff0c;鼠标悬浮的时候放大当前图片 这个是class写法 <!--* Descripttion: * Author: 苍狼一啸八荒惊* LastEditTime: 2024-07-10 09:41:34* LastEditors: 夜空苍狼啸 --><!DOCTYPE …

7.10号小项目部分说明

总体说明 糖锅小助手 我这次主要对上次糖锅小助手界面添加了一个侧边栏&#xff08;侧边输入框放置了三个按钮&#xff0c;可以跳转到其他ai聊天界面&#xff0c;还可以退出聊天界面回到登录界面&#xff09;和一个日期输入框&#xff08;日期输入框获取时间&#xff0c;根据时…

Ubuntu固定虚拟机的ip地址

1、由于虚拟机网络是桥接&#xff0c;所以ip地址会不停地变化&#xff0c;接下来我们就讲述ip如何固定 2、如果apt安装时报错W: Target CNF (multiverse/cnf/Commands-all) is configured multiple times in /etc/apt/sources.list:10&#xff0c; 检查 /etc/apt/sources.list…

分类模型的算法性能评价

一、概述 分类模型是机器学习中一种最常见的问题模型&#xff0c;在许多问题场景中有着广泛的运用&#xff0c;是模式识别问题中一种主要的实现手段。分类问题概况起来就是&#xff0c;对一堆高度抽象了的样本&#xff0c;由经验标定了每个样本所属的实际类别&#xff0c;由特定…