IAR 编译优化等级详解

目录

1.编译时优化器何时介入

2.编译优化等级汇总

3.优化项解读

3.1 代码移动

3.2 函数内联

3.3 循环交换

3.4 循环展开

3.5 公用表达式消除

3.6 链接阶段的优化

4 小结


大家好,这里是快乐的肌肉。

最近在迁移工程到IAR编译器上,发现编译优化等级变成了Low\Medium\High等,这与之前GCC优化等级-O1\2\3等有什么不同呢?

因此简单总结一下。

1.编译时优化器何时介入

首先回顾一下编译原理,编译器首先通过解析器把C代码生成中间代码,紧接着将中间代码通过代码生成器生成汇编代码,然后由汇编器Assmber将汇编代码转换成目标机器码,最后通过链接器Linker将所有的目标机器码链接成elf格式等的可执行二进制代码文件,如下图:

而所谓的优化也就是在每个过程中例如中间代码生成、汇编代码生成、机器码链接等等进行size、运行速度等不同方向上的优化, 如下图所示:

2.编译优化等级汇总

这里将GCC和IAR的优化等级进行汇总。

以GCC的优化等级为例,具体的优化内容主要包括:

  • O0:几乎不优化,目的是减少编译时间,保证代码调试顺畅;
  • O1:编译器优化代码大小和执行时间,但是不执行任何需要大量编译时间的优化。简单的包括分支优化、堆栈调整、敞亮合并等等
  • O2:执行大部分优化,但不会考虑时间和空间互换的优化,它在O1等级基础上增加了新的优化项,包括函数对齐、窥视孔优化等;
  • 03:在O2基础上,新增函数克隆、循环交换等;
  • Os:专门为大小进行优化,该优化方式采用了O2除增加几个代码大小(如函数对齐等)的全部优化项;
  • Ofast:采用O3全部优化项,为运行时间做优化;
  • Og:提升调试体验,在保持快速编译和良好调试体验的同时提供合理的优化级别;比O0好一点

在IAR的编译优化选项里,总共提供了4个优化等级:None、Low、Medium、High;针对High等级又分为了不同子优化选项:Balanced、Size、Speed,如下图:

经测试,

None、Low只会做无用代码、冗余标签、冗余分支消除等优化,适合调试;

Medium主要优化代码逻辑、公共子表达式消除等,如下图:

High则几乎勾选了所有优化项,如下:

向量化仅在 High -> Speed有效。经IAR Help文档总结如下:

所以接下来,我们来逐步解析上述优化项具体含义。

3.优化项解读

3.1 代码移动

代码移动,移除了循环中不变表达式和公共子表达式的求值,以避免重复求值。这种优化在中等及以上优化级别执行,通常会减少代码大小和执行时间。例如代码

uint8 a=100;
while(a>0)
{b= x+y;if(a % b == 0)print(“a= %d;b=%d”,a,b);a--;
}

逻辑不管吧这种情况很明显,b=x+y,只需要在最开始计算一次就可以了,如果我们静态代码review不仔细,编译器就会帮我们把b=x+y移出循环,以减少程序计算和内存访问次数;当然这个只在Medium及以上优化等级出现。

3.2 函数内联

调Vector代码的时候,经常遇到local inline的函数调不了,有时候发现即使去掉inline修饰,仍然打不了断点,现在想可能就与这个优化等级有关。

所谓函数内联,就是编译时把已知的函数集成展开到调用者的函数体中,以消除调用的开销,但可能会增加code size。

一般来说,要看内联是否成功,需要到把反汇编出来,如下图:

3.3 循环交换

更改循环顺序,利用循环体里的cache使用效率,同时允许进一步循环优化,例如向量运算的时候,代码如下:

for (int i = 0; i < N; i++)for (int j = 0; j < N; j++)for (int k = 0; k < N; k++)c[i][j] = c[i][j] + a[i][k]*b[k][j];

开启循环交换优化后,代码优化如下:

for (int i = 0; i < N; i++)for (int k = 0; k < N; k++)for (int j = 0; j < N; j++)c[i][j] = c[i][j] + a[i][k]*b[k][j];

可以看到,k和j进行了交换,为啥会做这种优化?这是因为cache的空间局部性原理,我们来看:

在原代码里数组b[k][j]的访问顺序为b[ k ][ j ] -> b[ k+1 ][ j ]...,而数据是按字节顺序存储的,这个访问顺序和存储顺序不一致,导致了空间局部性差,因此编译器在优化时将k和j进行交换,使得b[k][j]的访问顺序变成了b[k][j] -> b[k][j+1]...。

这在矢量运算里可以有效提高cache命中率和使用性能。

3.4 循环展开

循环展开意味着循环的代码体是重复的,循环的迭代次数可以在编译时确定。循环展开通过在几个迭代中平摊循环开销来减少循环开销。
这种优化对于较小的循环最为有效,在较小的循环中,循环开销可能占整个循环主体的很大一部分。

3.5 公用表达式消除

这个我最开始还没看懂是啥意思。

其实就是在编译器优化阶段,消除了程序了重复计算的一些表达式,例如代码:

y = a*b +c;
z = a*b/d;

a*b属于上述两个等式共同表达式,只需要计算一次即可,变为如下:

tempVar = a*b;
y = tempVar +c;
z = tempVar/d;

看起来很简单,但如果是计算公式非常复杂,这个优化就比较有效果了。

 同样的,这个优化选项也只在medium以上有效。

3.6 链接阶段的优化

在IAR里的Linker里同样提供了一些优化选项,如下图所示:

inline small routines:内联小函数,对小函数的调用替换为函数的本体,无法打断点的定位方向又增加一个;

Merge duplicate sections:合并相同内容的只读段,保留副本,从而将对任何重复段的所有引用重定向到保留的段。

4 小结

可以看到,在IAR里这些编译优化选项基本都是针对代码性能进行优化,其中循环展开和函数内联会增加代码大小。

所以在量产阶段到底应该用什么样的优化选项,这个需要好好琢磨一下。

  • 从MCU的Flash容量来看,对于工程项目来说优化代码大小肯定是首先考虑的,这样可以节省硬件成本;
  • 从软件开发角度来看,对于调用频率很高的代码段甚至是源文件可以进行单独性能优化,在IAR源文件里提供了这样的配置方式:

  • 在一些低功耗应用,例如IBS每几分钟唤醒CPU检查汽车小电瓶有没有馈电,然后CPU重新回到深度睡眠状态。这时候IBS的功耗 = CPU深度睡眠的静态功耗 + 任务运行的动态功耗之和。一般来说,动态功耗在mA级别,因此如果对于功耗要求特别高的应用,把唤醒后要执行的任务进行性能优化,也可以减少功耗。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/869730.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI赛道成功的“小”AI平台,都在做什么?

在深入了解30多家跨界拓展AI赛道业务的企业后&#xff0c;我们发现大家对目前的AI市场存在一定程度的误解&#xff1a;即认为在AI领域想要分一杯羹&#xff0c;只需要搞几个API&#xff0c;把大语言模型、绘画、视频、数字人等功能都放上去&#xff0c;可能就有机会占一席之地了…

Android Camera Framework:从基础到高级

目录 基础知识1. Camera API 与 Camera2 API2. 权限 关键组件1. CameraManager2. CameraDevice3. CaptureRequest 和 CaptureSession 高级功能1. 实时滤镜2. 手动控制3. 高动态范围 (HDR) 和夜间模式 在现代移动应用开发中&#xff0c;相机功能已成为许多应用程序的核心组成部分…

递归 迷宫问题-java

1&#xff09;findWay方法是为了找出走出迷宫的路径&#xff0c;找到返回true&#xff0c;否则返回false 2&#xff09;&#xff08;i&#xff0c;j&#xff09;是老鼠的位置&#xff0c;初始化的位置为&#xff08;1&#xff0c;1&#xff09; 3&#xff09;因为是递归找路&am…

Jitsi Meet指定用户成为主持人

前言 在Jitsi Meet进行会议的时候&#xff0c;我们有可能会使用到预约会议的这一个功能&#xff0c;预约会议的时候&#xff0c;我们希望我预约的会议&#xff0c;我就是主持人&#xff0c;而不希望其他人是主持人。 但是Jitsi Meet默认会认为第一个进入房间的是主持人&#…

2024年网络监控软件排名|10大网络监控软件是哪些

网络安全&#xff0c;小到关系到企业的生死存亡&#xff0c;大到关系到国家的生死存亡。 因此网络安全刻不容缓&#xff0c;在这里推荐网络监控软件。 2024年这10款软件火爆监控市场。 1.安企神软件&#xff1a; 7天免费试用https://work.weixin.qq.com/ca/cawcde06a33907e6…

【Linux】一文看懂Linux静态库和动态库

文章目录 一、静态库&#xff08;Static Library&#xff09;二、动态库&#xff08;Dynamic Library&#xff09;三、静态库和动态库的比较四、静态库的制作与使用五、动态库的制作与使用六、如何区分链接的是动态库还是静态库 在Linux系统编程中&#xff0c;库是一组预先编写…

【全面讲解下Foxit Reader】

&#x1f3a5;博主&#xff1a;程序员不想YY啊 &#x1f4ab;CSDN优质创作者&#xff0c;CSDN实力新星&#xff0c;CSDN博客专家 &#x1f917;点赞&#x1f388;收藏⭐再看&#x1f4ab;养成习惯 ✨希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出…

3年经验的B端产品经理,应该是什么水平?

问你一个问题&#xff1a;你觉得3年经验的B端产品经理&#xff0c;应该是什么水平&#xff1f;很多朋友可能也没有仔细想过&#xff0c;自己3年后应该达到一个什么水平&#xff1f;能做什么体量的业务&#xff1f;要能拿多少薪资&#xff1f; 前几天和一个B端产品经理聊天&…

SQL之delete、truncate和drop区别

MySQL删除数据的方式都有哪些&#xff1f; 常用的三种删除方式&#xff1a;通过 delete、truncate、drop 关键字进行删除&#xff1b;这三种都可以用来删除数据&#xff0c;但场景不同。 一、从执行速度上来说 drop > truncate >> DELETE;二、从原理上讲 1、DELET…

24/07/09数据结构(3.1206)数组OJ单链表实现

先做几个练习回顾一下前两个博的 顺序表: 1.给定一个排序数组,你需要在原地删除重复出现的元素,使得每个元素只出现一次,返回移除后数组的新长度.不需要使用额外的数组空间,你必须在原地修改数组并使用O(1)额外空间的条件下完成. 给定 nums [0, 0, 1, 1 ,1, 2, 2, 3, 3, 4],…

ctfshow-web入门-文件上传(web161、web162、web163)远程包含

目录 1、web161 2、web162 3、web163 1、web161 先传配置文件&#xff0c;可以上传成功 因为我前面给的 .user.ini 都是带了图片头 GIF89a 的&#xff0c;前面的题这个图片头可以去掉&#xff0c;但是在这里如果去掉是不行的。 因此后面上传的东西我们都带上这个图片头&…

FPGA程序设计

在设计FPGA时&#xff0c;多运用模块化的思想取设计模块&#xff0c;将某一功能设计成module。 设计之前要先画一下模块设计图&#xff0c;列出输入输出接口&#xff0c;再进一步设计内部功能。 状态机要画图&#xff0c;确定每个状态和状态之间怎么切换。状态用localparam定…

宏碁F5-572G-59K3笔记本笔记本电脑拆机清灰教程(详解)

1. 前言 我的笔记本开机比较慢&#xff0c;没有固态&#xff0c;听说最近固态比较便宜&#xff0c;就想入手一个&#xff0c;于是拆笔记本看一下有没有可以安的装位置。&#xff08;友情提示&#xff0c;在拆机之前记得洗手并擦干&#xff0c;以防静电损坏电源器件&#xff09…

视频版权音乐处理☞AI分离人声、音效、背景音乐的需求和进展-2024

随着互联网的普及和短视频的兴起&#xff0c;视频内容的全球各大平台分发越来越普遍。然而&#xff0c;不同国家和地区的音乐版权、不同社媒平台拥有的版权和处理政策都存在差异&#xff0c;因此同一个视频在多渠道分发的时候就会产生版权侵权风险。如何既能满足全球多渠道、多…

【UE5】调用ASR接口,录制系统输出。录制音频采样率不匹配

暂时测出window能用。阿里的ASR接口当前仅支持8000和16000。UE默认采样44100。

开源项目的机遇与挑战

随着全球经济和科技环境的快速变化&#xff0c;开源软件项目的蓬勃发展成为了开发者社区的热门话题。越来越多的开发者和企业选择参与开源项目&#xff0c;以推动技术创新和实现协作共赢。本文将从开源项目的发展趋势、参与开源的经验分享&#xff0c;以及开源项目的挑战三个方…

补码一位乘法原理(布斯编码详讲)

最近在看补码乘法的时候&#xff0c;感觉到很奇怪的一点&#xff0c;那就是补码的一位乘法&#xff0c;就是上网查了大量的资料都没有理解到它真正的原理&#xff0c;总感觉还是不会。那么&#xff0c;补码乘法的原理到底是什么呢&#xff1f;而让我们一直困惑的点是哪里呢&…

MySQL 常用语句

创建数据库 CREATE DATABASE database_name; 删除数据库 DROP DATABASE database_name; 选择数据库 USE database_name; 创建表 CREATE TABLE table_name ( column1 datatype constraints, column2 datatype constraints, column3 datatype constraints, .... ); …

ROI 接口便捷修改

传入的图片截取ROI后再进入识别接口 &#xff08;识别接口比ROI接口的函数参数少一个传入的ROI&#xff09; 无点只有点集 返回双点集 //平直冷侧翅片 bool ImageProcessingTest::straightColdSideFin_ROI(cv::Mat img, cv::Rect ROI, std::vector<cv::Point>& topL…

9.3 栅格图层符号化单波段伪彩色渲染

文章目录 前言单波段伪彩色QGis设置为单波段伪彩色二次开发代码实现单波段伪彩色 总结 前言 介绍栅格图层数据渲染之单波段伪彩色渲染说明&#xff1a;文章中的示例代码均来自开源项目qgis_cpp_api_apps 单波段伪彩色 使用单波段假彩色渲染栅格图层能够使用配色方案&#xff…