【ARM Cortex-M 系列 4 番外篇 -- 常用 benchmark 介绍】

文章目录

    • 1.1 CPU 性能测试 MIPS 计算
      • 1.1.1 Cortex-M7 CPI
    • 1.2 benchmark 小节
      • 1.3.1 Geekbenck 介绍
    • 1.3 编译参数配置

1.1 CPU 性能测试 MIPS 计算

每秒百万指令数 (MIPS):在数据压缩测试中,MIPS 每秒测量一次 CPU 执行的低级指令的数量。越高越好,但是在比较不同代的 CPU 时,则要对得分持保留态度,因为执行指令的方式有所不同。比如CoreMark或者Dhrystone之类,然后用处理器自带的PMU(Performance Monitor Unit)计算下某段函数实际跑了多少指令周期,然后除以这段函数有多少条指令。这就计算出来了。原理很简单,操作起来可能有点费劲。

1.1.1 Cortex-M7 CPI

关于Cortex-M7 CPI 的计算,系统有一个专门的系统外设 DWT(Data Watchpoint and Trace Unit),这个外设提供了一个Clock Cycle Counter(CYCCNT),可以方便的用来计算CPI(ARMv7-M Architecture Reference Manual)。

DWT 中除了 CYCCNT 外的 counter,都只有 8bit 的 register。所以如果一段程序稍长一点的话就溢出了,既然 CPI 是统计的话,一段一端的测程序好像会不太准的样子。需要知道的是这个 overflow DWT 本身就是个低成本的东西,设计目的就是应对局部。大程序(运行时间长的)要用高精度的示波器(或者逻辑分析仪)配合IO口翻转来测量时间(在测量开始的时候拉低电平,在测量结束的时候拉高电平,最终计算的时候,由拉低电平引入的误差基本忽略不计)。
关于 DWT 见文章:【ARM Coresight 系列文章 14 - Cortex-M DWT 详细介绍】

Cortex-M7 就无法提供准确的指令执行周期信息,因为 Cortex-M7的 流水线是超标量的(Super-scalar),对于前后满足条件的两条指令来说,Cortex-M7的流水线可以同时执行。在这种情况下,如何计算指令的平均周期呢?

实际上,这个问题比想象的要略微复杂一点。因为前后两条指令还可能存在数据依赖(Data Dependency)或者是资源竞争(Structural Hazard)的情况。所以,指令执行周期的平均值也是根据前后指令的组合不同而变动的。

两条指令之所以安排他们同时执行,就是因为两条指令同时的执行时间小于二者之和啊。应该说,和最长的那条指令执行时间一样长——你会发现,双发射的流水线连回答“他的执行时间与一条指令单独执行相比如何?”都是不容易做到的。

如果你从MIPS过来,应该更多接触过超标量,甚至是 Out of Order 的流水线。超标量,甚至是Out of Order 的流水线理论上都无法精确的标注一条指令的执行周期,这种情况下,为了评估系统吞吐量,往往用另外一个概念,也就是CPI(Cycle per Instruction)或者IPC(Instruction per Cycle)。对于Cortex-M0这种顺序执行的流水线来说,CPI一定是 >= 1的,但是对于超标量以及OOO的流水线来说,CPI是可以做到 < 1的。

1.2 benchmark 小节

项目预研和产品开发中经常有性能评估的需求,性能benchmark是评估性能最常用的手段。本文小结下之前用过的 benchmark。

工具名称测试项目summary项目地址
coremarkcpu测评cpu的整体性能(列举、矩阵运算、状态机、CRC)https://github.com/eembc/coremark
coremark_procpucoremark的升级版,测评cpu整体性能
super PIcpu测评PI的计算ftp://pi.super-computing.org/Linux/
SPECcpu测评cpu性能http://www.spec.org/spec/
dhrystonecpu测评CPU整形计算
whetstonecpu测评CPU浮点运算
stressapptestcpu&mem主要ddr压力测试,也可以提高cpu负载https://github.com/stressapptest/stressapptest
nbenchcpu&mem测评CPU运算性能(整数运算、双精度浮点运算)/mem指数主要体现处理器总线、cache和存储器性能http://www.tux.org/~mayer/linux/bmark.html
utest_memmem测评mem bandwidth
cachebenchmem测评mem&cache bandwidthhttp://icl.cs.utk.edu/projects/llcbench/cachebench.html
copybwmem测评mem bandwidthhttp://www.tux.org/pub/benchmarks/CPU/copybw.c
ramspeedmem测评cache有效带宽
bonnieIO测评IO性能http://www.textuality.com/bonnie/
FioIO测评文件系统IO性能http://freshmeat.net/projects/fio/
iozoneIO测评文件系统IO性能http://www.iozone.org/
lmbenchCPU/mem/IO测评cpu/mem/IO bandwidth & latencyhttp://lmbench.sourceforge.net/
sysbenchCPU/mem/IO多线程性能测试https://github.com/akopytov/sysbench
cyclictest实时性git.kernel.org/pub/scm/linux/kernel/git/clrkwllms/rt-tests.git

芯片厂商发布SOC时评估算力习惯与Geekbench 数据库中测评结果进行比较,国内安卓手机厂商一般都会在Antutu跑个分。除这两个之外,还有3DMark,PCMark等,这些会更关注GPU和其它多媒体处理的性能了。

1.3.1 Geekbenck 介绍

Geekbench是一个广泛使用的跨平台处理器基准测试工具,由Primate Labs开发。它可以对单核和多核性能进行全面的测量和评估,为用户提供一个快速而准确的衡量和比较计算设备(如桌面,笔记本电脑,手机,平板电脑等)性能的方法。

以下是Geekbench的主要特性:

  • 跨平台:Geekbench可在各种设备和操作系统上运行,包括Windows,Mac,Linux,iOS,Android等。

  • 单核和多核性能测试:Geekbench可以同时测试处理器的单核和多核性能,从而提供全面的处理器性能评估。

  • 实际场景测试:Geekbench采用的是实际应用场景的模拟测试,比如图像处理,文本压缩等,以模拟实际使用情况中的设备性能。

  • 结果比较:Geekbench提供了一个在线的测评结果数据库,用户可以将自己设备的得分与全球其他设备进行比较,更好地理解设备性能。

下图是Geekbench 6 排行
在这里插入图片描述
详情见:
https://browser.geekbench.com/v6/cpu/singlecore
https://browser.geekbench.com/v6/cpu/singlecore

1.3 编译参数配置

GCC编译参数可以对程序的性能产生显著的影响,因此也就影响了跑分测试的结果。一些GCC编译参数可以对程序的执行速度,内存使用情况等进行优化。

以下是一些GCC编译参数及其对跑分测试可能产生的影响:

  • -O1、-O2、-O3:这些参数用于控制编译器优化级别,级别越高,编译器会尝试进行更多的代码优化,以提高程序的运行速度。这些优化可能包括循环展开、常量折叠等。但是级别越高,编译时间也越长。

  • -march=native:这个参数告诉GCC产生优化以适应本地机器类型的代码。如果你在本地运行跑分测试,这个参数将使GCC生成针对你的CPU特性进行优化的代码。

  • -ffast-math:这个参数让GCC对浮点数学运算做一些假设(即假设不会出现NaN,Inf和Denorms等),使其可以进行更多的优化。如果你的程序大量使用浮点运算,这个参数可能会带来性能的提升。

  • -funroll-loops:这个参数让GCC对较小的循环进行循环展开,以减少循环开销。这可能会提高程序的性能,但也可能会增加程序的大小。

  • -fprefetch-loop-arrays:如果目标平台支持,则使用该选项将导致预取循环数组以减少缓存未命中的数量。这可能会提高程序的性能。

这里需要注意的是,虽然这些编译参数可能会影响程序的性能,但具体影响取决于很多因素,包括程序的具体代码、硬件环境等。并且,并非所有的优化都会带来性能提升,有时候甚至会导致性能下降。因此,使用这些参数时需要根据具体情况进行测试和调整。

关于编译参数的详细介绍见:ARM GCC 编译系列学习

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/119666.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

D71X-16Q手柄蝶阀型号解析

D71X-16Q型号字母含义解析 D71X-16Q是德特森阀门常用的手柄蝶阀型号字母分别代表的意思是: D——代表阀门类型《蝶阀》 7——代表连接方式《对夹》 1——代表结构形式《中线》 X——代表阀座材质《橡胶》 -代表分隔键 16——代表公称压力《1.6MPA》 Q——代表阀体材料《…

美创科技列为IDC中国数据安全市场代表厂商

近日&#xff0c;国际权威IT咨询机构IDC发布《中国数据安全市场发展趋势&#xff0c;2023》报告&#xff0c;报告针对中国数据安全市场的发展现状进行调研&#xff0c;明确了最终用户数据安全建设的痛点、难点&#xff0c;阐述了市场中各技术服务提供商的服务方案和优势。 美创…

如何恢复u盘删除文件?2023最新分享四种方法恢复文件

U盘上删除的文件怎么恢复&#xff1f;使用U盘存储文件是非常方便的&#xff0c;例如&#xff1a;在办公的时候&#xff0c;会使用U盘来存储网络上查找到的资料、产品说明等。在学习的时候&#xff0c;会使用U盘来存储教育机构分享的教学视频、重点知识等。而随着U盘存储文件的概…

css步骤条

html 代码以及样式 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>css步骤条</title><style>.steps {display: flex;justify-content: space-between;padding: 0;margin: 20px 10px;lis…

数据结构笔记——树和图(王道408)(持续更新)

文章目录 传送门前言树&#xff08;重点&#xff09;树的数据结构定义性质 二叉树的数据结构定义性质储存结构 二叉树算法先中后序遍历层次展开法递归模拟法 层次遍历遍历序列逆向构造二叉树 线索二叉树&#xff08;难点&#xff09;定义线索化的本质 二叉树线索化线索二叉树中…

Elasticsearch分词器-中文分词器ik

文章目录 使用standard analysis对英文进行分词使用standard analysis对中文进行分词安装插件对中文进行友好分词-ik中文分词器下载安装和配置IK分词器使用ik_smart分词器使用ik_max_word分词器 借助Nginx实现ik分词器自定义分词网络新词 ES官方文档Text Analysis 使用standard…

react-typescript-demo

1.使用 Context 来存储数据

elasticSearch put全局更新和单个字段更新语法

1、如下&#xff1a;更新改类型未doc(文档)的全局字段数据 注意&#xff1a;如果你使用的是上面的语句&#xff0c;但是只写了id和title并赋值&#xff0c;图片上其他字段没有填写&#xff0c;执行命令后&#xff0c;则会把原文档中的其他字段都给删除了&#xff0c;你会发现查…

Linux虚拟网络设备—Veth Pair

veth是Virtual Ethernet Device的缩写&#xff0c;是一种成对出现的Linux虚拟网络接口设备。它最常用的功能是用于将不同的Linux network namespaces 命名空间网络连接起来&#xff0c;让二个namespaces之间可以进行通信。我们可以简单的把veth pair理解为用一根网线&#xff0…

ESB优势2019-架构师(六十二)

分布式数据数据库系统除了包含集中式数据库系统的模式结构外&#xff0c;还增加了几个模式级别&#xff0c;其中&#xff08;&#xff09;定义了分布式数据库中数据的整体逻辑结构、使得数据使用方便&#xff0c;如同没有分布一样。 分片模式全局外模式分布模式全局概念模式 …

VisualStudio[WPF/.NET]基于CommunityToolkit.Mvvm架构开发

一、创建 "WPF应用程序" 新项目 项目模板选择如下&#xff1a; 暂时随机填一个目标框架&#xff0c;待会改&#xff1a; 二、修改“目标框架” 双击“解决方案资源管理器”中<项目>CU-APP, 打开<项目工程文件>CU-APP.csproj, 修改目标框架TargetFramew…

企业出海:深入测评华为云云连接

随着全球化不断发展&#xff0c;中国企业也不断向海外拓展业务&#xff0c;然而出海企业面临不同以往的困难和挑战&#xff0c;在其中不可避免面临的跨境网络时延问题&#xff0c;如何选择区域进行部署企业业务&#xff0c;减少时延问题也成为需要重点考虑的问题。九河云结合测…

【嵌入式项目应用】__cJSON在单片机的使用

目录 前言 一、JSON和cJson 二、cJSON是如何表示JSON数据的 三、如何封装完整的JSON数据 1. 先将串口打通&#xff0c;方便电脑查看log日志。 2. 增加cjson.c文件&#xff0c;已经在main.c中 3. 准备打包如下的JSON包 4. 代码部分&#xff0c;先将几个部分初始化指针 …

web - Tomcat服务器

文章目录 目录 文章目录 前言 一 . CS和BS的异同 二 . 什么是Tomcat 二 . Tomcat安装 四 . Tomcat目录结构 bin目录: 用于存放二进制的可执行文件 config目录 server.xml&#xff1a;配置整个服务器信息。例如修改端口号。默认HTTP请求的端口号是&#xff1a;8080 lib目录 log…

VSCode 开发 Vue 语法提示

一. 打开应用商店&#xff0c;搜索 vetur &#xff0c;选择第一个&#xff0c;点击安装。 二. 安装完成后&#xff0c;还可以下载 Vue Language Features 解决代码警告的问题。 最后重启 VSCode 就可以使用啦。另外输入 按回车键还可以自动生成 vue 代码格式哦。 原创作者&…

【20年VIO梳理】

19-20年VIO 梳理 1. 开源代码介绍&#xff1a; DSM2. FMD Stereo SLAM&#xff1a;融合MVG和直接方法&#xff0c;实现准确&#xff0c;快速的双目SLAM3. 基于VINS-Mono开发的SPVIS4. 改进&#xff1a;一种基于光流的动态环境移动机器人定位方案5. PVIO:基于先验平面约束的高效…

网络流探索:解决网络最大流问题的算法集锦

1.初识网络流 网络流一直是初学者心中很难过去的一道坎&#xff0c;很多人说它是一个不像DFS/BFS那么直观的算法&#xff0c;同时网上也有各种参差不齐的材料&#xff0c;让人感到一知半解。 如果你也有这样的感觉&#xff0c;那么不要灰心&#xff0c;坚持住&#xff0c;因为…

linux音频-IIS音频接口

IIS 总线 IIS(Integrate Interface of Sound)即集成音频接口&#xff0c;在上个世纪 80 年代首先被 Philips 公司用于消费产品的音频设备&#xff0c; I2S规范 I2S总线只能用来处理audio data&#xff0c;而别的信号比如控制信号&#xff0c;编码信号则交给别的模块处理。为了…

【攻克】抓包工具:中文版Fiddler使用 教程-攻克获取微信账单

Fiddler是一款免费网络代理调试工具。 Fiddler是一个蛮好用的抓包工具&#xff0c;可以将网络传输发送与接受的数据包进行截获、重发、编辑、转存等操作。也可以用来检测网络安全。反正好处多多&#xff0c;举之不尽呀&#xff01; 当年学习的时候也蛮费劲&#xff0c;一些蛮…

数据清洗与规范化详解

数据处理流程&#xff0c;也称数据处理管道&#xff0c;是将原始数据转化为有意义的信息和知识的一系列操作步骤。它包括数据采集、清洗、转换、分析和可视化等环节&#xff0c;旨在提供有用的见解和决策支持。在数据可视化中数据处理是可视化展示前非常重要的一步&#xff0c;…