衡量芯片运算能力的指标

MACCs

MACCs(Multiply-accumulate operations)表示乘加运算:b乘c加a为一次MACC指令,两次OP。

乘加运算是模型运算里的基本单元,矩阵的运算基本都是乘加。

TOPS

TOPS(Tera Operation Per Second,每秒万亿次运算),描述的是芯片AI运算方面的能力。TOPS描述的是芯片MACC(Multiply Accumulate, 乘积累加)运算的能力,常用来衡量自动驾驶的算力。MACC运算包括整数相乘和相加两个过程,自动驾驶深度学习等算法里的核心运算就是矩阵运算,矩阵运算又可以分解为数个MACC指令。

这里没有指定数据类型,具体评价算力要结合数据精度。例如某块芯片算力在INT_8数据格式下是1TOPS算力,但是在实际跑模型时也无法达到百分之百,百分之五十左右较为正常。

与此对应的还有GTOPSMTOPS算力单位,1GTOPS代表处理器每秒钟可进行十亿次(10^9)操作,1MTOPS代表处理器每秒钟可进行一百万次(10^6)操作。

TOPS/W用于度量在1W功耗的情况下处理器能进行多少万亿次操作,也是评价处理器运算能力的一个性能指标。

INT8位精度下的MACC(乘加运算)数量在FP16(半浮点数,也就是16位浮点数)精度下等于减少了一半,FP32(浮点数,也就是32位浮点数)再减少了一半。

举例:假设有512MACC运算单元,运行频率为1GHZ,INT8的数据结构和精度,算力为512X2(2理解为一个MACC为一次乘法和一次加法,为两次运算操作)。

TOPS仅仅指处理器每秒万亿次操作,需要结合具体数据类型精度才可以用于FLOPS转换。

FLOPS

FLOPS(floating-point operations pre second)每秒所执行的浮点运算次数,表示运算速度,字尾的是大写的S,代表秒,常用来估算电脑的执行效率,尤其是在使用到大量浮点运算的科学计算领域。

浮点运算,包括了所有涉及小数的运算。这类运算在某类应用软件中常常出现,要比整数运算更耗时间。现在大部分处理器,都有一个专门用来处理浮点运算的“浮点运算器”(FPU)。因此FLOPS所量测的,实际上是FPU的执行速度。

PFLOPS:每秒一千万亿(10^15)次的浮点运算;

TFLOPS:每秒一万亿(10^12)次的浮点运算;

GFLOPS:每秒十亿(10^9)次的浮点运算;

FLOPs

FLOPs(Floating point Operations(s表示复数))浮点运算次数,表示运算量。这个参数常用来评价深度学习模型的运算量,如果已知模型FLOPs可通过换算求得某个已知参数的芯片运行一遍模型的时间。

例如:INT_8 1TOPS算力的芯片,1TFLOPs的模型,假设芯片效率百分之百,运行一遍需要4秒,因为1TFLOPs单位是FP32;

FLOPs可以用来衡量模型的复杂度,描述了数据过一遍这么复杂的网络需要多大的计算量,即使用该模型时所需要的计算力总量。

MAC

MAC(Memory Access Cost)内存访问成本,描述了这个复杂的网络到底需要多少参数才能定义它,即存储该模型所需要的存储空间。

例如:某个模型需要256000个浮点参数定义,转化为bit乘以32得8192000bit,再除以8转化为Byte,1024KB,也就是1M,那么这个模型大小约为1M。

DMIPS

DMIPS(Dhrystone Million Instructions Per Second,每秒处理的百万级的机器语言指令数),描述的是CPU的运算能力。自动驾驶多传感器融合的滤波算法、激光点云的配准算法、多数的路径规划和决策算法考验的都是CPU的运算能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/232506.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

QT isEnable、isSelected、setEnabled 、 setClickable

isEnable:是否启用部件的键盘和鼠标事件 isSelected:判断某个元素是否被选中 setEnabled 和setClickable参考: qt -- setEnabled() 、 setClickable()_qt setenabled-CSDN博客 void SwitchButton::mousePressEvent(QMouseEvent *event) {…

Vue 使用 js-audio-recorder 实现录制、播放、下载音频

Vue 使用 js-audio-recorder 实现录制、播放、下载 PCM 数据 Vue 使用 js-audio-recorder 实现录制、播放、下载 PCM 数据js-audio-recorder 简介Vue 项目创建下载相关依赖主界面设计设置路由组件及页面设计项目启动源码下载 Vue 使用 js-audio-recorder 实现录制、播放、下载 …

FPGA时序分析与时序约束(二)——时钟约束

目录 一、时序约束的步骤 二、时序网表和路径 2.1 时序网表 2.2 时序路径 三、时序约束的方式 三、时钟约束 3.1 主时钟约束 3.2 虚拟时钟约束 3.3 衍生时钟约束 3.4 时钟组约束 3.5 时钟特性约束 3.6 时钟延时约束 一、时序约束的步骤 上一章了解了时序分析和约束…

IDEA shorten command line介绍和JAR manifest 导致mybatis找不到接口类处理

如果类路径太长,或者有许多VM参数,程序就无法启动。原因是大多数操作系统都有命令行长度限制。在这种情况下,IntelliJIDEA将试图缩短类路径。最好选中 classpath file模式。 shorten command line 选项提供三种选项缩短类路径。 none&#x…

破局:国内母婴市场“红利减退”,母婴店如何拓客引流裂变?

破局:国内母婴市场“红利减退”,母婴店如何拓客引流裂变? 背景:中国母婴市场近年来人口出生率一直在恒定范围值,国家也在鼓励优生、多生政策,并且随着互联网的高速发展,人均可支配收入也在增加&…

你是无醇葡萄酒的爱好者吗?

不含酒精的蒸馏酒和起泡酒正在流行,尽管它们是葡萄酒市场中最小的细分市场之一,但需求和供应都在稳步增长。这是因为,和啤酒一样,消费者越来越多地询问无醇葡萄酒。 来自云仓酒庄品牌雷盛红酒分享不含酒精的酒好喝吗?尼…

单通道 6 阶高清视频滤波驱动 MS1631

MS1631 是一个单通道视频缓冲器,它内部集成 6dB 增益的轨到轨输出驱动器和 6 阶输出重建 滤波器。MS1631 的-3dB 带宽典型值为 72MHz,压摆率为 400V/us。MS1631 比无源 LC 滤波器与外加 驱动的解决方案能提供更好的图像质量。它单电源供电范围为2.5V 到…

从零开始学习Web自动化:用Python和Selenium实现网站登录功能!

Web自动化测试实战项目:使用Selenium和Python完成网站登录功能的自动化测试 本文将介绍如何使用Selenium和Python编写自动化测试脚本,对网站登录功能进行测试。我们将通过模拟用户在网站上输入用户名和密码,并点击登录按钮,来检验…

flink yarn-session 启动失败retrying connect to server 0.0.0.0/0.0.0.0:8032

原因分析,启动yarn-session.sh,会向resourcemanager的端口8032发起请求: 但是一直无法请求到8032端口,触发重试机制会不断尝试 备注:此问题出现时,我的环境ambari部署的HA 高可用hadoop,三个节点…

电力智能化管理系统

电力智能化管理系统是一种综合性的电力管理解决方案,它利用先进的信息技术、自动化技术和智能控制技术,实现对电力系统的全面管理和优化。 该系统依托电易云-智慧电力物联网,它的主要功能包括实时监测、故障预警、自动巡检、设备管理、数据分…

【Unity 实用工具篇】✨| I2 Localization 实现本地化及多种语言切换,快速上手

前言【Unity 实用工具篇】| I2 Localization 实现本地化及多种语言切换,快速上手一、多语言本地化插件 I2 Localization1.1 介绍1.2 效果展示1.3 使用说明及下载二、插件资源简单介绍三、通过示例快速上手3.1 添加 Languages语种3.2 添加 Term资源3.3 静

面试算法57:值和下标之差都在给定的范围内

题目 给定一个整数数组nums和两个正数k、t,请判断是否存在两个不同的下标i和j满足i和j之差的绝对值不大于给定的k,并且两个数值nums[i]和nums[j]的差的绝对值不大于给定的t。 例如,如果输入数组{1,2,3,1}&…

Java版直播商城规划:电商源码、小程序、三级分销与免 费搭建全攻略

【saas云平台】打造全行业全渠道全场景的saas产品,为经营场景提供一体化解决方案;门店经营区域化、网店经营一体化,本地化、全方位、一站式服务,为多门店提供统一运营解决方案;提供丰富多样的营销玩法覆盖所有经营场景…

在Next.js渲染Markdown竟然如此简单

Next.js 作为一款开箱即用的 React 框架,因其优秀的服务器渲染能力和灵活的配置方式,已经吸引了大量的开发者。同时,Markdown 作为一种轻量级的标记语言,以其简洁的语法和强大的功能,已经成为了写作的首选工具。那么&a…

51单片机4线并发IO口控制1602LCD

51单片机4线并发IO口控制1602LCD 1.概述 这篇文章介绍单片机使用4个并发IO口数据线控制LCD显示字符,为单片机节省了4个IO口。 单片机4个IO口控制LCD原理就是将原来1个字节8位数据拆分2次读写,首先读取高4位数据,然后再读低4位数据&#xff…

centos7.9源码编译rtpproxy2.2

升级到gcc9,不然make会报错 yum install centos-release-scl -y yum install devtoolset-9 -y #临时覆盖系统原有的gcc引用 scl enable devtoolset-9 bash # 查看gcc版本 gcc -v 下载和编译rtpproxy cd /usr/src git clone -b rtpp-2.2 https://github.com/sippy/rt…

DDD架构实践

ddd架构浅析 背景介绍 什么是ddd架构,是以ddd思想为参考,做出一份符合ddd思想的框架。 随着技术的迭代升级,越来越多的瓶颈暴露出来,性能瓶颈,系统复杂度瓶颈,这些都逐一被迭代出的技术产物解决。最终的…

SE-Net:Squeeze-and-Excitation Networks(CVPR2018)

文章目录 AbstractIntroduction表征的重要性以前的方向本文提出 Related WorkDeeper ArchitectureAlgorithmic Architecture SearchAttention and gating mechanisms Squeeze-and-Excitation BlocksSqueeze: Global Information EmbeddingExcitation: Adaptive RecalibrationIn…

Python的魔术方法

什么是魔术方法 魔法方法(Magic Method)是python内置方法,格式为:“方法名”,不需要主动调用,存在的目的是为了给python的解释器进行调用,几乎每个魔法方法都有一个对应的内置函数,或者运算符,…

高中信息技术教资科目三

第一章-课程理论知识 学科核心素养 信息意识计算思维数字化学习与创新信息社会责任 教学环节 新课导入新课讲授巩固提高小结作业 第二章-教学实施类 第一节-新课导入 导入原则 针对性原则趣味性原则简洁性原则启发性原则 导入方法 开门见山温故知新生活情境作品情境活…