模型(卷积、fc、attention)计算量 MAC/FLOPs 的手动统计方法

文章目录

    • 简介
    • 背景
      • 为什么理解神经网络中的MAC和FLOPs很重要?
        • 资源效率
        • 内存效率
        • 能耗
          • 功耗效率
        • 模型优化
        • 性能基准
        • 研究与发展
    • FLOPs 和 MACs 定义
    • 1. 全连接层 FLOPs 计算
      • 步骤 1:识别层参数
      • 步骤 2:计算 FLOPs 和 MACs
      • 步骤 3:总结结果
      • 使用 torchprofile 库验证
    • 2. 卷积神经网络(CNNs)
      • 计算卷积操作时的重要考虑因素
      • 第一步:确定层参数
      • 第二步:计算FLOPs和MACs
      • 第三步:汇总结果
      • 使用torchprofile库验证操作
    • 3. 自注意力模块 (self-attention) FLOPs 计算
      • 第一步:确定层参数
      • 第二步:汇总结果
      • 使用torchprofile库验证操作
    • 总结:按不同批次大小缩放MACs和FLOPs

简介

理解神经网络中的 MAC(乘累加操作)和 FLOPs(浮点运算)对于优化网络性能和效率至关重要。通过手动计算这些指标,可以更深入地了解网络结构的计算复杂性和资源需求。这不仅能帮助设计高效的模型,还能在训练和推理阶段节省时间和资源。本文将通过实例演示如何计算全连接层(fc)卷积层(conv) 以及 自注意力模块(self-attention) 的 FLOPs 和 MACs,并探讨其对资源效率、内存效率、能耗和模型优化的影响。


背景

为什么理解神经网络中的MAC和FLOPs很重要?

在本节中,我们将深入探讨神经网络中 MAC(乘累加操作)和 FLOPs(浮点运算)的概念。通过学习如何使用笔和纸手动计算这些指标将获得对各种网络结构的计算复杂性和效率的基本理解。

理解 MAC 和 FLOPs 不仅仅是学术练习;它是优化神经网络性能和效率的关键组成部分。它有助于设计既计算高效又有效的模型,从而在训练和推理阶段节省时间和资源。

这是一个在 Colab 笔记本中完全运行的示例

资源效率

理解 FLOPs 有助于估算神经网络的计算成本。通过优化 FLOPs 的数量,可以潜在地减少训练或运行神经网络所需的时间。

内存效率

MAC 操作通常决定了网络的内存使用情况,因为它们直接与网络中的参数和激活数量相关。减少 MACs 有助于使网络的内存使用更高效。

能耗
功耗效率

FLOPs 和 MAC 操作都对运行神经网络的硬件的功耗有贡献。通过优化这些指标,可以潜在地减少运行网络所需的能量,这对于移动设备和嵌入式设备尤为重要。

模型优化
  • 剪枝和量化
    理解 FLOPs 和 MACs 可以帮助通过剪枝(去除不必要的连接)和量化(降低权重和激活的精度)等技术优化神经网络,这些技术旨在减少计算和内存成本。
性能基准
  • 模型间比较
    FLOPs 和 MACs 提供了一种比较不同模型计算复杂性的方法,这可以作为为特定应用选择模型的标准。

  • 硬件基准
    这些指标还可以用于对比不同硬件平台运行神经网络的性能。

  • 边缘设备上的部署

    • 实时应用
      对于实时应用,特别是在计算资源有限的边缘设备上,理解和优化这些指标对于确保网络能够在应用的时间限制内运行至关重要。
    • 电池寿命
      在电池供电的设备中,减少神经网络的计算成本(从而减少能耗)可以帮助延长电池寿命。
研究与发展
  • 设计新算法
    在开发新算法或神经网络结构时,研究人员可以使用这些指标作为指导,目的是在不牺牲精度的情况下提高计算效率。

FLOPs 和 MACs 定义

  • FLOP(浮点运算)被认为是加法、减法、乘法或除法运算。

  • MAC(乘加运算)基本上是一次乘法加上一次加法,即 MAC = a * b + c。它算作两个FLOP(一次乘法和一次加法)。


1. 全连接层 FLOPs 计算

现在,我们将创建一个包含三层的简单神经网络,并开始计算所涉及的操作。以下是计算第一层线性层(全连接层)操作数的公式:

  • 对于具有 I 个输入和 O 个输出的全连接层,操作数如下:
    • MACs: I × O
    • FLOPs: 2 × (I × O)(因为每个 MAC 算作两个 FLOP)
import torch
import torch.nn as nn
import torch.nn.functional as F
from torchprofile import profile_macsclass SimpleLinearModel(nn.Module):def __init__(self):super(SimpleLinearModel,self).__init__()self.fc1 = nn.Linear(in_features=10, out_features=20, bias=False)self.fc2 = nn.Linear(in_features=20, out_features=15, bias=False)self.fc3 = nn.Linear(in_features=15, out_features=1, bias=False)def forward(self, x):x = self.fc1(x)x = F.relu(x)x = self.fc2(x)F.relu(x)x = self.fc3(x)return xlinear_model = SimpleLinearModel().cuda()
sample_data = torch.randn(1, 10).cuda()

步骤 1:识别层参数

  • 对于给定的模型,我们定义了三层线性层:
    fc1:10 个输入特征,20 个输出特征
    fc2:20 个输入特征,15 个输出特征
    fc3:15 个输入特征,1 个输出特征

步骤 2:计算 FLOPs 和 MACs

现在,计算每层的 MACs 和 FLOPs:

  • 层 fc1:
    MACs = 10 × 20 = 200
    FLOPs = 2 × MACs = 2 × 200 = 400

  • 层 fc2:
    MACs = 20 × 15 = 300
    FLOPs = 2 × MACs = 2 × 300 = 600

  • 层 fc3:
    MACs = 15 × 1 = 15
    FLOPs = 2 × MACs = 2 × 15 = 30

步骤 3:总结结果

  • 最后,为了找到单个输入通过整个网络的总 MACs 和 FLOPs,我们将所有层的结果相加:
  • 总 MACs = MACs(fc1) + MACs(fc2) + MACs(fc3) = 200 + 300 + 15 = 515
  • 总 FLOPs = FLOPs(fc1) + FLOPs(fc2) + FLOPs(fc3) = 400 + 600 + 30 = 1030

使用 torchprofile 库验证

可以使用 torchprofile 库来验证给定神经网络模型的 FLOPs 和 MACs 计算。以下是具体操作步骤:

macs = profile_macs(linear_model, sample_data)
print(macs)
# -> 515

2. 卷积神经网络(CNNs)

现在,让我们确定一个简单卷积模型的 MACs(乘加运算)和 FLOPs(浮点运算)。由于诸如步幅、填充和核大小等因素,这种计算比我们之前用密集层的例子更复杂一些。然而,我将逐步讲解以便于学习。

class SimpleConv(nn.Module):def __init__(self):super(SimpleConv, self).__init__()self.conv1 = nn.Conv2d(in_channels=1, out_channels=16, kernel_size=3, stride=1, padding=1)self.conv2 = nn.Conv2d(in_channels=16, out_channels=32, kernel_size=3, stride=1, padding=1)self.fc =  nn.Linear(in_features=32*28*28, out_features=10)def forward(self, x):x = self.conv1(x)x = F.relu(x)x = self.conv2(x)x = F.relu(x)x = x.view(x.shape[0], -1)x = self.fc(x)return xx = torch.rand(1, 1, 28, 28).cuda()
conv_model = SimpleConv().cuda()

计算卷积操作时的重要考虑因素

在计算卷积核的操作时,必须记住核的通道数量应与输入的通道数量相匹配。例如,如果我们的输入是一个有三个颜色通道的 RGB 图像,则核的维度将是 3x3x3 以匹配输入的三个通道。

为了演示的目的,我们将保持图像大小在整个卷积层中一致。为此,我们将填充和步幅值都设置为1。

第一步:确定层参数

对于给定的模型,我们定义了两个卷积层和一个线性层:

  • conv1: 1 个输入通道,16 个输出通道,核大小为 3
  • conv2: 16 个输入通道,32 个输出通道
  • fc: 32x28x28 个输入特征,10 个输出特征。因为我们的图像在卷积层中没有改变

第二步:计算FLOPs和MACs

现在,计算每层的 MACs 和 FLOPs:

公式是:output_image_size * kernel_shape * output_channels

层conv1:

  • MACs = 28 * 28 * 3 * 3 * 1 * 16 = 1,12,896
  • FLOPs = 2 × MACs = 2 × 1,12,896 = 2,25,792

层conv2:

  • MACs = 28 × 28 * 3 * 3 * 16 * 32 = 3,612,672
  • FLOPs = 2 × MACs = 2 × 3,612,672 = 7,225,344

层fc:

  • MACs = 32 * 28 * 28 * 10 = 250,880
  • FLOPs = 2 × MACs = 2 × 250,880 = 501,760

第三步:汇总结果

最后,为了找到单个输入通过整个网络的总MACs和FLOPs,我们汇总所有层的结果:

  • 总MACs = MACs(conv1) + MACs(conv2) + MACs(fc) = 1,12,896 + 3,612,672 + 250,880 = 3,976,448
  • 总FLOPs = FLOPs(conv1) + FLOPs(conv2) + FLOPs(fc) = 2,25,792 + 7,225,344 + 501,760 = 7,952,896

使用torchprofile库验证操作

macs = profile_macs(conv_model, (x,))
print(macs)
# 输出: 3976448

3. 自注意力模块 (self-attention) FLOPs 计算

在涵盖了线性和卷积层的 MACs 之后,我们的下一步是确定自注意力模块的FLOPs(浮点运算),这是大型语言模型中的一个关键组件。这个计算对于理解这些模型的计算复杂度至关重要。让我们深入探讨。

class SimpleAttentionBlock(nn.Module):def __init__(self, embed_size, heads):super(SimpleAttentionBlock, self).__init__()self.embed_size = embed_sizeself.heads = headsself.head_dim = embed_size // headsassert (self.head_dim * heads == embed_size), "Embedding size needs to be divisible by heads"self.values = nn.Linear(self.embed_size, self.embed_size, bias=False)self.keys = nn.Linear(self.embed_size, self.embed_size, bias=False)self.queries = nn.Linear(self.embed_size, self.embed_size, bias=False)self.fc_out = nn.Linear(heads * self.head_dim, embed_size)def forward(self, values, keys, queries, mask):N = queries.shape[0]value_len, key_len, query_len = values.shape[1], keys.shape[1], queries.shape[1]print(values.shape)values = self.values(values).reshape(N,  self.heads, value_len, self.head_dim)keys = self.keys(keys).reshape(N, self.heads, key_len, self.head_dim)queries = self.queries(queries).reshape(N,  self.heads, query_len, self.head_dim)energy = torch.matmul(queries, keys.transpose(-2, -1))        if mask is not None:energy = energy.masked_fill(mask == 0, float("-1e20"))attention = torch.nn.functional.softmax(energy, dim=3)out = torch.matmul(attention, values).reshape(N, query_len, self.heads * self.head_dim)return self.fc_out(out)

第一步:确定层参数

线性变换

让我们定义一些超参数:

batch_size = 1
seq_len = 10
embed_size = 256

在注意力块中,我们有三个线性变换(用于查询、键和值),以及一个在末尾的线性变换(fc_out)。

输入大小: [batch_size, seq_len, embed_size]

线性变换矩阵: [embed_size, embed_size]

MACs: batch_size × seq_len × embed_size × embed_size

查询、键、值线性变换:

  • 查询变换的MACs = 1 × 10 × 256 × 256 = 655,360
  • 键变换的MACs = 1 × 10 × 256 × 256 = 655,360
  • 值变换的MACs = 1 × 10 × 256 × 256 = 655,360

能量计算: 查询(重塑后)和键(重塑后)点积——一个点积操作。

MACs: batch_size × seq_len × seq_len × heads × head_dim

查询和键的点积

MACs = 1 × 10 × 10 × 8 × 32 [32 因为256/8] = 25,600

从注意力权重和值的计算输出: 注意力权重和值(重塑后)点积——另一个点积操作。

MACs : batch_size × seq_len × seq_len × heads × head_dim

注意力和值的点积

MACs = 1 × 10 × 10 × 8 × 32 = 25,600

全连接输出(fc_out)

MACs: batch_size × seq_len × heads × head_dim × embed_size

MACs = 1 × 10 × 8 × 32 × 256 = 655,360

第二步:汇总结果

总 MACs = MACs(conv1) + MACs(conv2) + MACs(fc)= 655,360 + 655,360 + 655,360 + 25,600 + 25,600 + 655,360 = 2,672,640

总 FLOPs = 2 × 总MACs = 5,345,280

使用torchprofile库验证操作

# 创建模型实例
model = SimpleAttentionBlock(embed_size=256, heads=8).cuda()# 生成一些样本数据(5个序列的批次,每个长度为10,嵌入大小为256)
values = torch.randn(1, 10, 256).cuda()
keys = torch.randn(1, 10, 256).cuda()
queries = torch.randn(1, 10, 256).cuda()# 简化起见,没有掩码
mask = None# 使用样本数据进行前向传递
macs = profile_macs(model, (values, keys, queries, mask))
print(macs)
# -> 2672640

总结:按不同批次大小缩放MACs和FLOPs

在我们的计算中,我们主要考虑了批次大小为 1。然而,按更大的批次大小缩放 MACs 和 FLOPs 是很简单的。

要计算批次大小大于 1 的 MACs 或 FLOPs,您可以简单地将批次大小 1 得到的总 MACs 或 FLOPs 乘以所需的批次大小值。此缩放允许您估计神经网络模型的各种批次大小的计算需求。

请记住,结果将直接线性缩放批次大小。例如,如果您的批次大小为 32,您可以通过将批次大小为 1 的值乘以 32 来获得 MACs 或 FLOPs。


原文链接: https://medium.com/@pashashaik/a-guide-to-hand-calculating-flops-and-macs-fa5221ce5ccc

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/45557.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

每日一练:奇怪的TTL字段(python实现图片操作实战)

打开图片,只有四种数字:127,191,63,255 最大数字为255,想到进制转换 将其均转换为二进制: 发现只有前2位不一样 想着把每个数的前俩位提取出来,组成新的二进制,然后每…

深入剖析Memcached缓存穿透:问题解析与解决方案

标题:深入剖析Memcached缓存穿透:问题解析与解决方案 摘要 Memcached是一种广泛使用的高性能分布式内存缓存系统,它通过减少数据库访问次数来提高应用程序的响应速度。然而,当缓存系统面临大量查询不存在的数据时,会…

做3D渲染,选择什么显卡好?

对于设计行业的小伙伴来说,电脑配置的优劣是个尤为关键的要素,特别是显卡,对于很多人而言,如何选择一张最适合的 3D 渲染显卡确实一大难关! 在目前市场上,主流的显卡分别是 AMD 显卡和 NVIDIA 显卡&#x…

Spring源码二十四:Bean流程探讨

Spring Bean 初始化中的循环依赖处理 在Spring框架中,bean的创建和管理是其核心功能之一。在复杂的应用中,bean之间可能存在循环依赖,这给bean的初始化带来了挑战。Spring通过三级缓存机制巧妙地解决了这个问题。本文将详细探讨addSingleton…

Java基础面试题大全

Java基础 语法基础 aab 和 ab 操作隐式的将操作的结果类型强制转换成持有结果的类型,而不会 比如对byte,short,int类型的操作,会先将他们提升到int类型,然后在执行操作。所以比如我定义了两个byte类型的a和b&#x…

KEIL 5项目中源文件图标带有雪花(四叶草)消除办法

今天在使用KEIL 5写STM32程序的时候,出现了一个错误: Error: L6218E: Undefined symbol test_for_diaodu (referred from main.o). 具体表现为,不管我把自己写的一个my.c里的什么函数或者变量名,即使在main.c中声明、引用了&#…

PCL从理解到应用【04】Octree 原理分析 | 案例分析 | 代码实现

前言 Octree 作为一种高效的空间分割数据结构,具有重要的应用价值。 本文将深入分析 Octree 的原理,通过多个实际案例帮助读者全面理解其功能和应用,包括最近邻搜索、半径搜索、盒子搜索以及点云压缩(体素化)。 特性…

搞懂负载均衡,零基础也可以!

本文作者:程序员鱼皮 免费编程学习 - 编程导航网:https://www.code-nav.cn 大家好,我是鱼皮。 周末在家写代码,无意中跟朋友提了下 LB,还说 LB 好的呱呱叫。 朋友笑了笑,问我 LB 是谁? 我解释…

加密软件|让数据传输更安全

加密软件在当今数字化时代扮演着至关重要的角色,它们通过先进的加密算法和技术,确保数据在存储、传输和分享过程中的安全性,从而保护个人隐私和企业机密。一、加密软件的基本作用数据加密:加密软件通过应用复杂的加密算法&#xf…

Python转换PDF为PowerPoint演示文件

PDF文件以其跨平台兼容性和版面固定性成为了分享和存储文档资料的首选格式。然而,在需要进行生动、互动性强的演示时,PDF的静态特性便难以满足个性化演示需求。将PDF文件转换为PowerPoint演示文稿可以解决这一问题。PowerPoint不仅提供了丰富的动画和过渡…

视觉定位和GPS定位在应用场景有什么不同?

视觉定位的应用场景 工业自动化: 在工业生产线上,视觉定位技术可以实现对不同物体的精确定位和识别,从而支持智能化生产。例如,在装配线上,机器人可以通过视觉定位技术准确地抓取和放置零件。机器人导航: …

微博热搜数据爬取与分析

一、课题描述 1.1项目背景 微博热搜数据爬取与分析是一门涉及信息检索、数据挖掘和文本分析等技术的课程。随着社交媒体的普及和人们对舆情、热点话题的关注度不断增加,利用数据挖掘和分析技术对微博热搜数据进行收集和分析具有重要的意义。 本课程设计旨在帮助学我们把握数…

网关设备BL122实现Modbus RTU/TCP转Profinet协议

Modbus与Profinet是两种广泛应用于工业自动化领域的通信协议:Modbus因其简单性和兼容性,在许多工业设备中得到广泛应用;而Profinet提供了高速、高精度的通信能力,适合于复杂控制系统和实时应用,但两者之间的差异导致了…

uniapp easycom组件冲突

提示信息 ​easycom组件冲突:[/components/uni-icons/uni-icons.vue,/uni_modules/uni-icons/components/uni-icons/uni-icons.vue]​ 问题描述 老项目,在uniapp插件商城导入了一个新的uniapp官方开发的组件》uni-data-picker 数据驱动的picker选择器 …

c++【入门】计算(a+b)*c的值

限制 时间限制 : 1 秒 内存限制 : 128 MB 题目 周周知道你一定学过加法和乘法,他还想让你写个程序来计算一个和加法、乘法有关的式子。 给定 3 个整数 𝑎,𝑏,𝑐计算表达式 (ab)c 的值。 输入 输入为三行,包括三…

测试人必会 K8S 操作之 Dashboard

在云计算和微服务架构的时代,Kubernetes (K8S) 已成为管理容器化应用的标准。然而,对于许多新手来说,K8S 的操作和管理常常显得复杂而神秘。特别是,当你第一次接触 K8S Dashboard 时,你是否也感到有些无所适从&#xf…

【Python】一文详细向您介绍 scipy.cluster.vq.kmeans() 的原理、常见用法和使用场景举例等

【Python】一文详细向您介绍 scipy.cluster.vq.kmeans() 的原理、常见用法和使用场景举例等 下滑即可查看博客内容 🌈 欢迎莅临我的个人主页 👈这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地!🎇 🎓 …

python简单学习笔记

1. print 输出 print(2024, 年,我要想娘) # sep:设置打印多个内容的分隔符,默认值为空格 print(2024, 年,我要想娘, sep, end\n) # end:设置print执行结束后的操作,默认值为换行格式化输出 print(格式化字符串 % (变量1, 变量…

org.springframework.jdbc.BadSqlGrammarException异常

Bug 记录 概述 在执行定时任务更新电子书统计信息时,遇到了 org.springframework.jdbc.BadSqlGrammarException 异常,具体表现为 SQL 函数 count 被错误地解析为自定义函数 wiki.count,导致数据库更新操作失败。 详细描述 错误信息&#x…

计算机视觉之SSD目标检测

模型简介 SSD是一种单阶段目标检测算法,通过卷积神经网络进行特征提取,并在不同的特征层进行检测输出,实现多尺度检测。它采用了anchor的策略,预设不同长宽比例的anchor,并在每个输出特征层上预测多个检测框。SSD框架…