深度学习-模型转换_所需算力相关

模型转换相关

tensflow转onnx

python -m tf2onnx.convert  \--graphdef /root/autodl-tmp/warren/text-detection-ctpn/data/ctpn.pb  \--output ./model.onnx  --inputs Placeholder:0 --outputs Reshape_2:0,rpn_bbox_pred/Reshape_1:0

pytorch转onnx

#!/usr/bin/env python3import torchfrom simple_net import SimpleModel# Load the pretrained model and export it as onnxmodel = SimpleModel()model.eval()checkpoint = torch.load("weight.pth", map_location="cpu")model.load_state_dict(checkpoint)# Prepare input tensorinput = torch.randn(1, 1, 28, 28, requires_grad=True)#batch size-1 input cahnne-1 image size 28*28# Export the torch model as onnxtorch.onnx.export(model,input,'model.onnx', # name of the exported onnx modelopset_version=11,export_params=True,do_constant_folding=True)

模型所需算力测算

手动测算

网络代码

class SimpleModel(nn.Module):def __init__(self):super(SimpleModel, self).__init__()self.conv1 = nn.Conv2d(1,10,5) #1 input channel 10 outchannel 5 kernel sizeself.conv2 = nn.Conv2d(10,20,3) #same as aboveself.fc1   = nn.Linear(20*10*10,500) #in / outself.fc2   = nn.Linear(500,10) #same as abovedef forward(self, x):input_size = x.size(0)x = self.conv1(x) #in batch*1*28*28 out batch*10*24*24(28-5+1)x = F.relu(x)     #keep shape not change  out batch*10*24*24x = F.max_pool2d(x,2,2) #in batch*10*10*24 out batch*10*12*12(24/2)x = self.conv2(x) #in batch*10*12*12 out:batch 20*10*10(12-3+1)x = F.relu(x)x = x.view(input_size,-1)  #flatten -1:caculate dimens autoly 20*10*10x = self.fc1(x)# in :batch*2000 out batch*500x = F.relu(x) #keep sahpe not changex = self.fc2(x) #in 500 out 10output = F.log_softmax(x,dim=1) #caculate possibility#print("------------------------------output is ",output)return output

计算过程:

参数量

conv1层:1 input channel * 10 output channels * 5 * 5 kernel size + 10 bias = 260 个参数

conv2层:10 input channels * 20 output channels * 3 * 3 kernel size + 20 bias= 1820 个参数

fc1全连接层:20 * 10 * 10 (20个通道,每个通道大小为10*10) * 500 (输出大小) + 500 bias = 1000500 个参数

fc2全连接层:500 (输入大小) * 10 (输出大小) + 10 bias = 5010 个参数

总参数量为:260 + 1820 + 1000500 + 5010 = 1010120 个参数

Macs

1)conv1 层的FLOPs计算:

conv1 层是一个卷积层,输入大小为 batch * 1 * 28 * 28(假设batch大小为B,输入通道数为1,高度为28,宽度为28),输出大小为 batch * 10 * 24 * 24(输出通道数为10,高度为24,宽度为24)。在卷积操作中,每个输出位置需要进行一个 5 * 5 的卷积操作。因此,计算FLOPs的公式为:

其中,B为batch大小为1

FLOPs_conv1 = B * 10 * 24 * 24 * 5 * 5=14400

 2)conv2 层的FLOPs计算:

conv2 层也是一个卷积层,输入大小为 batch * 10 * 12 * 12,输出大小为 batch * 20 * 10 * 10。在卷积操作中,每个输出位置需要进行一个 3 * 3 的卷积操作。因此,计算FLOPs的公式为:

FLOPs_conv2 = B * 20 * 10 * 10 * 3 * 3

3)fc1 全连接层的FLOPs计算:

fc1 全连接层将二维的特征图展平为一维向量,并进行全连接操作。输入大小为 batch * (20 * 10 * 10)(即展平后的大小),输出大小为 batch * 500。在全连接操作中,每个输出位置需要进行一个乘法和一个加法操作。因此,计算FLOPs的公式为:

FLOPs_fc1 = B * (20 * 10 * 10) * 500 * 2

4)fc2 全连接层的FLOPs计算:

fc2 全连接层将输出大小从 500 减少到 10。输入大小为 batch * 500,输出大小为 batch * 10。在全连接操作中,每个输出位置需要进行一个乘法和一个加法操作。因此,计算FLOPs的公式为:

FLOPs_fc2 = B * 500 * 10 * 2

5)现在我们将这四层的FLOPs相加得到总体的FLOPs

总体FLOPs = FLOPs_conv1 + FLOPs_conv2 + FLOPs_fc1 + FLOPs_fc2

总体FLOPs = B * 10 * 24 * 24 * 5 * 5 + B * 20 * 10 * 10 * 3 * 3 + B * (20 * 10 * 10) * 500 * 2 + B * 500 * 10 * 2

由于模型的参数量不依赖于batch大小B,所以FLOPs也不依赖于batch大小B。因此,我们可以直接将batch大小B忽略,得到最终的总体FLOPs:

总体FLOPs = 10 * 24 * 24 * 5 * 5 + 20 * 10 * 10 * 3 * 3 + (20 * 10 * 10) * 500 * 2 + 500 * 10 * 2

总体FLOPs ≈ 149760 + 182000 + 1000000 + 5010 = 1342770 个 FLOPs

6)因此,这个 "SimpleModel" 模型的总体FLOPs为 1342770 个 FLOPs,也就是 1.34 MMac(1.34百万次乘加运算)。

测试代码

'''Author: warrenDate: 2023-08-01 16:22:02LastEditors: warrenLastEditTime: 2023-08-01 16:26:45FilePath: /wzw/MNIST/cal_flops.pyDescription:Copyright (c) 2023 by ${git_name_email}, All Rights Reserved.'''#!/usr/bin/env python3import torchvision.models as modelsimport torch from simple_net import SimpleModelfrom ptflops import get_model_complexity_infoDEVICE     = torch.device("cuda" if torch.cuda.is_available() else "cpu")with torch.cuda.device(0):model     = SimpleModel().to(DEVICE)input_data = torch.randn(1, 1, 28, 28)macs, params = get_model_complexity_info(model, (1, 28, 28), as_strings=True,print_per_layer_stat=True, verbose=True)print('{:<30}  {:<8}'.format('Computational complexity: ', macs))print('{:<30}  {:<8}'.format('Number of parameters: ', params))

结果

SimpleModel(

  1.01 M, 100.000% Params, 1.34 MMac, 100.000% MACs,

  (conv1): Conv2d(260, 0.026% Params, 149.76 KMac, 11.199% MACs, 1, 10, kernel_size=(5, 5), stride=(1, 1))

  (conv2): Conv2d(1.82 k, 0.181% Params, 182.0 KMac, 13.610% MACs, 10, 20, kernel_size=(3, 3), stride=(1, 1))

  (fc1): Linear(1.0 M, 99.296% Params, 1.0 MMac, 74.817% MACs, in_features=2000, out_features=500, bias=True)

  (fc2): Linear(5.01 k, 0.497% Params, 5.01 KMac, 0.375% MACs, in_features=500, out_features=10, bias=True)

)

Computational complexity:       1.34 MMac

Number of parameters:           1.01 M

参数解释

Params 参数量 Mac乘加运算总数

总参数量:1.01 M(1,010,000个参数),占100.000%。

总浮点运算量(MACs):1.34 MMac(1,340,000次乘加运算),占100.000%。

各层的详细信息:

conv1层

参数量:0.026%(大约260个参数)

MACs:11.199%(大约149.76 KMac,即149,760次乘加运算)

conv2层

参数量:0.181%(大约1.82 k个参数)

MACs:13.610%(大约182.0 KMac,即182,000次乘加运算)

fc1全连接层

参数量:99.296%(大约1.0 M个参数)

MACs:74.817%(大约1.0 MMac,即1,000,000次乘加运算)

fc2全连接层

参数量:0.497%(大约5.01 k个参数)

MACs:0.375%(大约5.01 KMac,即5,010次乘加运算)

总体计算复杂度:1.34 MMac(1,340,000次乘加运算)。

总参数量:1.01 M(1,010,000个参数)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/605490.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SMTP发送邮件命令行怎么操作?

在现代信息社会中&#xff0c;电子邮件已经成为人们沟通、工作和交流的重要工具。SMTP&#xff08;Simple Mail Transfer Protocol&#xff09;作为电子邮件传输的标准之一&#xff0c;通过命令行操作可以更为灵活地进行邮件的发送。本文将介绍如何使用命令行进行SMTP邮件发送&…

基于spark的个性化招聘推荐系统

介绍 本就业推荐系统是一个基于Spark框架的个性化推荐平台&#xff0c;使用Python Django框架、Vue和Element-Plus UI组件库构建而成。该系统通过Scrapy爬虫框架抓取招聘网站的职位数据&#xff0c;用户可以根据关键词查询符合条件的职位信息&#xff0c;同时还提供了基于协同…

ps导出图像自动修改dpi问题的处理

问题 今天修改一个图片&#xff0c;一切都准备就绪后&#xff0c;只要一导出图片&#xff0c;像素不变&#xff0c;但dpi立刻就变成了96dpi&#xff0c;无论怎么修改就是这个值&#xff0c;但我的原值是300dpi&#xff0c;差的不是一点半点。最后在网友的帮助下解决&#xff0…

和vue2对比的Vue3新写法,在vue2基础上快速上手vue3项目

本文的目的&#xff0c;是为了让已经有 Vue2 开发经验的 人 &#xff0c;快速掌握 Vue3 的写法。 一、Vue3 里 script 的三种写法 首先&#xff0c;Vue3 新增了一个叫做组合式 api 的东西&#xff0c;英文名叫 Composition API。因此 Vue3 的 script 现在支持三种写法&#x…

QT应用篇:QT自定义最小化托盘显示和操作

将应用程序最小化到托盘任务栏中,可以使用Qt框架中的QSystemTrayIcon类。该类允许应用程序在关闭窗口后最小化到系统托盘,保持在后台运行,同时可以显示应用程序图标、添加右键菜单功能以及发送消息通知等。通过学习这些技术,能够为自己的Qt应用程序增加更多的交互性和便利性…

c++:拓扑排序

考研机试&#xff1a;拓扑排序 给定一个 n个点 m条边的有向图&#xff0c;点的编号是 1到 n&#xff0c;图中可能存在重边和自环。请输出任意一个该有向图的拓扑序列&#xff0c;如果拓扑序列不存在&#xff0c;则输出 −1。 若一个由图中所有点构成的序列 A满足&#xff1a;对…

关于Js深拷贝的三种方法详细讲解

目录 前言 一、pandas是什么&#xff1f; 二、使用步骤 1.利用函数递归来实现深拷贝 2.利用引入lodash包 3.利用JSON字符串转换 总结 前言 当涉及到JavaScript数据拷贝的时候&#xff0c;深拷贝是一个非常关键的概念。在JavaScript中&#xff0c;对象和数组被认为是引用类型&a…

Linux CentOS 8.x、9.x 系统安装启动某些服务报:libtinfo.so.5、libncurses.so.5 的问题,解决方式

场景&#xff1a; 启动服务 xxx-server start 报如下问题&#xff1a; error while loading shared libraries: libtinfo.so.5: cannot open shared object file: No such file or directory 解决&#xff1a; 1、根据报错内容可以看出&#xff0c;是因为xxx服务在启动的时候…

php实现定时任务

在PHP中&#xff0c;你可以使用不同的方法来实现定时任务。以下是其中两种常见的方法&#xff1a; 使用Cron Job&#xff1a; Cron是一种在Unix和类Unix系统上运行定期任务的工具。你可以通过设置Cron Job来定时运行PHP脚本。以下是一个简单的例子&#xff1a; 首先&#xff0c…

结构体(structure)的认识

前言——————希望现在在努力的各位都能感动以后享受成功的自己&#xff01; 今天我们来了解了解一下结构体&#xff0c;结构体又有什么奥妙呢&#xff0c;废话不多说&#xff0c;何为结构体呢&#xff1f;------->结构是⼀些值的集合&#xff0c;这些值称为成员变量。结…

每日算法打卡:子矩阵的和 day 8

文章目录 原题链接题目描述输入格式输出格式数据范围输入样例&#xff1a;输出样例&#xff1a; 题目分析示例代码 原题链接 796. 子矩阵的和 题目难度&#xff1a;简单 题目描述 输入一个 n 行 m 列的整数矩阵&#xff0c;再输入 q 个询问&#xff0c;每个询问包含四个整数…

即时设计:设计稿与PPT完美结合,让您的创意作品更具影响力

PPT助手 更多内容 在设计领域&#xff0c;将设计稿与PPT结合起来&#xff0c;可以让您的作品更具吸引力和影响力。为了满足这一需求&#xff0c;我们向您推荐一款强大的设计工具&#xff0c;它可以将设计稿导出为PPT文件&#xff0c;支持线上预览和编辑&#xff0c;让您的创意…

2024年大数据不完全预测

人工智能的进步可能是2024年的主要推动力&#xff0c;也凸显出大数据的挑战——如何存储、管理、管理和使用大数据——从未如此紧迫。&#xff0c;因为如果作为基石的数据失控&#xff0c;人工智能就没有意义了。当然反之亦然。 人工智能的进步可能是2024年的主要推动力&#…

【leetcode】力扣算法之相交链表【中等难度】

题目描述 给你两个单链表的头节点 headA 和 headB &#xff0c;请你找出并返回两个单链表相交的起始节点。如果两个链表不存在相交节点&#xff0c;返回 null 。 图示两个链表在节点 c1 开始相交&#xff1a; 题目数据 保证 整个链式结构中不存在环。 注意&#xff0c;函数…

如何解决海量数据的问题

近年来&#xff0c;高并发、分布式以及大数据成了后端开发者绕不开的话题&#xff0c;招聘软件上几呼都写着有高并发、大数据等项目经历优先时。很多人实际项目往往都是 CRUD&#xff0c;也没机会接触到这些场景啊。 但是&#xff0c;有位伟人曾经说过&#xff1a;没有条件&am…

并发(9)

目录 50.AQS的核心思想是什么&#xff1f; 51.AQS有哪些核心方法&#xff1f; 52.AQS定义什么样的资源获取方式&#xff1f; 53.AQS底层使用了什么样的设计模式&#xff1f; 54.什么是可重入&#xff0c;什么是可重入锁&#xff1f;他用来解决什么问题&#xff1f; 55.Ree…

小程序实现绘制图片 保存到手机

HTML <template><view><canvas canvas-id"myCanvas" :style"{height:380px,width:wWidthpx,background:#FFFFFF}"></canvas><view class"textCenter"><button click"saveCanvas">保存图片</b…

三代半导体材料有何区别

什么是半导体材料 半导体材料是制作半导体器件和集成电路的电子材料&#xff0c;是半导体工业的基础。利用半导体材料制作的各种各样的半导体器件和集成电路&#xff0c;促进了现代信息社会的飞速发展。 绝缘体、半导体和导体的典型电导率范围 半导体材料的研究开始于19世纪初…

什么是消费增值?如何做到增值?

在当今的商业世界&#xff0c;消费观念正在经历一场深刻的变革。传统的消费模式中&#xff0c;消费者购买商品后&#xff0c;交易即结束&#xff0c;消费者与商品的关系仅停留在使用层面。然而&#xff0c;随着消费增值模式的出现&#xff0c;这一观念正在被颠覆。这一模式将消…

React 元素拖拽教程 react-dnd 实现拖拽

实现效果 下面是实际的项目中的应用&#xff0c;涉及业务逻辑代码比较繁琐&#xff0c;下文只说明其基本原理&#xff0c;有疑问的地方请留言 h5原生的拖拽处理起来过分的繁琐&#xff0c;而社区已经提供了成熟的库 react-dnd 来帮助我们实现这些细节&#xff0c;我们只需要关…