分组卷积的思想神了

分组卷积的思想神了

news/2025/4/27 16:49:57/文章来源:https://blog.csdn.net/dongtuoc/article/details/134085473

大家好啊，我是董董灿。

最近，分组卷积帮我解决了一个大忙，事情是这样的。

这几天遇到一个头疼的问题，就是要在某一芯片上完成一个神经网络的适配，这个神经网络中卷积居多，并且有一些卷积的通道数很大，比如2048个输入通道。

问题是，该芯片是专用芯片，所对应的硬件模块无法直接支持这种通道数很大的卷积运算。

于是开始了头脑风暴，因为芯片中有良好的向量指令集来支持内积运算，因此第一反应便是拿内积运算来拼凑出卷积。

但实验结果表明，利用内积指令来拼凑的卷积效果不如人意，主要在于内积指令调用次数过多，导致神经网络的整体性能太差。

就在一筹莫展时，一个声音传过来，“我们改图吧”。

改图，指的是改神经网络的结构，很多推理框架都具备这个能力，比如pytorch，tvm等。

这些推理框架可以针对性的适配某些专用AI芯片加速器，为此魔改一些神经网络结构，通过增加一些优化节点(pass)，来使原本不支持的运算变为可支持的运算。

比如这个卷积的例子，可以将一个大卷积(指的是通道数很大)，魔改为两个或多个小卷积，分别计算，计算完成后再将结果合并。

这就要提一下将卷积在通道维度分成多个卷积计算的操作——分组卷积(Group Convolution)了。

1、什么是分组卷积

网上有很多关于分组卷积的资料。说的简单点，分组卷积是将卷积在channel 维度分组来计算，以达到将一个大卷积分成多个小卷积的目的。

为了清晰，我们将卷积操作简化为一次最简单的乘累加运算，channel维度只有2个数据，如下图。

正常的卷积操作，A和B的乘累加，计算的是 1x3 + 2x4 = 11。

而如果将其在channel维度分组(例子中channel维度只有两个数据，我们就分成两组)，那么会是这样

第一组只计算channel 维度的前半部分，第二组只计算channel维度的后半部分。

分组的过程是不是很好理解。

2、为什么需要分组卷积

分组卷积最早由Alex等人在2012年的ImageNet图像分类竞赛中提出并使用，提出的初衷是为了解决卷积神经网络训练期间的计算和内存开销问题。

2012年的GPU不像现在的GPU内存那么大，当初GPU内存还很有限，一个channel通道数很大的卷积直接计算，放在整个网络中，是很耗费内存的。

于是，他们把大卷积在通道方向拆分成多个小卷积来分别计算，这样可以让拆分出来的多个小卷积分别运行在多张GPU卡上，达到一个模型多卡并行计算的目的，从而提高训练性能。

需要说明的是，论文中的分组卷积不仅将输入通道进行了分组，同时将输出通道进行了分组。

由此而来的分组卷积，在计算量上变为原来的1/G，G为分组的组数。

3、分组卷积和原始卷积在数学上等价吗？

细心的小伙伴可能会问这个问题。

如果仅仅说分组卷积，那么结果肯定和原始大卷积不等价，因为把channel维度给拆开了。

并且如果不做处理，还会影响最终的推理精度，对于这个问题，有个很好的解决办法。

我们知道，卷积算法的核心是特征提取和融合：5分钟理解什么是卷积的特征提取。

如果不进行其他操作，那么分组卷积仅仅进行了组内小卷积的特征融合，而缺少了分组间的特征融合，这样对于最终的训练推理结果会有影响。

为了解决这个问题，往往在分组卷积前在channle维度进行 shuffle 操作，也就是洗牌，使得特征可以随机的分配到每一个组内，能够更好的完成组间的特征融合。

4、“分组卷积“”的思想神了

回到上面我遇到的问题，我们需要在自己的需求下，利用分组卷积的思想，魔改大卷积运算。

如下示意图：一个输入channel 为 ci 的卷积，通过 split 在输入 channel 维度拆成两个 ci/2 的卷积，然后“分组”进行卷积操作，然后通过加法进行相加。

这里并没有对输出channel 进行分组，因为我们解决的问题不一样，内存对我们来说不是问题，问题仅仅在于输入channel太大。

而通过上面的魔改变换，便可以使得最终的结果和原始卷积计算一致，借用“分组卷积”的思想，可以很好的解决我遇到的问题。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/120824.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

React之服务端渲染

React之服务端渲染

一、是什么在SSR中 (opens new window)，我们了解到Server-Side Rendering ，简称SSR，意为服务端渲染指由服务侧完成页面的 HTML 结构拼接的页面处理技术，发送到浏览器，然后为其绑定状态与事件，成为完全可…

阅读更多...

番外8.2 --- 后续

番外8.2 --- 后续

### 01：dd命令：在新挂载点创建swap文件大小10MB；（dd if/dev/zero of/swap bs1024 count10240） 02：给swap建立文件系统，将其分属到swap文件（mkswap /swap； swapon /swap &…

阅读更多...

【linux系统】服务器安装Pycharm

【linux系统】服务器安装Pycharm

文章目录安装pycharm步骤1. 进入pycharm官网2. 上传到服务器3. 安装过程摘要：pycharm是Python语言的图形化开发工具。因为如果在Linux环境下的Python shell 中直接进行编程，其无法保存与修改，在大型项目当中这是很不方便的，而py…

阅读更多...

Linux dup和dup2

Linux dup和dup2

Linux dup和dup2函数，他们有什么区别，什么场景下会用到，使用它们有什么注意事项 dup和dup2都是Linux系统中的系统调用，用于复制文件描述符。它们的主要区别在于如何指定新的文件描述符以及处理新文件描述符的方式。 dup函数 #i…

阅读更多...

KV STUDIO的安装与实践（一）

KV STUDIO的安装与实践（一）

目录什么是KV STUDIO？ 如何安装KV STUDIO？ 如何学习与使用KV STUDIO（在现实中的应用）？ 应用一（在现实生活中机器内部plc的读取与替换） 读取 KV STUDIO实现显示器的检测！&#…

阅读更多...

Android拖放startDragAndDrop拖拽onDrawShadow动态添加View，Kotlin（3）

Android拖放startDragAndDrop拖拽onDrawShadow动态添加View，Kotlin（3）

Android拖放startDragAndDrop拖拽onDrawShadow动态添加View，Kotlin（3） import android.content.ClipData import android.graphics.Canvas import android.graphics.Point import android.os.Bundle import android.util.Log import android.…

阅读更多...

北邮22级信通院数电：Verilog-FPGA（7）第七周实验（1）：带使能端的38译码器全加器（关注我的uu们加群咯~）

北邮22级信通院数电：Verilog-FPGA（7）第七周实验（1）：带使能端的38译码器全加器（关注我的uu们加群咯~）

北邮22信通一枚~ 跟随课程进度更新北邮信通院数字系统设计的笔记、代码和文章持续关注作者迎接数电实验学习~ 获取更多文章，请访问专栏： 北邮22级信通院数电实验_青山如墨雨如画的博客-CSDN博客关注作者的uu们可以进群啦~ 目录方法一&#xff…

阅读更多...

泛微OA之获取每月固定日期

泛微OA之获取每月固定日期

文章目录 1.需求及效果1.1需求1.2效果 2. 思路3. 实现 1.需求及效果 1.1需求需要获取每个月的7号作为需发布日期，需要自动填充1.2效果自动获取每个月的七号2. 思路 1.功能并不复杂，可以用泛微前端自带的插入代码块的功能来实现。 2.将这需要赋值的…

阅读更多...

LVS集群-NAT模式

LVS集群-NAT模式

集群的概念： 集群：nginx四层和七层动静分离集群标准意义上的概念：为解决特定问题将多个计算机组合起来形成一个单系统集群的目的就是为了解决系统的性能瓶颈。垂直扩展：向上扩展，增加单个机器的性能，…

阅读更多...

Arduino驱动ME007-ULS防水测距模组（超声波传感器）

Arduino驱动ME007-ULS防水测距模组（超声波传感器）

目录 1、传感器特性 2、控制器和传感器连线图 3、驱动程序 ULS型超声波传感器，是采用一体化防水探头设计而成的一款高性能的测距传感器，采用超声波回拨测距原理，运用精准的时差测量技术测量非接触式传感器与目标物体的之间的距离。对于透明物体或有色物体，金属物体，非金…

阅读更多...

【java学习—九】工厂方法FactoryMethod（6）

【java学习—九】工厂方法FactoryMethod（6）

文章目录 1. 概念2. 实际的应用 1. 概念 FactoryMethod 模式是设计模式中应用最为广泛的模式，在面向对象的编程中，对象的创建工作非常简单，对象的创建时机却很重要。 FactoryMethod 解决的就是这个问题，它通过面向对象的手法&…

阅读更多...

在 macOS 上的多个 PHP 版本之间切换

在 macOS 上的多个 PHP 版本之间切换

文章目录前言一、前提条件1.引入库需要安装 Xcode 2.安装多个PHP版本2.PHP版本切换开源替代品前言不同项目使用php版本可能不同，需要安装不同版本php 一、前提条件 1.引入库需要安装 Xcode 命令行工具和Homebrew xcode-select --install检查brew是否已安…

阅读更多...

C#核心笔记——（一）C#和.NET Framework

C#核心笔记——（一）C#和.NET Framework

C#是一种通用的，类型安全的面向对象编程语言。其目标是提高程序员生产力。一.面向对象 C#实现了丰富的面向对象范式，包括封装、继承、多态。 C#面向对象特性包括： 统一的类型系统类与接口属性、方法、事件 C#支持纯函数模式二、类型安…

阅读更多...

BUUCTF zip伪加密 1

BUUCTF zip伪加密 1

BUUCTF:https://buuoj.cn/challenges 题目描述： 下载附件，得到一个zip压缩包。密文： 解题思路： 1、刚开始尝试解压，看到了flag.txt文件，但需要解压密码。结合题目，确认这是zip伪加密&#…

阅读更多...

Makefile 基础教程：从零开始学习

Makefile 基础教程：从零开始学习

在软件开发过程中，Makefile是一个非常重要的工具，它可以帮助我们自动构建程序，管理程序依赖关系，提高开发效率。本篇博客将从基础开始，介绍Makefile的相关知识，帮助大家快速掌握Makefile的使用方法 Makefil…

阅读更多...

Corel Products Keygen-X-FORCE 2023（Corel会声会影2023注册机）

Corel Products Keygen-X-FORCE 2023（Corel会声会影2023注册机）

Corel All Products Universal Keygens通用注册机是一款非常实用的激活工具，专门用于激活Corel全系列产品。尤其是被广泛使用的CorelDRAW作图软件和Corel VideoStudio会声会影视频编辑处理软件。小编也是一直关注由X-Force团队制作的注册机，目前已更新至…

阅读更多...

kubectl资源管理命令-陈述式

kubectl资源管理命令-陈述式

目录一、陈述式对象管理 1、基本概念 2、基础命令使用 3、基本信息查看（kubectl get） 4、增删等操作 5、登录pod中的容器 6、扩容缩容pod控制器的pod 7、删除副本控制器二、创建项目实例 1、创建 kubectl create命令 2、发布 kubectl …

阅读更多...

vue中报 TypeError: Assignment to constant variable.

vue中报 TypeError: Assignment to constant variable.

在项目开发过程中，在使用变量声明时，如果不注意，可能会造成类型错误比如： Uncaught (in promise) TypeError: Assignment to constant variable. 未捕获的类型错误：赋值给常量变量。原因： 我们使用 con…

阅读更多...

MySQL-DQL【数据查询语言】(图码结合)

MySQL-DQL【数据查询语言】(图码结合)

作者:chlorine 专栏:数据库_chlorine5的博客-CSDN博客 MySQL——DDL：DDL ——数据定义语言 MySQL——DML：DML——数据操作语言目录一.DQL的定义二.DQL—语法三.DQL—基础查询(SELECT.. FROM) 👉查询多个字段 👉设置别名 …

阅读更多...

WKWebView iOS17设置UserAgent

WKWebView iOS17设置UserAgent

WKWebView 设置 user-agent 参考文档之前设置 user-agent 都是通过设置NSUserDefaults来实现的，不过升级到了iOS17之后这个方式不好用了。老的设置方式： [[NSUserDefaults standardUserDefaults] registerDefaults:dictionnary];目前看通过设置 we…

阅读更多...

最新文章