RepVGG论文阅读笔记

目录

  • RepVGG: Making VGG-style ConvNets Great Again
    • 摘要
    • INTRODUCTION—简介
    • RepVGG Block
      • Model Re-parameterization -- 模型重参数化
      • 融合Conv2d和BN,将三个分支上的卷积算子和BN算子都转化为卷积算子(包括卷积核和偏置)
      • 多分支融合(将三个stride、padding都一致的3 × 3 卷积层融合成一个3 × 3 卷积层)
    • Architectural Specification -- 结构配置
    • 总结

RepVGG: Making VGG-style ConvNets Great Again

论文链接:RepVGG: Making VGG-style ConvNets Great Again(CVPR2021)

摘要

(1)提出了一种简单但功能强大的卷积神经网络架构,它具有类似 VGG 的推理时间主体,仅由 3x3 卷积和 ReLU 的堆栈组成,而训练时间模型具有多分支拓扑。

(2)这种训练时间和推理时间架构的解耦是通过结构重新参数化技术实现的,因此该模型被命名为 RepVGG。

INTRODUCTION—简介

image-20240623123417268

上图横坐标是推理速度,也可以简单地理解为FPS,越大越好。左侧是训练了120epochs的,右边是训练了200个epochs的。

下图中,图(B)是训练时的结构,采用的网络是多分支的,而在推理图©所示的单路的网络结构,而从图(B)转换到图©就是结构重参数化的过程。

结构重参数化:分支的参数进行重参数化,合为一个分支来进行的。

效果:推理的速度要比多分支网络快很多,并且精度也比单分支的网络更高。

image-20240623123719064

RepVGG Block

整个RepVGG网络结构很简单,就是不断地堆叠RepVGG Block。

下图中,左图为stride=2进行下采样时的RepVGG Block结构,右图为stride=1时的RepVGG Block结构(和上图(B)中结构一致)。

在不进行下采样时,RepVGG Block有三个分支,分别是卷积核为3 x 3的主分支、卷积核为1x1的shortcut分支和只含BN层的shortcut分支,然后将它们的输出进行Add操作。

image-20240623124316366

为什么训练时要设置多分支的网络结构?

像GoogleNet、ResNet、DenseNet都采用了多分支结构,并且对应的结果也表明采用多分支结构可以增强模型的表征能力。

下表的原作者做的一个消融实验表示出不管加入哪个分支都能提点,同时添加提点效果最好。

image-20240623124814108

为什么在推理时要把多分支模型转换成单路模型?且为什么单分支结构会比多分支结构速度快了将近一倍?

  • 更快:主要是考虑到模型在推理时硬件计算的并行程度以及MAC(memory access cost)。

    • 并行度(主要指的是计算设备的利用率):对于多分支模型,硬件需要分别计算每个分支的结果,有的分支计算的快,有的分支计算的慢,而计算快的分支计算完后只能干等着,等其他分支都计算完后才能做进一步融合,这样会导致硬件算力不能充分利用,或者说并行度不够高。
    • MAC:每个分支都需要去访问一次内存(获取特征图),计算完后还需要将计算结果存入内存(不断地访问和写入内存会在IO上浪费很多时间)。
    • 从算子的角度理解:在进行3 x 3卷积,1 x 1卷积、恒等映射和Add操作的时候都需要启动kernel,在GPU运算中每次启动kernel都需要时间,在模型中启动kernel的次数越多,消耗的时间也就越多。
  • 更省内存:在图3当中,作者举了个例子,如图(A)所示的Residual模块,假设卷积层不改变channel的数量,那么在主分支和shortcut分支上都要保存各自的特征图或者称Activation,那么在add操作前占用的内存大概是输入Activation的两倍,而图(B)的Plain结构占用内存始终不变。

  • 更灵活:对于多分支的模型,由于结构复杂,剪枝很麻烦,非常受限,而对于Plain结构的模型就相对灵活很多,剪枝也更加方便。

  • 除此之外,在多分支转化成单路模型后很多算子进行了融合(比如Conv2d和BN融合),使得计算量变小了,而且算子减少后启动kernel的次数也减少了(比如在GPU中,每次执行一个算子就要启动一次kernel,启动kernel也需要消耗时间)。而且现在的硬件一般对3x3的卷积操作做了大量的优化,转成单路模型后采用的都是3x3卷积,这样也能进一步加速推理。

image-20240623125813545

Model Re-parameterization – 模型重参数化

流程:

  1. 将三个分支中的卷积算子和BN算子都融合为卷积算子(一个卷积核加一个偏置的形式);
  2. 将三个分支上的卷积算子都化为3 x 3卷积核和偏置的形式,相加得到最终的主分支上的结果。

image-20240623131127049

image-20240623131139587

融合Conv2d和BN,将三个分支上的卷积算子和BN算子都转化为卷积算子(包括卷积核和偏置)

image-20240623134041657

首先是BN层的计算公式:主要包含4个参数:μ(均值)、σ2(方差)、γ和β,其中μ和σ2是训练过程中统计得到的,γ和β是训练学习得到的,ϵ是一个非常小的常量,防止分母为零。

image-20240623131932181

下面这条是BN的等价转换公式,左项表示通过BN层之后,第i个通道的数据;**右项括号内的被减数M表示输入到BN层的特征图中,对应第i个通道的值。**这里忽略了ϵ。

image-20240623132003555

而输入BN层的特征图是由卷积层得到的,卷积层本质上其实就是一个加权求和的过程,所以把BN层中的权重与卷积层的权重相乘(两个层的权重融合就相当于卷积层和BN层进行了融合),表示如下:(其中W′ 和b ′ 是新的权重和偏置,也就是卷积层和BN层融合后的新参数)

image-20240623132258161

当 1≤𝑖≤𝐶2 ,都满足下面公式,该公式同样适用于identity 分支,因为 identity 可以视作 1×1 卷积。

image-20240623133838461

了解了上述原理之后,针对三个分支的具体融合如下:

1.第一个分支直接按上述步骤融合即可;

2.第二个分支先对1 × 1 的卷积核padding一圈0变成3 × 3的卷积核,也能通过上述流程融合。(注意:由于输入输出通道不变,在卷积过程中还要在设置padding =1,也就是卷积过程中外面有两圈0)

image-20240623134245536

3.对于BN层来说本身是没有卷积核的,可以通过添加一个只进行恒等映射的3 x 3卷积核,使输入输出特征图不变。卷积核如下图虚线框内所示,框内左侧为第一个卷积核、右侧为第二个卷积核。第一个卷积核的结果和输入特征图的channel1一样,第二个卷积核的结果和输入特征图的channel2一样,然后通过concat就得到输出结果,输入输出就保持一致了。

image-20240623134819514

此时再会看原论文中这张参数图就很好理解了。

image-20240623135252699

多分支融合(将三个stride、padding都一致的3 × 3 卷积层融合成一个3 × 3 卷积层)

将这三个分支的 3×3 卷积核(参数和偏置)相加(elemen twise-add),得到融合后卷积层的 3×3 卷积核,结构重参数化就完成了。

如下图,I表示输入特征图,K和B分别代表各个卷积层的权重参数和偏置。

image-20240623135918151

此时的参数表示如下图。

image-20240623140141824

Architectural Specification – 结构配置

深度控制:从下表2可以看出-A版本的模型Stage重复次数较少,也就是-A版本的模型网络较浅,-B结构网络较深。

image-20240623140356359

宽度控制:下表3中表示相同Stage但是a和b不同对应的版本也不同,a和b具体控制了哪个stage的宽度可以从上表2中看出(b只控制stage5的宽度)。

image-20240623140542433

其中RepVGG-Bxgy配置是在RepVGG-B的基础上加入了组卷积(Group Convolution),其中gy表示组卷积采用的groups参数为y,注意并不是所有卷积层都采用组卷积,根据源码可以看到,是从Stage2开始(索引从1开始)的第2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26的卷积层采用组卷积。

image-20240623140947623

下表是一些其他的对比。

image-20240623141015727

总结

优点:

本文的核心技术其实就一个 – 结构重参数化,通过这项技术实现了更快、更省内存、更灵活的网络架构RepVGG,这是一个由3 × 3 conv 和 ReLU 简单堆叠的架构,特别适合适用于 GPU 和专用推理芯片。通过结构重新参数化方法,它达到了 80% 以上的 top-1ImageNet 上的准确率,并显示出良好的速度准确度与最先进的模型相比的权衡。

不足:

  1. 最后需要注明的是,RepVGG 是为 GPU 和专用硬件设计的高效模型,追求高速度、省内存,较少关注参数量和理论计算量。在低算力设备上,可能不如 MobileNet 和 ShuffleNet 系列适用。
  2. 并且RepVGG 的推理模型很难使用后量化方法 (Post-Training Quantization, PTQ),比如,使用简单的 INT8 PTQ,ImageNet 上的 RepVGG 模型的准确性会降低到 54.55%

原因:RepOpt 对重参数化结构量化困难的问题进行了研究,发现重参数结构的分支融合和吸 BN 操作,显著放大了权重参数分布的标准差。而异常的权重分布又会产生了过大的网络激活层数值分布,从而进一步导致该层量化损失过大,因此模型精度损失严重。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/858247.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue elementui表格

去除表头 <el-table:data"tableData"stripestyle"width: 100%":cell-style"{ text-align: justify-all }":show-header"false"></el-table>合并 <template><div class"elife-container"><el-ro…

医学记录 --- 腹泻

逻辑图地址 症状 每天3次 连续超过2天 病因 饮食不卫生 医治(药材&#xff0c;药量) 首先要补充大量的液体&#xff0c;以免造成身体水电解质絮乱和脱水。可以适当食用米汤、果汁、酸奶、稀饭等流质食物&#xff0c;也可以煮苹果水&#xff0c;补充钾离子。拉肚子期间尽量…

Leetcode 3193. Count the Number of Inversions

Leetcode 3193. Count the Number of Inversions 1. 解题思路2. 代码实现 题目链接&#xff1a;3193. Count the Number of Inversions 1. 解题思路 这一题的话我的思路核心还是动态规划&#xff0c;因此核心就是迭代关系如何构建。 我们定义 f ( n , k ) f(n, k) f(n,k)表…

蓝桥杯 经典算法题 实现归并排序

题目&#xff1a; 题解&#xff1a; 不断地将数组不断向下平均分为两部分&#xff0c;直到每个子数组中元素数量为1&#xff0c;这样就可以将相邻两个数组长度为1的数组看作是单调数组合并为一个大的单调数组&#xff0c;如此不断向上合并出最终的单调数组。 #include <bi…

BC64 牛牛的快递(c++)

牛牛的快递 题目描述输入描述输出描述示例代码 解题思路例如 题目描述 牛牛正在寄快递&#xff0c;他了解到快递在 1kg 以内的按起步价 20 元计算&#xff0c;超出部分按每 kg 1元计算&#xff0c;不足 1kg 部分按 1kg计算。如果加急的话要额外付五元&#xff0c;请问牛牛总共要…

【计算机网络篇】数据链路层(12)交换机式以太网___以太网交换机

文章目录 &#x1f354;交换式以太网&#x1f6f8;以太网交换机 &#x1f354;交换式以太网 仅使用交换机&#xff08;不使用集线器&#xff09;的以太网就是交换式以太网 &#x1f6f8;以太网交换机 以太网交换机本质上就是一个多接口的网桥&#xff1a; 交换机的每个接口…

linux 免密备份文件到另外一台服务器

简单说&#xff0c;A服务器备份到B服务器。就是将A服务器的文件复制传输到B服务器进行备份。这种场景可以应用到简单的定时器自动备份数据文件。 具体步骤&#xff1a; 1、A服务器上执行以下命令并一直按回车键&#xff0c;然后在/root/.ssh目录中可以看到私钥和公钥。其中id…

国产大模型技术创新分析

国产模型百舸争流&#xff0c;技术创新百花齐放 2023年下半年起&#xff0c;国内大模型领域迎来“百模大战”&#xff0c;各大厂商纷纷加速生成式AI的研发与突破&#xff0c;模型持续迭代升级&#xff0c;展现了人工智能技术的蓬勃发展与无限潜力。 中国大模型市场迅猛发展&am…

【Linux详解】冯诺依曼架构 | 操作系统设计 | 斯坦福经典项目Pintos

目录 一. 冯诺依曼体系结构 (Von Neumann Architecture) 注意事项 存储器的意义&#xff1a;缓冲 数据流动示例 二. 操作系统 (Operating System) 操作系统的概念 操作系统的定位与目的 操作系统的管理 系统调用和库函数 操作系统的管理&#xff1a; sum 三. 系统调…

Structured Steaming结构化流详解:大案例解析(第12天)

系列文章目录 一、结构化流介绍&#xff08;了解&#xff09; 二、结构化流的编程模型&#xff08;掌握&#xff09; 三、Spark 和 Kafka 整合&#xff0c;流处理&#xff0c;批处理演示&#xff08;掌握&#xff09; 四、物联网数据分析案例&#xff08;熟悉&#xff09; 文章…

一文看懂TON链

一、背景与起源 The Open Network (TON) 的故事起始于2018年&#xff0c;当时全球知名的即时通讯软件Telegram计划推出自己的区块链平台及加密货币Gram&#xff0c;旨在构建一个既安全又高速的分布式网络&#xff0c;用以支持下一代去中心化应用程序(DApps)和数字资产。然而&a…

【架构设计】模块化-面向接口编程

模块化的优势 结构清晰&#xff1a;业务独立&#xff0c;代码实现分离便于协作&#xff1a;耦合度低&#xff0c;不会影响团队其他成员的开发进度便于维护&#xff1a;各模块管理自身代码、布局、资源&#xff0c;不影响主工程 模块化的特点 高内聚&#xff0c;低耦合 常见…

华硕笔记本重装系统详细操作,图文教程体验Win11如何重装系统

随着科技的不断发展&#xff0c;电脑操作系统的步骤也在不断更新迭代。对于华硕笔记本用户来说&#xff0c;升级到Windows 11操作系统可以带来更好的使用体验。本文将通过图文教程的形式&#xff0c;详细介绍华硕笔记本重装Windows 11系统的操作步骤&#xff0c;帮助用户顺利完…

【面试】i++与++i的区别

目录 1. 情况11.1 i1.2 i 2. 情况23. 情况34. 情况4 1. 情况1 1.1 i 1.代码块 public void test(){int i 10;i;System.out.println(i);}2.字节码 0 bipush 102 istore_13 iinc 1 by 16 getstatic #2 <java/lang/System.out : Ljava/io/PrintStream;>9 iload_1 10 inv…

LeetCode | 344.反转字符串

设置头尾两个指针&#xff0c;依靠中间变量temp交换头尾指针所指元素&#xff0c;头指针后移&#xff0c;尾指针前移&#xff0c;直到头尾指针重合或者头指针在尾指针后面一个元素 class Solution(object):def reverseString(self, s):""":type s: List[str]:r…

如和完全免费快速访问外网?有亿点点不便利罢了

很鸡肋&#xff0c;但是可以试试 这个手机是真的可以使用谷歌的 不得不说有点意思&#xff0c;但肯定没啥用 地址跳转

半导体建新厂,信息化该如何配合

半导体厂从建设到稳定量产的过程包含多个关键里程碑阶段&#xff0c;每个阶段都有其重点工作内容和目标&#xff0c;以及相应的信息化手段来支持目标的实现&#xff1a; 1. 项目启动与规划阶段&#xff1a; - 重点工作内容&#xff1a;定义项目范围、目标、时间表和预算。 - 目…

怎么用Excel生成标签打印模板,自动生成二维码

环境&#xff1a; EXCEL2021 16.0 问题描述&#xff1a; 怎么用excel生成标签打印模板自动生成二维码 解决方案&#xff1a; 在Excel中生成标签打印模板并自动生成二维码&#xff0c;可以通过以下几个步骤完成&#xff1a; 1. 准备数据 首先&#xff0c;确保你的Excel表…

SyntaxWarning警告

为什么conda环境运行hipcc vector_add.cpp -o vector_add -v会出现&#xff1a; SyntaxWarning: invalid escape sequence \w staticVars(search_namere.compile("gfx[0-9a-fA-F](:[-:\w])?")) SyntaxWarning: invalid escape sequence \A line_search_term re…

嵌入式软件面试记录(5)

1.FreeRTOS使用&#xff0c;是自己移植的吗&#xff0c;移植过程中设置了多少个任务&#xff1f; 答&#xff1a;是自己移植的&#xff0c;从官网下载的包根据手册移植的。 主要涉及以下几个任务&#xff1a; 主任务&#xff1a;负责系统初始化和创建其他任务。创建队列任务点…