RepVGG论文阅读笔记

目录

  • RepVGG: Making VGG-style ConvNets Great Again
    • 摘要
    • INTRODUCTION—简介
    • RepVGG Block
      • Model Re-parameterization -- 模型重参数化
      • 融合Conv2d和BN,将三个分支上的卷积算子和BN算子都转化为卷积算子(包括卷积核和偏置)
      • 多分支融合(将三个stride、padding都一致的3 × 3 卷积层融合成一个3 × 3 卷积层)
    • Architectural Specification -- 结构配置
    • 总结

RepVGG: Making VGG-style ConvNets Great Again

论文链接:RepVGG: Making VGG-style ConvNets Great Again(CVPR2021)

摘要

(1)提出了一种简单但功能强大的卷积神经网络架构,它具有类似 VGG 的推理时间主体,仅由 3x3 卷积和 ReLU 的堆栈组成,而训练时间模型具有多分支拓扑。

(2)这种训练时间和推理时间架构的解耦是通过结构重新参数化技术实现的,因此该模型被命名为 RepVGG。

INTRODUCTION—简介

image-20240623123417268

上图横坐标是推理速度,也可以简单地理解为FPS,越大越好。左侧是训练了120epochs的,右边是训练了200个epochs的。

下图中,图(B)是训练时的结构,采用的网络是多分支的,而在推理图©所示的单路的网络结构,而从图(B)转换到图©就是结构重参数化的过程。

结构重参数化:分支的参数进行重参数化,合为一个分支来进行的。

效果:推理的速度要比多分支网络快很多,并且精度也比单分支的网络更高。

image-20240623123719064

RepVGG Block

整个RepVGG网络结构很简单,就是不断地堆叠RepVGG Block。

下图中,左图为stride=2进行下采样时的RepVGG Block结构,右图为stride=1时的RepVGG Block结构(和上图(B)中结构一致)。

在不进行下采样时,RepVGG Block有三个分支,分别是卷积核为3 x 3的主分支、卷积核为1x1的shortcut分支和只含BN层的shortcut分支,然后将它们的输出进行Add操作。

image-20240623124316366

为什么训练时要设置多分支的网络结构?

像GoogleNet、ResNet、DenseNet都采用了多分支结构,并且对应的结果也表明采用多分支结构可以增强模型的表征能力。

下表的原作者做的一个消融实验表示出不管加入哪个分支都能提点,同时添加提点效果最好。

image-20240623124814108

为什么在推理时要把多分支模型转换成单路模型?且为什么单分支结构会比多分支结构速度快了将近一倍?

  • 更快:主要是考虑到模型在推理时硬件计算的并行程度以及MAC(memory access cost)。

    • 并行度(主要指的是计算设备的利用率):对于多分支模型,硬件需要分别计算每个分支的结果,有的分支计算的快,有的分支计算的慢,而计算快的分支计算完后只能干等着,等其他分支都计算完后才能做进一步融合,这样会导致硬件算力不能充分利用,或者说并行度不够高。
    • MAC:每个分支都需要去访问一次内存(获取特征图),计算完后还需要将计算结果存入内存(不断地访问和写入内存会在IO上浪费很多时间)。
    • 从算子的角度理解:在进行3 x 3卷积,1 x 1卷积、恒等映射和Add操作的时候都需要启动kernel,在GPU运算中每次启动kernel都需要时间,在模型中启动kernel的次数越多,消耗的时间也就越多。
  • 更省内存:在图3当中,作者举了个例子,如图(A)所示的Residual模块,假设卷积层不改变channel的数量,那么在主分支和shortcut分支上都要保存各自的特征图或者称Activation,那么在add操作前占用的内存大概是输入Activation的两倍,而图(B)的Plain结构占用内存始终不变。

  • 更灵活:对于多分支的模型,由于结构复杂,剪枝很麻烦,非常受限,而对于Plain结构的模型就相对灵活很多,剪枝也更加方便。

  • 除此之外,在多分支转化成单路模型后很多算子进行了融合(比如Conv2d和BN融合),使得计算量变小了,而且算子减少后启动kernel的次数也减少了(比如在GPU中,每次执行一个算子就要启动一次kernel,启动kernel也需要消耗时间)。而且现在的硬件一般对3x3的卷积操作做了大量的优化,转成单路模型后采用的都是3x3卷积,这样也能进一步加速推理。

image-20240623125813545

Model Re-parameterization – 模型重参数化

流程:

  1. 将三个分支中的卷积算子和BN算子都融合为卷积算子(一个卷积核加一个偏置的形式);
  2. 将三个分支上的卷积算子都化为3 x 3卷积核和偏置的形式,相加得到最终的主分支上的结果。

image-20240623131127049

image-20240623131139587

融合Conv2d和BN,将三个分支上的卷积算子和BN算子都转化为卷积算子(包括卷积核和偏置)

image-20240623134041657

首先是BN层的计算公式:主要包含4个参数:μ(均值)、σ2(方差)、γ和β,其中μ和σ2是训练过程中统计得到的,γ和β是训练学习得到的,ϵ是一个非常小的常量,防止分母为零。

image-20240623131932181

下面这条是BN的等价转换公式,左项表示通过BN层之后,第i个通道的数据;**右项括号内的被减数M表示输入到BN层的特征图中,对应第i个通道的值。**这里忽略了ϵ。

image-20240623132003555

而输入BN层的特征图是由卷积层得到的,卷积层本质上其实就是一个加权求和的过程,所以把BN层中的权重与卷积层的权重相乘(两个层的权重融合就相当于卷积层和BN层进行了融合),表示如下:(其中W′ 和b ′ 是新的权重和偏置,也就是卷积层和BN层融合后的新参数)

image-20240623132258161

当 1≤𝑖≤𝐶2 ,都满足下面公式,该公式同样适用于identity 分支,因为 identity 可以视作 1×1 卷积。

image-20240623133838461

了解了上述原理之后,针对三个分支的具体融合如下:

1.第一个分支直接按上述步骤融合即可;

2.第二个分支先对1 × 1 的卷积核padding一圈0变成3 × 3的卷积核,也能通过上述流程融合。(注意:由于输入输出通道不变,在卷积过程中还要在设置padding =1,也就是卷积过程中外面有两圈0)

image-20240623134245536

3.对于BN层来说本身是没有卷积核的,可以通过添加一个只进行恒等映射的3 x 3卷积核,使输入输出特征图不变。卷积核如下图虚线框内所示,框内左侧为第一个卷积核、右侧为第二个卷积核。第一个卷积核的结果和输入特征图的channel1一样,第二个卷积核的结果和输入特征图的channel2一样,然后通过concat就得到输出结果,输入输出就保持一致了。

image-20240623134819514

此时再会看原论文中这张参数图就很好理解了。

image-20240623135252699

多分支融合(将三个stride、padding都一致的3 × 3 卷积层融合成一个3 × 3 卷积层)

将这三个分支的 3×3 卷积核(参数和偏置)相加(elemen twise-add),得到融合后卷积层的 3×3 卷积核,结构重参数化就完成了。

如下图,I表示输入特征图,K和B分别代表各个卷积层的权重参数和偏置。

image-20240623135918151

此时的参数表示如下图。

image-20240623140141824

Architectural Specification – 结构配置

深度控制:从下表2可以看出-A版本的模型Stage重复次数较少,也就是-A版本的模型网络较浅,-B结构网络较深。

image-20240623140356359

宽度控制:下表3中表示相同Stage但是a和b不同对应的版本也不同,a和b具体控制了哪个stage的宽度可以从上表2中看出(b只控制stage5的宽度)。

image-20240623140542433

其中RepVGG-Bxgy配置是在RepVGG-B的基础上加入了组卷积(Group Convolution),其中gy表示组卷积采用的groups参数为y,注意并不是所有卷积层都采用组卷积,根据源码可以看到,是从Stage2开始(索引从1开始)的第2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26的卷积层采用组卷积。

image-20240623140947623

下表是一些其他的对比。

image-20240623141015727

总结

优点:

本文的核心技术其实就一个 – 结构重参数化,通过这项技术实现了更快、更省内存、更灵活的网络架构RepVGG,这是一个由3 × 3 conv 和 ReLU 简单堆叠的架构,特别适合适用于 GPU 和专用推理芯片。通过结构重新参数化方法,它达到了 80% 以上的 top-1ImageNet 上的准确率,并显示出良好的速度准确度与最先进的模型相比的权衡。

不足:

  1. 最后需要注明的是,RepVGG 是为 GPU 和专用硬件设计的高效模型,追求高速度、省内存,较少关注参数量和理论计算量。在低算力设备上,可能不如 MobileNet 和 ShuffleNet 系列适用。
  2. 并且RepVGG 的推理模型很难使用后量化方法 (Post-Training Quantization, PTQ),比如,使用简单的 INT8 PTQ,ImageNet 上的 RepVGG 模型的准确性会降低到 54.55%

原因:RepOpt 对重参数化结构量化困难的问题进行了研究,发现重参数结构的分支融合和吸 BN 操作,显著放大了权重参数分布的标准差。而异常的权重分布又会产生了过大的网络激活层数值分布,从而进一步导致该层量化损失过大,因此模型精度损失严重。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/858247.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue elementui表格

去除表头 <el-table:data"tableData"stripestyle"width: 100%":cell-style"{ text-align: justify-all }":show-header"false"></el-table>合并 <template><div class"elife-container"><el-ro…

蓝桥杯 经典算法题 实现归并排序

题目&#xff1a; 题解&#xff1a; 不断地将数组不断向下平均分为两部分&#xff0c;直到每个子数组中元素数量为1&#xff0c;这样就可以将相邻两个数组长度为1的数组看作是单调数组合并为一个大的单调数组&#xff0c;如此不断向上合并出最终的单调数组。 #include <bi…

BC64 牛牛的快递(c++)

牛牛的快递 题目描述输入描述输出描述示例代码 解题思路例如 题目描述 牛牛正在寄快递&#xff0c;他了解到快递在 1kg 以内的按起步价 20 元计算&#xff0c;超出部分按每 kg 1元计算&#xff0c;不足 1kg 部分按 1kg计算。如果加急的话要额外付五元&#xff0c;请问牛牛总共要…

【计算机网络篇】数据链路层(12)交换机式以太网___以太网交换机

文章目录 &#x1f354;交换式以太网&#x1f6f8;以太网交换机 &#x1f354;交换式以太网 仅使用交换机&#xff08;不使用集线器&#xff09;的以太网就是交换式以太网 &#x1f6f8;以太网交换机 以太网交换机本质上就是一个多接口的网桥&#xff1a; 交换机的每个接口…

国产大模型技术创新分析

国产模型百舸争流&#xff0c;技术创新百花齐放 2023年下半年起&#xff0c;国内大模型领域迎来“百模大战”&#xff0c;各大厂商纷纷加速生成式AI的研发与突破&#xff0c;模型持续迭代升级&#xff0c;展现了人工智能技术的蓬勃发展与无限潜力。 中国大模型市场迅猛发展&am…

【Linux详解】冯诺依曼架构 | 操作系统设计 | 斯坦福经典项目Pintos

目录 一. 冯诺依曼体系结构 (Von Neumann Architecture) 注意事项 存储器的意义&#xff1a;缓冲 数据流动示例 二. 操作系统 (Operating System) 操作系统的概念 操作系统的定位与目的 操作系统的管理 系统调用和库函数 操作系统的管理&#xff1a; sum 三. 系统调…

Structured Steaming结构化流详解:大案例解析(第12天)

系列文章目录 一、结构化流介绍&#xff08;了解&#xff09; 二、结构化流的编程模型&#xff08;掌握&#xff09; 三、Spark 和 Kafka 整合&#xff0c;流处理&#xff0c;批处理演示&#xff08;掌握&#xff09; 四、物联网数据分析案例&#xff08;熟悉&#xff09; 文章…

华硕笔记本重装系统详细操作,图文教程体验Win11如何重装系统

随着科技的不断发展&#xff0c;电脑操作系统的步骤也在不断更新迭代。对于华硕笔记本用户来说&#xff0c;升级到Windows 11操作系统可以带来更好的使用体验。本文将通过图文教程的形式&#xff0c;详细介绍华硕笔记本重装Windows 11系统的操作步骤&#xff0c;帮助用户顺利完…

LeetCode | 344.反转字符串

设置头尾两个指针&#xff0c;依靠中间变量temp交换头尾指针所指元素&#xff0c;头指针后移&#xff0c;尾指针前移&#xff0c;直到头尾指针重合或者头指针在尾指针后面一个元素 class Solution(object):def reverseString(self, s):""":type s: List[str]:r…

如和完全免费快速访问外网?有亿点点不便利罢了

很鸡肋&#xff0c;但是可以试试 这个手机是真的可以使用谷歌的 不得不说有点意思&#xff0c;但肯定没啥用 地址跳转

怎么用Excel生成标签打印模板,自动生成二维码

环境&#xff1a; EXCEL2021 16.0 问题描述&#xff1a; 怎么用excel生成标签打印模板自动生成二维码 解决方案&#xff1a; 在Excel中生成标签打印模板并自动生成二维码&#xff0c;可以通过以下几个步骤完成&#xff1a; 1. 准备数据 首先&#xff0c;确保你的Excel表…

SyntaxWarning警告

为什么conda环境运行hipcc vector_add.cpp -o vector_add -v会出现&#xff1a; SyntaxWarning: invalid escape sequence \w staticVars(search_namere.compile("gfx[0-9a-fA-F](:[-:\w])?")) SyntaxWarning: invalid escape sequence \A line_search_term re…

Vue3 【仿 react 的 hook】封装 useTitle

效果预览 页码加载时&#xff0c;自动获取网页标题通过input输入框&#xff0c;可以实时改变网页标题 代码实现 index.vue <template><h1>网页的标题为&#xff1a; {{ titleRef }}</h1><p>通过input输入框实时改变网页的标题 <input v-model"…

【Vision AI v2开箱之SenseCraft AI猫狗识别Arduino教程】

【Vision AI v2开箱之SenseCraft AI猫狗识别Arduino教程】 1. 前言2. 实验材料2.1 Grove Vision AI Module V22.1.1 特征2.1.2 硬件概述2.1.3 启动/重置/程序2.1.4 驱动 2.2 ESP32C32.2.1 引脚图2.2.2 组件概述2.2.3 电源引脚 2.3 SenseCraft AI Model Assistant2.3.1 部署的模…

【雷丰阳-谷粒商城 】【分布式高级篇-微服务架构篇】【13】压力压测JMeter-性能监控jvisualvm

持续学习&持续更新中… 守破离 【雷丰阳-谷粒商城 】【分布式高级篇-微服务架构篇】【13】压力压测JMeter-性能监控jvisualvm 压力测试概述性能指标 JMeter基本使用添加线程组添加 HTTP 请求添加监听器启动压测&查看分析结果JMeter Address Already in use 错误解决 性…

Hive数据锁问题处理

在测试环境有定时任务会定期将flume采集的数据load到hive表中&#xff0c;在查看yarn application过程中发现load操作没有执行&#xff0c;且后续的任务在上一个任务执行结束后很久才开始。感觉像是阻塞一样&#xff0c;于是手动执行相关脚本&#xff0c;发现也是会卡住&#x…

【Linux】进程间通信上 (1.5万字详解)

目录 一.进程间通信介绍 1.1进程间通信的目的 1.2初步认识进程间通信 1.3进程间通信的种类 二.匿名管道 2.1何为管道 2.1实现原理 2.3进一步探寻匿名管道 2.4编码实现匿名管道通信 2.5管道读写特点 2.6基于管道的进程池设计 三.命名管道 3.1实现原理 3.2代码实现 四.…

视觉理解与图片问答,学习如何使用 GPT-4o (GPT-4 Omni) 来理解图像

&#x1f349; CSDN 叶庭云&#xff1a;https://yetingyun.blog.csdn.net/ 一、引言 OpenAI 最新发布的 GPT-4 Omni 模型&#xff0c;也被称为 GPT-4o&#xff0c;是一个多模态 AI 模型&#xff0c;旨在提供更加自然和全面的人机交互体验。 GPT-4o 与 GPT-4 Turbo 都具备视觉功…

SuiNS发布子名及新命名标准,推动Web3身份结构的进步

SuiNS子名是Sui Name Service的强大扩展&#xff0c;最近与新命名标准一起发布。子名允许用户在一个主要的SuiNS名下创建额外的自定义身份&#xff0c;而无需额外费用。用户 gia 可以创建如 gaminggia 或 lendinggia 这样的子名&#xff0c;从而增强个人组织和支持群组与组织的…

068、PyCharm 关于Live Template模板

在 PyCharm 编辑器中&#xff0c;Live Templates 是一种功能强大的工具&#xff0c;可以帮助我们快速插入常用的代码片段或模板。 以下是在 PyCharm 中添加 Live Templates 的步骤&#xff1a; 添加 Live Templates 步骤&#xff1a; 打开 PyCharm 编辑器。 转到菜单栏中的 …