【图像分类】【深度学习】【轻量级网络】【Pytorch版本】MobileNets_V2模型算法详解

【图像分类】【深度学习】【轻量级网络】【Pytorch版本】MobileNets_V2模型算法详解

文章目录

  • 【图像分类】【深度学习】【轻量级网络】【Pytorch版本】MobileNets_V2模型算法详解
  • 前言
  • MobleNet_V2讲解
    • 反向残差结构(Inverted Residuals)
    • 兴趣流形(Manifold of interest)
    • 线性瓶颈层(Linear Bottlenecks)
    • MobleNet_V2模型结构
  • MobleNet_V2 Pytorch代码
  • 完整代码
  • 总结


前言

MobileNets_V2是由谷歌公司的Sandler, Mark等人在《MobileNetV2: Inverted Residuals and Linear Bottlenecks【CVPR-2017】》【论文地址】一文中提出的带线性瓶颈的反向残差设计的改进模型,相比于普通残差模块,反向残差模块则是中间维度大,两边维度小,保证精度的同时显著减少所需的操作数量和内存,适用于嵌入式移动设备。


MobleNet_V2讲解

MobleNet_V1网络【参考】结构虽然轻盈,但是只是单纯地使用卷积层进行堆叠,没有引入类似于ResNet【参考】的shortcut连接,因此没有充分利用图像的信息,所以其准确率表现不佳;并且论文中提到,在实际使用中,发现深度可分离卷积的某些卷积核参数为0,部分卷积核在训练过程中失效了。
深度可分离卷积(Depthwise Separable Convolution) 结构中的深度卷积层(Depthwise Convolutional) 的卷积核数量取决于上一层的通道数,MobleNet_V1训练得到的很多无效的卷积核,因此,MobleNet_V2在深度卷积层前添加了一层 点卷积(Pointwise Convolution) 进行升维,再通过深度卷积进行卷积,最后通过点卷积进行降维,变成了一个两端细,中间粗的结构,弥补了MobleNet_V1中训练不足导致卷积核失效的情况。

反向残差结构(Inverted Residuals)

ResNet中证明残差结构(Residuals) 有助于构建更深的网络从而提高精度,MobileNetV2中以ResNet的残差结构为基础进行优化,提出了反向残差(Inverted Residuals) 的概念。

深度卷积层提取特征限制于输入特征维度,若采用普通残差块会将输入特征图压缩,深度卷积提取的特征会更少,MobileNets_V2将输入特征图扩张,丰富特征数量,进而提高精度。

普通残差结构的过程:高维输入->1x1卷积(降维)–>relu激活–>3x3卷积(低维)–>relu激活–>1x1卷积(升维)->残差相加->relu激活。

反向残差结构的过程: 低维输入->1x1点卷积(升维)-> relu激活->3x3深度卷积(低维)->relu激活->1x1点卷积(降维)->与残差相加。

论文中MobileNets_V2的反向残差结构如下图所示:

t代表膨胀比(通道扩展系数),K代表输入维度,K’输出维度,s代表步长。

MobileNets_V2的反向残差结构分为俩种,当stride=2时,反向残差结构取消了shortcut连接。

兴趣流形(Manifold of interest)

这个部分还是有点意思的,理解后也不难,博主根据论文和其他资料尽量简单的给出了个人见解

兴趣流形是指在特征空间(特征图)中,与特定任务或概念相关的数据样本的聚集区域。它是数据样本在特征空间中的分布结构,其中包含了与任务相关的有用信息,兴趣流形可以理解为数据在特征空间中形成的低维嵌入结构。具体来说,卷积层的所有独立的通道输出的特征图的像素值,这些像素值中编码的信息实际上位于某个流形中,而流形又可嵌入到低维子空间(部分特征图)中,这是因为并不是每一个像素对于表征输入图像而言都是不可或缺的,可能只有一部分像素,就足够表征这些输入图像在该层的某种感兴趣信息。

简单来说就是兴趣流形就是指输出特征图中与任务相关的部分特征图的部分特征像素值的总和。

这就会有产生一种直觉,可以通过减小卷积层的维数来减小特征空间的维数,因为兴趣流形只占特征空间的一部分,希望尽可能的减少其余无关的特征空间。根据这种直觉,MobileNets_V1通过不断降低特征空间的维度直到流形充满整个空间,来达到压缩模型的目的。
但是卷积神经网络中特征空间是需要经过非线性激活层(relu),也就是降低的是激活特征空间的维度,因此兴趣流形并没有不断聚合而充满整个特征空间,而是丢失了一部分兴趣流形,从而导致模型的检测准确率降低。

特征空间经过非线性变换ReLU激活会导致为负的输入全部变为零,导致失去保存的信息,当ReLU使得某一个输入通道崩塌时(这个通道中有很多特征像素值都变成了负值),就会使当前通道丢失很多信息,但是如果有很多卷积核,也就是生成了很多通道,那么在当前通道丢失的信息就会有可能在其他通道找回来,如下图展示了嵌入在高维空间中的低维兴趣流形经过ReLU激活的情况。

线性瓶颈层(Linear Bottlenecks)

线性瓶颈层的主要作用是通过降低维度来提取数据的主要特征,从而减少计算量和模型复杂度,同时保持输入数据的重要信息,通常由一个线性变换操作组成,例如全连接层或卷积层,其输出维度远小于输入维度,并且不引入非线性变换。假设兴趣流形是低维的,插入线性瓶颈层可以防止非线性破坏太多信息,因为线性瓶颈层使用线性层而非ReLU激活层。因此在反向残差结构的1×1点卷积降维后并没有ReLU激活层。

很多论文证明在残差块相加之前不做非线性激活会使得检测的准确率提高,读者可以去看resnet的残差结构其实最后一层也是线性瓶颈层,是在残差块相加之后才做的非线性激活。

MobleNet_V2模型结构

下图是原论文给出的关于MobleNet_V2模型结构的详细示意图:

t是通道扩展系数;c是通道数; n是组成员数;s是步长。

MobileNets_V2在图像分类中分为两部分:backbone部分: 主要由普通卷积层、反残差结构和池化层(汇聚层)组成,分类器部分:由1×1卷积层(全连接)层组成 。

在分类任务中,分类器的1×1卷积层作用等价于全连接层,因此很多demo就用全连接代替1×1卷积层的作用了


MobleNet_V2 Pytorch代码

普通卷积块: 3×3卷积层+BN层+ReLU6激活函数

# 普通卷积块
class ConvBNReLU(nn.Sequential):def __init__(self, in_channel, out_channel, kernel_size=3, stride=1, groups=1):# 保持输入输出特征图尺寸一致的paddingpadding = (kernel_size - 1) // 2super(ConvBNReLU, self).__init__(nn.Conv2d(in_channel, out_channel, kernel_size, stride, padding, groups=groups, bias=False),nn.BatchNorm2d(out_channel),nn.ReLU6(inplace=True))

反向残差结构: 1×1点卷积层+BN层+ReLU6激活函数+3×3深度卷积层+BN层+ReLU6激活函数+1×1点卷积层+BN层

# 反向残差结构
class InvertedResidual(nn.Module):# expand_ratio是膨胀率def __init__(self, in_channel, out_channel, stride, expand_ratio):super(InvertedResidual, self).__init__()# 升维后的维度hidden_channel = in_channel * expand_ratio# 特征图形状保持一致才能shortcutself.use_shortcut = stride == 1 and in_channel == out_channellayers = []if expand_ratio != 1:# 1x1 pointwise convlayers.append(ConvBNReLU(in_channel, hidden_channel, kernel_size=1))layers.extend([# 3x3 depthwise conv 维度数==组数ConvBNReLU(hidden_channel, hidden_channel, stride=stride, groups=hidden_channel),# 1x1 pointwise conv(linear)nn.Conv2d(hidden_channel, out_channel, kernel_size=1, bias=False),nn.BatchNorm2d(out_channel),])self.conv = nn.Sequential(*layers)def forward(self, x):# 特征图形状保持一致if self.use_shortcut:return x + self.conv(x)else:return self.conv(x)

完整代码

from torch import nn
import torch
from torchsummary import summarydef _make_divisible(ch, divisor=8, min_ch=None):if min_ch is None:min_ch = divisor'''int(ch + divisor / 2) // divisor * divisor)目的是为了让new_ch是divisor的整数倍类似于四舍五入:ch超过divisor的一半则加1保留;不满一半则归零舍弃'''new_ch = max(min_ch, int(ch + divisor / 2) // divisor * divisor)# 假设new_ch小于ch的0.9倍,则再加divisorif new_ch < 0.9 * ch:new_ch += divisorreturn new_ch# 卷积组: Conv2d+BV+ReLU6
class ConvBNReLU(nn.Sequential):def __init__(self, in_channel, out_channel, kernel_size=3, stride=1, groups=1):# 保持输入输出特征图尺寸一致的paddingpadding = (kernel_size - 1) // 2super(ConvBNReLU, self).__init__(nn.Conv2d(in_channel, out_channel, kernel_size, stride, padding, groups=groups, bias=False),nn.BatchNorm2d(out_channel),nn.ReLU6(inplace=True))# 反向残差结构
class InvertedResidual(nn.Module):# expand_ratio是膨胀率def __init__(self, in_channel, out_channel, stride, expand_ratio):super(InvertedResidual, self).__init__()# 升维后的维度hidden_channel = in_channel * expand_ratio# 特征图形状保持一致才能shortcutself.use_shortcut = stride == 1 and in_channel == out_channellayers = []if expand_ratio != 1:# 1x1 pointwise convlayers.append(ConvBNReLU(in_channel, hidden_channel, kernel_size=1))layers.extend([# 3x3 depthwise conv 维度数==组数ConvBNReLU(hidden_channel, hidden_channel, stride=stride, groups=hidden_channel),# 1x1 pointwise conv(linear)nn.Conv2d(hidden_channel, out_channel, kernel_size=1, bias=False),nn.BatchNorm2d(out_channel),])self.conv = nn.Sequential(*layers)def forward(self, x):# 特征图形状保持一致if self.use_shortcut:return x + self.conv(x)else:return self.conv(x)class MobileNetV2(nn.Module):def __init__(self, num_classes=1000, alpha=1.0, round_nearest=8):super(MobileNetV2, self).__init__()# 反残差结构block = InvertedResidual# alpha控制网络通道数input_channel = _make_divisible(32 * alpha, round_nearest)last_channel = _make_divisible(1280 * alpha, round_nearest)'''网络配置参数:t是通道扩展系数 c是通道数n是组成员数s是步长'''inverted_residual_setting = [# t, c, n, s[1, 16, 1, 1],[6, 24, 2, 2],[6, 32, 3, 2],[6, 64, 4, 2],[6, 96, 3, 1],[6, 160, 3, 2],[6, 320, 1, 1],]features = []# conv1 layerfeatures.append(ConvBNReLU(3, input_channel, stride=2))# 用反残差结构搭建网络for t, c, n, s in inverted_residual_setting:output_channel = _make_divisible(c * alpha, round_nearest)for i in range(n):# 每个反残差模块组的第一个反残差块的stride根据指定要求s设置,其余的默认都是1stride = s if i == 0 else 1features.append(block(input_channel, output_channel, stride, expand_ratio=t))input_channel = output_channelfeatures.append(ConvBNReLU(input_channel, last_channel, 1))self.features = nn.Sequential(*features)# 构建分类器self.avgpool = nn.AdaptiveAvgPool2d((1, 1))self.classifier = nn.Sequential(nn.Dropout(0.2),nn.Linear(last_channel, num_classes))# 权重初始化for m in self.modules():if isinstance(m, nn.Conv2d):nn.init.kaiming_normal_(m.weight, mode='fan_out')if m.bias is not None:nn.init.zeros_(m.bias)elif isinstance(m, nn.BatchNorm2d):nn.init.ones_(m.weight)nn.init.zeros_(m.bias)elif isinstance(m, nn.Linear):nn.init.normal_(m.weight, 0, 0.01)nn.init.zeros_(m.bias)def forward(self, x):# mobilenetV2 1.0为例# N x 3 x 224 x 224x = self.features(x)# N x 1280 x 7 x 7x = self.avgpool(x)# N x 1280 x 1 x 1x = torch.flatten(x, 1)# N x 1280x = self.classifier(x)# N x 100return x# mobilenetV2 0.25
def MobileNetV2x25():return MobileNetV2(alpha=0.25, round_nearest=8)# mobilenetV2 0.50
def MobileNetV2x50():return MobileNetV2(alpha=0.5, round_nearest=8)# mobilenetV2 0.75
def MobileNetV2x75():return MobileNetV2(alpha=0.75, round_nearest=8)# mobilenetV2 1.00
def MobileNetV2x100():return MobileNetV2(alpha=1.0, round_nearest=8)if __name__ == '__main__':device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")model = MobileNetV2x100().to(device)summary(model, input_size=(3, 224, 224))

summary可以打印网络结构和参数,方便查看搭建好的网络结构。


总结

尽可能简单、详细的介绍了反残差结构的原理和卷积过程,讲解了MobileNets_V2模型的结构和pytorch代码。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/152854.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智能驾驶汽车虚拟仿真视频数据理解(一)

赛题官网 datawhale 赛题介绍 跑通demo paddle 跑通demo torch 提交的障碍物取最主要的那个&#xff1f;不考虑多物体提交。障碍物&#xff0c;尽可能选择状态发生变化的物体。如果没有明显变化的&#xff0c;则考虑周边的物体。车的状态最后趋于减速、停止&#xff0c;时序…

Ubuntu18.04运行gazebo的launch文件[model-4] process has died报错

启动gazebo仿真环境报错[model-4] process has died [model-4] process has died [pid 2059, exit code 1, cmd /opt/ros/melodic/lib/gazebo_ros/spawn_model -urdf -model mycar -param robot_description __name:model __log:/root/.ros/log/8842dc14-877c-11ee-a9d9-0242a…

ts学习04-Es5中的类和静态方法 继承

最简单的类 function Person() {this.name "张三";this.age 20; } var p new Person(); console.log(p.name);//张三构造函数和原型链里面增加方法 function Person(){this.name张三; /*属性*/this.age20;this.runfunction(){console.log(this.name在运动);} }…

redis-持久化

目录 一、RDB RDB触发保存的两种方式 优劣势总结 二、AOF AOF持久化流程&#xff1a; 1、开启AOP 2、异常恢复 3、AOF的同步频率设置 4、ReWrite压缩 5、优劣势总结 Redis 4.0 混合持久化 redis是内存数据库&#xff0c;所有的数据都会默认存在内存中&#xff0c;如…

时间序列预测实战(十七)PyTorch实现LSTM-GRU模型长期预测并可视化结果(附代码+数据集+详细讲解)

一、本文介绍 本文给大家带来的实战内容是利用PyTorch实现LSTM-GRU模型&#xff0c;LSTM和GRU都分别是RNN中最常用Cell之一&#xff0c;也都是时间序列预测中最常见的结构单元之一&#xff0c;本文的内容将会从实战的角度带你分析LSTM和GRU的机制和效果&#xff0c;同时如果你…

论文导读 | 大语言模型与知识图谱复杂逻辑推理

前 言 大语言模型&#xff0c;尤其是基于思维链提示词&#xff08;Chain-of Thought Prompting&#xff09;[1]的方法&#xff0c;在多种自然语言推理任务上取得了出色的表现&#xff0c;但不擅长解决比示例问题更难的推理问题上。本文首先介绍复杂推理的两个分解提示词方法&a…

【数据结构】C语言实现带头双向循环链表万字详解(附完整运行代码)

&#x1f984;个人主页:修修修也 &#x1f38f;所属专栏:数据结构 ⚙️操作环境:Visual Studio 2022 一.了解项目功能 在本次项目中我们的目标是实现一个带头双向循环链表: 该带头双向循环链表使用动态内存分配空间,可以用来存储任意数量的同类型数据. 带头双向循环链表结点(No…

Windows 安装 Docker Compose

目录 前言什么是 Docker Compose &#xff1f;安装 Docker Compose配置环境变量结语开源项目 前言 在当今软件开发和部署领域&#xff0c;容器化技术的应用已成为提高效率和系统可移植性的关键手段。Docker&#xff0c;作为领先的容器化平台&#xff0c;为开发人员提供了轻松构…

矩阵的QR分解

矩阵的QR分解 GramSchmidt 设存在 B { x 1 , x 2 , … , x n } \mathcal{B}\left\{\mathbf{x}_{1},\mathbf{x}_{2},\ldots,\mathbf{x}_{n}\right\} B{x1​,x2​,…,xn​}在施密特正交化过程中 q 1 x 1 ∣ ∣ x 1 ∣ ∣ q_1\frac{x_1}{||x_1||} q1​∣∣x1​∣∣x1​​ q k …

Axure RP Pro 8 mac/win中文版:打造无限可能的原型设计工具

在如今的数字化时代&#xff0c;原型设计工具越来越受到设计师和产品经理们的重视。而Axure RP Pro8作为一款强大的原型设计工具&#xff0c;成为了众多专业人士的首选。 首先&#xff0c;Axure RP Pro8具备丰富的功能。它提供了多种交互元素和动画效果&#xff0c;使得用户可…

SR-LIO--手写紧耦合IESKF

1.ESKF初始化 void eskfEstimator::tryInit(const std::vector<std::pair<double, std::pair<Eigen::Vector3d, Eigen::Vector3d>>> &imu_meas) { //通过imu测量值初始化均值&#xff0c;协方差&#xff1b;(均值用于初始化零偏&#xff0c;协方差用于…

鸿蒙应用开发初尝试《创建项目》,之前那篇hello world作废

经过几年的迅速发展&#xff0c;鸿蒙抛弃了JAVA写应用的方式&#xff0c;几年前了解的鸿蒙显然就gg了。 这几年鸿蒙发布了方舟&#xff08;ArkUI Arkts&#xff09;&#xff0c;将TypeScript作为了推荐开发语言&#xff0c;你依然可以用FAJS,但华为推荐用StageArkTs!!!那么你还…

Java架构师软件架构设计导论

目录 1 软件架构设计导论2 HR角度看架构师3 软件架构设计概述4 顶级大师眼中的架构5 建筑中的架构师6 软件架构的发展阶段7 软件架构的意义8 架构是项目干系人进行交流的手段9 架构有助于循序渐进的原型设计10 架构是设计决策的体现11 架构明确系统设计约束条件12 架构与组织结…

二阶低通滤波器(二阶巴特沃斯滤波器)

连续传递函数G(s) 离散传递函数G(z) 差分方程形式 二阶巴特沃斯滤波器参数设计 设计采样频率100Hz&#xff0c;截止频率33Hz。 注意&#xff1a;设计参数使用在离散系统中&#xff01; 同理&#xff0c;其他不同阶数不同类型的滤波器设计&#xff0c;如二阶高通滤波器、二阶…

计算机网络(持续更新…)

文章目录 一、概述1. 计网概述⭐ 发展史⭐ 基本概念⭐ 分类⭐ 数据交换方式&#x1f970; 小练 2. 分层体系结构⭐ OSI 参考模型⭐TCP/IP 参考模型&#x1f970; 小练 二、物理层1. 物理层概述⭐ 四个特性 2. 通信基础⭐ 重点概念⭐ 极限数据传输率⭐ 信道复用技术&#x1f389…

axios的原理及实现一个简易版axios

面试官&#xff1a;你了解axios的原理吗&#xff1f;有看过它的源码吗&#xff1f; 一、axios的使用 关于axios的基本使用&#xff0c;上篇文章已经有所涉及&#xff0c;这里再稍微回顾下&#xff1a; 发送请求 import axios from axios;axios(config) // 直接传入配置 axio…

第十五章---I/O(输入/输出)

15.1输入输出流 流是一组有序的数据序列&#xff0c;根据操作的类型&#xff0c;可分为输入流和输出流两种。I/O(Input/Output,(输出)流提供了一条通道程序&#xff0c;可以使用这条通道把源中的字节序列送到目的地。虽然 I/O 流疆盘文件存取有关&#xff0c;但是程序的源和目…

华为---OSPF网络虚连接(Virtual Link)简介及示例配置

OSPF网络虚连接&#xff08;Virtual Link&#xff09;简介 为了避免区域间的环路&#xff0c;OSPF规定不允许直接在两个非骨干区域之间发布路由信息&#xff0c;只允许在一个区域内部或者在骨干区域和非骨干区域之间发布路由信息。因此&#xff0c;每个ABR都必须连接到骨干区域…

QT基础学习

2创建项目 2.1使用向导创建 打开Qt Creator 界面选择 New Project或者选择菜单栏 【文件】-【新建文件或项目】菜单项 弹出New Project对话框&#xff0c;选择Qt Widgets Application&#xff0c; 选择【Choose】按钮&#xff0c;弹出如下对话框 设置项目名称和路径&#xf…

N 字形变换

将一个给定字符串 s 根据给定的行数 numRows &#xff0c;以从上往下、从左到右进行 Z 字形排列。 比如输入字符串为 “PAYPALISHIRING” 行数为 3 时&#xff0c;排列如下&#xff1a; P A H N A P L S I I G Y I R 之后&#xff0c;你的输出需要从左往右逐行读取&#xff0…