【图像分类】【深度学习】【Pytorch版本】VggNet模型算法详解

【图像分类】【深度学习】【Pytorch版本】VggNet模型算法详解

文章目录

  • 【图像分类】【深度学习】【Pytorch版本】VggNet模型算法详解
  • 前言
  • VggNet讲解
    • 感受野
    • 感受野的计算公式
    • 3x3的卷积核的使用
    • VggNet模型结构
  • VGGnet Pytorch代码
  • 完整代码
  • 总结


前言

Vgg(Visual Geometry Group)是由牛津大学的Simonyan, Karen等人在《Very deep convolutional networks for large-scale image recognition【ICLR-2015】》【论文地址】一文中提出的模型,核心思想是通过使用小尺寸的卷积核(通常为3x3),来代替较大感受野的卷积层,通过重复堆叠多个卷积块来增加网络深度,并通过逐渐减小特征图尺寸和增加特征通道数来扩展网络规模。


VggNet讲解

感受野

感受野(Receptive Field)是指在神经网络中,每个网络层输出的特征图中的一个像素点映射回原始输入图像中的区域大小,网络层越深,其输出特征的元素对应感受野越大。

在卷积神经网络(CNN)和全连接神经网络(FCN)中,感受野的计算和作用存在区别:

  1. 在全连接神经网络中,其输出的每个特征都受到所有输入特征影响,每个神经元都与所有输入特征相连接,全连接层中的每个神经元都可以感知整个输入特征的信息,全连接网络可以对输入数据进行全局建模。

全连接层通常用于网络的最后几层,用于对从卷积层中提取的局部特征进行整合和分类。

  1. 在卷积神经网络中,其输出的特征图(feature map)上的每个像素特征只受到输入特征图上局部区域影响,每个神经元每次只与输入特征图上局部区域相连接,局部区域大小为卷积核的大小,卷积层中的每个神经元只可以感知局部输入特征的信息,因此卷积神经网络需要多层卷积层的堆叠使得网络能够逐渐扩大感受野,从而捕捉到更大范围的特征信息。

卷积层中的每个神经元只能感知输入特征图的局部区域,如绿色特征图的某像素特征(红色方块)在青蓝色特征图上的感受野(红色方框),通过多个神经元的组合,卷积神经网络可以提取输入图像的全局特征,如黄色特征图的像素特征就能完整获取青蓝色特征图的所有信息。这种局部感知的特性使得卷积神经网络在图像处理和计算机视觉任务中表现出色。

感受野的计算公式

卷积神经网络通过大量的卷积层、归一化层、激活层和池化层进行堆叠构成完整的网络结构,而卷积层和池化均会改变特征图的大小,从而实现特征之间的映射和转换,因此卷积核或池化核(kernel_size)、和步长(stride)参数共同决定了输出结果对应的感受野大小。
k n {k_n} kn s n {s_n} sn r n {r_n} rn分别表示第 n n n层的卷积核尺寸、步长和感受野。卷积神经网络的感受野计算公式在表达上有些许的差异,博主给出了不同的公式表达的含义:

  1. 自底向上的方式: r n = r n − 1 + ( k n − 1 ) Π i = 1 n − 1 s i {r_n} = {r_{n - 1}} + ({k_n} - 1)\Pi _{i = 1}^{n - 1}{s_i} rn=rn1+(kn1)Πi=1n1si其中 n ≥ 2 , r 0 = 1 , r 1 = k 1 n \ge 2,{r_0} = 1,{r_1} = k_1 n2,r0=1,r1=k1
  2. 自顶向下的方式: r n = ( r n + 1 − 1 ) s i + k {r_n} = ({r_{n + 1}} - 1){s_i} + k rn=(rn+11)si+k其中 r n = 1 {r_n} = 1 rn=1

博主将通过一个案例详细说明俩种方法的区别,如下图所示,原始图像输入 r 0 = 7 × 7 {r_0}=7×7 r0=7×7,假设共经历3个卷积层:此时三个卷积层的输出依次为 r 1 = 5 × 5 {r_1}=5×5 r1=5×5 r 2 = 3 × 3 {r_2}=3×3 r2=3×3 r 3 = 1 × 1 {r_3}=1×1 r3=1×1

说明俩种方法计算感受野的区别如下表所示:

自底向上自顶向下
n n n个网络层输出的特征图分别在原始图像上的感受野大小 n n n层网络输出的特征图分别在前 n n n层特征图上的感受野大小
r 0 = 1 {r_0}=1 r0=1Conv(3): r 3 = 1 {r_3}=1 r3=1
Conv(1): r 1 = 3 {r_1}=3 r1=3Conv(2): r 2 = ( 1 − 1 ) × 1 + 3 = 3 {r_2}=(1-1)×1+3=3 r2=(11)×1+3=3
Conv(2): r 2 = 3 + ( 3 − 1 ) × 1 = 5 {r_2}=3+(3-1)×1=5 r2=3+(31)×1=5Conv(1): r 1 = ( 3 − 1 ) × 1 + 3 = 5 {r_1}=(3-1)×1+3=5 r1=(31)×1+3=5
Conv(3): r 2 = 5 + ( 3 − 1 ) × 1 = 7 {r_2}=5+(3-1)×1=7 r2=5+(31)×1=7 r 0 = ( 3 − 1 ) × 1 + 5 = 7 {r_0}=(3-1)×1+5=7 r0=(31)×1+5=7

假设都是计算第三个卷积层的输出特征图像素点在原始输入图像上的感受野,二者的大小是一致的。

3x3的卷积核的使用

3x3 卷积核是能够感受到上下、左右、重点的最小的感受野尺寸,论文中提到,堆叠两个3x3的卷积核的感受野等同于1个5x5的卷积核,堆叠三个3x3的卷积核的感受野等同于1个7x7的卷积核,并且使用3x3卷积核替换后可以减少参数。由于感受野相同,3个3x3的卷积,使用了3个非线性激活函数,增加了非线性表达能力。

卷积核尺寸卷积核感受野卷积核参数(假设输入输出channel为C)
3×3 r 1 = 3 {r_1}=3 r1=3 r 2 = 3 + ( 3 − 1 ) × 1 = 5 {r_2}=3+(3-1)×1=5 r2=3+(31)×1=5 r 2 = 5 + ( 3 − 1 ) × 1 = 7 {r_2}=5+(3-1)×1=7 r2=5+(31)×1=73×3×C×C= 9 C 2 9{C^2} 9C2 18 C 2 18{C^2} 18C2 27 C 2 27{C^2} 27C2
5×5 r 1 = 5 {r_1}=5 r1=55×5×C×C= 25 C 2 25{C^2} 25C2> 18 C 2 18{C^2} 18C2
7×7 r 1 = 7 {r_1}=7 r1=77×7×C×C= 49 C 2 49{C^2} 49C2> 27 C 2 27{C^2} 27C2

总而言之,使用3x3卷积核堆叠的形式,既增加了网络层数又减少了参数量。

VggNet模型结构

下图是原论文给出的关于VGGnet模型结构的详细示意图:

注:卷积层的参数卷积层的参数被表示为"卷积场大小-通道数",ReLU激活函数在表中没有显示

与AlexNet⼀样,VggNet可以分为两部分:第⼀部分 (backbone) 主要由卷积层和池化层(汇聚层)组成,第⼆部分由全连接层 (分类器) 组成。

VggNet的亮点说明
小卷积核堆叠多个3×3的卷积核来替代大的卷积核,部分使用1x1卷积核的(C结构网络中),以减少所需参数
小池化核全部为2×2的池化核
更深更宽的网络结构卷积核专注于扩大通道数,池化专注于缩小高和宽,使得模型更深更宽的同时,计算量的增加不是很剧烈
去掉了LRN层LRN浪费了更多的内存和时间并且性能没有太大提升

VGG的预训练权重是使用ImageNet数据集进行训练而来:

# 官方的预训练权重
model_urls = {'vgg11': 'https://download.pytorch.org/models/vgg11-bbd30ac9.pth','vgg13': 'https://download.pytorch.org/models/vgg13-c768596a.pth','vgg16': 'https://download.pytorch.org/models/vgg16-397923af.pth','vgg19': 'https://download.pytorch.org/models/vgg19-dcbb9e9d.pth'
}

VGGnet Pytorch代码

backbone部分

# VGGnet的四种网络配置
cfgs = {'vgg11': [64, 'M', 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],'vgg13': [64, 64, 'M', 128, 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],'vgg16': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 'M', 512, 512, 512, 'M', 512, 512, 512, 'M'],'vgg19': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 256, 'M', 512, 512, 512, 512, 'M', 512, 512, 512, 512, 'M'],
}
def make_features(cfg: list):layers = []# RGB图像3通道in_channels = 3for v in cfg:# 池化层if v == "M":# 全部为2×2的池化核layers += [nn.MaxPool2d(kernel_size=2, stride=2)]else:# 卷积层组:conv2d+ReLUconv2d = nn.Conv2d(in_channels, v, kernel_size=3, padding=1)layers += [conv2d, nn.ReLU(True)]in_channels = vreturn nn.Sequential(*layers)

分类器部分

        # 分类器部分:FC+ReLU+Dropoutself.classifier = nn.Sequential(nn.Linear(512*7*7, 4096),nn.ReLU(True),nn.Dropout(p=0.5),nn.Linear(4096, 4096),nn.ReLU(True),nn.Dropout(p=0.5),nn.Linear(4096, num_classes))

完整代码

import torch.nn as nn
import torch
from torchsummary import summary# 官方的预训练权重
model_urls = {'vgg11': 'https://download.pytorch.org/models/vgg11-bbd30ac9.pth','vgg13': 'https://download.pytorch.org/models/vgg13-c768596a.pth','vgg16': 'https://download.pytorch.org/models/vgg16-397923af.pth','vgg19': 'https://download.pytorch.org/models/vgg19-dcbb9e9d.pth'
}class VGG(nn.Module):def __init__(self, features, num_classes=1000, init_weights=False):super(VGG, self).__init__()# backbone部分self.features = features# 分类器部分:FC+ReLU+Dropoutself.classifier = nn.Sequential(nn.Linear(512*7*7, 4096),nn.ReLU(True),nn.Dropout(p=0.5),nn.Linear(4096, 4096),nn.ReLU(True),nn.Dropout(p=0.5),nn.Linear(4096, num_classes))# 对模型的权重进行初始化操作if init_weights:self._initialize_weights()def forward(self, x):# N x 3 x 224 x 224x = self.features(x)# N x 512 x 7 x 7x = torch.flatten(x, start_dim=1)# N x 512*7*7x = self.classifier(x)return xdef _initialize_weights(self):for m in self.modules():if isinstance(m, nn.Conv2d):# Conv2d的权重从均匀分布中随机初始化nn.init.xavier_uniform_(m.weight)if m.bias is not None:# Conv2d的偏置置0nn.init.constant_(m.bias, 0)elif isinstance(m, nn.Linear):# FC的权重从均匀分布中随机初始化nn.init.xavier_uniform_(m.weight)# FC的偏置置0nn.init.constant_(m.bias, 0)def make_features(cfg: list):layers = []# RGB图像3通道in_channels = 3for v in cfg:# 池化层if v == "M":# 全部为2×2的池化核layers += [nn.MaxPool2d(kernel_size=2, stride=2)]else:# 卷积层组:conv2d+ReLUconv2d = nn.Conv2d(in_channels, v, kernel_size=3, padding=1)layers += [conv2d, nn.ReLU(True)]in_channels = vreturn nn.Sequential(*layers)# VGGnet的四种网络配置
cfgs = {'vgg11': [64, 'M', 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],'vgg13': [64, 64, 'M', 128, 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],'vgg16': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 'M', 512, 512, 512, 'M', 512, 512, 512, 'M'],'vgg19': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 256, 'M', 512, 512, 512, 512, 'M', 512, 512, 512, 512, 'M'],
}def vgg(model_name="vgg16", **kwargs):assert model_name in cfgs, "Warning: model number {} not in cfgs dict!".format(model_name)cfg = cfgs[model_name]model = VGG(make_features(cfg), **kwargs)return modelif __name__ == '__main__':device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")model = vgg("vgg16").to(device)summary(model, input_size=(3, 224, 224))

summary可以打印网络结构和参数,方便查看搭建好的网络结构。


总结

尽可能简单、详细的介绍了深度可分卷积的原理和卷积过程,讲解了VGGnet模型的结构和pytorch代码。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/133636.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

养老院展示服务预约小程序的作用是什么

养老院无论在哪个城市都有很高需求度,不少银发人群会因为种种原因而前往,而养老院近些年来各种服务也比较完善,增加了客户信任度及接受度,但对院方来说,也存在着一些痛点: 1、品牌传播服务呈现难 养老院也…

网络运维Day01

文章目录 环境准备OSI七层参考模型什么是协议?协议数据单元(PDU)设备与层的对应关系什么是IP地址?IP地址分类IP的网络位和主机位IP地址默认网络位与主机位子网掩码默认子网掩码查看IP地址安装CISCO汉化CISCO(可选操作) CISCO之PC机器验证通信 CISCSO之交…

PMI-ACP(103:57- 103)

57/103 高绩效敏捷团队的特征 参与式指导有效的决策开放和清晰的沟通价值多样性相互信任管理冲突清楚目标明确定义角色 和 职责协调关系积极的氛围 58/103 创建授权团队 敏捷强调 具备授权和积极性 的自我管理团队,他们需要对项目成果充分负责,授权是…

软考 -- 计算机学习(3)

文章目录 一、软件测试基础1.1 基本概念1.2 软件测试模型1.3 软件测试的分类 二、基于规格说明的测试技术(黑盒)2.1 重要的测试方法1. 等价类划分法2. 边界值法3. 判定表法4. 因果图法 2.2 其他测试方法 三、基于结构的测试技术(白盒)3.1 静态测试3.2 动态测试 一、软件测试基础…

配置阿里云镜像加速器 -docker

1.百度aliyun 2.找到镜像服务ACR 3.搞一个个人版&#xff0c;身份验证一下就行了很简单 4.找到镜像加速器Centos 5.执行下面4条命令&#xff1a;4条命令直接从上面操作文档中粘贴&#xff0c;不容易出错 sudo mkdir -p /etc/docker sudo tee /etc/docker/daemon.json <<…

Win10 + VS017 编译SQLite3.12.2源码

参考&#xff1a; [1] WIN10 VS2019下编译GDAL3.0PROJ6SQLite_gdal 3 win10编译-CSDN博客 [2] 如何编译SQLite-How To Compile SQLite-CSDN博客 如何生成静态库&#xff1a; 参考&#xff1a; WIN10 VS2019下编译GDAL3.0PROJ6SQLite_gdal 3 win10编译-CSDN博客 如何生成exe:…

电动车展示预约小程序的作用如何

电动车可以说是现在出行常见的方法&#xff0c;覆盖年龄广几乎是每家必备&#xff0c;也有不小大小品牌和经销商&#xff0c;市场需求较高&#xff0c;但在实际经营中&#xff0c;对经销商来时也面临着一些痛点&#xff1a; 1、品牌传播产品展示难 不同品牌竞争很大&#xff…

Spark 基础知识点

Spark 基础 本文来自 B站 黑马程序员 - Spark教程 &#xff1a;原地址 什么是Spark 什么是Spark 1.1 定义&#xff1a;Apache Spark是用于大规模数据&#xff08;large-scala data&#xff09;处理的统一&#xff08;unified&#xff09;分析引擎 Spark最早源于一篇论文 Re…

viple入门(五)

&#xff08;1&#xff09;自定义活动 自定义活动&#xff0c;用来创建新的组件、服务、函数或者其他代码模块&#xff0c;使用最多的是创建函数。 函数是对一个功能的封装&#xff0c;在调用的时候执行&#xff0c;没有调用的时候则不执行。函数可能有参数&#xff0c;可能没…

信号发送与处理-上

问题 按下 Ctrl C 后&#xff0c;命令行中的前台进程会被终止。为什么&#xff1f;&#xff1f;&#xff1f; 什么是信号&#xff1f; 信号是一种 "软件中断"&#xff0c;用来处理异步事件 内核发送信号到某个进程&#xff0c;通知进程事件的发送事件可能来自硬件…

基于 golang 从零到一实现时间轮算法 (三)

引言 本文参考小徐先生的相关博客整理&#xff0c;项目地址为&#xff1a; https://github.com/xiaoxuxiansheng/timewheel/blob/main/redis_time_wheel.go。主要是完善流程以及记录个人学习笔记。 分布式版实现 本章我们讨论一下&#xff0c;如何基于 redis 实现分布式版本的…

RuntimeError: Distributed package doesn‘t have NCCL built in

因为windows不支持NCCL backend 已解决 import os os.environ["PL_TORCH_DISTRIBUTED_BACKEND"] "gloo"

TextMate v2.0.23(文本编辑器)

Mac上好用的文本编辑器是哪个&#xff1f;TextMate 2 mac版是Macos上一款文本编辑器&#xff0c;支持大量编程语言并作为开源开发。该软件与“BBEdit”并成为苹果电脑上的EMACS和vim&#xff0c;对于程序员来说非常的适合&#xff0c;可以定制许多贴心的功能。为专业脚本编写者…

基于ruoyi框架项目-部署到服务器上

基于ruoyi框架项目-部署到服务器上 文章目录 基于ruoyi框架项目-部署到服务器上1.前端vue编译&#xff0c;后的dist下内容打包&#xff08;前后端分离版本需要&#xff09;2.后端打包成jar包&#xff08;如果是thymeleaf仅需打包jar&#xff09;3.上传到服务器目录下4. docker部…

2023北京1024城市开发者聚会总结

&#x1f337;&#x1f341; 博主猫头虎 带您 Go to New World.✨&#x1f341; &#x1f984; 博客首页——猫头虎的博客&#x1f390; &#x1f433;《面试题大全专栏》 文章图文并茂&#x1f995;生动形象&#x1f996;简单易学&#xff01;欢迎大家来踩踩~&#x1f33a; &a…

2011年408计网

第33题 TCP/IP 参考模型的网络层提供的是&#xff08;&#xff09;A. 无连接不可靠的数据报服务B. 无连接可靠的数据报服务C. 有连接不可靠的虚电路服务D. 有连接可靠的虚电路服务 本题考查TCP/IP 参考模型的网络层 若网络层提供的是虚电路服务&#xff0c;则必须建立网络层的…

Magic Bullet Suite v2024.0.1

Red Giant Magic Bullet Suite是一套AE视频后期处理软件&#xff0c;适用于Premiere Pro、After Effects等视频编辑软件。它提供了多种精美的视频特效和调色工具&#xff0c;使得视频制作更加专业和出色。 Magic Bullet Suite包括多个插件&#xff0c;其中最为知名的是Magic B…

Flink SQL TopN语句详解

TopN 定义&#xff08;⽀持 Batch\Streaming&#xff09;&#xff1a; TopN 对应离线数仓的 row_number()&#xff0c;使⽤ row_number() 对某⼀个分组的数据进⾏排序。 应⽤场景&#xff1a; 根据 某个排序 条件&#xff0c;计算 某个分组 下的排⾏榜数据。 SQL 语法标准&am…

【软考】2023下半年系统集成项目管理工程师案例分析真题(第五批次)

2023下半年系统集成项目管理工程师案例分析真题&#xff08;第五批次&#xff09; 案例一 (17分)-配置管理案例二 &#xff08;20分&#xff09;-进度管理案例三 &#xff08;18分&#xff09;-风险管理案例四 - 人力资源管理 系列文章版本记录 案例一 (17分)-配置管理 某游戏公…

15 款 PDF 编辑器帮助轻松编辑、合并PDF文档

PDF 编辑器在当今的数字环境中至关重要&#xff0c;因为 PDF 已成为共享和存储信息的首选格式。只需几分钟&#xff0c;可靠的 PDF 编辑器即可让用户能够根据其特定需求修改、定制和定制文档。在本文中&#xff0c;我们全面汇编了 15 款最佳免费 PDF 编辑器&#xff0c;让您可以…