【通俗易懂说模型】一篇弄懂几个经典CNN图像模型(AlexNet、VGGNet、ResNet)

🌈 个人主页:十二月的猫-CSDN博客
🔥 系列专栏: 🏀深度学习_十二月的猫的博客-CSDN博客

💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光 

目录

1. 前言

2. AlexNet

3. VGGNet

4. ResNet

5. SqueezeNet

6. 总结


1. 前言

        进入这篇文章之前,想必大家已经阅读过前面的系列文章:

【通俗易懂说模型】线性回归(附深度学习、机器学习发展史)-CSDN博客

【通俗易懂说模型】非线性回归和逻辑回归(附神经网络图详细解释)-CSDN博客

【通俗易懂说模型】反向传播(附多元分类与Softmax函数)-CSDN博客

【通俗易懂说模型】卷积神经网络(呕心沥血版)-CSDN博客

        通过前面的文章, 猫猫相信友友们对深度学习、机器学习一定有了一个较为全面且细致的理解,接下来的本篇文章,将基于前面提到的回归、反向传播、卷积神经网络等知识,从深度学习在图像识别领域发展的历史脉络出发,带你遨游几大经典模型。从模型学习深度学习中的奇思妙想,感悟前辈伟人的思想精华🥰~~

2. AlexNet

        AlexNet是2012年ImageNet竞赛中获得冠军的卷积神经网络模型,其准确率领先第二名ISI模型10%。由于当时GPU计算速度有限,所以采用了两台GPU服务器进行计算。如下图所示,该模型共分为8层,其中有5个卷积层(特征层),3个全连接层。下面我们对每一层卷积层进行分析。

卷积层:也可以认为是特征层,严格意义上包括卷积层和激活层,用于提取特征。

全连接层:对特征(局部特征、全局特征)全连接,从而学习组织方式, 最终用于分类等。

        一、第一层卷积和池化过程。如下图所示,在第一层卷积层中,我们采用11×11的过滤器对尺寸为224×224的图片进行卷积,产生96张55×55的特征图(由于是彩色图片,所以第三个维度是3,下面对此不再进行特别说明)。然后使用ReLU函数,使特征图内的数值保持在合理的范围内。接着使用3×3的核进行池化,最终生成96张27×27的特征图。 

输出图片大小和卷积的关系:

        二、第二层卷积和池化过程。如下图所示,在第二层卷积层中,采用5x5的过滤器进行卷积,产生256张27x27的特征图。再经过ReLU函数后,使用3x3的核进行池化,得到256张13x13的特征图。 

三个要点:

  • 卷积输出通道数等于卷积核数量。例如上图卷积核数量为256。
  • 卷积核通道数等于输入图片通道数。例如上图卷积核通道数为96,卷积核大小为5*5。
  • 越上层提取的成分越抽象。每一次卷积会利用到前面所有的底层知识组合成上层知识。

        三、第三层卷积过程。如下图所示,在第三层卷积层中没有池化,采用3x3的过滤器进行卷积,产生384张13x13的特征图,然后经过ReLU函数(特征提取层中池化不是必须的)。

         四、第四层卷积过程。如下图所示,在第四层卷积层中也没有池化,采用3×3的过滤器进行卷积,产生384张13x13的特征图,然后经过ReLU函数。

        五、第五层卷积过程。如下图所示,在第五层卷积层中,采用3×3的过滤器进行卷积,产生256张13x13的特征图,经过ReLU函数,然后使用3x3的核进行池化,产生256张6x6的特征图。

        六、三层全连接层。在第六层中,我们将256张6×6的特征图全连接到2048个神经元节点上,经过ReLU激活层,再进行Dropout。Dropout是前向传播过程中随机丢弃的一些神经网络层节点,这种方法可以有效避免模型过拟合。在第七层中,将2048个神经元节点全连接到2048个神经元上,经过ReLU激活层,进行Dropout。在第八层中,将2048个神经元全连接到1000个神经元输出节点,因为我们进行的是1000个分类的任务。

3. VGGNet

        VGGNet是牛津大学计算机视觉组和GoogleDeepMind公司研究员一起研发的深度卷积神经网络在2014年的ImageNetILSVRC中取得了亚军。VGGNet探索了卷积神经网络的深度和性能之间的关系,通过多次堆叠3×3的过滤器和2×2的最大池化层,使得网络层数总体变多,达到了16层~19层。与只有8层的AlexNet相比,VGGNet具有参数的神经网络层数翻了一倍多。

        VGGNet采用了多个3x3的卷积核来代替AlexNet中11x11和5x5的卷积核,这样做的目的是减少参数的数量。具体是如何做到的呢?如下图所示,两个3×3的卷积核效果相当于一个5x5的卷积
核效果。倘若被卷积的特征图数为N,卷积之后得到的特征图数为M,则使用两次3×3卷积核的总参数为18NM,使用一次5×5卷积核的总参数为25NM。类似地,3个3×3的卷积核相当于1个7x7的卷积核,而1个7×7的卷积核的总参数为49NM,而3个3×3卷积核的总参数量仅为27NM。

相同硬件条件下,训练所能接受的参数总量是有限的:

  • VGGNet利用将5*5分解为两个3*3从而减少了参数量,可以增加更多网络结构。
  • 同时一层5*5变为两层3*3让整体网络结构变得更深,探索了卷积神经网络的深度和性能之间的关系

        如下图所示,VGGNet有5段卷积,每一段卷积由2~4个3x3的卷积核与1个池化层构成,取
大小为3x3的卷积是因为3x3可以同时获取上下左右像素信息的最小卷积核。所有卷积的步长均为1,padding也为1。这种利用多个小卷积核代替一个大卷积核的方式有两个好处:一是减少了训练的参数量,减少资源占用率;二是增加了非线性变换的次数,提高网络对特征的学习能力。该网络也同时证明:在一定条件下,网络结构越深,网络的学习能力就越好,分类能力就越强。

使用3*3代替5*5卷积核的优点: 

  • 减少参数,减少运算量达到同样效果。
  • 两个3*3代替5*5网络结构更深,增加了非线性变换的次数,更有利于分类。

4. ResNet

        我们刚才在VGGNet里受到了启发,觉得网络结构越深越好,但是事实上却不是那么容易。如下图所示,20层的卷积神经网络无论是在训练集还是在测试集,其误差都比56层的要小。也就是说,如果在不进行任何特殊处理的情况下增加层数,较深的网络会有更大的误差。其中的原因之一是网络越深,梯度消失的现象就越来越明显,网络的训练效果也不会很好,我们把该问题称为“退化”。但是现在,浅层的网络又无法明显提升网络的识别效果,所以要解决的问题就是怎样在加深网络的情况下解决“退化”的问题。

问题

  • 网络结构越深整体效果越好。
  • 但是网络深到一定程度后因为梯度消失的原因导致训练效果下降,出现“退化”现象。

对梯度消失的理解:

  • 假设一个神经网络有多个线性层,每个层的权重都是一个较大的正数。当输入数据经过这些层计算时,每个层的输出都会变得越来越大,导致接下来的层需要处理的数值也越来越大。这时候,在反向传播的时候,计算梯度时,因为涉及到乘积,这些大的数值相乘会导致梯度变得非常小,甚至趋近于零。这就是梯度消失的原因。
  • 🌰举个例子,假设有一个三层神经网络,每层的权重都是2。假设输入是1,那么经过第一层后变成2,经过第二层变成4,经过第三层变成8。在反向传播的时候,梯度会按照链式法则计算,每次乘以权重。所以,梯度会是1乘以2,乘以2,再乘以2,也就是8。如果权重更大,比如3,那么梯度会是1×3×3×3=27,这样梯度会变得越来越大,而不是变小。但是,如果权重都是0.5,那么前向传播时数值变小,反向传播时梯度会是1×0.5×0.5×0.5=0.125,也就是梯度变小,这时候梯度消失。所以,当权重的绝对值小于1时,梯度会逐渐变小,导致梯度消失;而如果权重的绝对值大于1,梯度会逐渐变大,导致梯度爆炸。

  • 梯度消失会导致每次参数更新的很少,结果就是训练始终无法收敛,同时遗忘模型前面的训练块,模型效果很差

  • 梯度爆炸会导致每次参数更新都很大,结果就是训练结果波动性强,同样无法收敛,模型效果差

        针对这个问题,微软研究团队提出了ResNet模型,成功地解决了上述难题,并获得了2015年的ImageNet比赛的冠军。ResNet模型引入残差网络结构,可以成功地训练层数高达152层的神经网络。该残差网络结构如下图所示,在两层或两层以上的节点两端添加了一条“捷径”,这样一来,原来的输出F(x)就变成了F(x)+x。就是这一点点的小改动,我们就可以直接使用传统的反向传播训练法对非常深的神经网络进行训练,并且收敛速度快,误差小。

        下图给我们展示了2015年时赢得ImageNet比赛冠军的ResNet模型,我们可以看到该网络的特别之处在于每隔两层就设置了一个“捷径”。

        为何ResNet的这种连接方式可以“解决”之前的“退化”问题呢?我们先来观察一下下图,可以发现,左边我们熟悉的残差网络模块可以看成右边的串联关系。可以把右边的图联想为串联的电路,把数据经过的神经网络层看成是电阻元件。我们知道在串联电路中,电阻越小的支路,电流就越大,对总输出电流的贡献比例就越大。再回到残差网络模块,梯度进行反向传播时,会因为所遇层数的增多而不断变小如果我们把梯度传播时遇到的神经网络层看成是一种“阻力”的话,那么这些“捷径”就会因为“阻力”小而把梯度顺利地反传回来,不至于“消失”,如此一来,“退化”的问题就被顺利解决了。有了残差网络模块,我们可以疯狂地叠加神经网络层,甚至到达1000层以上。

5. SqueezeNet

        在很多实际的运用中,我们希望神经网络模型在尽量小的情况下保持足够的精度。例如,在自动驾驶汽车这一应用中,我们并不希望把入上传到服务器进行识别,如果这么做会产生延迟,很可能发生车祸。这时候,我们希望自动驾驶汽车能够从网络上下载神经网络模型,直接在本地进行实时的识别。除此之外,移动手机上的人工智能产品也同样希望直接在本地进行识别,避免网络传输所带来的长时间等待。我们以前一直在关注如何通过提高模型的复杂度来提高模型识别的正确率。在相同的正确率下更小的神经网络模型有如下3个优势:

  • 在分布式的训练中,模型越小,各计算节点的通信需求就越小,从而训练得更快:
  • 模型越小,从云端下载的数据量就越小;
  • 更小的神经网络模型更适合在内存和硬盘资源有限的设备上部署。

        为了解决模型太大的问题,UCBerkeley和Stanford研究人员提出了SqueezeNet模型,其识别精度与AlexNet相同,但模型大小却只有AlexNet的1/50,如果再加上其他的模型压缩技术,可以缩小至0.5MB,即仅为AlexNet模型大小的1/510。SqueezeNet采用以下3种策略来优化模型:

  • 使用1×1卷积来代替3x3卷积,减少模型参数(1*1卷积块本质上可以认为仅仅在通道层面卷积了一下,并没有考虑局部特征的联系);
  • 减少输入的通道数,减少模型参数;
  • 延后池化,保留更多信息,提高准确率。(本身参数量很少就不需要池化来减少特征值了)。

 假如一张图片如下:

可以认为其仅仅展示了各自的位置信息

卷积后如下:

可以认为除了位置信息还包含彼此的联系信息,因此卷积核越少处理后包含的联系信息更少,因此计算量更小

        具体来说,SqueezeNet设计了一个叫Fire Module的模块,其结构如下图所示,该模块分为压缩和扩展两个部分。首先压缩部分是由若干1×1的卷积核构成,图中示例使用了3个卷积核。而扩展部分包含1×1的卷积核和3×3的卷积核,这里使用了4个1×1卷积核及4个3×3卷积核。假设输入的通道数为5,在压缩部分,我们使用3个1×1卷积核,将输入的通道数压缩为3,然后分别经过4个1×1和4个3x3卷积核后,将输出进行合并,最后得到8张特征图。

        随着卷积神经网络的发展,我们经常搭配一些固定的卷积核,构造成一个微结构进行使用,从而方便网络设计。SqueezeNet的FireModule也是一个微结构,如下图所示。在Fire Module这个微结构中,分为压缩和扩展两部分卷积核,压缩模块采用了3个1x1卷积核,因此S1x1=3;扩展模块中我们采用了4个1×1卷积核和4个3x3卷积核,因此e1x1=4,e3x3=4。在每个卷积之后,都经过了非线性函数ReLU的处理,我们要求S1x1<e1x1+e3x3以限制输入通道数。

        整个SqueezeNet结构如下图所示,左边是原始的SqueezeNet,我们分别在conv1、fire4、fire8、conv10之后加池化层,这样做推迟了池化而保留了更多的信息,提高识别精度。中间和右边借鉴了ResNet的做法,在各层之间加人了许多“捷径”,化解“退化”问题,提高识别正确率。在最后的池化层里,使用全局平均池化(GlobalAveragePooling,GAP)来代替以往的全连接层,节省了大量参数。

        全局平均池化是直接利用特征图来计算对应分类的概率相关值。如下图所示,以上面的任务为例,我们需要对1000个类进行分类。那么在最后一层卷积层的输出部分,我们设置输出为1000张特征图,然后对每一张特征图求平均值。接着将1000个平均值输入softmax函数,得到1000个类的概率。

全局平均池化:

  • 池化代表减少参数量。从特征图最后降维一个概率自然是池化
  • 全局代表直接求1000个类的概率。
  • 平均是指这个概率是特征图的概率的平均值。
  • 全剧平均池化可用来代替全连接层求解分类问题

怎么理解全局平均池化分类和全连接后分类?

       1、全局平均池化就是直接拿特征图去分类,如下图:

将一个狗狗分为好几块,然后得到的就是一个个特征图。全局平均池化就是直接看后面乱序的特征图去判断是不是狗

       2、全连接后分类就是得到特征图后,通过全连接拼凑出狗狗的图片,如下图:

然后再用这个完整有序的图片去判断是不是狗

6. 总结

【如果想学习更多深度学习文章,可以订阅一下热门专栏】

深度学习_十二月的猫的博客-CSDN博客

PyTorch实战深度学习80例_十二月的猫的博客-CSDN博客

零基础入门PyTorch框架_十二月的猫的博客-CSDN博客

如果想要学习更多pyTorch/python编程的知识,大家可以点个关注并订阅,持续学习、天天进步

你的点赞就是我更新的动力,如果觉得对你有帮助,辛苦友友点个赞,收个藏呀~~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/69776.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【EXCEL】【VBA】处理GI Log获得Surf格式的CONTOUR DATA

【EXCEL】【VBA】处理GI Log获得Surf格式的CONTOUR DATA data source1: BH coordination tabledata source2:BH layer tableprocess 1:Collect BH List To Layer Tableprocess 2:match Reduced Level from "Layer"+"BH"data source1: BH coordination…

汇编简介常用语法

为什么要有汇编 因为Cortex-A芯片一上电SP指针还没初始化&#xff0c;C环境还没准备 好&#xff0c;所以肯定不能运行C代码&#xff0c;必须先用汇编语言设置好C环境&#xff0c;比如初始化DDR、设置SP 指针等等&#xff0c;当汇编把C环境设置好了以后才可以运行C代码 GNU语法…

内网ip网段记录

1.介绍 常见的内网IP段有&#xff1a; A类&#xff1a; 10.0.0.0/8 大型企业内部网络&#xff08;如 AWS、阿里云&#xff09; 10.0.0.0 - 10.255.255.255 B类&#xff1a;172.16.0.0/12 中型企业、学校 172.16.0.0 - 172.31.255.255 C类&#xff1a;192.168.0.0/16 家庭…

ComfyUI流程图生图原理详解

一、引言 ComfyUI 是一款功能强大的工具&#xff0c;在图像生成等领域有着广泛应用。本文补充一点ComfyUI 的安装与配置过程遇到的问题&#xff0c;并深入剖析图生图过程及相关参数&#xff0c;帮助读者快速入门并深入理解其原理。 二、ComfyUI 的安装与配置中遇到的问题 &a…

无人机遥感图像拼接及处理实践技术:生态环境监测、农业、林业等领域,结合图像拼接与处理技术,能够帮助我们更高效地进行地表空间要素的动态监测与分析

近年来&#xff0c;无人机技术在遥感领域的应用越来越广泛&#xff0c;尤其是在生态环境监测、农业、林业等领域&#xff0c;无人机遥感图像的处理与分析成为了科研和业务化工作中的重要环节。通过无人机获取的高分辨率影像数据&#xff0c;结合图像拼接与处理技术&#xff0c;…

web渗透测试之反弹shell SSRF结合redis结合伪协议 redis 未授权访问漏洞

目录 未授权访问漏洞利用:redis 反弹shell 漏洞原因就是&#xff1a; 反弹shell利用方式 反弹shell指的是什么 : 反弹shell的前提条件 步骤: redis未授权访问的三种利用手段反弹shell 利用定时任务反弹shell 攻击主机下设置 写入 webshell 步骤 利用公钥认证写入ro…

【Vue】打包vue3+vite项目发布到github page的完整过程

文章目录 第一步&#xff1a;打包第二步&#xff1a;github仓库设置第三步&#xff1a;安装插件gh-pages第四步&#xff1a;两个配置第五步&#xff1a;上传github其他问题1. 路由2.待补充 参考文章&#xff1a; 环境&#xff1a; vue3vite windows11&#xff08;使用终端即可&…

Win32/C++ 字符串操作实用工具

CStrUtils.h #pragma once#include <string> #include <vector> #include <windows.h> #include <tchar.h>#ifdef _UNICODE using _tstring std::wstring; #else using _tstring std::string; #endif// 字符串转换实用工具 namespace CStrUtils {//…

【C++前缀和】1074. 元素和为目标值的子矩阵数量|2189

本文涉及的基础知识点 C算法&#xff1a;前缀和、前缀乘积、前缀异或的原理、源码及测试用例 包括课程视频 LeetCode1074. 元素和为目标值的子矩阵数量 给出矩阵 matrix 和目标值 target&#xff0c;返回元素总和等于目标值的非空子矩阵的数量。 子矩阵 x1, y1, x2, y2 是满…

【安当产品应用案例100集】037-强化OpenVPN安全防线的卓越之选——安当ASP身份认证系统

在当前数字化时代&#xff0c;网络安全已成为企业发展的重要组成部分。对于使用OpenVPN的企业而言&#xff0c;确保远程访问的安全性尤为重要。安当ASP身份认证系统凭借其强大的功能和便捷的集成方式&#xff0c;为OpenVPN的二次登录认证提供了理想的解决方案&#xff0c;特别是…

基于进化式大语言模型的下一代漏洞挖掘范式:智能对抗与自适应攻防体系

摘要 本文提出了一种基于进化式大语言模型(Evolutionary LLM)的智能漏洞挖掘框架,突破了传统静态分析的局限,构建了具备对抗性思维的动态攻防体系。通过引入深度强化学习与多模态感知机制,实现了漏洞挖掘过程的自适应进化,在RCE、SQLi、XXE等关键漏洞类型的检测中达到97…

2025年数据资产管理解决方案:资料合集,从基础知识到行业应用的全面解析

在数字化时代&#xff0c;数据已成为企业最宝贵的资产之一。如何有效地管理和利用这些数据&#xff0c;将其转化为实际的经济价值&#xff0c;已成为企业面临的重要课题。 本文将通过数据资产解决方案、数据资产行业报告白皮书、数据资产政策汇编、数据资产基础知识以及数据资…

【linux学习指南】模拟线程封装与智能指针shared_ptr

文章目录 &#x1f4dd;线程封装&#x1f309; Thread.hpp&#x1f309; Makefile &#x1f320;线程封装第一版&#x1f309; Makefile:&#x1f309;Main.cc&#x1f309; Thread.hpp: &#x1f320;线程封装第二版&#x1f309; Thread.hpp:&#x1f309; Main.cc &#x1f…

k8s的安装

1. k8s的安装 192.168.48.6 master01 192.168.481.6 node01 192.168.48.26 node02 三台机器一起操作 1.swapoff -a &#xff1a;关闭交换分区 2. iptables -F && iptables -t nat -F && iptables -t mangle -F && iptables -X 3. cat > /etc/sy…

字节跳动大模型应用 Go 开发框架 —— Eino 实践

前言 开发基于大模型的软件应用&#xff0c;就像指挥一支足球队&#xff1a;组件是能力各异的队员&#xff0c;编排是灵活多变的战术&#xff0c;数据是流转的足球。Eino 是字节跳动开源的大模型应用开发框架&#xff0c;拥有稳定的内核&#xff0c;灵活的扩展性&#xff0c;完…

redis之数据库

文章目录 服务器中的数据库切换数据库数据库键空间读写键空间时的维护操作 设置键的生存时间或过期时间保存过期时间过期键的判定过期键删除策略清性删除策略的实现定期删除策略的实现 总结 服务器中的数据库 Redis服务器将所有数据库都保存在服务器状态redis.h/redisServer结…

Qt文本高亮显示【QSyntaxHighlighter】功能代码讲解

QSyntaxHighlighter 是 Qt 框架中的一个重要类&#xff0c;专门用于为文本内容提供语法高亮功能。它广泛应用于文本编辑器、代码编辑器、日志查看器等应用程序中&#xff0c;允许开发者对文本中的不同部分应用不同的格式&#xff0c;如字体颜色、背景色、加粗等。通过这个类&am…

MS08067练武场--WP

免责声明&#xff1a;本文仅用于学习和研究目的&#xff0c;不鼓励或支持任何非法活动。所有技术内容仅供个人技术提升使用&#xff0c;未经授权不得用于攻击、侵犯或破坏他人系统。我们不对因使用本文内容而引起的任何法律责任或损失承担责任。 注&#xff1a;此文章为快速通关…

WPF正则表达式验证输入是否包含中文字母数字,不能是纯符号

1、验证纯中文 string pattern "[\u4e00-\u9fa5]"; // 创建Regex对象 Regex regex new Regex(pattern); // 判断输入字符串是否包含中文 if (!regex.IsMatch(name)) { //resultTextBlock.Text …

【Matlab优化算法-第13期】基于多目标优化算法的水库流量调度

一、前言 水库流量优化是水资源管理中的一个重要环节&#xff0c;通过合理调度水库流量&#xff0c;可以有效平衡防洪、发电和水资源利用等多方面的需求。本文将介绍一个水库流量优化模型&#xff0c;包括其约束条件、目标函数以及应用场景。 二、模型概述 水库流量优化模型…