【计算机视觉】万字长文详解:卷积神经网络

在这里插入图片描述
以下部分文字资料整合于网络,本文仅供自己学习用!

一、计算机视觉概述

在这里插入图片描述
如果输入层和隐藏层和之前一样都是采用全连接网络,参数过多会导致过拟合问题,其次这么多的参数存储下来对计算机的内存要求也是很高的
在这里插入图片描述
解决这一问题,就需要用到——卷积神经网络

这是一种理解卷积的角度(至少在吴恩达老师这个教学视频中是),也是我之前没有想到的。其实在该刚开始接受卷积神经网络时,我一直很想弄清卷积的真正含义,为此也学习了一些,和有自己的一些理解,详见后文2.6小节!

二、卷积神经网络

2.1:卷积运算

卷积运算是卷积神经网络的基本组成单元之一

这里将从边缘检测(edge detection)入手,举例来介绍卷积神经网络

在这里插入图片描述
通过这种卷积运算,我们可以检测到图像的边缘:(我们把中间的3x3的矩阵称为:过滤器、边缘检测器、卷积核
在这里插入图片描述
下面来讲,如何将这种卷积运算作为基本单元,运用到卷积神经网络中。

  • 正边缘(positive edges)和负边缘(negative edges):由亮变暗和由暗变亮
    在这里插入图片描述

  • 其他的边缘检测器(卷积核)
    在这里插入图片描述

  • 如何让算法自己学习得到边缘检测器,而不是像上面那样手动设计(传统的计算机视觉)——卷积神经网络
    🦄原理就是把卷积核中的数看作参数,利用反向传播(back propagation)去学习
    在这里插入图片描述
    这种学习得到的卷积核,会比计算机视觉研究人员所精心选择的更加稳定

在具体讲如何利用反向传播来学习得到卷积核的这9个参数之前,让我们学习一下卷积神经网络——卷积计算的底层架构的非常重要的组成部分

2.1.1:填充(padding)

首先看不对图像做填充的情况:
即:nxn的图像和fxf的卷积核进行卷积,得到结果大小为:(n-f+1)x(n-f+q)
在这里插入图片描述

💐这样卷积的缺点有:

  • shrinky output:这样得到的卷积结果会比原图像小,而没通过一层这样的卷积,图像就会缩小,在深层卷积神经网络中,最后得到的图像就会非常的小
  • throw away info from the edge:丢失边缘像素的信息。即对比于图像中其他像素提供的信息,边缘像素在卷积过程中只被利用一次或少次,这样我们会丢失掉一些边缘信息。
    在这里插入图片描述
    所以为了解决这两个问题,使用填充,对原图像进行像素填充
    在这里插入图片描述

总结一下,上面其实涉及到两种常用卷积:

  • valid convolutions:即不对原图像进行任何填充
  • same convolutions:对原图像进行填充并且保证卷积结果图像和原图像大小相同
    在这里插入图片描述
    由上图可知,对于Same convolutions,我们通常需要保证卷积核fxff奇数时,才可保证p = (f-1)/2 ,使得卷积结果大小与原图像大小相同。这也解释了为什么通常我们所使用的卷积核大小都是3x35x5。另外一个原因是,当卷积核是奇数时,会有一个中心像素点,事实上对图像进行卷积时,这个特殊的中心像素点是不可或缺的(你可以试想一下如果卷积核是偶数,你该如何卷积),中心像素可以很好的描述卷积核的位置,使用奇数的卷积核这也是计算机视觉所约定俗成的一种传统。

2.1.2:步长(stride)

上文所讲到的,也是默认卷积运算中步长为1,事实上,步长也是可以设定的。和padding一样,步长不同,也会影响卷积结果。下图是设置步长为2时的卷积示例
在这里插入图片描述

总结一下:(注意,这里的向下取整的实际含义是,保证卷积核始终在原图像填充后的那个图像中,而不能超出)
在这里插入图片描述

2.1.3:交叉相关(cross-correlation)

这一小节其实是一个概念补充。事实上学过数字信号处理的话,对于图像卷积(图像其实就是一个2维的数字信号),会将卷积核进行翻转后,再进行元素相乘、相加。事实上在计算机视觉领域,省略了翻转这一步骤,而是直接进行相乘、相加,所以在数学领域会将其称为交叉相关(corss-correlation),但是在深度学习和计算机视觉及其相关文献中,通常还是会将其称为卷积(convolutions).
在这里插入图片描述

2.1.4:3维卷积

事实上,上面所讲到的卷积都是对于2维图像而言(也就是灰度图),也成为二维卷积。而对于包含RGB这种三维图像,则属于三维卷积

在这里插入图片描述
但是你可能和我一样有相同的疑问:这有什么用呢?得到的结果还是二维

像下图展示这样,通过设置3D卷积核不同通道的参数值,你可以选择只检测红色通道的边缘,同时把其他通道的卷积核的参数值设置为0.或者只是把三个通道的卷积核参数设置为一样,这样的意义在于即使输入进来的是RGB图像也可以不用将其转为灰度图像而直接进行卷积计算(效果也是一样的)。
在这里插入图片描述

还有一个问题,就是:上文中,我们只是单单检测一种边缘——垂直。如果想同时检测多种边缘呢?比如同时检测水平和竖直边缘。那么我们需要多个检测器,或者说多个3D卷积核、过滤器,就像下图这样。但是注意到,得到的卷积结果的第三维度的大小就是使用的3D卷积核的个数。
在这里插入图片描述

2.2:卷积网络的一层

对卷积结果进行每个元素相加偏差b,并对其进行非线性变化,再对各个3D卷积核得到的结果进行整合于是得到4x4x2的一层卷积网络的输出结果。

在这里插入图片描述

2.2.1:和传统神经网络的对比

其实过程还是一致的

  1. 首先进行线性运算,将输入a[0]和参数W(对应的就是卷积核)进行相乘再相加
  2. 再加上偏差b
  3. 最后通过激活函数(即进行非线性变换)

在上面例子中,我们有2个3D卷积核,也就是说有2个特征(features)——卷积核的个数代表特征,是必须get到的,特别是在之后理解为什么卷积神经网络的底层原理上(不是卷积神经网络是什么,而是卷积神经网络为什么能行)。

我们再来解释一下本文最开始提到的,传统的全连接神经网络容易过拟合的问题(图像增大,则参数增多),而为什么卷积网络不会。

如下图,不管输入图像多大,卷积网络这一层需要通过训练从而学习得到的参数个数总是固定的:(27+1)x10.由此可知,卷积神经网络不易产生过拟合(overfitting)的问题。
在这里插入图片描述

2.2.2:Summary of notations

在这里插入图片描述

注意:在一些文献中,会把通道数放在前面,宽、高放在后面

2.3:卷积神经网络的简单实例

如下图,经过几层卷积后,最后被一步会把得到的卷积结果进行flatten展平,输入进全连接神经网络,通过逻辑回归或softmax进行分类。
在这里插入图片描述

这里我们可以观察到的是,输入图像(通常比较大),但随着卷积神经网络的深入,与开始图像会保持大小几乎不变,但随着输入图像会逐渐变小,而通道数逐渐增加

2.3.1:超参数(hyperparameter)

如上图,我们把箭头下方的那些参数(filter的个数、步长、padding…)称为超参数,选择这些超参数是卷积神经网络设计过程中的主要工作。

2.3.2:组成

在一个典型的卷积神经网络中,完整应该由以下3部分组成

  • 卷积层
  • 池化层
  • 全连接层
    在这里插入图片描述

2.3.3:卷积层的多层叠加

我们前面提到过随着卷积层的深入,通道数增大而图像减小。这样得到的好处是,每层使用较小的卷积核如3x3也能获得更大的感受野,只要叠加更多的卷积层,就能让感受野覆盖到整个图片。这也是为什么我们需要使用多个卷积层进行叠加。

那什么又是感受野呢?

2.3.4:感受野(Receptive Field)

感受野是一个非常重要的概念,receptive field往往是描述两个feature maps A/B上神经元的关系,假设从A经过若干个操作得到B,这时候B上的一个区域areaB只会跟a上的一个区域areaA相关,这时候areaA成为areaB的感受野。用图片来表示:
在这里插入图片描述
在上图里面,map3里1x1的区域对应map2的receptive field是那个红色的7x7的区域,而map2里7x7的区域对应于map1的receptive field是蓝色的11x11的区域,所以map3里1x1的区域对应map 1的receptive field是蓝色的11x11的区域。

2.4:池化层

我们先来看两种池化类型的示例:
在这里插入图片描述

在这里插入图片描述

2.4.1:原理

池化操作的作用有两个

  • 减轻计算负担
  • 增加感受野

吴恩达老师在视频中也说到过,池化操作背后深刻的原理其实也不见得有人能说得透彻清除,本质上就是因为实验效果好,可以加。

其实非要去理解的话,也是可以的,因为图像本身就是存在冗余信息的,用4个像素所表示特征信息可以用1个像素代替。从原图像中进行最大值或均值采样后(也就是所谓的池化),可以更好的把图像中的特征得到、识别,既然这样,能加为什么不加呢?

还需要补充一点是,在alphaGo的算法背后,利用的也是卷积神经网络,不同的是只有卷积层而没有池化层,因为在棋盘上每一个像素点都至关重要,不能因为减轻计算负担而随意舍去。这也是理解池化的一个例子。

2.4.2:总结

需要注意两点

  • 池化层的超参数是人工设定的,不需要通过训练从而学习得到
  • 池化层的最大值和平均值采样是单独作用于输入的每一个通道的。池化结果的通道数和输入的通道数相同。
    在这里插入图片描述

2.5:完整的卷积神经网络示例

注意:由于池化层没有需要学习的参数,只有超参数,所以通常会把卷积层和池化层两层统称为一层——1 layer

在这里插入图片描述

当然,关于卷积层和池化层的安排,上图只是一种示例,实际上,还有可能是多个卷积层后面跟着一个池化层,或者一些特殊场景(如上文提到过的alphaGo的棋盘例子中)根本没有池化层。

在这里插入图片描述
你需要清除以下几点

  1. 池化层没有任何需要学习的参数
  2. 卷积层趋向于拥有越来越少的参数
  3. 多数参数存在于全连接神经网络上

2.6:卷积神经网络的原理

其实上文一直在谈的是——卷积神经网络是什么,由什么组成等等。但是我觉得最重要的还是理解:为什么,为什么卷积神经网络可以。(虽然在本文最开始也把传统的全连接神经网络和带卷积的神经网络进行的简单的对比,说明为什么需要采用卷积而不是全连接,但我觉得那只是一方面)

首先我们需要理解,卷积神经网络,其实是计算机视觉+深度学习。在之前的机器学习中我们知道,通过输入数据,可以很好的进行分类、回归。将计算机视觉和深度学习结合起来,其实本质还是一样的,不同的在于:输入的数据,这也是为什么需要加入卷积层,而不能直接运用全连接层处理数据的原因。

比如之前讲的预测房价,输入就是房子大小、年龄这些基本的单特征。而对于计算机而言,你给它一张图片,只是一个三维或者二维矩阵,没有任何特征信息,换句话来说,直接把图片输入到全连接神经网络,即将像素点作为特征,这样的特征难以利用和复用以及进行比较。而卷积层的作用呢?提取特征,而且是有用的可复用的局部特征。通过卷积层提取到特征,并输入到全连接层进行相应的和之前机器学习中学到的传统的全连接神经网络进行特征信息处理并进行预测一模一样。一言蔽之:卷积神经网络识别图像的第一步:利用卷积层提取图像的局部特征。
在这里插入图片描述
在这里插入图片描述

OK,现在我们理解了卷积的作用——提取图像中的特征信息。我们现在的问题就缩小到了——卷积为什么能提取特征?提取的特征又是如何形式的?为什么这种方式提取的特征有效?

2.6.1:特征提取

从上文所讲的卷积操作,以及下面卷积操作结果的直观感受:卷积操作确实能提取特征。例如下图就利用垂直卷积核和水平卷积核,将图像中的垂直边缘信息和水平边缘信息提取出来。

到这里我们知道两点

  • 卷积操作确实可以提取局部特征
  • 不同的特征需要设计不同的卷积核(而在神经网络中,卷积核中的参数无需手动设计,网络会自己学习
    在这里插入图片描述
    关于卷积操作为什么能提取特征背后的本质,和卷积核到底充当一个什么角色,深入理解的话,那就需要了解下面所讲的:傅里叶变换和加窗傅里叶变换

2.6.2:加窗傅里叶变换

卷积的本质是:二维的加窗傅里叶变换。学过信号与系统的话,大致对傅里叶变换有一个理解,我之前也专门写了一篇理解傅里叶变换的博客:傅里叶变换和其图像处理中的应用。这里的卷积核其实就是类比于傅里叶基,通过利用卷积核对二维图像数据进行卷积操作(加窗傅里叶变换),其实是将图像中和卷积核相似的特征信息提取出来(说白了,如果卷积核套在这块像素和卷积核想表达的特征相似,那么这次卷积得到的中心像素值就大,也就是这块存在这种卷积特征)。
在这里插入图片描述

这也是为什么上文讲卷积操作时,吴恩达老师会说,有几个卷积核,也就是有几个特征的含义。
在这里插入图片描述

不过需要注意的是,不像上图中那些规则的卷积核,神经网络中卷积核的样子(也就是卷积核的参数)是由反向传播学习得到的,具体卷积核的样子也是等到训练结束后才得知。
在这里插入图片描述

在这里插入图片描述

比如下面举例识别字母X的例子。我们假设一开始卷积核模板已经学习得到或者设计好,即以下三个特征(模式/卷积核/过滤器)。
在这里插入图片描述

当利用相应的模板(卷积核)对其进行卷积操作时,与模板特征匹配越高,在中心像素点位置的值也就越高(响应越高)——本质上就是,在这个位置捕捉到了这个卷积核对应的特征!

在这里插入图片描述
然后向之前一样,用过滤器将原图像分别卷积一遍,得到3个feature map

feature map 是特征图的意思,是指每个卷积核和输入卷积后形成的特征图,特征图的个数和卷积核的个数相同

在这里插入图片描述
思考:我们可以看到,这样得到的特征信息,包含两个方面:

  • 这个位置存在什么特征
  • 这个特征存在的位置

🪧结合位置+特征这两个信息,将其展平(并不会丢失信息),输入全连接神经网络,神经网络开始干活,对特征信息进行像传统神经网络该做的事情,进行预测。

当然,上面这个例子过于简单,只有一层,多层神经网络和池化我们也讲到,其实还是为了获得更大的感受野和减轻计算负担,本质上还是一样的!

所以为什么经常会看到说对比于传统的计算机视觉,卷积神经网络可以自己学习特征,说到底就是通过反向传播学习这些卷积核里的参数。

2.6.3:卷积神经网络特征图可视化

接下来我们对特征图feature map进行可视化,来深入了解:

定义了一个4层的卷积,每个卷积层分别包含9个卷积、Relu激活函数和尺度不等的池化操作,系数全部是随机初始化

输入原图:
在这里插入图片描述
第一层卷积后可视化的特征图:
在这里插入图片描述
第二层卷积后可视化的特征图:
在这里插入图片描述
第三层卷积后可视化的特征图:

在这里插入图片描述

第四层卷积后可视化的特征图:
在这里插入图片描述
从不同层可视化出来的特征图大概可以总结出一点规律:

  1. 浅层网络提取的是纹理、细节特征
  2. 深层网络提取的是轮廓、形状、最强特征(如猫的眼睛区域)——或者说是前面特征(卷积核)叠加效果的通用、最强特征(个人直觉上),但看一层的特征当然看起来似乎不可解释,但是实际上最后得到的特征图是建立在前面那么多卷积核作用之后的。
  3. 浅层网络包含更多的特征,也具备提取关键特征(如第一组特征图里的第4张特征图,提取出的是猫眼睛特征)的能力
  4. 相对而言,层数越深,提取的特征越具有代表性
  5. 图像的分辨率是越来越小的

以上是个人结合一些视频和文章资料学习、整合和加入自己理解所写,能力有限,若有欠妥地方,欢迎评论区讨论和指正!💐

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/659833.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PostgreSql和Oracle的事务机制区别以及对程序的影响

前言 几年前IT信息产业的一些核心技术包括架构、产品以及生态都是国外制定,然而自从“遥遥领先”公司被制裁后,国家开始大力支持信息产业“新基建”,自2020年开始市场上涌现出了大量的国产化软件,就国产化数据库而言我所在的公司…

辽宁链家新房数据采集与可视化实现

摘 要 网络爬虫也叫做网络机器人,是一种按照一定的规则,自动地抓取网络信息,进行数据信息的采集与整理的程序或者脚本。随着海量数据的出现,如何快速有效的获取到我们想要的数据成为难题。以房源信息为例,该文使用Pyt…

做虾皮Shopee想高效发货?EasyBoss ERP的这个功能你不能错过!

随着业务的发展,许多Shopee、Lazada卖家的店铺订单量逐渐增大、仓库商品的SKU也越来越多。在这种情况下,一些卖家会选择采用人海战术来提高拣货、发货的效率。效率提高的同时,也意味着企业的用人成本的增加! 那么,如何…

在windows和Linux中的安装 boost 以及 安装 muduo

二、安装boost boost官网:boost官网 我下载的boost版本: windows:boost_1_84_0.ziplinux:boost_1_84_0.tar.gz 2.1 在windows中安装boost和测试 (1)在windows中,解压这个压缩包boost_1_84_0.zip,路径为…

【力扣经典面试题】189. 轮转数组

题目描述: 给定一个整数数组 nums,将数组中的元素向右轮转 k 个位置,其中 k 是非负数。 示例 1: 输入: nums [1,2,3,4,5,6,7], k 3 输出: [5,6,7,1,2,3,4] 解释: 向右轮转 1 步: [7,1,2,3,4,5,6] 向右轮转 2 步: [6,7,1,2,3,4,5] 向右轮转 …

免费的ppt网站分享

前言 相信大学生们深有体会,对于学校而言,好像是任何活动都需要我们做ppt,当你拿着自己辛苦做的ppt去展示现场的时候,你看到别人的ppt比你的还好,此时心情就是毙,当你知道人家不过是仅仅的1个小时不到就完成…

Java编程练习之类的封装

1.把一个Student类封装起来,模拟一个转校生转入新学校后为其制作学生信息的过程。运行结果如下: package zhtestdemo; import java.util.Scanner; import java.text.DecimalFormat; public class demo { //创建类,类名叫demo; private Stud…

使用阿里云的IDaaS实现知行之桥EDI系统的单点登录

,在开始测试之前,需要确定用哪个信息作为“登陆用户的ID字段”。 这个字段用来在完成SSO登陆之后,用哪个信息将阿里云IDaaS的用户和知行之桥EDI系统的用户做对应。这里我们使用了 phonenumber 这个自定义属性。需要在阿里云做如下配置&#x…

c++阶梯之引用与内联函数

1. 引用 1.1 引用概念 引用不是新定义一个变量,而是给已存在变量取了一个别名,编译器不会为引用变量开辟内存空间,它和它引用的变量共用同一块内存空间。 语法 类型& 引用变量名(对象名) 引用实体; 示例 很显然,在下面这…

stm32--simulink开发之--timer的学习,硬件输入中断,触发事件

总体的参考链接是: https://ww2.mathworks.cn/help/ecoder/stmicroelectronicsstm32f4discovery/ref/timer.html 输入: 1,配置项:Enable frequency input 缩写:freq conunt 说明:“freq count — Frequency…

2024热门游泳耳机排行榜,精选四款游泳耳机品牌

在追求健康生活的今天,游泳成为了许多人健身的首选活动之一。而为了让游泳体验更加愉悦,选择一款适合的游泳耳机显得尤为重要。这不仅能够为游泳者提供动感的音乐,缓解游泳过程中的疲劳感,同时还有助于提高游泳效率。在市场上琳琅…

中文计算机自学指南:打开全栈开发之门 | 开源日报 No.161

PKUFlyingPig/cs-self-learning Stars: 40.3k License: MIT cs-self-learning 是一个计算机自学指南。 该项目旨在提供一本完整的计算机自学指南,帮助初学者通过优质资源快速成长为全能程序员。 主要功能和核心优势包括: 提供丰富的开源课程资源支持多…

案例三:U盘提示格式化?3种方法帮你拯救它

在U盘的使用过程中最尴尬的情况就是遇到“无法打开,需要进行格式化”的提示。此时,我们如何才能在不破坏内部数据的情况下,挽救这个U盘呢? 小编今天就和说3个方法,可以用来解决U盘“无法打开,需要进行格式化…

工作流框架Activiti

工作流框架activiti 实现入住管理,审批流。 实现入退住,涉及多个表单的提交和多个角色的审核,若要实现这些流程的开发,最好的技术选型是使用工作流技术。 工作流(Work Flow):是一项将系统任务或操作抽取&#xff0c…

Windows10更新失败 错误 0x80070643、KB5034441的解决方法之二

Windows10更新失败 错误 0x80070643、KB5034441 在知乎Windows10更新失败 错误 0x80070643、KB5034441的原因分析和几个解决方法 - 知乎 参考文章进行操作,更详细信息自己看上面链接。 我电脑的硬盘是mbr格式,而且没有划分恢复分区。 Microsoft Windo…

nop-entropy可逆计算入门(1)

第1步:从大佬的gitee:https://gitee.com/canonical-entropy/nop-entropy下载源码,进行本地编译,具体编译看项目下的readme,想偷懒的可以下载我编译后的jar,放到自己的maven仓库 https://pan.baidu.com/s/15qANnrCh5RV…

Node.js的学习1

Node.js简介 浏览器是JavaScript的前端运行环境Node.js是JavaScript的后端运行环境Node.js中无法调用DOM和BOM等浏览器内置API 终端中的快捷键 使用向上箭头,可以快速定位到上一次执行的命令使用tab键,可以快速补全路径使用esc键,可以快速清…

Sentinel 知识总结

Sentinel 知识总结 Sentinel 是阿里巴巴开源的一个轻量级流量控制框架,主要用于保护系统稳定性和流畅性。它提供了多种流量控制策略,包括QPS限流、并发数限流、线程池限流等,并且支持集群限流。此外,Sentinel还提供了熔断降级、系…

学习使用vite+vue3的所遇问题总结

组件中使用<script>标签忘记加 setup 这会导致Navbar 没有暴露出来&#xff0c;导致使用不了&#xff0c;出现以下报错 这是因为&#xff0c;如果不用setup&#xff0c;就得使用 export default …… setup 是后者的语法糖 在Vue.js中&#xff0c;你可以通过route对象…

USTC ICS(2023Fall) Lab5 Password Verification

LC-3汇编语言 .orig x3000 LOOP1 AND R1,R1,#0ADD R1,R1,#3LEA R0, string1PUTS ;打印string1AND R0,R0,#0ADD R0, R0, #10 OUT ;打印换行符GETCOUT;检查输入的字符是否为W(ASCII码为87)ADD R0,R0,#-16ADD R0,R0,#-16ADD R0,R0,#-16ADD R…