深入卷积神经网络背后的数学原理

640?wx_fmt=gif

来源:AI科技大本营

摘要:在计算机神经视觉技术的发展过程中,卷积神经网络成为了其中的重要组成部分,本文对卷积神经网络的数学原理进行了介绍。


文章包括四个主要内容:卷积、卷积层、池化层以及卷积神经网络中的反向传播原理。在卷积部分的介绍中,作者介绍了卷积的定义、有效卷积和相同卷积、跨步卷积、3D卷积。


在卷积层部分,作者阐述了连接切割和参数共享对降低网络参数学习量的作用。在池化层部分,作者介绍了池化的含义以及掩膜的使用。



自动驾驶、智能医疗、智能零售,这些曾被认为不可能实现的事情,在计算机视觉技术的帮助下,终于在最近成为了现实。今天,自动驾驶和自动杂货店的梦想不再像以前那样遥不可及。


事实上,每天我们都在使用计算机视觉技术帮助我们用人脸解锁手机,或者对即将发布到社交媒体上的照片进行自动修饰。


在计算机视觉技术应用这一巨大成功的背后,卷积神经网络(CNN)可能是其中最重要的组成部分。


在本文中,我们将逐步理解,神经网络是如何与 CNN 特有的思想协作的。本文章包含了相当复杂的数学方程式,但如果您对线性代数和微积分不熟悉,请不要气馁。


我的目标不是让您记住那些公式,而是让您从直觉上去理解这些公式背后隐藏的意义。


01

前言


在之前的系列中,我们学习了密集连接的神经网络(densely connected neural networks)。


这些网络的神经元被分成组,形成连续的层,相邻的两个层之间的神经元相互连接。下图展示了一个密集连接的神经网络的示例。


640?wx_fmt=png

Figure 1. Densely connected neural network architecture


当我们解决分类问题时,如果我们的特征是一组有限的并有明确定义的特征,这种方法是很有效的——例如,根据足球运动员在比赛期间所记录的统计数据,预测该运动员的位置。


但是,当使用照片来进行预测时,情况会变得更加复杂。我们当然可以将每个像素的亮度视为一个单独的特征,并将其作为输入传递给我们的密集网络(dense network)。


不幸的是,为了使神经网络能够处理典型的智能手机照片,该网络必须包含数千万甚至数亿个神经元。


我们也可以通过缩小照片的尺寸来进行处理手机照片,但是这样做会使我们丢失很多有价值的信息。


可以发现,这种传统策略的性能很差,因此我们需要一种新的、更加聪明的方法来尽可能多地使用数据,并同时减少必要的计算和参数的数量。CNN 闪亮登场的时候到了。


02

数字图像的数据结构


首先花一点时间来解释一下数字图像的存储方式。数字图像实际上是巨大的数字矩阵。矩阵中的每个数字对应于其像素的亮度。


在 RGB 模型中,彩色图像由三个矩阵组成,分别对应三个颜色通道——红,绿,蓝。而在黑白图像中,我们只需要一个矩阵。


矩阵中的每个数字的取值区间都是 0 到 255。该范围是存储图像信息的效率(256个值刚好适合1个字节)与人眼的灵敏度(我们区分同种颜色的灰度级别的数量极限)之间的折衷。


640?wx_fmt=png

 Figure 2. Data structure behind digital images



03

卷积


核卷积(kernel convolution)不仅仅用于 CNN,它还是许多其他计算机视觉算法的关键要素。


核卷积就是将一个小数字矩阵(滤波器,也称作 kernel 或 filter)在图像上进行滑动,并根据 kernel 的值,对图像矩阵的值进行转换的过程。对图像经过卷积操作后得到的输出称为特征映射(feature map)。


特征映射的值的计算公式如下,其中 f 代表输入图像,h 代表滤波器 。结果矩阵的行数和列数分别用 m 和 n 表示。


640?wx_fmt=png

640?wx_fmt=gif       Figure 3. Kernel convolution example


将 kernel 放在选定的像素上后,我们从 kernel 中依次取出每个值,并将它们成对地与图像中的相应值相乘。


最后,我们将每个核运算后的结果元素相加,并将求和结果放在输出特征图中的正确位置上。


上图从微观角度详细地展示了这一运算的过程,但在完整图像上实施该运算的结果可能更加有趣。图4展示了使用几个不同 kernel 的卷积结果。


640?wx_fmt=gif

       Figure 4. Finding edges with kernel convolution 



04

有效卷积&相同卷积(Valid and Same Convolution)


正如我们在图3中看到的,当我们使用 3x3 的 kernel 对 6x6 图像执行卷积时,我们得到 4x4 的特征映射。


这是因为在这个图像中,只有16个位置可以将 kerenl 完整地放在这张图像中。由于每次执行卷积时我们的图像都会缩小,因此在我们的图像完全消失之前,我们只能进行有限次数的卷积。


另外,如果对 kernel 在图像中移动的过程进行观察,我们就会发现图像外围像素的影响远小于图像中心像素的影响。


这样会导致我们失去图像中包含的一些信息。下图展示了像素位置的改变对特征图的影响。


640?wx_fmt=gif       Figure 5. Impact of pixel position



为了解决这两个问题,我们可以使用额外的边框来填充图像(padding)。例如,如果使用 1像素进行填充,我们将图像的大小增加到 8x8,因此使用 3x3 的 kernel 的卷积,其输出尺寸将为 6x6 。


在实践中,我们通常用零值来填充额外的边界。根据是否使用填充,我们将处理两种类型的卷积—— Valid 和 Same。


Valid —— 使用原始图像,Same —— 使用原始图像并使用它周围的边框,以便使输入和输出的图像大小相同。


在第二种情况下,填充宽度应满足以下等式,其中 p 是填充尺寸,f 是 kernel 尺寸(通常是奇数)。

640?wx_fmt=jpeg 

05

跨步卷积(Strided Convolution)


640?wx_fmt=gif       Figure 6. Example of strided convolution



在前面的例子中,我们总是每次将 kernel 移动一个像素,即步长为1。步长也可以视为卷积层的超参数之一。


图 6 展示了使用更大步长时的卷积运算。在设计 CNN 架构时,如果希望感知域重叠较少,或者希望让特征图的空间维度更小,我们可以增加步长。


输出矩阵的尺寸(考虑填充和步长时)可以使用以下公式计算。


640?wx_fmt=png    

06

过渡到第三个维度


体积卷积(Convolution over volume)是一个非常重要的概念,这不仅使我们能够处理彩色图像,而且更为重要的是,我们能够在单层网络中使用多个 kernel 。


第一个规则是 kernel 和图像必须具有相同数量的通道。一般而言,图像的处理过程和图3的示例非常相似,但是这次我们是将三维空间中的值对相乘。


如果想在同一个图像上使用多个 kernel,首先我们要分别对每个 kernel 执行卷积,然后将结果从顶层向下进行叠加,最后将它们组合成一个整体。


输出张量的尺寸(可以称为3D矩阵)满足以下等式,其中:n - 图像大小,f  - 滤波器大小,nc  - 图像中的通道数,p - 填充大小,s -  步幅大小,nf  - kernel 的数量。


640?wx_fmt=png

       Figure 7. Convolution over volume


07

卷积层



接下来我们将用前面学到的知识来构建 CNN 的一个层。我们将要用到的方法几乎与构建密集神经网络时用到的相同,唯一有区别的地方是,我们不再使用简单的矩阵乘法,而是使用卷积。


前向传播包括两个步骤。第一步是计算中间值 Z:首先将前一层的输入数据与张量 W(包含滤波器)进行卷积,然后将运算后的结果加上偏差 b 。


第二步是将中间值 Z 输入到非线性激活函数中(使用 g 表示该激活函数)。下面展示了矩阵形式的数学公式。


如果您对公式中的任何部分不太清楚,我强烈推荐您去阅读一下我之前的文章,文中详细讨论了密集连接的神经网络的具体内容。


下文的插图很好地展示了公式中各张量的维数,以助于理解。


640?wx_fmt=jpeg

640?wx_fmt=png       Figure 8. Tensors dimensions


连接切割和参数共享(Connections Cutting and Parameters Sharing)


在本文的开头曾提到,由于需要学习大量的参数,密集连接的神经网络在处理图像方面的能力很差,而卷积却为该问题提供了一种解决方案,下面我们一起来看看卷积是如何优化图像处理的计算的。


在下图中,我们用一种略微不同的方式对 2D 卷积进行了可视化——用数字 1-9 标记的神经元构成输入层,用于接收输入图像的像素亮度,单元 A-D 表示经过卷积计算后得到的特征映射。


最后,I-IV 表示来自 kernel 的后续值,这些值是需要网络进行学习的。


640?wx_fmt=gif       Figure 9. Connections cutting and parameters sharing


现在,让我们关注卷积层的两个非常重要的属性。第一,从图中可以看到,并非两个相邻层中的所有神经元都相互连接。


例如,神经元 1 仅影响 A 的值。第二,我们可以发现一些神经元使用了相同的权重。这两个属性意味着在 CNN 中我们需要学习的参数要少得多。


值得一提的是,kernel 中的任一单值都会影响输出特征映射的每一个元素——这在反向传播的过程中是至关重要的。


08

卷积层的反向传播

(Convolutional Layer Backpropagation)


任何曾经试图从头开始编写神经网络的人都知道,前向传播还不到最终成功的一半。当你开始向回推算时,真正的乐趣才刚刚开始。


如今,我们不需要为反向传播而烦恼——因为深度学习框架已经为我们做好了,但是我觉得有必要弄明白它背后发生的事情。


就像在密集连接的神经网络中一样,我们的目标是计算导数,然后在梯度下降的过程中,用这些导数去更新我们的参数值。


在下面的计算中,我们将用到链式法则 —— 这在我之前的文章中提到过。我们想要评估参数的变化对结果特征映射的影响,以及随之对最终结果的影响。


在开始详细讨论之前,我们需要将数学符号统一 —— 为了表示方便,我不会使用偏导数的完整符号,而是用下面提到的缩符号。


但是请记住,当我使用这种表示法时,这将始终代表着成本函数的偏导。


640?wx_fmt=jpeg     640?wx_fmt=pngFigure 10. Input and output data for a single convolution layer in forward and backward propagation


我们的任务是计算 dW [1] 和 db [l] (它们是与当前层参数相关的导数),以及 dA[l-1](它将被传递给前一层)。


如图10所示,dA[l] 作为输入,张量 dW 和 W,db 和 b 以及 dA 和 A 的维度分别相同。第一步是求激活函数关于输入张量的导数,将其结果记为 dZ [1] 。根据链式法则,该运算的结果将在后面用到。


640?wx_fmt=png    

现在,我们需要处理卷积自身的反向传播。为了实现这个目标,我们将利用一个称为全卷积的矩阵运算,该运算的可视化解释如下图所示。


请注意,在此过程中我们要使用 kernel,而我们之前用到的 kernel 是该 kernel 旋转了180度所得到的。


该操作可以用以下公式表示,其中 kernel 由 W 表示,dZ[m,n] 是一个标量,该标量属于从前一层所获得的偏导数。


640?wx_fmt=png

640?wx_fmt=gif       Figure 11. Full convolution

09

池化层(Pooling Layers)


除了卷积层之外,CNN 经常使用一个称为池化层的网络层,它们主要用于减小张量的大小并加快计算速度。


这个层的结构很简单,我们只需要将图像划分成不同的区域,然后对每个部分执行一些操作即可。


例如,对于最大池化层(Max Pool Layer),我们从每个区域中选择一个最大值,并将其放在输出中的相应位置即可。


与卷积层的情况一样,我们有两个超参数——kernel 的尺寸和步长。


最后值得一提是,如果要为多通道图像执行池化操作,则每个通道都应该分别执行池化操作。


640?wx_fmt=gif      Figure 12. Max pooling example


10

池化层的反向传播(Pooling Layers Backpropagation)


在本文中,我们仅讨论最大池化的反向传播(max pooling backpropagation),但是通过将该方法稍作调整,便可运用到其他所有类型的池化层。


由于在池化层这种类型的层中,我们不用更新任何参数,我们的任务只是适度地分配梯度值。


前文讲到,在最大池化的前向传播中,我们从每个区域中选择最大值并将它们传输到下一层。


因此很明显,在反向传播期间,梯度不会影响未在前向传播中使用的矩阵元素。


在实际操作中,该过程是通过创建一个掩膜(mask)来实现的,该掩膜会记住在前向传播中所使用的元素的位置,随后我们就可以用该掩膜来传递梯度。


640?wx_fmt=gif       Figure 13. Max pooling backward pass


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/492070.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux学习之如何在物理机上安装Linux发行版

Linux学习之如何在物理机上安装Linux发行版 第一步:制作系统安装盘 准备一个至少8GB的空白U盘。下载启动盘制作工具Rufus,下载链接:https://pan.baidu.com/s/1CU8oZJVyCgdwETI2VxJwxA 提取码:gwi1下载Linux发行版安装镜像&#…

jQuery Easy UI Accordion(可伸缩的面板)包

Accordion 可伸缩的面板组件。基于panel,示为以下的比率&#xff1a; <!doctype html> <html lang"en"><head><meta charset"UTF-8"><script type"text/javascript" src"easyui/jquery.min.js"></sc…

Linux学习之ARM开发板连接ubuntu18.04LTS及NFS相关配置

Linux学习之ARM开发板连接ubuntu18.04LTS及NFS相关配置 第一步&#xff1a;在PC机安装Ubuntu18.04LTS 具体安装步骤参见上一篇文章 第二步&#xff1a;安装arm-linux-gcc交叉编译环境 在终端中执行sudo mkdir /forlinx,新建名为forlinx的文件夹&#xff08;文件夹名可任意&…

报告解读 | 智能技术“核聚变”催生智能经济,将拉动十万亿市场

来源&#xff1a;阿里研究院从IT时代、互联网到智能2019年政府工作报告&#xff0c;正式提出了“智能”战略&#xff1a;“深化大数据、人工智能等研发应用。打造工业互联网平台&#xff0c;拓展‘智能’&#xff0c;为制造业转型升级赋能。”以5G、物联网、人工智能等技术为代…

Linux学习之云服务器搭建嵌入式Linux开发环境

Linux学习之云服务器搭建嵌入式Linux开发环境 第一步&#xff1a;购买云服务器 进入腾讯云官方网站腾讯云官方网站 选择云校园云校园 进入控制台 将云服务器系统设置为Ubuntu系统 使用Xshell6登录云服务器 使用Xftp6进行文件的上传与下载 在云服务器安装arm-linux-gcc…

JS中toFixed()方法的问题及解决方案

最近发现JS当中toFixed()方法存在一些问题&#xff0c;采用原生的Number对象的原型对象上的toFixed()方法时&#xff0c;规则并不是所谓的“四舍五入”或者是“四舍六入五成双”&#xff0c;所谓“四舍六入五成双”&#xff0c;在百度百科上给的解释是&#xff1a;也即“4舍6入…

AI的阿基里斯之踵:模糊性

来源&#xff1a;IEEE电气电子工程师学会摘要&#xff1a;网罗全球科技前沿动态&#xff0c;为科研创业打开脑洞。很多年前&#xff0c;我和一位朋友去参观一个果园。他的儿子是这个果园的经理&#xff0c;向我们介绍了其工作。我的这位朋友和我都是工程师&#xff0c;开始讨论…

哈勃望远镜进一步确认宇宙在加速膨胀

来源&#xff1a;新华社美国哈勃太空望远镜的新观测成果进一步确认了宇宙在加速膨胀&#xff0c;现在的膨胀速度比根据早期宇宙特征预测的膨胀速度快大约9%。此次研究成果25日发表在美国《天体物理学杂志》上。研究人员利用新方法对大麦哲伦星云的70颗造父变星进行了观测。有“…

Git的安装和配置

Git的安装和配置 一、下载并安装git git下载地址 所有均选择默认值&#xff0c;一路NEXT 二、下载并安装tortoisegit 所有均选择默认值&#xff0c;一路NEXT 三、新建GitHub存储库 1.打开github官方网站&#xff0c;注册账号 2.登录后点击绿色NEW按钮 3.进入如图所示&am…

AI芯片重磅破局者,开启边缘新智元

来源&#xff1a;物联网智库摘要&#xff1a;曾几何时&#xff0c;我们惊讶于AI算力和智力的创新程度&#xff0c;但彼时AI所创造的产业价值并不明显。随着移动互联网时代走向物联网时代&#xff0c;越来越多的场景和终端需要对数据进行即时高效的处理&#xff08;如车联网、无…

Python学习笔记(序列和元组)

序列和元组 序列是指一种包含多项数据的数据结构&#xff0c;序列包含的多个数据项(成员)按顺序排列&#xff0c;可通过索引&#xff08;下标&#xff09;&#xff0c;来访问序列成员。Python常见的序列包括字符串、元组、列表等&#xff0c;字节串也是序列&#xff0c;namedt…

Python学习笔记(列表和元组的简单实用)

一、通过索引访问元素 1.列表和元组都可通过索引来访问元素 一种是正向访问&#xff0c;从左到右&#xff0c;索引从0开始&#xff0c;第一个元素的索引为0&#xff0c;第二个为1&#xff0c;以此类推。 另一种是反向访问&#xff0c;从右到左&#xff0c;索引从-1开始&#…

《全球人工智能发展报告(2018)》发布:一览全球AI领域竞争态势

来源&#xff1a;乌镇智库乌镇智库《全球人工智能发展报告》以宏观视角纵览全球人工智能的发展&#xff0c;覆盖了知识产权、投融资、人才、应用场景等多个维度&#xff0c;为读者清晰地展现出人工智能全球发展的最新趋势&#xff0c;各国在人工智能领域的竞争态势以及中国各地…

解读|智能技术“核聚变”催生智能经济,将拉动十万亿市场

来源&#xff1a;阿里研究院从IT时代、互联网到智能 2019年政府工作报告&#xff0c;正式提出了“智能”战略&#xff1a;“深化大数据、人工智能等研发应用。打造工业互联网平台&#xff0c;拓展‘智能’&#xff0c;为制造业转型升级赋能。”以5G、物联网、人工智能等技术为代…

C#课堂笔记(二)

C#基础 一、C#中的命名空间 C#程序中的一种代码组织形式&#xff0c;主要用来标识类的可见范围&#xff0c;使用namespace关键字定义命名空间。 在C#中&#xff0c;使用命名空间用using关键字。 二、类的概念 1.什么是类&#xff1f; 类是一种数据结构&#xff0c;存储数…

【转】使用Auto Layout中的VFL(Visual format language)--代码实现自动布局

原文&#xff1a;http://www.cocoachina.com/ios/20141209/10549.html 本文将通过简单的UI来说明如何用VFL来实现自动布局。在自动布局的时候避免不了使用代码来加以优化以及根据内容来实现不同的UI。 一&#xff1a;API介绍 NSLayoutConstraint API 1 NSLayoutConstraint cons…

5G时代来临,高通如何让AI触手可及?

来源&#xff1a;量子位在高通人工智能开放日之后&#xff0c;我们需要再次刷新对高通这家公司的认知了。不需要耗费巨大的算力&#xff0c;高通与vivo、腾讯王者荣耀、腾讯AI Lab合作&#xff0c;他们正共同打造一支AI电竞战队“SUPEX”&#xff0c;将与人类玩家对战。让手机芯…

C#课堂笔记(三)

C#变量类型 一、数据类型 1.值类型 简单&#xff1a;整数、实数、字符、布尔 复合&#xff1a;结构、枚举 值类型直接存储值&#xff0c;在栈中分配存储空间。简单类型&#xff1a;数值型&#xff0c;字符型&#xff0c;布尔型 &#xff08;1&#xff09;整数类型 &#…