卷积神经网络CNN
1,有效的利用了图像的空间信息/局部感受野
全连接神经网络中的神经是由铺平后的所有像素计算决定。 由于计算时是把图像的所有像素拉成了一条线,因此在拉伸的同时也损失了图像像素之间固有的空间信息。
卷积层中的神经只由5x5x3(假设filter的尺寸为5x5x3)个像素的计算结构决定,即,由图像的一部分决定。 这样一来也就保持了图像原有的空间信息,卷积层的这一特性也被城之称局部感受野。
局部感受野这一特性来自于一个早期的关于猫咪的实验(以下介绍引自参考文献1):
“故事得回到20世纪60年代初,哈佛大学两位神经生物学家休伯尔David Hubel和威泽尔Torsten Wiesel,作了一个有趣的猫咪实验,见图1。他们使用幻灯机向猫展示特定的模式,然后记录猫脑中各个神经元的电活动[1]。他们发现特定的模式刺激了猫咪大脑特定部位的活动。正因为他们在视觉信息处理方面的杰出贡献,荣获了1981年诺贝尔生理学或医学奖。
哈佛学者的实验证明,视觉特征在大脑皮层的反应是通过不同的细胞达成的。其中,简单细胞(Simple Cell)感知光照信息,复杂细胞(Complex Cell)感知运动信息。到了1980年前后,日本科学家福岛邦彦受猫咪生物实验的启发,模拟生物视觉系统并提出了一种层级化的多层人工神经网络,即“神经认知”系统,这是现今卷积神经网络的前身。在论文中,福岛邦彦提出了一个包含卷积层、池化层的神经网络结构。
福岛老爷爷今年已经88岁了,5年前他还发表了神经网络方面的研究论文。”
简单来说就是就猫的神经系统而言,例如猫的大脑。当猫看到某些物体物体时,大脑中只有一部分会产生特别强烈的响应。比如说,当猫看到球形时,在猫的大脑的左上角的某块区域会产生特别强烈的响应,但其他地方则无反应。当猫猫看到三角形时,大脑的右下角某块区域又会产生特别强烈的响应,等等。
如果再把这个实验结果和我们的全连接神经网络VS卷积神经网络来类比的话。卷积神经网络对不同事物的反映就好比是猫的大脑,是分区域响应的。而,如果猫的大脑使用的全连接神经网络模型的话,那么不论看到什么事物,猫的整个大脑都会同时产生响应。
2,卷积层的一些性质
2,1 卷积后activation map的尺寸
对于全连接神经网络而言,计算所产的神经元的个数等于class num。
对于卷积层而言,计算所产生的神经元的个数等于卷积运算后的图像尺寸。
2,2 有几个filter,卷积运算的结果就有几层。
下面的例子中输入图像是一个32x32x3的卡车,filter的尺寸为5x5x3,总共使用了16个不同的filter,产生了16层activation map。
2,3 bias偏置项
每个卷积层对应一个bias,因此有多少个filter就应该有多少个bias.
3,Pooling layer
池化即down-sample,也就是对输入数据进行下采样,经过下采样的数据长宽各缩减为原来的一半。一般常用的池化方式是max pooling。下采样的作用有二:
1,同时在水平和竖直两个方向缩小数据尺寸,节省空间
2,维持原始数据的空间不变性,即,下采样不会引入空间信息的变化。
4,CNN的大致框架结构
举个例子:
现有结构如下的CNN网络:input==>Conv==>ReLU==>Pool==>Conv==>ReLU==>Pool==>Conv==>ReLU==>Pool==>FC+softmax(以及在全连接层的最后一层后接softmax激活函数的FC神经网络)
(例如,在图像分类任务中,网络的最后一层可能是一个全连接层,其神经元数量等于类别数量。然后,通过softmax函数将这些神经元的输出值转换为概率分布,该网络用于预测输入图像属于每个类别的概率)
头三层:
中间三层:
最后三层:
fc+softmax:
(全文完)
--- 作者,松下J27
参考文献(鸣谢):
1,猫咪怎样启发了人工神经网络的诞生?
2,Stanford University CS231n: Deep Learning for Computer Vision
3,ConvNetJS CIFAR-10 demo
(配图与本文无关)
版权声明:所有的笔记,可能来自很多不同的网站和说明,在此没法一一列出,如有侵权,请告知,立即删除。欢迎大家转载,但是,如果有人引用或者COPY我的文章,必须在你的文章中注明你所使用的图片或者文字来自于我的文章,否则,侵权必究。 ----松下J27