一、你怎么理解卷积神经网络呢,我的理解是当你看一个东西的时候,你的眼睛距离图片越近,你看到的东西就越清晰,但是如果你看到的图片只是整个物体的一小部分,那么你将不知道你看到的物品是什么,因为关注整体更容易知道物品是什么。如果你保持一定的距离,你就会发现你可以看到物品更加的全貌一些,这样将方便你观察物品的类别。如果你距离的再远一点,你就会看到物品的轮廓,那么你将依据物品的轮廓去判断物品的类别。
如果图片的噪声很多,我们可以距离物品远一点,这样我们看的东西的轮廓来判断物品更合适。
如果图片的噪声很小,那我们可以距离物品近一点,就可以看到物品的类型。
可能这么理解还不够准确,不够这样理解我更加方便理解。
二、下面我们来说一下,一个卷积神经网络包含哪些:
大家可以在哔哩哔哩上搜《【数之道 08】走进"卷积神经网络",了解图像识别背后的原理》
他讲的已经非常好了。
其实还有一个输入层,如果一定要这么理解的话,我们的图片就是输入层。
1、卷积层:卷积层指的是把一张图片,按照纵向和横向的提取方法,来提取图片的特征。
按照3*3
0 1 0
0 1 0
0 1 0
和
0 0 0
1 1 1
0 0 0
在一个6*6(一般为了提取的信息更加准确,还是把(6*6的上下作用添加0,组成8*8)的图片上以此从做往右进行提取。提取图片的横向和纵向特征。
提取完的是一个6*6的图片矩阵。
2、最大池化层:
按照2*2的方式来提取6*6找到每一个小的2*2小矩阵的最大值作为最后3*3矩阵的输入值。
3、全连接层
也就是我们在神经元中的输入成和对应的隐藏层
输入成是纵向3*3展开后的1*9的输入层,还有加上横向输入层也是1*9,一共最后是1*18
隐藏层可以是一层,也可以是多层。
中间使用激活函数relu进行激活
4、输出层
输出我们识别的或者是数字,如果我们还是在MNIST上进行的练习,我们可以得到就是我们能识别的数字,其中再加上我们熟悉的输出层的激活函数softmax。可以更好的识别图片中的数字。
这么结合着来理解会更好。