三维卷积（ 3D CNN）

1.什么是三维卷积

1.1 三维卷积简介

二维卷积是在单通道的一帧图像上进行滑窗操作，输入是高度H宽度W的二维矩阵。

三维卷积输入多了深度C这个维度，输入是高度H宽度W深度C的三维矩阵。在卷积神经网络中，网络每层的宽度是由每一层特征图图的通道数绝决定的。多通道卷积看起来和三维卷积有一样的深度，但两者之间是有本质的区别的。

下面就是 3D 卷积，其过滤器深度小于输入层深度（核大小<通道大小）。因此，3D 过滤器可以在所有**三个方向（图像的高度、宽度、通道）**上移动。在每个位置，逐元素的乘法和加法都会提供一个数值。因为过滤器是滑过一个 3D 空间，所以输出数值也按 3D 空间排布。也就是说输出是一个 3D 数据。

1.2 三维卷积的工作原理

首先我们看一下3D CNN是如何对时间维度进行操作的，如下图所示，我们将时间维度看成是第三维，这里是对连续的四帧图像进行卷积操作，**3D卷积是通过堆叠多个连续的帧组成一个立方体，然后在立方体中运用3D卷积核。**在这个结构中，卷积层中每一个特征map都会与上一层中多个邻近的连续帧相连，因此捕捉运动信息。

注：3D卷积核只能从cube（立方）中提取一种类型的特征，因为在整个cube中卷积核的权值都是一样的，也就是共享权值，都是同一个卷积核（图中同一个颜色的连接线表示相同的权值）。我们可以采用多种卷积核，以提取多种特征。

2.三维卷积核多通道卷积的区别

2.1单通道卷积

输入是灰色图片，输入通道数是1，卷积核有3个，做三次卷积操作，生成3个特征图，输出通道数为3。

单通道特征图的计算为：

2.2 多通道卷积

首先先看一下多通道卷积，如下图所示，这里多通道的卷积不同通道上的卷积核参数是不相同的。

1个多通道卷积:

4个多通道卷积:

在这里插入图片描述

具体计算过程：

图是对一个3通道的图片做卷积操作，卷积核的大小为 3 × 3 ，卷积核的数目为3，此时过滤器指的就是这三个卷积核的集合，维度是 3 × 3 × 3 ，前面的 3 × 3 指的是卷积核的高度（H）和宽度（W），后面的那个 3 指的是卷积核的数目（通道数）。

上面的操作是对三个通道分别做卷积操作，然后将卷积的结果相加，最后输出一个特征图。

即：一个过滤器（3维|多通道）就对应一个特征图。

2.3 三维卷积和多通道卷积之间的区别

1）结构不一样：三维卷积核的大小为k*k*d,三维特征图的深度为L，一般d<L,由于卷积核本身是三维的（如下图所示），在三维的特征图上进行卷积时权重是共享的，输出时一个三维的特征图，所以和上面的多通道的卷积结构是不一样的。

三维卷积：

三维卷积示意

多通道卷积:

多通道卷积

多通道卷积的卷积核的第三个维度是通道数，所以看起来类似三维。

2）参数不一样：三维卷积核多通道卷积本质上是不同的，一次多通道卷积的数量为kxkxL(待卷积的三维特征图的深度为L),一次三维卷积的参数量为kxkxd，如果载考虑三维卷积的通道数C，则需要的参数数量为kxkxdxC.所以三维卷积和二维卷积的参数比为dxC/L，这样三维卷积的数量级会增加一个级别。

3）结果不一样：三维卷积后的channel取决于三维卷积核，而多通道卷积后的channel取决于卷积核的个数。

2.4 总结

3D CNN主要运用在视频分类、动作识别等领域，它是在2D CNN的基础上改变而来。由于2D CNN不能很好的捕获时序上的信息，因此我们采用3D CNN，这样就能将视频中时序信息进行很好的利用。首先我们介绍一下2D CNN与3D CNN的区别。如下图所示，a)和b)分别为2D卷积用于单通道图像和多通道图像的情况（此处多通道图像可以指同一张图片的3个颜色通道，也指多张堆叠在一起的图片，即一小段视频），对于一个滤波器，输出为一张二维的特征图，多通道的信息被完全压缩了。而c)中的3D卷积的输出仍然为3D的特征图。也就是说采用2D CNN对视频进行操作的方式，一般都是对视频的每一帧图像分别利用CNN来进行识别，这种方式的识别没有考虑到时间维度的帧间运动信息，而使用3D CNN能更好的捕获视频中的时间和空间的特征信息。

3.三维卷积的应用

三维卷积因为是三维的，所以它对具有3维的数据进行处理，比如视频（宽、高、时间|多帧的二维图片），点云（一些三维点的集合），常见的应用有视频、点云的分类、分割。

3.1视频的分类

虽然视频本质上是连续帧的二维图像，但是如果将一段视频切片当做一个整体，将其数据升级到三维，三维卷积神经网络在视频方面应用最广泛的就是进行视频分类。与二维神经网络相同，三维神经网络也包括输入层，卷积层，池化层，全连接层，损失函数层等网络层。下面相似介绍图中的三维神经网络的工作原理：

input—>H1：

神经网络的输入为7张大小为6040的连续帧，7张帧通过事先设定硬核（hardwired kernels）获得5种不同特征：灰度、x方向梯度、y方向梯度、x方向光流、y方向光流，前面三个通道的信息可以直接对每帧分别操作获取，后面的光流（x，y）则需要利用两帧的信息才能提取，因此H1层的特征maps数量：（7+7+7+6+6=33）[解释：7个灰度（输入是7个），7个x方向梯度，7个y方向梯度，6个x方向光流（因为是两帧作差得到的，所以7个，相互两个作差就是6个），6个y方向光流]，特征maps的大小依然是60 40。

H1—>C2

用两个7*7*3的3D卷积核对5个channels分别进行卷积，获得两个系列，每个系列5个channels（7* 7表示空间维度，3表示时间维度，也就是每次操作3帧图像），同时，为了增加特征maps的个数，在这一层采用了两种不同的3D卷积核，因此C2层的特征maps数量为：（（（7-3）+1）* 3+（（6-3）+1）* 2）* 2=23* 2。这里右乘的2表示两种卷积核。特征maps的大小为：（（60-7）+1）* （（40-7）+1）=54 * 34。然后为卷积结果加上偏置套一个tanh函数进行输出。（典型神经网。）

C2—>S3

2x2池化，下采样。下采样之后的特征maps数量保持不变，因此S3层的特征maps数量为：23 *2。特征maps的大小为：（（54 / 2） * （34 /2）=27 *17

S3—>C4

为了提取更多的图像特征，用三个763的3D卷积核分别对各个系列各个channels进行卷积，获得6个系列，每个系列依旧5个channels的大量maps。

我们知道，从输入的7帧图像获得了5个通道的信息，因此结合总图S3的上面一组特征maps的数量为（（7-3）+1） * 3+（（6-3）+1） * 2=23,可以获得各个通道在S3层的数量分布：

前面的乘3表示gray通道maps数量= gradient-x通道maps数量= gradient-y通道maps数量=（7-3）+1）=5；

后面的乘2表示optflow-x通道maps数量=optflow-y通道maps数量=（6-3）+1=4；

假设对总图S3的上面一组特征maps采用一种7 6 3的3D卷积核进行卷积就可以获得：

（（5-3）+1）* 3+（（4-3）+1）* 2=9+4=13；

三种不同的3D卷积核就可获得13* 3个特征maps，同理对总图S3的下面一组特征maps采用三种不同的卷积核进行卷积操作也可以获得13*3个特征maps，

因此C4层的特征maps数量：13* 3* 2=13* 6

C4层的特征maps的大小为：（（27-7）+1）* （（17-6）+1）=21*12