卷积 - 感受野（Receptive Field）

flyfish

感受野（Receptive Field）是指卷积神经网络中某一层的一个特定神经元能够“看到”并响应的输入图像区域。简单来说，它是指卷积核在输入图像上滑动过程中每次覆盖的区域。感受野的大小随着卷积层的增加而增大，即网络越深，感受野越大。

感受野的直观理解

假设我们有一个简单的卷积神经网络，只有一层卷积层，卷积核大小为 $\times 3$ ，步长为 1，没有填充。

例子

输入图像（大小为 $\times 5$ ）：
$\begin{bmatrix} 1 & 2 & 3 & 4 & 5 \\ 6 & 7 & 8 & 9 & 10 \\ 11 & 12 & 13 & 14 & 15 \\ 16 & 17 & 18 & 19 & 20 \\ 21 & 22 & 23 & 24 & 25 \\ \end{bmatrix}$
卷积核（大小为 $\times 3$ ）：
$\begin{bmatrix} 1 & 0 & -1 \\ 1 & 0 & -1 \\ 1 & 0 & -1 \\ \end{bmatrix}$
卷积操作的步骤：

卷积核首先覆盖输入图像的左上角 $\times 3$ 区域： $\begin{bmatrix} 1 & 2 & 3 \\ 6 & 7 & 8 \\ 11 & 12 & 13 \\ \end{bmatrix}$ 这个区域就是第一个神经元的感受野。
卷积核向右滑动一个步长，覆盖下一个 $\times 3$ 区域： $\begin{bmatrix} 2 & 3 & 4 \\ 7 & 8 & 9 \\ 12 & 13 & 14 \\ \end{bmatrix}$ 这个区域就是第二个神经元的感受野。
以此类推，卷积核会覆盖输入图像上的每一个可能的 $\times 3$ 区域，每个区域都对应一个神经元的感受野。

更深层的感受野

假设我们有一个两层卷积神经网络：

第一层卷积层的卷积核大小为 $\times 3$ ，步长为 1，没有填充。
第二层卷积层的卷积核大小为 $\times 3$ ，步长为 1，没有填充。
在第一层，感受野的大小为 $\times 3$ 。在第二层，每个神经元的感受野由它在第一层的感受野决定，并且考虑到卷积核的大小，它实际上看到了第一层的 $\times 3$ 区域的 $\times 3$ 感受野。

第二层神经元的实际感受野大小可以通过计算来确定：

第一层的感受野大小： $\times 3$
第二层的卷积核大小： $\times 3$
第二层的每个神经元的感受野包括第一层中 $\times 3$ 区域的感受野。
所以，第二层的感受野大小是 $\times 5$ ，因为第二层的卷积核会覆盖第一层卷积的多个感受野，具体如下：

如果考虑第一层的每个感受野（ $\times 3$ ）作为一个单位块，那么第二层的感受野大小就是这些单位块的覆盖范围。
例如，第二层的一个神经元可能会结合第一层的9个不同感受野的输出

import torch
import torch.nn as nnclass SimpleCNN(nn.Module):def __init__(self):super(SimpleCNN, self).__init__()self.conv1 = nn.Conv2d(in_channels=1, out_channels=1, kernel_size=3, stride=1, padding=0)self.conv2 = nn.Conv2d(in_channels=1, out_channels=1, kernel_size=3, stride=1, padding=0)def forward(self, x):x = self.conv1(x)print(f"After conv1: {x.shape}")x = self.conv2(x)print(f"After conv2: {x.shape}")return xdef calculate_receptive_field(layers):receptive_field = 1for layer in layers:kernel_size = layer.kernel_size[0]stride = layer.stride[0]padding = layer.padding[0]receptive_field = ((receptive_field - 1) * stride) + kernel_size - 2 * paddingprint(f"Layer {layer}: receptive field size = {receptive_field}")# 输入图像
input_image = torch.tensor([[1, 2, 3, 4, 5],[6, 7, 8, 9, 10],[11, 12, 13, 14, 15],[16, 17, 18, 19, 20],[21, 22, 23, 24, 25]
], dtype=torch.float32).unsqueeze(0).unsqueeze(0)  # 添加批次和通道维度# 创建模型
model = SimpleCNN()# 进行前向传播
output = model(input_image)# 打印输出结果
print("输出结果:")
print(output.squeeze().detach().numpy())# 计算并输出感受野大小
calculate_receptive_field([model.conv1, model.conv2])

After conv1: torch.Size([1, 1, 3, 3])
After conv2: torch.Size([1, 1, 1, 1])
输出结果:
4.2884874
Layer Conv2d(1, 1, kernel_size=(3, 3), stride=(1, 1)): receptive field size = 3
Layer Conv2d(1, 1, kernel_size=(3, 3), stride=(1, 1)): receptive field size = 5

运行这段代码将会输出每一层卷积之后的特征图形状，以及每一层的感受野大小。输出结果将会显示每一层卷积操作后的感受野如何变化。

感受野大小的计算步骤

第一层卷积 $co n v 1$

输入图像大小： $\times 5$
卷积核大小： $\times 3$
步长： $1$
填充： $0$
计算第一层感受野大小：
$R_1 = 3$

第二层卷积 $co n v 2$

第一层输出特征图大小： $\times 3$
卷积核大小： $\times 3$
步长： $1$
填充： $0$
计算第二层感受野大小：
$R_2 = ((R_1 - 1) \times \text{stride}) + \text{kernel size} - 2 \times \text{padding}$
$R_2 = ((3 - 1) \times 1) + 3 - 2 \times 0$
$R_2 = 5$