深度学习基本单元结构与输入输出维度解析

在深度学习领域，模型的设计和结构是理解其性能和应用的关键。本文将介绍深度学习中的基本单元结构，包括卷积神经网络（CNN）、反卷积（转置卷积）、循环神经网络（RNN）、门控循环单元（GRU）和长短期记忆网络（LSTM），并详细讨论每个单元的输入和输出维度。我们将以 MNIST 数据集为例，展示这些基本单元如何组合在一起构建复杂的模型。
之前的博客：
深入理解 RNN、LSTM 和 GRU：结构、参数与应用
理解 Conv2d 和 ConvTranspose2d 的输入输出特征形状计算

1. 模型结构概述

我们构建的模型包含以下主要部分：

卷积神经网络（CNN）
反卷积（转置卷积）
循环神经网络（RNN）
门控循环单元（GRU）
长短期记忆网络（LSTM）
全连接层

2. 模型代码

以下是实现综合模型的代码：

import torch
import torch.nn as nn
import torch.optim as optim
import torchvision.transforms as transforms
from torchvision import datasets
from torch.utils.data import DataLoader# 定义模型
class CombinedModel(nn.Module):def __init__(self):super(CombinedModel, self).__init__()# CNN 部分self.conv1 = nn.Conv2d(1, 32, kernel_size=3, stride=1, padding=1)  # 输入: (1, 28, 28) -> 输出: (32, 28, 28)self.pool = nn.MaxPool2d(kernel_size=2, stride=2)  # 最大池化层self.conv2 = nn.Conv2d(32, 64, kernel_size=3, stride=1, padding=1)  # 输入: (32, 28, 28) -> 输出: (64, 28, 28)# 反卷积部分self.deconv = nn.ConvTranspose2d(64, 32, kernel_size=2, stride=2)  # 输入: (64, 14, 14) -> 输出: (32, 28, 28)# RNN 部分self.rnn_input_size = 32 * 14 * 14  # 输入到 RNN 的特征数self.rnn = nn.RNN(input_size=self.rnn_input_size, hidden_size=128, num_layers=1,batch_first=True)  # 输入: (batch_size, seq_len, input_size)# GRU 部分self.gru = nn.GRU(input_size=128, hidden_size=64, num_layers=1,batch_first=True)  # 输入: (batch_size, seq_len, input_size)# LSTM 部分self.lstm = nn.LSTM(input_size=64, hidden_size=32, num_layers=1,batch_first=True)  # 输入: (batch_size, seq_len, input_size)# 全连接层self.fc = nn.Linear(32, 10)  # 输出: (batch_size, 10)def forward(self, x):# CNN 部分print(f'Input shape: {x.shape}')  # 输入形状: (batch_size, 1, 28, 28)x = self.pool(torch.relu(self.conv1(x)))  # 输出: (batch_size, 32, 28, 28)print(f'After conv1 and pool: {x.shape}')x = self.pool(torch.relu(self.conv2(x)))  # 输出: (batch_size, 64, 14, 14)print(f'After conv2 and pool: {x.shape}')# 反卷积部分x = self.deconv(x)  # 输出: (batch_size, 32, 14, 14)print(f'After deconv: {x.shape}')# 将数据展平并调整形状以输入到 RNNx = x.view(x.size(0), -1)  # 展平为 (batch_size, 32 * 14 * 14)print(f'After flattening: {x.shape}')x = x.unsqueeze(1)  # 添加序列长度维度，变为 (batch_size, 1, 32 * 14 * 14)print(f'After unsqueeze for RNN: {x.shape}')# RNN 部分x, _ = self.rnn(x)  # 输出: (batch_size, 1, 128)print(f'After RNN: {x.shape}')# GRU 部分x, _ = self.gru(x)  # 输出: (batch_size, 1, 64)print(f'After GRU: {x.shape}')# LSTM 部分x, _ = self.lstm(x)  # 输出: (batch_size, 1, 32)print(f'After LSTM: {x.shape}')# 取最后一个时间步的输出x = x[:, -1, :]  # 输出: (batch_size, 32)print(f'After selecting last time step: {x.shape}')# 全连接层x = self.fc(x)  # 输出: (batch_size, 10)print(f'Output shape: {x.shape}')return x# 3. 数据加载
transform = transforms.Compose([transforms.ToTensor(),transforms.Normalize((0.5,), (0.5,))  # MNIST 数据集的均值和标准差
])# 下载 MNIST 数据集
train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
test_dataset = datasets.MNIST(root='./data', train=False, download=True, transform=transform)train_loader = DataLoader(dataset=train_dataset, batch_size=64, shuffle=True)
test_loader = DataLoader(dataset=test_dataset, batch_size=64, shuffle=False)# 4. 训练模型
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = CombinedModel().to(device)
criterion = nn.CrossEntropyLoss()  # 损失函数
optimizer = optim.Adam(model.parameters(), lr=0.001)  # 优化器# 训练过程
num_epochs = 5
for epoch in range(num_epochs):model.train()running_loss = 0.0correct = 0total = 0for images, labels in train_loader:images, labels = images.to(device), labels.to(device)  # 将数据移动到设备optimizer.zero_grad()  # 清空梯度outputs = model(images)  # 前向传播loss = criterion(outputs, labels)  # 计算损失loss.backward()  # 反向传播optimizer.step()  # 更新参数running_loss += loss.item()_, predicted = torch.max(outputs.data, 1)  # 获取预测结果total += labels.size(0)correct += (predicted == labels).sum().item()avg_loss = running_loss / len(train_loader)accuracy = 100 * correct / totalprint(f'Epoch [{epoch + 1}/{num_epochs}], Loss: {avg_loss:.4f}, Accuracy: {accuracy:.2f}%')# 5. 评估模型
model.eval()
correct = 0
total = 0
with torch.no_grad():for images, labels in test_loader:images, labels = images.to(device), labels.to(device)  # 将数据移动到设备outputs = model(images)_, predicted = torch.max(outputs.data, 1)  # 获取预测结果total += labels.size(0)correct += (predicted == labels).sum().item()print(f'Accuracy of the model on the test images: {100 * correct / total:.2f}%')

3. 每个基本单元的输入输出维度

3.1 CNN 部分

输入：(batch_size, 1, 28, 28)
- 这是 MNIST 数据集的输入形状，其中 1 表示单通道（灰度图像），28x28 是图像的高度和宽度。
卷积层 1：
- self.conv1 = nn.Conv2d(1, 32, kernel_size=3, stride=1, padding=1)
- 输入形状：(batch_size, 1, 28, 28)
- 输出形状：(batch_size, 32, 28, 28)
- 32 个特征图，空间维度保持不变。
最大池化层 1：
- 输入形状：(batch_size, 32, 28, 28)
- 输出形状：(batch_size, 32, 14, 14)
- 高度和宽度减半。
卷积层 2：
- self.conv2 = nn.Conv2d(32, 64, kernel_size=3, stride=1, padding=1)
- 输入形状：(batch_size, 32, 14, 14)
- 输出形状：(batch_size, 64, 14, 14)
- 64 个特征图，空间维度保持不变。
最大池化层 2：
- 输入形状：(batch_size, 64, 14, 14)
- 输出形状：(batch_size, 64, 7, 7)
- 高度和宽度再次减半。

3.2 反卷积部分

反卷积层：
- self.deconv = nn.ConvTranspose2d(64, 32, kernel_size=2, stride=2)
- 输入形状：(batch_size, 64, 7, 7)
- 输出形状：(batch_size, 32, 14, 14)
- 高度和宽度翻倍。

3.3 RNN 部分

展平：
- x = x.view(x.size(0), -1)
- 输入形状：(batch_size, 32, 14, 14)
- 输出形状：(batch_size, 6272) # 这里的 6272 是 32 * 14 * 14
- 将特征图展平为一个向量。
添加序列长度维度：
- x = x.unsqueeze(1)
- 输入形状：(batch_size, 6272)
- 输出形状：(batch_size, 1, 6272)
- 添加序列长度维度，表示只有一个时间步。
RNN：
- 输入形状：(batch_size, 1, 6272)
- 输出形状：(batch_size, 1, 128)
- RNN 输出的隐藏状态，隐藏层大小为 128。

3.4 GRU 和 LSTM 部分

GRU：
- 输入形状：(batch_size, 1, 128)
- 输出形状：(batch_size, 1, 64)
- GRU 输出的隐藏状态，隐藏层大小为 64。
LSTM：
- 输入形状：(batch_size, 1, 64)
- 输出形状：(batch_size, 1, 32)
- LSTM 输出的隐藏状态，隐藏层大小为 32。

3.5 全连接层

全连接层：
- self.fc = nn.Linear(32, 10)
- 输入形状：(batch_size, 32)
- 输出形状：(batch_size, 10)
- 最终输出的类别数（10 类，表示 MNIST 的数字 0-9）。

4. 可视化模型结构

from torchinfo import summary
model = CombinedModel()
summary(model, input_size=(64,1, 28, 28))

或者

import torch
import torch.nn as nn
from torchviz import make_dot
model = CombinedModel()
dummy_input = torch.randn(1, 1, 28, 28)  # (batch_size, channels, height, width)
output = model(dummy_input)
dot = make_dot(output, params=dict(model.named_parameters()))
dot.render("model_structure", format="png")  # 生成 model_structure.png