LeNet5 神经网络的参数解析和图片尺寸解析

1.LeNet-5 神经网络

以下是针对 LeNet-5 神经网络的详细参数解析和图片尺寸变化分析,和原始论文设计,通过分步计算说明各层的张量变换过程。

经典的 LeNet-5架构简化版(原始论文输入为 32x32,MNIST 常用 28x28 需调整)。完整结构如下:

  • 网络结构
    输入 → Conv1 → 激活/池化 → Conv2 → 激活/池化 → 展平 → FC1 → FC2 → FC3 → 输出

  • 适用场景
    经典的小型 CNN,适合处理低分辨率图像分类任务(如 MNIST、CIFAR-10)。

class LeNet5(nn.Module):def __init__(self):super(LeNet5, self).__init__()self.conv1 = nn.Conv2d(1, 6, 5)      # C1: 输入1通道,输出6通道,5x5卷积self.pool1 = nn.AvgPool2d(2, 2)       # S2: 2x2平均池化self.conv2 = nn.Conv2d(6, 16, 5)     # C3: 输入6,输出16,5x5卷积self.pool2 = nn.AvgPool2d(2, 2)       # S4: 2x2平均池化self.fc1 = nn.Linear(16*5*5, 120)    # C5: 全连接层self.fc2 = nn.Linear(120, 84)        # F6: 全连接层self.fc3 = nn.Linear(84, 10)         # 输出层def forward(self, x):x = F.relu(self.conv1(x))  # 卷积 + ReLU 激活x = F.max_pool2d(x, 2)      # 2x2 最大池化x = F.relu(self.conv2(x))x = F.max_pool2d(x, 2)x = x.view(-1, 16*5*5)      # 展平特征图x = F.relu(self.fc1(x))x = F.relu(self.fc2(x))x = self.fc3(x)             # 输出层(通常不加激活函数)return x

1.2. 定义卷积层

定义
输入通道是指输入数据中独立的“特征平面”数量。对于图像数据,通常对应颜色通道或上一层的特征图数量。

self.conv1 = nn.Conv2d(1, 6, 5)    # 第一层卷积
self.conv2 = nn.Conv2d(6, 16, 5)   # 第二层卷积nn.Conv2d 参数说明conv1:
输入通道数 1(适用于单通道灰度图,如 MNIST)。
输出通道数 6(即 6 个卷积核,提取 6 种特征)。
卷积核大小 5x5。conv2:
输入通道数 6(与 conv1 的输出一致)。
输出通道数 16(更深层的特征映射)。
卷积核大小 5x5。作用
通过卷积操作提取图像的空间特征(如边缘、纹理等),通道数的增加意味着学习更复杂的特征组合。每个输出通道由一组卷积核生成:
如果输出通道数为 6,则会有 6 个不同的卷积核(每个核的尺寸为 5x5,在单输入通道下),分别提取不同的特征。输出通道的维度:
输出数据的形状为 (batch_size, output_channels, height, width)。例如:
nn.Conv2d(3, 16, 5)  # 输入通道=3(RGB),输出通道=16
该层会使用 16 个卷积核,每个核的尺寸为 5x5x3(因为输入有 3 通道)。每个核在输入数据上滑动计算,生成 1 个输出通道的特征图,最终得到 16 个特征图。

 1.3定义全连接层


self.fc1 = nn.Linear(16*5*5, 120)  # 第一个全连接层
self.fc2 = nn.Linear(120, 84)      # 第二个全连接层
self.fc3 = nn.Linear(84, 10)       # 输出层nn.Linear 参数说明fc1:
输入维度 16*5*5(假设卷积后特征图尺寸为 5x5,共 16 个通道,展平后为 400 维)。
输出维度 120(隐藏层神经元数量)。fc2:
输入维度 120,输出维度 84(进一步压缩特征)。fc3:
输入维度 84,输出维度 10(对应 10 个分类类别,如数字 0~9)。作用
将卷积层提取的二维特征展平为一维向量,通过全连接层进行非线性变换,最终映射到分类结果。

2. 参数解析(以输入 32x32 为例)

(1) 卷积层参数计算

  • 公式
    参数量 = (kernel_height × kernel_width × input_channels + 1) ×output_channels
    +1 为偏置项)

层名参数定义参数量计算结果
C1nn.Conv2d(1, 6, 5)(5×5×1 + 1)×6156
C3nn.Conv2d(6, 16, 5)(5×5×6 + 1)×162416

(2) 全连接层参数计算

  • 公式
    参数量 = (input_features + 1) × output_features

层名参数定义参数量计算结果
C5nn.Linear(16*5*5, 120)(400 + 1)×12048120
F6nn.Linear(120, 84)(120 + 1)×8410164
输出nn.Linear(84, 10)(84 + 1)×10850

总参数量156 + 2416 + 48120 + 10164 + 850 = 61,706

3. 图片尺寸解析(输入 32x32

(1) 尺寸变化公式

  • 卷积层
    H_out = floor((H_in + 2×padding - kernel_size) / stride + 1)
    (默认 stride=1padding=0

  • 池化层
    H_out = floor((H_in - kernel_size) / stride + 1)
    (通常 stride=kernel_size

(2) 逐层尺寸变化

层名操作类型参数输入尺寸输出尺寸计算结果
输入--1×32×32-1×32×32
C1卷积kernel=5, stride=11×32×32(32 - 5)/1 + 1 = 286×28×28
S2平均池化kernel=2, stride=26×28×28(28 - 2)/2 + 1 = 146×14×14
C3卷积kernel=5, stride=16×14×14(14 - 5)/1 + 1 = 1016×10×10
S4平均池化kernel=2, stride=216×10×10(10 - 2)/2 + 1 = 516×5×5
C5展平+全连接-16×5×5展平为 400 维向量120
F6全连接-120-84
输出全连接-84-10

(3) 关键问题解答

Q1: 为什么全连接层 fc1 的输入是 16*5*5
  • 经过两次卷积和池化后,特征图尺寸从 32x32 → 28x28 → 14x14 → 10x10 → 5x5且最后一层有 16 个通道,因此展平后的维度为 16×5×5=400

Q2: 如果输入是 28x28(如 MNIST),尺寸会如何变化?
  • 调整方式
    修改第一层卷积的 padding=2(在四周补零),使输出尺寸满足 (28+4-5)/1 +1=28(保持尺寸不变),后续计算与原始 LeNet-5 一致。

    self.conv1 = nn.Conv2d(1, 6, 5, padding=2) # 保持28x28

    Q3: 参数量主要集中在哪部分?

  • 全连接层 C5 占总数 78% (48120/61706),这是 LeNet-5 的设计瓶颈。现代 CNN 通常用全局平均池化(GAP)替代全连接层以减少参数。

5. 完整尺寸变换流程图(输入 32x32

输入: 1×32×32 ↓ [C1] Conv2d(1,6,5)
6×28×28 ↓ [S2] AvgPool2d(2,2)
6×14×14 ↓ [C3] Conv2d(6,16,5)
16×10×10 ↓ [S4] AvgPool2d(2,2)
16×5×5 ↓ 展平
400 ↓ [C5] Linear(400,120)
120 ↓ [F6] Linear(120,84)
84 ↓ 输出
10

 使用下面代码,可以看到具体参数量:

# 遍历模型的所有子模块
for name, param in model.named_parameters():if param.requires_grad:print(f"Layer: {name}")if 'weight' in name:print(f"Weights:{param.data.shape}")if 'bias' in name:print(f"Bias:{param.data.shape}\n")

 输出:

Layer: feature_extractor.0.weight
Weights:torch.Size([6, 1, 5, 5])
Layer: feature_extractor.0.bias
Bias:torch.Size([6])Layer: feature_extractor.2.weight
Weights:torch.Size([16, 6, 5, 5])
Layer: feature_extractor.2.bias
Bias:torch.Size([16])Layer: classifier.1.weight
Weights:torch.Size([120, 400])
Layer: classifier.1.bias
Bias:torch.Size([120])Layer: classifier.2.weight
Weights:torch.Size([84, 120])
Layer: classifier.2.bias
Bias:torch.Size([84])Layer: classifier.3.weight
Weights:torch.Size([10, 84])
Layer: classifier.3.bias
Bias:torch.Size([10])

   写完文章,疑问终于搞明白了。大家也可以参考下面这个连接。

   https://blog.csdn.net/lihuayong/article/details/145671336?fromshare=blogdetail&sharetype=blogdetail&sharerId=145671336&sharerefer=PC&sharesource=lihuayong&sharefrom=from_link

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/78622.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第二节:文件系统

理论知识 文件系统的基本概念:文件系统是操作系统中负责管理持久数据的子系统,它将数据组织成文件和目录的形式,方便用户存储和访问数据。Linux文件系统的类型:常见的 Linux 文件系统类型有 Ext2、Ext3、Ext4、XFS、Btrfs 等。Ex…

Python数据结构与算法(5)——动态规划

Python数据结构与算法(5)——动态规划 0. 学习目标1. 动态规划的基本概念1.1 什么是动态规划1.2 动态规划的核心思想1.3 动态规划的适用条件2. 动态规划的实现思路2.1 自顶向下:备忘录法 (Memoization)2.2 自底向上:表格法(Tabulation)3. 0/1 背包问题4. 最长公共子序列5…

【JAVA ee初阶】多线程(3)

一、出现线程安全的原因 1.【根本原因】线程的调度执行时随机的(抢占式执行)->罪魁祸首 2.多个线程同时修改同一个变量 如果是一个线程修改一个变量 或者 多个线程读取同一个变量 或者 多个线程修改不同变量 这些都没事。 3.修改操作不是原子的&a…

Halcon 3D 表面匹配基于形状

文章目录 prepare_object_model_3d 准备 3D 物体模型read_shape_model_3d — 读取3D匹配模型create_shape_model_3d 准备要匹配的3D模型find_shape_model_3d ——发现匹配模型project_shape_model_3d 将三维形状模型的边缘投影到图像坐标中。示例ignore_part_polarity&#xff…

【Linux】Java 开发者的 Linux 常用命令指南

Java 开发者的 Linux 常用命令指南 目录标题 Java 开发者的 Linux 常用命令指南1. Linux 目录结构2. 系统信息命令3. 服务管理系统服务防火墙管理 4. 文本编辑 (vi/vim)常用模式 5. 文件和目录操作查看与导航创建与删除查看文件内容查找文件 6. 用户管理7. 压缩和解压8. 权限管…

每日c/c++题 备战蓝桥杯(P1252洛谷 马拉松接力赛)

洛谷P1060 马拉松接力赛题解:贪心算法在资源分配中的巧妙应用 题目描述 P1060 马拉松接力赛是一道结合贪心策略与动态规划思想的资源分配问题。题目要求将25公里的马拉松接力赛合理分配给5名选手,使得总耗时最短。每位选手可跑1-10公里的整数距离&…

Nginx 中间件

Nginx(发音为 "engine-x")是一款开源的高性能 HTTP 服务器和反向代理服务器,最初由 Igor Sysoev 开发。 它以其高性能、稳定性、丰富的功能集和低资源消耗而闻名,广泛应用于全球的 Web 服务架构中。 作为中间件&#…

Neo4j在win下安装教程(docker环境)

1. 安装命令 1.1 基于正式neo4j安装–不用 docker run --name neo4j-container -p 7474:7474 -p 7687:7687 -d neo4j1.2 基于community安装 需要部署两个Neo4j,一个正式库prod,一个测试库dev。 neo4j默认监听7474(HTTP-也就是浏览器端口&…

kylin v10 + argo + ascend 310p多机多卡 pytorch distributed 训练

最近接了个模型训练编排多机多卡的改造需求,要求使用argo dag task启动多个节点,同时多个节点能实现 torch.distributed.launch 这样多机多卡的训练模式 简述技术 torch.distributed.launch命令介绍 我们在训练分布式时候,会使用到 torch.d…

[Mac] 使用homebrew安装miniconda

使用虚拟环境可以对不同项目的依赖进行隔离。可以使用venv或者conda来创建和使用虚拟环境。 venv是Python内置的虚拟环境管理模块,适合纯Python项目以及快速轻量级的开发和部署。conda具备更强大的版本管理能力,但是占用较大的磁盘空间。 考虑到我基本不…

CMU-15445(1)——环境搭建

前言 最近在找完暑期实习之后,终于有了一些干项目外的空余时间学习新的知识,在这么多轮面试中,数据库的考察非常多,但孱弱的数据库基础导致我有很多次面试被问住,因此我希望在学习CMU-15445(Fall 2024&…

CSS元素动画篇:基于当前位置的变换动画(四)

基于当前位置的变换动画(四) 前言透明效果类元素动画闪烁动画效果效果预览代码实现 淡入动画效果效果预览代码实现 淡出动画效果效果预览代码实现 结语 前言 CSS元素动画一般分为两种:一种是元素基于当前位置的变换动画,通过不明…

STM32驱动AD5318配置8通道DA详细讲解

目录 1. AD5318 芯片特性 2、AD5318寄存器概述 3、SPI数据帧格式 3.1 控制位(Bit15) 3.2 地址位(Bit14-Bit12,3 位) 3.3 数据 / 控制码(Bit11-Bit0) 4、控制功能寄存器(控制位 = 1 时激活) 4.1 参考与增益配置(MM = 00) 4.2. LDAC模式(MM = 01) 4.3 掉…

如何搭建spark yarn 模式的集群集群

以下是搭建Spark YARN模式集群的一般步骤: 准备工作 - 确保集群中各节点安装了Java环境,并配置好 JAVA_HOME 环境变量。 - 各节点间能通过SSH免密登录。 - 安装并配置好Hadoop集群,YARN作为Hadoop的资源管理器,Spark YARN模式需要…

SpringMVC处理请求映射路径和接收参数

目录 springmvc处理请求映射路径 案例:访问 OrderController类的pirntUser方法报错:java.lang.IllegalStateException:映射不明确 核心错误信息 springmvc接收参数 一 ,常见的字符串和数字类型的参数接收方式 1.1 请求路径的…

在 Windows 系统上升级 Node.js

一、查询电脑端已经安装的 Node.js 版本 1、通过【winR】 键,输入 cmd,点击【确定】按钮打开 cmd 窗口 2、命令行界面输入 node -v 查看目前 Node.js 版本 3、命令行界面输入 npm -v 查看目前 npm 版本 二、进入官网地址下载安装包 1、官网地址&#x…

深入详解人工智能数学基础——概率论中的马尔可夫链蒙特卡洛(MCMC)采样

🧑 博主简介:CSDN博客专家、CSDN平台优质创作者,高级开发工程师,数学专业,10年以上C/C++, C#, Java等多种编程语言开发经验,拥有高级工程师证书;擅长C/C++、C#等开发语言,熟悉Java常用开发技术,能熟练应用常用数据库SQL server,Oracle,mysql,postgresql等进行开发应用…

C++ 嵌套类 (详解 一站式讲解)

目录 嵌套类 嵌套类的定义 嵌套类结构的访问权限 pimpl模式(了解) 嵌套类 嵌套类的定义 首先介绍两个概念: 类作用域(Class Scope) 类作用域是指在类定义内部的范围。在这个作用域内定义的成员(包括…

tcp 和http 网络知识

1. 请简述TCP和HTTP的定义与基本概念 TCP:即传输控制协议(Transmission Control Protocol),是一种面向连接的、可靠的、基于字节流的传输层通信协议。它为互联网中的数据通信提供稳定的传输机制,在不可靠的IP层之上&a…

MySQL安装的多个组件中无用组件卸载

在决定卸载MySQL的哪些组件前,需根据你的实际使用场景判断。以下是各组件的主要功能及卸载建议: 1. 核心组件卸载建议 组件名称作用是否可卸载MySQL Server数据库服务核心,存储数据、处理SQL请求的核心程序。不可卸载 (卸载会导致…