卷积神经网络CNN到底在卷些什么?

来源:

卷积神经网络(CNN)到底卷了啥?8分钟带你快速了解!_哔哩哔哩_bilibili卷积神经网络(CNN)到底卷了啥?8分钟带你快速了解!共计2条视频,包括:卷积神经网络(CNN)到底卷了啥?、什么是循环神经网络?RNN的变体LSTM和GRU的运作原理又是怎样的?(人工智能丨深度学习丨机器学习丨自然语言处理)等,UP主更多精彩视频,请关注UP账号。https://www.bilibili.com/video/BV1MsrmY4Edi/?spm_id_from=333.337.search-card.all.click&vd_source=87f8c6f71fc5a150d17b858a02bf33d9


整体流程:

图片输入(RGB) ↓
卷积层(提取局部特征)↓
池化层(压缩特征图)↓
重复卷积+池化(提取更高阶特征)↓
Flatten(扁平化)↓
全连接层(分类逻辑推理)↓
输出层(得到分类结果)

一、前置了解

卷积核/滤波器/滑动窗口

卷积核本质上是一个加权矩阵,一般我们用3X3尺寸的卷积核,每个值是“权重”

卷积核的操作——卷积:

1.卷积核从图像的左上角开始,逐步滑动(按步长stride)遍历整个图像。

2.每次滑动,卷积核和图像的某个区域(称为感受野)进行逐元素相乘并求和,结果成为输出图像的新像素值。

3.将每次计算的结果拼接起来,得到新的矩阵,称为特征图或输出图。

在图像处理中,卷积就是用一个小矩阵(卷积核)在图像上滑动,对局部区域进行加权求和,提取特征。

卷积本身是一种线性操作

随着特征信息的提取程度,会损失空间信息(6X6的原始图片经过卷积之后会称提取为4X4的特征图片)

Padding(填充)

我们会损失边缘信息,我们就引入了padding方法:

如果padding=1,我们就在原始图像上填充一圈0

这样能保持输出图尺寸与输入图相同(如果 stride=1)

二、步骤

第一步:先对原始图像padding,再卷积——提取特征图片

  • 对输入图像先进行 padding(通常填充 0);
  • 然后用卷积核滑动提取特征图。

第二步:最大池化(Max Pooling)——提取精华特征

目的:将图片数据进一步压缩,仅反应特征图中最突出的特点

步骤:将6*6的特征图用2*2的网格分割,放入池化后的3*3网络中,保留最精华的特征

第三步:扁平化处理

将上面两个卷积核得到池化后的特征图像素叠加,形成一维的数据条

本质是将二维张量展平,使其能够输入到全连接层中。

第四步:输入全连接层中

概念:每个神经元与前一层的所有神经元连接;

本质:线性变换 + 激活函数:

output=Activation(Wx+b)

  • W 是特征权重矩阵;
  • x 是输入的特征向量;
  • b 是偏差项。

偏差项 b 的引入可以增加模型的灵活性,使得神经元在所有输入为零的情况下仍能有非零的输出,从而帮助模型更好地拟合数据。它相当于在激活函数前添加一个“偏移量”,确保模型能够更精准地捕捉数据的非线性规律。

通过全连接层进行逻辑推理与特征整合。

在全连接层的输出函数常见的是ReLU

  • 概率大于0,就取本身
  • 概率小于0,就是0

这样可以使每层网络更有针对性的学习某个特征,使学习效率提高

第五步:输出

最后一层是输出层,输出分类结果

输出层的激活函数:

  • Sigmoid:二分类,把一个值压缩到0-1,0就是不是,1就是是
  • softmax:多分类,所有类别的概率加起来是1

三、激活函数为什么叫激活?

“激活函数”中的“激活”这个词,其实是借用了神经生物学中的概念

在生物神经网络中,神经元接收到足够强的刺激后才会被“激活”,进而传递信号。这种“激活”就像是触发机制,不是任意输入都会有输出,只有当输入超过某个阈值,神经元才会兴奋、发出脉冲。

类比到人工神经网络中:

  • 神经元计算的结果需要通过某种“触发机制”才能决定是否输出,以及输出多少;
  • 这个“触发机制”就是激活函数(Activation Function),它决定神经元是否被“激活”并输出信号。

所以叫“激活函数”,就是表示:

它控制着神经元是否被激活、输出信号,就像大脑中的神经元一样。

比如:

  • ReLU(x) = max(0, x) 表示:只有输入大于 0 时才被激活,才会有输出;
  • Sigmoid(x) 表示:输入越大,激活越强,输出越接近 1。

简而言之:
“激活函数”= 模拟神经元被激活的过程,决定是否传递信号。

四、卷积层VS全连接层

1.作用不同

卷积层

全连接层

负责提取图像的局部特征(如边缘、角点、纹理等)

负责进行分类/推理,整合前面提取的特征,得出最终判断

注重空间结构和位置关系

注重抽象特征和逻辑关系,最终输出预测结果


2.连接方式不同

卷积层

全连接层

每个神经元只连接输入图像的局部区域(感受野)

每个神经元与上一层的所有神经元相连

局部连接 + 参数共享(卷积核共享)

全连接,不共享参数


3.参数量不同

卷积层

全连接层

参数量较少(卷积核小,参数共享)

参数量很大(连接数 = 输入数 × 输出数)

适合处理高维图像数据

多用于最后几层,输入是扁平化后的特征向量


4.输入格式不同

卷积层

全连接层

输入是二维(或三维)图像张量

输入是一维向量(需经过 Flatten)

保留空间结构(宽×高×通道)

不保留空间结构,只关心整体特征表达


5.举个例子

  • 卷积层就像用放大镜观察图像的某一小块,并提取它的纹理;
  • 全连接层就像把所有小块信息组合起来,做一个最终判断,比如“这是一只猫”。

6.总结一句话:

卷积层关注的是“哪里有什么特征”,而全连接层关注的是“这些特征说明这是什么”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/75835.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Axios 的 POST 请求:QS 处理数据的奥秘与使用场景解析

在现代前端开发中,Axios 已经成为了进行 HTTP 请求的首选库之一,它的简洁易用和强大功能深受开发者喜爱。当使用 Axios 进行 POST 请求时,我们常常会遇到一个问题:是否需要使用 QS 库来处理请求数据?什么时候又可以不用…

java面试题带答案2025最新整理

文章目录 一、java面试题集合框架1. 请简要介绍 Java 集合框架的体系结构2. ArrayList 和 LinkedList 的区别是什么3. HashMap 的工作原理是什么,它在 JDK 7 和 JDK 8 中有哪些不同4. 如何解决 HashMap 的线程安全问题5. TreeSet 是如何保证元素有序的 二、java面试…

4.B-树

一、常见的查找方式 顺序查找 O(N) 二分查找 O(logN)(要求有序和随机访问) 二叉搜索树 O(N) 平衡二叉搜索树(AVL树和红黑树) O(logN) 哈希 O(1) 考虑效率和要求而言,正常选用 平衡二叉搜索树 和 哈希 作为查找方式。 但这两种结构适合用于…

CTF--shell

一、原题 (1)提示: $poc"a#s#s#e#r#t";$poc_1explode("#",$poc);$poc_2$poc_1[0].$poc_1[1].$poc_1[2].$poc_1[3].$poc_1[4].$poc_1[5]; $poc_2($_GET[s]) (2)原网页:一片空白什么都…

基于51单片机的正负5V数字电压表( proteus仿真+程序+设计报告+讲解视频)

基于51单片机的正负5V数字电压表( proteus仿真程序设计报告讲解视频) 仿真图proteus7.8及以上 程序编译器:keil 4/keil 5 编程语言:C语言 设计编号:S0101 1. 主要功能: 设计一个基于51单片机数字电压表 1、能够…

hive数仓要点总结

1.OLTP和OLAP区别 OLTP(On-Line Transaction Processing)即联机事务处理,也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用…

【实战手册】8000w数据迁移实践:MySQL到MongoDB的完整解决方案

🔥 本文将带你深入解析大规模数据迁移的实践方案,从架构设计到代码实现,手把手教你解决数据迁移过程中的各种挑战。 📚博主其他匠心之作,强推专栏: 小游戏开发【博主强推 匠心之作 拿来即用无门槛】文章目录 一、场景引入1. 问题背景2. 场景分析为什么需要消息队列?为…

运行小程序需要选择什么配置的服务器

主要是看有多少人浏览,如果是每天有几十个人浏览,通常2核或者4核就可以满足需求,内存的话建议4g或者8g,足够的内存可以使服务器同时处理多个请求,避免因内存不足导致的卡顿或程序崩溃。 硬盘存储方面,50GB…

基于SpringBoo的地方美食分享网站

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…

Solidity私有函数和私有变量区别,私有变量可以被访问吗

web3面试题 私有函数和私有变量区别,私有变量可以被访问吗 ChatGPT said: 在 Web3 开发,尤其是使用 Solidity 编写智能合约时,关于私有函数和私有变量的区别是常见的面试题。下面是详细解析: ✅ 私有函数(Private Fu…

mongodb 安装配置

1.下载 官网下载地址:MongoDB Community Download | MongoDB 2.使用解压包 解压包安装:https://pan.baidu.com/s/1Er56twK9UfxoExuCPlJjhg 提取码: 26aj 3.配置环境: (1)mongodb安装包位置: &#xf…

多模态大语言模型arxiv论文略读(十九)

MLLMs-Augmented Visual-Language Representation Learning ➡️ 论文标题:MLLMs-Augmented Visual-Language Representation Learning ➡️ 论文作者:Yanqing Liu, Kai Wang, Wenqi Shao, Ping Luo, Yu Qiao, Mike Zheng Shou, Kaipeng Zhang, Yang Yo…

[LeetCode 45] 跳跃游戏2 (Ⅱ)

题面: LeetCode 45 跳跃游戏2 数据范围: 1 ≤ n u m s . l e n g t h ≤ 1 0 4 1 \le nums.length \le 10^4 1≤nums.length≤104 0 ≤ n u m s [ i ] ≤ 1000 0 \le nums[i] \le 1000 0≤nums[i]≤1000 题目保证可以到达 n u m s [ n − 1 ] nums[…

前端面试宝典---闭包

闭包介绍 使用闭包: 在函数内声明一个变量,避免外部访问在该函数内再声明一个函数访问上述变量(闭包)返回函数内部的函数使用完毕建议闭包函数null;译放内存 function createCounter() {let count 0;return function () {coun…

GPT4O画图玩法案例,不降智,非dalle

网址如下: 玩法1:吉卜力(最火爆) 提示词:请将附件图片转化为「吉卜力」风格,尺寸不变 玩法2:真人绘制 提示词:创作一张图片,比例4:3,一个20岁的中国女孩…

4.12~4.14【Q】cv homework6

我正在写GAMES101作业6,在这段代码中,我十分想知道inline Intersection Triangle::getIntersection(Ray ray) 是由哪个函数,哪段代码调用的?什么是Inline?详细解释,越细节越好 我正在写GAMES101作业6&…

MATLAB双目标定

前言: 现在有许多双目摄像头在出厂时以及标定好,用户拿到手后可以直接使用,但也有些双目摄像头在出厂时并没有标定。因而这个时候就需要自己进行标定。本文主要介绍基于matlab工具箱的自动标定方式来对双目相机进行标定。 1、MATLAB工具箱标…

visual studio 常用的快捷键(已经熟悉的就不记录了)

以下是 Visual Studio 中最常用的快捷键分类整理,涵盖代码编辑、调试、导航等核心场景: 一、生成与编译 ​生成解决方案 Ctrl Shift B 一键编译整个解决方案,检查编译错误(最核心的生成操作)​编译当前文件 Ctrl F…

Sass @import rules are deprecated and will be removed in Dart Sass 3.0.0.

今天写项目的时候碰到一个报错,在网上查找到了解决方法,这里备份一下。防止下次再次遇到 原文章链接:Sass import rules are deprecated and will be removed in Dart Sass 3.0.0. 报错内容如下: Deprecation Warning: Sass i…

【QT】QWidget 概述与核心属性(API)

🌈 个人主页:Zfox_ 🔥 系列专栏:Qt 目录 一:🔥 控件概述 🦋 控件体系的发展阶段 二:🔥 QWidget 核心属性 🦋 核心属性概览🦋 用件可用&#xff08…