5分钟入门卷积算法

5分钟入门卷积算法

news/2025/7/6 7:03:58/文章来源:https://blog.csdn.net/dongtuoc/article/details/133580092

大家好啊，我是董董灿。

深度学习算法中，尤其是计算机视觉，卷积是无论如何都绕不过去的槛。

初学者看到这个算法后，很多是知其然不知其所以然，甚至不知道这个算法是做什么的，或者很疑惑，为什么在处理图像任务的神经网络中需要卷积算法？

1、为什么需要卷积

在说卷积之前，先说一说一个神经网络(或者叫一个AI模型)，是如何完成一张图片的推理的。

你肯定听说过大名鼎鼎的阿尔法狗大战柯洁的故事，但是，你有没有想过一个问题：阿尔法狗学会了下棋，但是它下棋的记忆到什么样的？存在什么地方呢？

高中生物老师教过我们，人脑中有大量的脑神经元。每个脑神经元都可以看做是一个小的记忆体，神经元之间通过树突连接起来，整个大脑的神经元，可以说是一张十分复杂的网络。

人脑处理信息，就是利用这个复杂的网络处理信息，并最终得到一个结果。通过神经元网络，我们才能知道，眼睛看到的是一只猫，还是是一只狗。

稍微简化一下大脑神经元的复杂结构成如下的网络。

每个黑点代表一个神经元脑细胞，每个神经元都有自己负责记忆的东西。

当我们看到一张画着猫的图片的时候，图片信息通过视神经传给大脑神经元，于是，信息到达了最左边一排竖着的黑点（神经元）。

神经元的激活

假如一个黑点(神经元)之前见过猫，那么这个黑点就会把信息往后传，此时神经元处于激活状态。

假如一个黑点从来没见过猫，那么这个黑点(神经元)就啥也不知道，啥也不做，此时神经元处于静止状态。

一张画着猫的图片的信息，就这样一层一层地通过“见过猫且确信它是一只猫的”神经元往后传递，直到在最后输出一个结果。

这是一只猫。

这个过程叫做大脑的推理。

整个推理过程你应该注意到了一件事，所有的黑点都可能是有记忆的，只不过记得东西各有不同，有的认识猫，有的认识狗，就像下面这样。

所有认识猫的神经元都会让信息通过，其他不认识猫的神经元都静止了。但是只要信息能传到最后，人脑最终就可以得出一个结论，这就是一只猫。

那神经元的这些记忆是怎么获取的呢？

训练，人们在日常生活中不断地训练大脑，时刻观察着周围的事物，见得多了，就会了。

训练获取记忆

人工智能计算机是怎么模拟这个记忆过程呢？

答案很简单：计算机只会计算，那就让它计算好了。

如果某个黑点认识猫，有什么办法可以把“这是一只猫”这一信息传递到后面呢？乘以1，任何数乘以1都是它自己，一只猫乘以1也还是他自己。

如果某个黑点压根没见过猫，有什么办法可以什么都不做呢？乘以0，任何数乘以0都是0，信息也就没了，一只猫乘以零，猫也就没了。

于是，在深度学习的网络中，每个黑点(神经元)都有一个与之对应的数字（实际的网络中，不是0或者1这样简单的数字，而是一些复杂的数字，这里仅仅是为了说明），这些数字，在深度学习中，我们称之为权值。

神经元通过权值的加权计算来判断是否让某一信息经过神经元，到达下一层。

权值乘以输入的信息（猫），然后经过激活函数去激活（类似于人脑神经元的激活）。

如果能成功激活，那么信息就往下传。

如果没有成功激活，信息就在此丢失。

当然神经网络中的权值不是简单的0或1，所以经过激活函数计算出来的只是一个概率值，也就是说黑点（神经元）觉得它是一只猫的概率。最终如果得到95%的概率觉的它是一只猫，那基本就是一只猫。

人脑看多了，就认识猫了，同样AI被训练的“看”多了，也会逐渐“认识”猫了。

AI的权值就是这么被训练出来的！

说到这，就说会今天的主角——卷积算法之所以重要，就是因为这个算法存在一个天然的记忆体，或者是权值矩阵，那就是卷积核。

2、卷积算法

深度学习中的卷积算法，模拟的就是人眼看物体的过程。

上图是深度学习中卷积的示意图，还记得之前说过的么，图片是由像素组成的(查看要学计算机视觉，先了解图像和像素)。

示意图下方的 4x4 的像素方格就是卷积算法需要处理的图片(类比于人眼观看的图片)。

示意图上方的 2x2 的像素方格就是卷积算法的输出(类比于人眼看完一张图片后的结果信息)。

4x4的方格上移动的灰色阴影，那个3x3的像素方格就是卷积核，可以把它理解为人眼此时聚焦看到的区域（称之为感受野，人眼的视野），只不过，这个示意图中每次看到的都是一个3x3的像素方格！

而卷积过程，就是用一个3x3的卷积核，去逐步扫描图片：横着扫完竖着扫，每扫一次，就将逐个像素点的值相乘然后加一起，得到一个输出，就像下面这样：

再换个更直观的角度看一眼。

卷积，就是这么简单的过程。

我们可以通过调整卷积核的大小，比如把上图3x3的卷积核扩大到5x5，来控制 “人眼” 看到的图片范围，从而获取到不同尺度下的图片信息。

比如在一些检测车道线的神经网络中，由于车道线是长实线，车道线的存在趋近于长方形，因此在这类神经网络中，很多卷积核被设计成1x5或1x7的卷积核，用来更好的识别车道线的形状。

当然，在不同图像处理任务中，会设计不同大小的卷积核，以适应不同的场景序需求，但万变不离其宗，卷积的计算，就是一些模拟的人眼看物体扫描像素点的过程。

说到这，大概对卷积这一算法有一个初步印象了吧。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/95093.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

qml使用c++自定义listmodel数据

qml使用c++自定义listmodel数据

qml要使用c中自定义的model，首先该model类需要继承QAbstractListModel类，然后需要重写其中的三个函数，分别是 int rowCount(const QModelIndex &parent); QVariant data(const QModelIndex &index, int role Qt::DisplayRole); QHas…

阅读更多...

函数形状有几种定义方式；操作符infer的作用

函数形状有几种定义方式；操作符infer的作用

在 TypeScript 中，函数形状可以用多种方式进行定义。下面介绍了几种常用的函数形状定义方式： 函数声明： function add(a: number, b: number): number {return a b; }在函数声明中，我们直接使用 function 关键字来声明函数&…

阅读更多...

XML文件读写

XML文件读写

0、.pro文件添加依赖 QT xml1、使用 QDomDocument 方式 #include <QtXml/QDomDocument> #include <QtXml/QDomProcessingInstruction> #include <QtXml/QDomElement> #include <QFile> #include <QTextStream> #include <QDebug>bo…

阅读更多...

Docker Compose安装

Docker Compose安装

title: “Docker Compose安装” createTime: 2022-01-04T19:08:1508:00 updateTime: 2022-01-04T19:08:1508:00 draft: false author: “name” tags: [“docker”,“docker-compose”] categories: [“install”] description: “测试的” docker-compose安装步骤 1.下载 u…

阅读更多...

数据结构-优先级队列(堆)

数据结构-优先级队列(堆)

文章目录目录文章目录前言一 . 堆二 . 堆的创建(以大根堆为例) 堆的向下调整(重难点) 堆的创建堆的删除向上调整堆的插入三 . 优先级队列总结前言大家好,今天给大家讲解一下堆这个数据结构和它的实现 - 优先级队列一 . 堆堆（Heap&#xff0…

阅读更多...

C语言—位运算符

C语言—位运算符

目录 &（位与，AND）： |（位或，OR）： 位取反(~)： 左移(<<)： 右移(>>)： &（位与，AND）&…

阅读更多...

如何使用 Media.io 生成不同年龄的照片

如何使用 Media.io 生成不同年龄的照片

Media.io 是一个在线图片编辑器，提供多种功能，包括照片滤镜、图像裁剪和图像转换。其中，Media.io 的 AI 年龄转换功能可以根据上传的照片，生成不同年龄的照片。使用 Media.io 生成不同年龄的照片要使用 Media.io 生成不同年龄…

阅读更多...

【word】从正文开始设置页码

【word】从正文开始设置页码

在写报告的时候，会要求有封面和目录，各占一页。正文从第3页开始，页码从正文开始设置 word是新建的分出三节（封面、目录、正文） 布局--->分割符--->分节符--->下一页这样就能将word分为3节，分…

阅读更多...

Python操作MongoDb创建文档及CRUD基本操作

Python操作MongoDb创建文档及CRUD基本操作

Python3中类的高级语法及实战 Python3(基础|高级)语法实战(|多线程|多进程|线程池|进程池技术)|多线程安全问题解决方案 Python3数据科学包系列(一):数据分析实战 Python3数据科学包系列(二):数据分析实战 Python3数据科学包系列(三):数据分析实战 MongoDB 操作手册----文档…

阅读更多...

1797_GNU pdf阅读器evince

1797_GNU pdf阅读器evince

全部学习汇总： GreyZhang/g_GNU: After some years I found that I do need some free air, so dive into GNU again! (github.com) 近段时间经历了很多事情，终于想找一点技术上的自由气氛。或许，没有什么比GNU的一些软件探索更适合填充这样的…

阅读更多...

堆--堆排序

堆--堆排序

算法描述 heapify 建立大顶堆将堆顶与堆底交换（最大元素被交换到堆底），缩小并下潜调整堆重复第二步直至堆里剩一个元素可以使用之前课堂例题的大顶堆（堆的初步认识-CSDN博客）来实现 MaxHeap方法： /…

阅读更多...

电机-电力拖动-振动-应力分析-设备防护知识初步

电机-电力拖动-振动-应力分析-设备防护知识初步

1.涉及领域和课程： 信号与系统现代自动化原理与应用频谱转换及振动分析材料学基础与应力分析数学建模、仿真与求解工程数学传感器机器学习与模式识别随机信号处理反馈系统文献学DSP应用机器视觉凸优化，数学物理方法 2.教材推荐豆瓣书单，更…

阅读更多...

如何在终端输出颜色

如何在终端输出颜色

效果演示: 【看 welcome to here 部分】环境： Node.js 18.16.0 正文部分我们可以通过 console.log() 在终端打印字符串。只要在我们的字符串前面加上转义字符即可。差不多就是下面这样的结构： 用代码就是： console.log("\x1B…

阅读更多...

协议栈——收发数据（拼接网络包，自动重发，滑动窗口机制）

协议栈——收发数据（拼接网络包，自动重发，滑动窗口机制）

目录协议栈何时发送数据～ 数据长度 IP模块的分片功能发送频率网络包序号～利用syn拼接网络包ack确认网络包完整确定偏移量服务器ack确定收到数据总长度序号作用双端告知各自序号协议栈自动重发机制大致流程 ack等待时间如何调整是…

阅读更多...

java做个qq机器人

java做个qq机器人

前置的条件机器人是基于mirai框架实现的。根据官方的文档，建议使用openjdk11。我这里使用的编辑工具是idea2023 在idea中新建一个maven项目，虽然可以使用gradle进行构建，不过我这里由于网络问题没有跑通。 pom.xml <dependency>&l…

阅读更多...

2023年CSP-J真题详解+分析数据

2023年CSP-J真题详解+分析数据

目录亲身体验江苏卷选择题阅读程序题阅读程序(1） 判断题单选题阅读程序(2) 判断题单选题阅读程序(3) 判断题单选题完善程序题完善程序(1) 完善程序(2) 2023CSP-J江苏卷详解小结亲身体验 2023年的CSP-J是在9月16日9:30--11:30进行…

阅读更多...

竞赛选题深度学习 opencv python 公式识别(图像识别机器视觉)

竞赛选题深度学习 opencv python 公式识别(图像识别机器视觉)

文章目录 0 前言1 课题说明2 效果展示3 具体实现4 关键代码实现5 算法综合效果6 最后 0 前言 🔥 优质竞赛项目系列，今天要分享的是 🚩 基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学…

阅读更多...

【实用工具】谷歌浏览器插件开发指南

【实用工具】谷歌浏览器插件开发指南

谷歌浏览器插件开发指南涉及以下几个方面： 1. 开发环境准备：首先需要安装Chrome浏览器和开发者工具。进入Chrome应用商店，搜索“Extensions Reloader”和“Manifest Viewer”两个插件进行安装，这两个插件可以方便开发和调试。 2…

阅读更多...

国庆作业day6

国庆作业day6

服务器 #include <my_head.h> #define IP "192.168.101.66" #define PORT 6666 int main(int argc, const char *argv[]) {//创建套接字int fd socket(AF_INET, SOCK_STREAM, 0);if(fd < 0){ERR_MSG("socket");return -1;}struct sockaddr_in s…

阅读更多...

Win11 安装 Vim

Win11 安装 Vim

安装包： 链接：https://pan.baidu.com/s/1Ru7HhTSotz9mteHug-Yhpw?pwd6666 提取码：6666 双击安装包，一直下一步。配置环境变量： 先配置系统变量中的path： 接着配置用户变量： 在 cmd 中输入…

阅读更多...

最新文章