深度学习之卷积神经网络理论基础

深度学习之卷积神经网络理论基础

卷积层的操作(Convolutional layer)

在提出卷积层的概念之前首先引入图像识别的特点

图像识别的特点

  • 特征具有局部性:老虎重要特征“王字”仅出现在头部区域
  • 特征可能出现在任何位置
  • 下采样图像,不会改变图像目标

例如从512 * 512的图像进行下采样得到32 * 32的图像目标
在这里插入图片描述

  1. 特征具有局部性:卷积核每次仅连接K * K区域,K * K是卷积核尺寸
    在这里插入图片描述
  2. 特征可能出现在任何位置:卷积核参数重复使用(参数共享),在图像上滑动
    在这里插入图片描述

该图片的卷积的计算步骤如下所示:(即对应位置相乘在相加得到最终的结果)

0×0+1×1+3×2+4×3=19
1×0+2×1+4×2+5×3=25
3×0+4×1+6×2+7×3=37,
4×0+5×1+7×2+8×3=43

在这里插入图片描述
其中绿色代表的是输出部分,蓝色代表的是输入的部分,绿色的每一个区域是在蓝色区域的基础上经过卷积运算得到的,在计算的过程中区域不断的进行滑动

卷积层的相关概念

卷积核(Kernel):具可学习参数的算子,用于对输入图像进行特征提取,输出通常称为特征图(featuremaps)

通常我们说的就是3x3的卷积核,即对应上图中的核函数2x2的卷积核

在这里插入图片描述

卷积核当中的权重就代表的是一种特征模式。2012年AlexNet网络第一个卷积层卷积核可视化卷积核呈现边缘、频率和色彩上的特征模式。

填充(Padding) 在输入图像的周围添加额外的行/列。使卷积后图像分辨率不变,方便计算特征图尺寸的变化弥补边界信息丢失
在这里插入图片描述

而该图中的padding=1 在上下左右都添加1个位置的像素,保证边缘部分与中间部分相比不会参与卷积的次数太少而被忽略而丢失

步长(Stride) :卷积核滑动的行数和列数称为步幅,控制输出特征图的大小,会被缩小1/s倍

在蓝色图像上每次滑动的距离之间影响得到的输出图的大小和像素值

感受野:特征图中的一个点相当于图片中多大的区域,层数越多感受野越大。

感受野从3 * 3 到 5 * 5的区域
在这里插入图片描述

多通道卷积

多通道卷积:RGB图像是3 * h* w 的三维的数据,第一个维度3,表示channel,通道数一个卷积核是3-D张量,第一个维与输入通道有关注:卷积核尺寸通常指高、宽
在这里插入图片描述

补充:2-d卷积和3-d卷积的区分,卷积核在输入上只在行和列两个维度上移动并进行卷积—称为2d卷积 ,而在一些视频任务中在此基础上还需要使用到第三个维度即时间维度称为3-d卷积

池化层操作(Pooling layer)

  1. 下采样图像,不会改变图像目标:降低计算量,减少特征

池化:一个像素表示一块区域的像素值,降低图像分辨率

  • 方法1:MaxPooling,取最大值(最大池化)
  • 方法2:AveragePooling,取平均值(平均池化)

而池化层中无可学习的参数

在这里插入图片描述
池化操作可以看作是一种特殊的卷积操作。

池化的作用:

  • 缓解卷积层对位置的过度敏感。

Lenet -5

在这里插入图片描述

  • C1层: 卷积核K1=(6,1,5,5),p=1,s=1,output=(6,28,28)
  • S2层:最大池化层,池化窗口=(2,2),s=2,output=(6,14,14)
  • C3层:卷积核K3=(16,6,5,5),p=1,s=1,output=(16,10,10)
  • S4层:最大池化层,池化窗口=(2,2),s=2,output=(16,5,5)
  • FC层:3个FC层输出分类

特征提取器:C1、S2、C3、S4分类器:3个FC

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/13196.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python 小抄

Python 备忘单 目录 1.语法和空格 2.注释 3.数字和运算 4.字符串处理 5.列表、元组和字典 6.JSON 7.循环 8.文件处理 9.函数 10.处理日期时间 11.NumPy 12.Pandas 要运行单元格,请按 ShiftEnter 或单击页面顶部的 Run(运行)。 1.语法和空格…

6---Linux下版本控制器Git的知识点

一、Linux之父与Git的故事: Linux之父叫做“Linus Torvalds”,我们简称为雷纳斯。Linux是开源项目,所以在Linux的早期开发中,许多世界各地的能力各异的程序员都参与到Linux的项目开发中。那时,雷纳斯每天都会收到许许…

VMware Fusion 13.5.2 for Mac 发布,产品订阅模式首个重大变更

VMware Fusion 13.5.2 for Mac 发布,产品订阅模式首个重大变更 适用于基于 Intel 处理器和搭载 Apple 芯片的 Mac 的桌面虚拟化软件 请访问原文链接:https://sysin.org/blog/vmware-fusion-13/,查看最新版。原创作品,转载请保留…

文章解读与仿真程序复现思路——中国电机工程学报EI\CSCD\北大核心《集装箱海港级联物流-能源耦合系统协同优化方法 》

本专栏栏目提供文章与程序复现思路,具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源…

FPGA - GTX收发器-K码 以及 IBERT IP核使用

一,前言 在FPGA - Xilinx系列高速收发器---GTX中详细介绍了GTX的基础知识,以及IP核的调用,下面将补充一下GTX在使用中的高速串行数据流在接收和发送时的控制与对齐(K码),以及高速接口GTX,如果G…

Springboot开发 -- Postman 调试 session 验证 接口

当我们在开发Spring Boot应用时,经常会遇到带有Session验证的接口,这些接口需要用户先登录并获取到Session ID(或称为cookie中的JSESSIONID),然后在后续的请求中携带这个Session ID来保持会话状态。下面我将以一个实际…

Hello, GPT-4o!

2024年5月13日,OpenAI 在官网正式发布了最新的旗舰模型 GPT-4o 它是一个 多模态模型,可以实时推理音频、视频和文本。 * 发布会完整版视频回顾:https://www.youtube.com/watch?vDQacCB9tDaw GPT-4o(“o”代表“omni”&#xff0c…

高效协同,智慧绘制:革新型流程图工具全解析

流程图,作为一种直观展示工作过程和系统运作的工具,在现代办公和项目管理中发挥着不可或缺的作用。 其优势在于能够清晰、直观地呈现复杂的过程和关系,帮助人们快速理解并掌握关键信息。同时,流程图也广泛应用于各种场景&#xf…

【Python】图像批量合成视频,并以文件夹名称命名合成的视频

一个文件夹中有多个子文件夹,子文件夹中有多张图像。如何把批量把子文件夹中的图像合成视频,视频名称是子文件夹的名称,生成的视频保存到指定文件夹,效果记录。 代码 import os import cv2def create_video_from_images(image_f…

leetcode刷题(6):二叉树的使用

文章目录 104. 二叉树的最大深度解题思路c 实现 94. 二叉树的中序遍历解题思路c 实现 101. 对称二叉树解题思路c 实现 96. 不同的二叉搜索树解题思路c 实现 102. 二叉树的层序遍历解题思路c 实现 104. 二叉树的最大深度 题目: 给定一个二叉树 root ,返回其最大深度…

ALV 图标显示

前言 在ABAP ALV中,使用fieldcat来定义列表中每个字段的显示属性,包括图标(Icon)的显示。图标可以在ALV列表中为特定列的行或标题添加图形元素,以增强视觉提示或传达附加信息。 ICON查询 图标的名称用事务码”ICON“进…

智能BI(后端)-- 系统异步化

文章目录 系统问题分析什么是异步化?业务流程分析标准异步化的业务流程系统业务流程 线程池为什么需要线程池?线程池两种实现方式线程池的参数线程池的开发 项目异步化改造 系统问题分析 问题场景:调用的服务能力有限,或者接口的…

【文档理解】TextMonkey:一种OCR-Free的用于文档理解的多模态大模型

背景 传统的信息提取,通常是从文本中提取信息,相关技术也比较成熟。然而对于复杂领域,例如图片,文档等形式的数据,想要提取出高质量的、可信的数据难度就比较大了,这种任务也常称为:视觉文档理…

CTF网络安全大赛web题目:just_sqli

这道题目是bugku的web题目 题目的 描  述: KosenCTF{} 原文链接&#xff1a; CTF网络安全大赛web题目&#xff1a;just_sqli - 红客网-网络安全与渗透技术 题目Web源代码&#xff1a; <?php$user NULL; $is_admin 0;if (isset($_GET["source"])) {highlig…

齐护K210系列教程(二十七)_语音识别

语音识别 1.烧录固件和模型2.语音识别程序2.1训练并识别2.2使用本地文件语音识别 3.课程资源联系我们 1.烧录固件和模型 注&#xff1a;本应用只适用于有麦克风功能的型号&#xff1a;AIstart_pro、AIstart_掌机、AIstart_Mini, 其它型号不支持&#xff01; 机器码生成以及模…

linux中远程服务器上传输文件的10个sftp命令示例

目录 1. 如何连接到 SFTP 2. 帮助 3.检查当前工作目录 4. 使用 sftp 列出文件 远程 本地 5. 使用 sftp 上传文件 6. 使用 sftp 上传多个文件 7. 使用 sftp 下载文件 8. 在 sftp 中切换目录 远程 本地 9. 使用 sftp 创建目录 10. 使用 sftp 删除目录 11. 退出 sf…

(001)apidoc 的安装

安装 1.确定 node 和 npm 的匹配版本 node -vv10.14.1# 切换node 版本 nvm list nvm use 20.12.22.安装 apidoc。 npm install -g apidoc3.生成文档&#xff1a; apidoc -i ../ -o document/ -f ".java$"-i &#xff1a;指定扫描路径。-o&#xff1a;输出目录。…

【Linux:环境变量】

环境变量一般是指在操作系统中用来指定操作系统环境的一些参数 常见的环境变量&#xff1a; PATH 指定可执行程序的搜索路径 系统级的文件&#xff1a;/etc/bashrc 用户级文件&#xff1a;~/.bashrc ~/.bash_profile HOME 指定用户的主要工作目录&#xff08;当前用…

kettle从入门到精通 第六十一课 ETL之kettle 任务调度器,轻松使用xxl-job调用kettle中的job和trans

想真正学习或者提升自己的ETL领域知识的朋友欢迎进群&#xff0c;一起学习&#xff0c;共同进步。若二维码失效&#xff0c;公众号后台加我微信入群&#xff0c;备注kettle。 1、大家都知道kettle设计的job流程文件有个缺点&#xff1a;只能设置简单的定时任务&#xff0c;无法…

数据库-索引(高级篇)

文章目录 索引概念&#xff1f;索引演示&#xff1f;索引的优劣&#xff1f;为什么使用索引就快&#xff1f;本篇小结 更多相关内容可查看 索引概念&#xff1f; 索引&#xff08;index&#xff09;是帮助MySQL高效获取数据的数据结构(有序)。在数据之外&#xff0c;数据库系统…