卷积神经网络(CNN)——基础知识整理

文章目录

1、卷积神经网络

2、图片格式

3、图片卷积运算

4、Kernel 与 Feature Map

5、padding/边缘填充

6、Stride/步长

7、pooling/池化

8、shape

9、epoch、batch、Batch Size、step

10、神经网络

11、激活函数


1、卷积神经网络

既然叫卷积神经网络,这里面首先是卷积,然后是神经网络,是二者的一个结合,卷积这个概念实际上来自信号处理领域,一般是对2个信号进行卷积运算,见下图:

神经网络,这是机器学习的元老,是对人脑神经元工作机制的模拟,每个神经元是一个计量单元,输入的数据与权重进行相乘、求和,再加上偏置,得到的数据再经过激活函数,将结果进行输出,见下图,多个神经元相互连接组成神经网络,具体就不展开说了。

卷积神经网络在图像分类和识别领域的应用非常多,最早用于手写数字的分类识别,后来逐渐发展起来。

2、图片格式

首先从手写体图像识别说起,一副图片如果是单色的,那么可以看成是一个二维的数字矩阵,每个像素点的颜色都可以用灰度值来表示;那如果图像是彩色的,可以将图像看成是RGB三个单色图片叠加的组合。

每一张图片的每一个像素点,其实都是一个数值,整体可看成一个三维矩阵。

3、图片卷积运算

那么对一个彩色图像做卷积,到底做了什么呢?下面这张动图,很好地展示了图像卷积计算的过程,原始图像有RGB三个通道channel1-3,对应有3个卷积核Kernel1-3,每一个通道的图片与对应的卷积核做乘法运算,每个通道得到的数值再相加,加上总体的偏置Bias得到特征图(feature map)里面的一个值。

下面是这个图是一个立体的展示:

4、Kernel 与 Feature Map

这里面第一个问题,就是卷积核为什么是3*3大小的,实际上这个尺寸也是经过学者们不断研究总结出来的,目前认为3*3的感受野足够用,而且运算量也会相对低,还有1*1的卷积核在使用,其他的基本不用了。

第二个问题,卷积核里面的参数是怎么来的,其实这里面的参数机器学习要实现的,当我们把所有的核参数都调整好,那这个模型也就确定了。也有一些先验的卷积核,如下面的核,进行卷积之后,可以实现锐化和边缘提取的效果。

那我们对一幅图片进行卷积之后,就会形成一个Feature Map,它会提取一些特征,用不同的核进行卷积就会输出多个Feature Map。

  • 卷积核/Kernels(convolution kernel)也叫过滤器、滤波器。
  • 特征图/Feature map,当图像像素值经过过滤器后得到的就是特征图。

下面这两张图就很直观地展示了kernel 和 feature map的实际样子。

卷积神经网络处理过程中,随着模型运算的深入,图像的尺寸(h*w)会越来越小,但是提取的特征会越来越多。

5、padding/边缘填充

这里面由于边界的问题,每一次卷积之后,图像不可避免地会被压缩一点,这就涉及到一个概念padding,如果设置padding的值为‘same’,则会在原图像周围补充1圈像素点,一般补0,这样后面的图像尺寸都会与原图像相同。默认参数是“valid”,翻译过来是有效的意思,这里的有效指的是与卷积核做运算的图片像素都是有效的,实际上就是没有外圈的补0。

unvaildvalid

下图展示的就是带padding的卷积效果,这个图的问题是用的是4*4的卷积核,实际中没有有4*4卷积核的。

用3*3的卷积核,可保持图像卷积后尺寸不变。

图片引自:https://github.com/vdumoulin/conv_arithmetic

6、Stride/步长

上图是步长为1的情况,如果步长为2,就是相当每隔两行或者两列进行卷积,实际上起到了降维的作用,就是卷积后的feature map尺寸会变小。

图片引自:https://github.com/vdumoulin/conv_arithmetic

7、pooling/池化

池化主要作用是把数据降维,也叫下采样,可以有效的避免过拟合。主要有两种池化方式,Max pooling / avg pooling,通常情况下,池化区域是2*2大小,池化之后,4*4的图片,会变成2*2大小。

8、shape

在tensorflow和pytorch中,shape的结构有所区别:

  • tensorflow输入shape为(batch_size,  height, weight, in_channels)/(样本数、图像高度、图像宽度, 图像通道数)
  • pytorch输入shape为(batch_size, in_channels, height, weight)

上图中,

输入图片的shape:[in_channels, height, weight]/[3,8,8];

卷积核的shape:[out_channels, in_channels, height, weight]/[5,3,3,3];

输出图片的shape:[out_channels, out_height, out_weight]/[5,6,6];

卷积核的输入通道数(in depth)由输入矩阵的通道数(in_channels)所决定。比如:一个RGB格式的图片,其输入通道数为3。

输出矩阵的通道数(out depth)由卷积核的输出通道数所决定,比如下面这个动画当中,卷积核有8个,那么输出out_channels则为8。

图片 引自:https://animatedai.github.io/

9、epoch、batch、Batch Size、step

  • epoch:表示将训练数据集中的所有样本都过一遍(且仅过一遍)的训练过程。在一个epoch中,训练算法会按照设定的顺序将所有样本输入模型进行前向传播、计算损失、反向传播和参数更新。一个epoch通常包含多个step。
  • batch:一般翻译为“批次”,表示一次性输入模型的一组样本。在神经网络的训练过程中,训练数据往往是很多的,比如几万条甚至是几十万条——如果我们一次性将这上万条的数据全部放入模型,对计算机性能、神经网络模型学习能力等的要求太高了;那么就可以将训练数据划分为多个batch,并随后分批将每个batch的样本一起输入到模型中进行前向传播、损失计算、反向传播和参数更新。但要注意,一般batch这个词用的不多,多数情况下大家都是只关注batch size的。
  • Batch Size(批大小):表示在单次训练中传递给模型的图像数量,我们在神经网络训练过程中,往往需要将训练数据划分为多个batch;而具体每一个batch有多少个样本,那么就是batch size指定的了。
  • step:一般翻译为“步骤”,表示在一个epoch中模型进行一次参数更新的操作。通俗地说,在神经网络训练过程中,每次完成对一个batch数据的训练,就是完成了一个step。

10、神经网络

实际上,上面的卷积处理过程,都是在对图片进行特征提取,而最终要进行分类或预测就需要借助神经网络了,所以一般在卷积处理之后需要对数据进行压平(flatten)操作,使其变为1维的数据,便于送入神经网络的输入层。

神经网络模型里面(见下图),全连接层/Dense层是深度学习中常用的一种神经网络层,也称为密集连接层或多层感知机层。它既能当输入层(input layer),又能当输出层(output layer),还能当中间层(Hidden layer)。

推荐一个绘制神经网络图的工具:NN SVG

11、激活函数

在神经网络中,激活函数用于引入非线性,使网络能够学习复杂的映射关系。如果不用激活函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合。以下是一些常用的激活函数。常用的有:

参考:机器学习算法那些事

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/779077.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

URLSearchParams

1、定义 URLSearchParams是 Web API 中的一种对象,用于处理 URL 查询字符串的操作。 它提供了一种简单的方式来访问和操作 URL 查询参数。 2、作用 通过 URLSearchParams 对象,你可以轻松地从 URL 查询字符串中获取特定参数的值,也可以添…

JVM(一)——内存结构

一. 前言 1、什么是 JVM? 1)定义: Java Virtual Machine - java 程序的运行环境(java 二进制字节码的运行环境) 2)好处: 一次编写,到处运行自动内存管理,垃圾回收功能数组下标越…

低压MOS在新能源园林机械上的应用-REASUNOS瑞森半导体

一、前言 在欧美地区,以锂电池为动力源的新能源园林机械迅速地替代着以往的燃油和交流电动力机器。而中国也将迎来一场风暴式革命。 园林工具是人类绿化景观的养护设备,是以养护草坪、绿篱、保护花草、树木为作业对象的,代替大部分手工劳动…

国内ip代理速度快的秘密

在互联网时代,IP代理已经成为许多网络用户、企业和开发者的重要工具。而在国内,由于网络环境的复杂性和特殊性,寻找一个速度快、稳定可靠的IP代理显得尤为重要。虎观代理将深入探讨国内IP代理速度快的秘密,并分析其带来的优势和应…

多个微信这样高效管理

随着微信成为企业商务沟通的主要平台,一些业务咨询量较大的行业,如教育培训、旅游、美容及医疗等,通过微信开展营销活动和客户服务过程中,经常面临多微信管理难题。 在这种情况下,采用微信线上业务模式,需…

Kubernetes篇(一)— kubernetes介绍

目录 前言一、应用部署方式演变二、kubernetes简介三、kubernetes组件四、kubernetes概念 前言 本章节主要介绍应用程序在服务器上部署方式演变以及kubernetes的概念、组件和工作原理。 一、应用部署方式演变 在部署应用程序的方式上,主要经历了三个时代&#xff…

雷军分享造车故事:储备1363亿元的现金,吊打特斯拉Model 3

小米召开新车发布会,正式发布小米 SU7。该车定位中大型纯电轿车,有 SU7、SU7 Pro、SU7 Max 三个版本,车身尺寸 4997/1963/1455mm,轴距 3000mm。售价 21.59-29.99 万。 在小米汽车SU7发布会后,小米集团的创始人、董事长…

Ubuntu 系统下安装 Nginx

目录 一、Nginx是什么 ​二、Ubuntu 系统下安装 Nginx 1、安装包下载 2、上传服务器并解压缩 3、依赖配置安装 4、生成编译脚本 ​5、编译 6、开始安装 7、设置为随机自启动 7.1、创建 nginx.service 文件,将以下内容粘贴到文件中 7.2、将 nginx.service…

增长超500%!亚马逊卖疯的旅行箱,赛盈分销浅析今年企业出海布局方向!

箱包行业迎来了新的发展契机,一方面是在工艺与技术创新下,另一方面,旅游经济复苏的推动下,全球箱包行业取得飞速发展。 Euromonitor & 华泰研究针对2018-2028这十年间的箱包市场进行了调研,数据显示2023年全球箱包…

Filter、Listener、AJAX

Filter 概念:Filter 表示过滤器,是JavaWeb三大组件(Servlet、Filter、 Listener)之一。 过滤器可以把对资源的请求拦截下来,从而实现一些特殊的功能。 过滤器一般完成一些通用的操作,比如:权限控制、统一编码处理、敏感…

经济学:经济崩溃

政府试图通过印刷新的钞票来还债->增加产出,提高物价->产出已经极限,物价继续升高->人们迫不及待想要花掉自己的钱->货币流通速度加快->恶性通货膨胀->逼迫人们尽可能快的花钱 股票崩溃-> 人们没钱,停止买东西-> 经济陷入停滞状…

Parallels Desktop 18中文--体验无缝的跨平台工作,轻松驾驭Windows与Mac

Parallels Desktop 18是一款功能强大的虚拟机软件,专为Mac用户设计,能在Mac上流畅运行Windows和其他操作系统。它提供了更快的性能、更好的图形处理以及更简洁的虚拟机导入导出功能,还支持Apple M1芯片,优化性能和电池续航时间。P…

小程序多选组件步骤

1.下载插件导入到Hbuilder 下拉多选&#xff0c;完全仿照微信原生效果&#xff0c;简单美观可扩展&#xff0c;可在线体验 - DCloud 插件市场 2. 在页面使用组件 <view class"multiple-box" :class"[select, rc_person_manager_info.manage_type ? selecte…

从创意立项到产品赚钱的全调优过程复盘,如何提高产品存活率 | TopOn变现干货

10月28日&#xff0c;由TopOn、罗斯基联合主办的“游戏赛道新机会”主题沙龙在成都举办。活动邀请了国内外多位知名公司及游戏爆款产品的负责人分享&#xff0c;分别从各自的方向及经验出发&#xff0c;以数据、案例、产品分析、行业趋势等多个维度&#xff0c;为行业从业者带来…

GoogLenet网络结构及代码实现

GoogLeNet 是由 Christian Szegedy 等人在 Google 的研究团队于 2014 年提出的深度卷积神经网络架构&#xff0c;它在当年的 ImageNet 大规模视觉识别挑战赛&#xff08;ILSVRC&#xff09;中取得了优异的成绩。GoogLeNet 的全名是 Inception v1&#xff0c;因其创新的 Incepti…

RGB,深度图,点云和体素的相互转换记录

目录 1.RGBD2Point 1.2 步骤 2.Point2Voxel-Voxelization 2.1 原理 2.2 代码 3.Voxel2Point 4.Point2RGB 5.Voxel2RGB 1.RGBD2Point input&#xff1a;RGB D 内外惨 output&#xff1a;points cloud def depth2pcd(depth_img):"""深度图转点云数据图…

鸿蒙开发人才紧缺!这份《HarmonyOS教学视频》帮你更快上手鸿蒙

去年9月&#xff0c;华为宣布鸿蒙原生应用全面启动&#xff0c;基于开源鸿蒙开发的 HarmonyOS NEXT 鸿蒙星河版将在今年秋天正式和消费者见面。该版本系统底座将由华为全线自研&#xff0c;去掉传统安卓 AOSP 代码。 这意味着&#xff0c;鸿蒙星河版将不再兼容安卓应用&#xf…

47 vue 常见的几种模型视图不同步的问题

前言 这里主要是来看一下 关于 vue 中的一些场景下面 可能会出现 模型和视图 不同步更新的情况 然后 这种情况主要是 vue 中的对象 属性没有响应式的 setter, getter 然后 我们这里就来看一下 大多数的情况下的一个场景, 和一些处理方式 当然 处理方式主要是基于 Vue.set, …

Redis命令-Key的层级结构

基础篇Redis 4.4 Redis命令-Key的层级结构 Redis没有类似MySQL中的Table的概念&#xff0c;我们该如何区分不同类型的key呢&#xff1f; 例如&#xff0c;需要存储用户.商品信息到redis&#xff0c;有一个用户id是1&#xff0c;有一个商品id恰好也是1&#xff0c;此时如果使…

力扣 219.存在重复元素2

给你一个整数数组 nums 和一个整数 k &#xff0c;判断数组中是否存在两个 不同的索引 i 和 j &#xff0c;满足 nums[i] nums[j] 且 abs(i - j) < k 。如果存在&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 示例 1&#xff1a; 输入&#xff1a;nu…