带你学会深度学习之卷积神经网络[CNN] - 3

前言

本文不讲述如泛化,前向后向传播,过拟合等基础概念。

本文图片来源于网络,图片所有者可以随时联系笔者删除。

CNN,常用于计算机视觉,是计算机视觉方面常见的基础模型,后面发展的有很多其他变种,也被用于文字处理等非计算机视觉领域。概念是由AI领域著名大佬LeCun等人在上世纪90年代提出。CNN之所以在计算机视觉领域(CNN、)表现出色,是因为它们能够自动并有效地捕捉到图像中的空间层次结构,这一点对于理解像素组成的图像至关重要。通过利用这种层次结构,CNN能够识别和分类从简单到复杂的对象和场景,无论它们的大小、位置或者是姿态如何变化。CNN的变种和改进模型层出不穷:AlexNet、VGG、GoogLeNet到ResNet和DenseNet等等等等。

正文

引-- CNN用于图像领域

  1. 图像是由像素矩阵构成的,每个像素包含了颜色信息。在处理图像时,我们不仅关心每个像素的值,还关心像素之间的空间关系。这是因为空间上邻近的像素组合在一起,往往构成了图像中可识别的模式和物体边缘。例如,在Fashion-MNIST数据集中,某些像素组合可能形成鞋子的轮廓,而另一些组合可能形成衣服的图案。但是,当我们使用全连接层处理图像时,这种空间上的关系往往被忽略。因为全连接层将图像展平为一维向量,这样做虽然简化了模型的输入处理,但同时也丢失了像素之间的空间信息。
  2. 此外,全连接网络模型在处理大尺寸图像时面临着巨大的参数数量和相应的计算资源消耗问题。如前所述,对于一个大尺寸的图像,即便是一个简单的全连接层也可能需要上百万到数千万的参数,这不仅导致模型存储开销大,而且容易引发过拟合,限制了模型处理大规模图像数据的能力。

卷积神经网络(CNN)应运而生,旨在解决这些问题:

  1. 局部感受野:CNN中的卷积层通过覆盖图像的小区域来检测局部特征,如边缘、纹理等。这些局部特征随着网络层的加深,可以组合成更复杂的图案。

  2. 参数共享:在卷积层中,一个卷积核在整个输入图像上滑动,以检测特定的特征。由于这个卷积核的参数在各个位置共享,它可以极大地减少模型的参数数量。

LeNet by Yann LeCUN

LeNet是由Yann LeCun于1998年提出的,是最早的卷积神经网络之一,主要用于手写数字识别。虽然LeNet相对简单,但它奠定了现代深度学习在图像识别领域应用的基础。

结构

LeNet模型主要包含两部分:卷积层部分和全连接层部分。模型结构大致如下:

  1. 卷积层1:使用6个卷积核,每个大小为5x5,步幅为1,无填充(valid),产生6个特征图)。
  2. 平均池化层1(又称为下采样层):对每个特征图使用2x2的池化核,步幅为2,进行下采样。
  3. 卷积层2:使用16个卷积核,每个大小为5x5,对上一层的特征图进行卷积,产生16个特征图。
  4. 平均池化层2:同样使用2x2的池化核进行下采样。
  5. 全连接层1:将前一层的输出展平后,连接到120个神经元上。
  6. 全连接层2:连接上一层的120个输出到84个神经元上。
  7. 输出层:最后连接到一个具有10个输出的全连接层,对应于10个类别的手写数字。
示例代码
import torch
import torch.nn as nn
import torch.nn.functional as Fclass LeNet(nn.Module):def __init__(self):super(LeNet, self).__init__()self.conv1 = nn.Conv2d(1, 6, 5) # 输入通道1, 输出通道6, 卷积核大小5x5self.pool = nn.AvgPool2d(2, 2)  # 平均池化,池化核大小2x2,步幅2self.conv2 = nn.Conv2d(6, 16, 5)self.fc1 = nn.Linear(16 * 5 * 5, 120) # 5x5是特征图的大小self.fc2 = nn.Linear(120, 84)self.fc3 = nn.Linear(84, 10) # 10个输出对应于10个类别def forward(self, x):x = self.pool(F.relu(self.conv1(x)))x = self.pool(F.relu(self.conv2(x)))x = x.view(-1, 16 * 5 * 5)x = F.relu(self.fc1(x))x = F.relu(self.fc2(x))x = self.fc3(x)return xnet = LeNet()
print(net)

LeNet能够以较少的参数量处理图像数据,从而降低了过拟合的风险并提高了模型的泛化能力。

AlexNet by Alex Krizhevsky

在LeNet提出将近20年后,尽管神经网络在早期的小规模数据集上展示了潜力,但它们在更大的真实世界数据集上的表现并不尽如人意。这一时期,神经网络面临着计算复杂度高、训练困难、缺乏有效的参数初始化和优化算法等多重挑战,导致它们被其他机器学习方法,如支持向量机所超越。

然而,随着数据集的增大和计算能力的提升,尤其是GPU的广泛应用,神经网络开始显示出其真正的潜力。2012年,一个名为AlexNet的深度卷积神经网络模型在ImageNet Large Scale Visual Recognition Challenge(ILSVRC)上取得了突破性的成功,标志着深度学习时代的开始。

AlexNet的成功展示了端到端学习模型的强大能力,即直接从原始像素到最终分类结果。

AlexNet带来了两个影响深远的概念,ReLU激活函数和Dropout。

  1. sigmoid激活函数输出极接近0或1时,这些区域的梯度几乎为0,从而造成反向传播无法继续更新部分模型参数;而ReLU激活函数在正区间的梯度恒为1。因此若模型参数初始化不当,sigmoid函数可能在正区间得到几乎为0的梯度,从而令模型无法得到有效训练。
  2. Dropout则是根据预先设置的比例随机丢弃一些参数,来避免过拟合问题,简单有效。
结构

AlexNet主要由以下几个部分组成:

  1. 5个卷积层,其中一些卷积层后面跟有最大池化层。
  2. 3个全连接层,最后一个全连接层输出到1000个类的softmax层(ImageNet数据集的类别数)。
  3. 使用ReLU作为激活函数,提高训练的非线性性和速度。
  4. 引入Dropout技术,减少全连接层的过拟合问题。
  5. 使用GPU进行模型训练,显著加快了训练速度。
示例代码
import torch
import torch.nn as nn
import torch.nn.functional as Fclass AlexNet(nn.Module):def __init__(self, num_classes=1000):super(AlexNet, self).__init__()self.conv1 = nn.Conv2d(3, 96, kernel_size=11, stride=4, padding=2)self.conv2 = nn.Conv2d(96, 256, kernel_size=5, padding=2)self.conv3 = nn.Conv2d(256, 384, kernel_size=3, padding=1)self.conv4 = nn.Conv2d(384, 384, kernel_size=3, padding=1)self.conv5 = nn.Conv2d(384, 256, kernel_size=3, padding=1)self.pool = nn.MaxPool2d(kernel_size=3, stride=2)self.fc1 = nn.Linear(256 * 6 * 6, 4096)self.fc2 = nn.Linear(4096, 4096)self.fc3 = nn.Linear(4096, num_classes)self.dropout = nn.Dropout()def forward(self, x):x = self.pool(F.relu(self.conv1(x)))x = self.pool(F.relu(self.conv2(x)))x = F.relu(self.conv3(x))x = F.relu(self.conv4(x))x = self.pool(F.relu(self.conv5(x)))x = x.view(-1, 256 * 6 * 6)x = self.dropout(F.relu(self.fc1(x)))x = self.dropout(F.relu(self.fc2(x)))x = self.fc3(x)return xnet = AlexNet(num_classes=1000)
print(net)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/757837.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

实验7-3-6 字符串转换成十进制整数(PTA)

题目: 输入一个以#结束的字符串,本题要求滤去所有的非十六进制字符(不分大小写),组成一个新的表示十六进制数字的字符串,然后将其转换为十进制数后输出。如果在第一个十六进制字符之前存在字符“-”&#…

图书推荐|图解算法:C语言实现+视频教学版

零负担理解数据结构及其算法的设计,零基础也能快速上手编程。 本书内容 《图解算法:C语言实现视频教学版》是一本综合讲述数据结构及其算法的入门书,力求简洁、清晰、严谨、且易于学习和掌握。 《图解算法:C语言实现视频教学版》…

Java基础学习: http请求中ContentType类型的取值

HTTP请求中的Content-Type头部用于指示发送到服务器的数据或从服务器发送到客户端的数据的媒体类型。以下是一些常见的Content-Type类型: application/json 用于发送或接收JSON格式的数据。JSON是一种轻量级的数据交换格式,易于人阅读和编写,…

经过拦截器cookie验证后用户信息放入哪里,以便后面接口使用

1.基于ThreadLocal实现,拦截器获取的用户信息在接口中使用_threadloacl获取账号数据_JAVADWangJing的博客-CSDN博客2基于ThreadLocal实现,拦截器获取的用户信息在接口中使用_threadloacl获取账号数据https://blog.csdn.net/wang_jing_jing/ar…

07 - Debian如何分区、格式化与挂载磁盘

作者:网络傅老师 特别提示:未经作者允许,不得转载任何内容。违者必究! Debian如何分区、格式化与挂载磁盘 《傅老师Debian小知识库系列之07》——原创 前言 傅老师Debian小知识库特点: 1、最小化拆解Debian实用技能…

echarts多个折线图共用一个x轴和tooltip组件

实现效果 根据接口传来的数据&#xff0c;使用echarts绘制出&#xff0c;共用一个x轴的图表 功能&#xff1a;后端将所有数据传送过来&#xff0c;前端通过监听选中值来展示对应的图表数据 数据格式&#xff1a; 代码&#xff1a; <template><div><div clas…

Knife4j的相关知识点!!

一、基础概念 knife4j是为Java MVC框架集成Swagger生成Api文档的增强解决方案,前身是swagger-bootstrap-ui,取名kni4j是希望它能像一把匕首一样小巧,轻量,并且功能强悍! Knif4j&#xff08;原名为 Swagger-Bootstrap-UI&#xff09;是一款基于 Swagger 实现的文档管理工具&am…

3D模型网站怎么选择靠谱?

3D模型在各个领域的应用越来越广泛&#xff0c;如设计、建筑等。而在网上寻找高质量的3D模型成为了许多设计师和创作者的迫切需求。然而&#xff0c;面对众多的3D模型网站&#xff0c;如何选择一个靠谱的3D模型网站呢? 选择靠谱的3D模型网站是一个需要综合考虑多方面因素的过程…

MySQL 管理用户授权 DCL

管理用户 查询用户 use mysql select * from user;创建用户 //通配符: 主机名如果是 % 表示可以在任意主机登录 create user 用户名主机名 identified by 密码;修改用户 //方法1: update user set password password(新密码) where user 用户名; //方法2: set password f…

图神经网络实战(5)——常用图数据集

图神经网络实战&#xff08;5&#xff09;——常用图数据集 0. 前言0. 图数据集介绍2. Cora 数据集3. Facebook Page-Page 数据集小结系列链接 0. 前言 图数据集往往比单纯的连接集合更丰富&#xff0c;节点和边也可以具有表示分数、颜色、单词等的特征。在输入数据中包含这些…

Python实现2024春晚刘谦魔术

视频回顾 “刘谦老师24年春晚魔术 整理下步骤如下&#xff1a; 1.13张扑克牌弄乱抽4张 2.4张牌对折 撕开 3.名字几个字 从上到下放几张下去、 4.拿起最上面3张 插进剩下卡片的中间 5.最上面的一张藏起来 6.南方人/北方人/不确定 从上面拿起一张/两张/3张 插进剩下的牌中间 7.男…

Golang 开发实战day04 - Standard Library

Golang 开发实战day04 - Standard Library 接下来开始我们第四天学习&#xff0c;Go语言标准库提供了丰富的功能&#xff0c;可以帮助开发者快速完成各种任务。 golang就像其他语言一样&#xff0c;附带了一些非常轻量级的函数和特性&#xff0c;都是开箱即用的&#xff0c;这里…

LeetCode 热题100 回溯专题解析

LeetCode 热题100 回溯专题解析 回溯算法是一种通过探索所有可能的候选解来找出所有解的算法。在遇到不满足约束条件的情况下&#xff0c;回溯算法会返回上一步&#xff0c;尝试其他可能的候选解。在 LeetCode 热题100 中&#xff0c;回溯算法广泛应用于排列组合问题。本文将深…

Linux 管道

目录 一、认识管道 二、匿名管道 pipe函数 用法&#xff1a; pipefd&#xff1a; 匿名管道通信&#xff1a; 三、命名管道 概念&#xff1a; 创建&#xff1a; 特性&#xff1a; 用途&#xff1a; 四、命名管道和匿名管道的区别 命名&#xff1a; 持久性&#xff1a;…

改进YOLOv8注意力系列六:结合SEAttention轻量通道注意力、ShuffleAttention重排特征注意力模块、SimAM无参数化注意力

改进YOLOv8注意力系列五:结合ParNetAttention注意力、高效的金字塔切分注意力模块PSA、跨领域基于多层感知器(MLP)S2Attention注意力 代码SEAttention轻量通道注意力ShuffleAttention重排特征注意力模块SimAM无参数化注意力加入方法各种yaml加入结构本文提供了改进 YOLOv8注…

大模型下载报错:aria2c/git-lfs is not installed, Please install it first.

报错信息 aria2c is not installed, Please install it first. git-lfs is not installed, Please install it first.解决方法 apt install aria2c同理 apt install git-lfs其他问题 如果是权限问题加sudo sudo apt install aria2c和 sudo apt install git-lfs

【PyQt】17-日历控件

文章目录 前言一、代码二、运行结果总结 前言 固定格式的表述 日期的获取 一、代码 #Author &#xff1a;susocool #Creattime:2024/3/19 #FileName:40-日历控件 #Description: 日历控件的展示 import sys from PyQt5.QtCore import * from PyQt5.QtWidgets import * from PyQ…

[论文笔记] Open-Sora 4、sora复现训练过程 (新repo)

sudo -H pip install --upgrade youtube-dl -i https://pypi.doubanio.com/simple/ 一、概况 OpenAI 的 Sora 在生成一分钟高质量视频方面非常出色。然而,它几乎没有透露任何有关其细节的信息。为了让AI更加“开放”,致力于打造Sora的开源版本。本报告描述了colossal-ai首次…

【云呐】医院固定资产管理系统有哪些

科学技术的进步已经渗透到各个领域&#xff0c;医疗行业也是如此。伴随着医疗信息化的实施&#xff0c;医院固定资产管理系统的应用日益广泛。那医院固定资产管理系统的作用是什么呢&#xff1f;  医院固定资产管理系统的核心功能是高效管理医院的固定资产。这包括对整个过程…

解决jenkins运行磁盘满的问题

参考&#xff1a;https://blog.csdn.net/ouyang_peng/article/details/79225993 分配磁盘空间相关操作&#xff1a; https://cloud.tencent.com/developer/article/2230624 登录jenkins相对应的服务或容器中查看磁盘情况&#xff1a; df -h在102挂载服务器上看到是这两个文件…