RNN And CNN通识

CNN And RNN

  • RNN And CNN通识
    • 一、卷积神经网络(Convolutional Neural Networks,CNN)
      • 1. 诞生背景
      • 2. 核心思想和原理
        • (1)基本结构:
        • (2)核心公式:
        • (3)关键特性:
        • (4)局限性:
      • 3. 发展历史
        • (1)LeNet的提出(1989年)
        • (2)AlexNet的突破(2012年)
        • (3)VGG和GoogLeNet(2014-2015年)
        • (4)ResNet的提出(2015年)
      • 4. 最佳实践
    • 二、循环神经网络(Recurrent Neural Network, RNN)
      • 1. 诞生背景
      • 2. 核心思想和原理
        • (1) 基本结构:
        • (2)核心公式:
        • (3)关键特性:
        • (4)局限性:
      • 3. 发展历史
        • (1)经典RNN的提出(1986年)
        • (2)LSTM的诞生(1997年)
        • (3)GRU的提出(2014年)
        • (4)基于注意力机制的改进(2014-2017年)
        • (5)现代发展(2020年至今)
      • 4. 最佳实践
    • 三、RNN与CNN对比
      • 1. 应用场景
      • 2. 核心思想
      • 3. 结构与原理对比
      • 4. 优缺点对比
      • 5. 适用场景与选择建议
      • 6. 总结

RNN And CNN通识

近期正在阅读《Attention Is All You Need》这篇Transformer的原始论文,阅读中碰到了一些对我来说,是新名词、新技术、新模型的知识,因此进行一个通识的学习和总结,记录在此。


一、卷积神经网络(Convolutional Neural Networks,CNN)

1. 诞生背景

卷积神经网络(Convolutional Neural Network, CNN)最早的基础可以追溯到20世纪80年代,由Yann LeCun等人提出,最初用于手写数字识别。与传统的前馈神经网络相比,CNN在处理图像数据方面表现出了显著优势。传统神经网络需要连接每一对输入和输出,这在处理高维数据(如图像)时计算成本较高且效率低。CNN通过局部连接共享权重等方式,有效地减少了模型参数,并使得神经网络能够捕捉到输入数据的空间结构。

  • 诞生时间:CNN的概念最早由LeCun于1989年提出,并在1998年发布了经典的LeNet-5模型。
  • 主要解决问题:CNN主要解决了图像数据处理中的参数过多和计算效率低的问题,同时通过局部连接和权重共享使得神经网络能够有效地捕捉图像的局部特征。

2. 核心思想和原理

卷积神经网络的核心思想是通过卷积层提取局部特征,并通过池化层降低特征维度,逐步提取更高级的特征,从而进行分类或回归任务。

(1)基本结构:

CNN的基本结构通常包括:

  1. 卷积层(Convolutional Layer):用于提取局部特征,通常使用多个滤波器(卷积核)在输入图像上滑动,进行局部感受野的计算。
  2. 池化层(Pooling Layer):通过下采样减少特征图的大小,降低计算量,同时保留最重要的特征信息。
  3. 全连接层(Fully Connected Layer):在卷积和池化层提取特征之后,使用全连接层进行分类或回归任务。
  4. 激活函数(Activation Function):通常使用ReLU(Rectified Linear Unit)激活函数,使模型能够学习非线性特征。
(2)核心公式:
  1. 卷积操作公式
    在这里插入图片描述

  2. 池化操作公式
    池化层通常使用最大池化(Max Pooling)或平均池化(Average Pooling),最大池化公式为:
    在这里插入图片描述

(3)关键特性:
  • 局部连接:每个神经元只连接到输入图像的局部区域,这样可以减少计算量。
  • 共享权重:同一卷积核在图像的不同位置使用相同的权重,进一步减少参数数量。
  • 平移不变性:通过卷积操作,CNN能够在不同位置识别相同的特征,具有平移不变性。
(4)局限性:
  • 对空间关系的依赖:CNN主要关注局部特征和空间关系,对于长期依赖和全局上下文的建模能力较弱。
  • 计算开销:尽管通过共享权重减少了参数数量,但卷积和池化操作仍然需要较高的计算资源。

3. 发展历史

(1)LeNet的提出(1989年)

LeNet由Yann LeCun等人提出,是第一个成功应用于手写数字识别的卷积神经网络模型。LeNet使用卷积和池化层提取特征,然后通过全连接层进行分类。它是CNN的早期代表之一,标志着CNN在计算机视觉领域的首次成功应用。

(2)AlexNet的突破(2012年)

2012年,AlexNet在ImageNet比赛中取得了突破性成绩,显著提高了深度学习在计算机视觉中的应用。AlexNet通过使用更深的网络结构(8层卷积层和全连接层)、ReLU激活函数、Dropout正则化等技术,解决了过拟合和计算效率问题,使得CNN成为深度学习领域的重要研究方向。

(3)VGG和GoogLeNet(2014-2015年)
  • VGG提出了更深的网络结构,使用了重复的3×3卷积层,改进了模型的表现。
  • GoogLeNet(Inception Network)引入了Inception模块,通过使用不同尺寸的卷积核和池化操作来提高网络的表达能力,同时保持较少的计算量。
(4)ResNet的提出(2015年)

ResNet通过引入残差连接(Residual Connection)解决了深度网络训练中的梯度消失问题,使得网络深度可以达到上千层,并且提高了网络的性能。ResNet开创了深度网络的新方向,使得深度学习技术在各个领域取得了更大的突破。


4. 最佳实践

(1)网络结构的选择

  • 简单任务:对于较简单的图像分类任务,可以选择较浅的网络,如LeNet或AlexNet。
  • 复杂任务:对于复杂的任务,如图像识别和检测,可以使用更深的网络,如VGG、ResNet或Inception。

(2)正则化技术

  • Dropout:可以有效减少过拟合,尤其是在训练大型深度神经网络时。
  • Batch Normalization:通过对每一层的输出进行标准化,加速训练并提高模型的稳定性。

(3)优化技术

  • 数据增强:通过对输入数据进行旋转、缩放、裁剪等变换来扩增数据集,增强模型的泛化能力。
  • 学习率调度:使用动态调整学习率的方法(如学习率衰减)来加速训练过程并避免局部最优解。

(4)硬件加速

  • GPU加速:使用GPU进行矩阵运算的加速,可以大大缩短训练时间。
  • 分布式训练:对于超大规模数据集和模型,可以使用分布式训练框架(如TensorFlow、PyTorch)来进行并行训练。

二、循环神经网络(Recurrent Neural Network, RNN)

1. 诞生背景

在上世纪80年代至90年代,传统神经网络(如前馈神经网络)在处理序列数据时表现出局限性。这些网络无法有效捕获序列中前后数据的关联,因为输入之间是独立的。然而,许多实际任务(如语音识别、机器翻译和时间序列预测)都涉及顺序依赖关系。为了克服这一问题,==循环神经网络(RNN)==应运而生。

  • 诞生时间:RNN最初由David Rumelhart等人于1986年提出,后来由Sepp Hochreiter和Jürgen Schmidhuber在1997年提出LSTM(长短期记忆网络)加以改进。
  • 主要解决问题:如何在序列数据中捕获长期依赖关系,记住前面输入的信息,并将其用于当前和后续的预测。

2. 核心思想和原理

循环神经网络的核心思想是通过隐藏状态(Hidden State)存储过去的信息,并在序列的每一步中将当前输入与之前的隐藏状态结合起来,以动态更新隐藏状态。

(1) 基本结构:

RNN每个时间步的输入输出关系如下:
在这里插入图片描述

(2)核心公式:
  1. 隐藏状态更新公式
    在这里插入图片描述

  2. 输出计算公式

(3)关键特性:
  • 权重共享:在不同时间步之间,RNN的参数(如权重矩阵)是共享的。
  • 序列依赖:每个时间步的输出依赖于之前时间步的隐藏状态,从而捕获序列中的时间依赖关系。
(4)局限性:
  • 梯度消失和梯度爆炸:在长序列中,反向传播时梯度可能会逐渐衰减(梯度消失)或迅速增长(梯度爆炸),导致难以捕获长期依赖。

3. 发展历史

(1)经典RNN的提出(1986年)

David Rumelhart等人首次提出RNN结构,用于解决序列数据的建模问题。但受限于梯度消失问题,其性能有限。

(2)LSTM的诞生(1997年)

Sepp Hochreiter和Jürgen Schmidhuber提出长短期记忆网络(LSTM),通过引入记忆单元(Cell State)和门机制(如输入门、遗忘门和输出门)有效缓解了梯度消失问题,使得RNN可以处理更长的序列。

(3)GRU的提出(2014年)

Kyunghyun Cho等人提出门控循环单元(GRU),简化了LSTM的结构,保留了其捕获长期依赖的能力,同时减少了计算开销。

(4)基于注意力机制的改进(2014-2017年)
  • 2014年,Bahdanau等人提出注意力机制(Attention Mechanism),让模型在生成每个输出时能够灵活选择关注输入序列的不同部分。
  • 2017年,Transformer的提出彻底改变了序列建模领域,完全摒弃了RNN结构,依赖于全局注意力机制。
(5)现代发展(2020年至今)

虽然Transformer已在许多任务中取代了RNN,但RNN及其变体(如LSTM、GRU)仍在语音识别、时间序列预测等领域具有重要地位。


4. 最佳实践

(1)选择合适的RNN变体

  1. 标准RNN:适用于短序列任务,如简单时间序列预测。
  2. LSTM:更适合长序列任务,如文本生成、机器翻译。
  3. GRU:计算效率更高,但在大多数任务中的性能与LSTM相当。

(2)梯度问题的解决

  • 梯度裁剪(Gradient Clipping):防止梯度爆炸,通过限制梯度的最大值来稳定训练。
  • 权重正则化:使用L2正则化或Dropout减少过拟合。

(3)优化训练

  • 小批量梯度下降(Mini-Batch Gradient Descent):使用小批量样本训练,提高计算效率。
  • 学习率调度:动态调整学习率以加快收敛。

(4)结合注意力机制

  • 在序列到序列(Seq2Seq)模型中,结合注意力机制可提升RNN对长序列的处理能力。

(5)硬件加速与库选择

  • 硬件:利用GPU或TPU加速矩阵计算。
  • 深度学习框架:如PyTorch、TensorFlow等框架提供了高效的RNN、LSTM、GRU实现。

三、RNN与CNN对比

卷积神经网络(CNN)和循环神经网络(RNN)是深度学习中两种重要的神经网络架构,分别擅长处理不同类型的数据。以下将从应用场景核心思想结构与原理优缺点等方面进行详细对比。

1. 应用场景

网络类型主要应用领域示例任务
CNN计算机视觉、图像处理、视频分析图像分类、目标检测、语义分割、风格迁移
RNN自然语言处理、时间序列分析、语音处理机器翻译、文本生成、语音识别、时间序列预测

总结

  • CNN适合空间结构数据,如图像、视频等。
  • RNN适合序列数据,如文本、语音等。

2. 核心思想

网络类型核心思想
CNN通过卷积核提取局部特征,并利用权重共享减少参数数量。
RNN通过隐藏状态捕获序列中的时间依赖关系。

总结

  • CNN专注于空间特征提取,局部感受野逐层扩展至全局。
  • RNN专注于时间依赖建模,当前输出依赖于过去的信息。

3. 结构与原理对比

(1) CNN结构特点

  • 卷积层(Convolutional Layer):用于提取局部特征,通过卷积核在输入图像上滑动进行计算。
  • 池化层(Pooling Layer):对特征图进行下采样,以此减少特征维度。
  • 激活函数(ReLU):引入非线性特性,使模型能够学习更复杂的映射关系。
  • 全连接层(Fully Connected Layer):将前面提取的特征用于分类或回归任务。

(2)RNN结构特点

  • 隐藏状态(Hidden State):当前时间步的隐藏状态(h_t)由前一时间步(h_{t - 1})和当前输入(x_t)共同决定,以此实现信息在序列中的传递与累积。
  • 时间依赖(Temporal Dependency):借助循环结构来对序列数据的依赖关系进行建模,体现序列顺序特性。
  • 序列输出:输出可以是单个值,也可以是整个序列,具体取决于具体任务需求。

4. 优缺点对比

对比维度卷积神经网络(CNN)循环神经网络(RNN)
优势1. 具备高效并行计算能力,计算速度相对较快。
2. 通过参数共享机制,可有效减少模型参数数量。
3. 在处理图像、视频等空间数据方面表现优异。
1. 非常适合处理序列数据,能够有效捕获其中的时间依赖关系。
2. 可以处理长度可变的输入和输出序列。
3. 使用如LSTM、GRU等变体,能够在一定程度上缓解梯度消失问题。
劣势1. 擅长处理固定大小的输入,对于序列数据的处理效果欠佳。
2. 较难捕获长距离依赖关系,对于远距离特征关联建模能力有限。
3. 对全局特征的捕获能力相对有限(通常需要加深网络结构来改善)。
1. 计算过程难以并行化,导致训练速度较慢。
2. 原始的RNN容易出现梯度消失或梯度爆炸问题,影响模型训练效果和稳定性。
3. 针对长序列任务,往往需要较长的训练时间。
并行化能力优异(卷积操作和池化操作均可并行执行)。较差(其计算依赖前一时间步的结果,限制了并行计算的可行性)。
参数规模较小(得益于卷积核共享权重的特性,整体参数数量相对较少)。较大(因为每个时间步都涉及参数更新,所以参数规模相对更大)。

5. 适用场景与选择建议

  1. 使用CNN的场景

    • 图像分类、目标检测、语义分割、视频分析等计算机视觉相关任务。
    • 需要高效并行处理以及捕获空间特征的任务场景。
  2. 使用RNN的场景

    • 自然语言处理相关任务,例如机器翻译、文本生成等。
    • 时间序列预测、语音识别等涉及序列数据处理的任务。
  3. 综合建议

    • 若任务涉及长序列并且需要捕获复杂的时间依赖关系,建议使用RNN或其变体(如LSTM、GRU)。
    • 若任务涉及空间特征(如图像或视频),则使用CNN更为高效。
    • 在某些场景下,可结合CNN + RNN架构,比如在视频分类任务中,先利用CNN提取视频帧中的空间特征,再借助RNN对帧序列的时间关系进行建模。

6. 总结

卷积神经网络(CNN)作为一种强大的深度学习模型,在计算机视觉领域中发挥了巨大的作用。它通过局部连接和共享权重等方式,成功提取图像中的局部特征,并进行分类或回归任务。从LeNet到AlexNet,再到ResNet,CNN不断发展和完善,推动了深度学习技术的进步。对于研究者和工程师而言,理解CNN的核心原理、选择合适的网络结构,并掌握最佳实践,是构建高效神经网络模型的关键。

循环神经网络作为一种能够建模序列数据的强大工具,在深度学习的发展中具有重要地位。从经典RNN到LSTM、GRU,再到结合注意力机制的Seq2Seq模型,RNN不断演化以适应更复杂的序列建模需求。虽然Transformer已在许多领域占据主导地位,但RNN仍在一些特定任务中具有不可替代的优势。对于研究者而言,了解RNN的发展历史、核心原理以及最佳实践,是深入掌握序列建模技术的基础。

卷积神经网络(CNN)和循环神经网络(RNN)各有所长,分别在不同类型的数据处理上展现优势。CNN主要聚焦于空间结构数据的处理,适用于图像、视频等任务;RNN则侧重于序列数据,更契合自然语言处理和时间序列分析等应用场景。深入理解二者的差异、优势以及应用场景,有助于针对具体任务准确选择最适配的模型架构,进而提升任务处理效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/61483.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

手机控制载货汽车一键启动无钥匙进入广泛应用

移动管家载货汽车一键启动无钥匙进入手机控车系统‌, 该系统广泛应用于物流运输、工程作业等货车场景,为车主提供了高效、便捷的启动和熄火解决方案,体现了科技进步对物流行业的积极影响‌ 核心功能‌:简化启动流程,提…

基于python爬虫的智慧人才数据分析系统

废话不多说,先看效果图 更多效果图可私信我获取 源码分享 import os import sysdef main():"""Run administrative tasks."""os.environ.setdefault(DJANGO_SETTINGS_MODULE, 智慧人才数据分析系统.settings)try:from django.core.m…

聊聊Flink:这次把Flink的触发器(Trigger)、移除器(Evictor)讲透

一、触发器(Trigger) Trigger 决定了一个窗口(由 window assigner 定义)何时可以被 window function 处理。 每个 WindowAssigner 都有一个默认的 Trigger。 如果默认 trigger 无法满足你的需要,你可以在 trigger(…) 调用中指定自定义的 tr…

用Python做数据分析环境搭建及工具使用(Jupyter)

目录 一、Anaconda下载、安装 二、Jupyter 打开 三、Jupyter 常用快捷键 3.1 创建控制台 3.2 命令行模式下的快捷键 3.3 运行模式下快捷键 3.4 代码模式和笔记模式 3.5 编写Python代码 一、Anaconda下载、安装 【最新最全】Anaconda安装python环境_anaconda配置python…

基于51单片机的电子秤设计

本设计以STC89C52RC芯片作为主要的控制芯片;通过电阻应变式传感器实现物品的测量功能;通过HX711型A/D转换器完成模拟信号到数字信号之间的转换;矩阵按键实现单片机复位、物品单价输入等系列操作;LCD1602液晶显示屏可以实现测量结果…

原子类、AtomicLong、AtomicReference、AtomicIntegerFieldUpdater、LongAdder

原子类 JDK提供的原子类,即Atomic*类有很多,大体可做如下分类: 形式类别举例Atomic*基本类型原子类AtomicInteger、AtomicLong、AtomicBooleanAtomic*Array数组类型原子类AtomicIntegerArray、AtomicLongArray、AtomicReferenceArrayAtomic…

ClickHouse数据迁移(远程)

一、背景 公司最近买了新的服务器,旧的服务器上面安装了ClickHouse22.2.2.1,新的服务器上面安装了ClickHouse24.9.2.42,两个版本之间要做历史数据迁移 旧服务器:80(IP最后一段,以下代称),ClickHouse版本&am…

Spring Boot日志总结

文章目录 1.我们的日志2.日志的作用3.使用日志对象打印日志4.日志框架介绍5.深入理解门面模式(外观模式)6.日志格式的说明7.日志级别7.1日志级别分类7.2配置文件添加日志级别 8.日志持久化9.日志文件的拆分9.1官方文档9.2IDEA演示文件分割 10.日志格式的配置11.更简单的日志输入…

「Qt Widget中文示例指南」如何为窗口实现流程布局?(二)

Qt 是目前最先进、最完整的跨平台C开发工具。它不仅完全实现了一次编写,所有平台无差别运行,更提供了几乎所有开发过程中需要用到的工具。如今,Qt已被运用于超过70个行业、数千家企业,支持数百万设备及应用。 本文将展示如何为不…

阿里云服务器(centos7.6)部署前后端分离项目(MAC环境)

mysql安装和部署 下载前准备 确定一下系统的glibc版本,可以使用以下命令进行查看,当前系统glibc版本:2.17 rpm -qa | grep glibclinux系统会自动携带一个数据库,需要把它给卸载掉,通过以下代码可以查看mariadb 并卸…

道路机器人识别交通灯,马路,左右转,黄线,人行道,机器人等路面导航标志识别-使用YOLO标记

数据集分割 train组66% 268图片 validation集22% 91图片 test集12% 48图片 预处理 没有采用任何预处理步骤。 增强 未应用任何增强。 数据集图片: 交通灯 马路 右转 向右掉头 机器人识别 人行横道 黄线 直行或右转 数据集下载: 道路…

偏差-方差权衡(Bias–Variance Tradeoff):理解监督学习中的核心问题

偏差-方差权衡(Bias–Variance Tradeoff):理解监督学习中的核心问题 在机器学习中,我们希望构建一个能够在训练数据上表现良好,同时对未见数据也具有强大泛化能力的模型。然而,模型的误差(尤其…

Linux服务器安装mongodb

因为项目需要做评论功能,领导要求使用mongodb,所以趁机多学习一下。 在服务器我们使用docker安装mongodb 1、拉取mongodb镜像 docker pull mongo (默认拉取最新的镜像) 如果你想指定版本可以这样 docker pull mongo:4.4&#…

STM32 使用ARM Compiler V6 编译裸机 LWIP协议栈报错的解决方法

在lwip 的cc.h 中使用以下宏定义,来兼容 V5 和 V6编译器 #if defined (__ARMCC_VERSION) && (__ARMCC_VERSION > 6010050) /* ARM Compiler V6 */ #define __CC_ARM /* when use v6 compiler define this */ #endifV6编译的速度确实比V5块了好多倍。 …

使用ESP32通过Arduino IDE点亮1.8寸TFT显示屏

开发板选择 本次使用开发板模块丝印为ESP32-WROOM-32E 开发板库选择 Arduino IDE上型号选择为ESP32-WROOM-DA Module 显示屏选择 使用显示屏为8针SPI接口显示屏 驱动IC为ST7735S 使用库 使用三个Arduino平台库 分别是 Adafruit_GFXAdafruit_ST7735SPI 代码详解 首…

图像显示的是矩阵的行和列,修改为坐标范围。

x 3; y 3; f1x x^2 y^2; guance1 f1x; F (x, y) sqrt((x.^2 y.^2 - guance1).^2); % 使用点乘 [x, y] meshgrid(0:1:5, 0:1:5); Z F(x, y); figure; imagesc(Z); % 由于 imagesc 使用矩阵索引作为坐标,我们需要手动添加刻度 % 这里我们假设 x 和 y 的范围…

【K230 CanMV】图像识别-摄像头获取图像 Sensor 函数全解析

引言:随着图像处理技术的不断发展,摄像头在嵌入式系统中的应用越来越广泛,尤其是在智能监控、自动驾驶、机器人视觉等领域。K230作为一款高性能的嵌入式处理器,提供了强大的图像处理能力,支持多种类型的摄像头接入与图…

基于FPGA的FM调制(载波频率、频偏、峰值、DAC输出)-带仿真文件-上板验证正确

基于FPGA的FM调制-带仿真文件-上板验证正确 前言一、FM调制储备知识载波频率频偏峰值个人理解 二、代码分析1.模块分析2.波形分析 总结 前言 FM、AM等调制是学习FPGA信号处理一个比较好的小项目,通过学习FM调制过程熟悉信号处理的一个简单流程,进而熟悉…

论文笔记(五十九)A survey of robot manipulation in contact

A survey of robot manipulation in contact 文章概括摘要1. 引言解释柔顺性控制的概念:应用实例: 2. 需要接触操控的任务2.1 环境塑造2.2 工件对齐2.3 关节运动2.4 双臂接触操控 3. 接触操控中的控制3.1 力控制3.2 阻抗控制3.3 顺应控制 4. 接触操控中的…

拥抱 OpenTelemetry:阿里云 Java Agent 演进实践

作者:陈承 背景 在 2018 年的 2 月,ARMS Java Agent 的第一个版本正式发布,为用户提供无侵入的的可观测数据采集服务。6 年后的今天,随着软件技术的迅猛发展、业务场景的逐渐丰富、用户规模的快速增长,我们逐渐发现过…