Transformer从零详细解读——DASOU讲AI

1. 从全局角度概括Transformer

transformer的任务是什么?

进一步细化

进一步细化,注意:每个encoder结构相同,参数不同;decoder同理

原论文中的图如下:

2.Encoder

2.1 输入部分

(1)Embedding:

将输入的离散符号(如单词或字符)转换为连续向量表示的关键步骤。

(2)位置编码:

为什么需要位置编码?

与递归神经网络(RNN)和卷积神经网络(CNN)不同,这些传统模型天然地对输入序列的顺序敏感,因为它们通过连续处理或滑动窗口的方式处理数据。

然而,自注意力机制在计算时会同时考虑序列中所有元素之间的关系,这意味着它本身并不具备捕捉元素相对或绝对位置的能力。在原始的 Transformer 模型中,位置编码是通过正弦和余弦函数来实现的。

2.2 注意力机制

详细讲解见下面博客

https://blog.csdn.net/WBingJ/article/details/144832299?spm=1001.2014.3001.5501

原因:传统的序列到序列(Seq2Seq)模型使用一个固定大小的上下文向量来表示整个输入序列,这在处理长序列时可能会导致信息丢失。注意力机制通过允许模型在每个时间步关注输入序列的不同部分,解决了这一问题。

作用:允许模型在处理输入序列时,能够有选择性地聚焦于最相关的部分,而不是对所有部分一视同仁

  • 具体来说,自注意力机制通过计算查询(Query)、键(Key)和值(Value)之间的相似度来生成注意力权重。

残差

  • 新的表示 z1z1​ 和 z2z2​ 通过残差连接与原始输入相加,并经过归一化层。
  • 归一化后的结果再次进入前馈神经网络。

为什么使用残差:
  • 缓解梯度消失/爆炸问题:在非常深的神经网络中,随着层数的增加,反向传播过程中梯度会逐渐变小(梯度消失)或变得非常大(梯度爆炸)。这使得网络难以收敛,甚至无法正常训练。残差连接通过引入直接路径来传递信息,使得梯度可以更容易地从输出层反向传播到输入层。
具体步骤
  1. 输入向量 xx:

    • 输入向量 xx 是残差块的初始输入。
  2. 前馈网络 F(x)F(x):

    • 输入 x 通过第一个权重层和 ReLU 激活函数。
    • 输出再通过第二个权重层和 ReLU 激活函数。
  3. 残差连接:

    • 将原始输入 x 与前馈网络的输出 z 相加

Layer Normalization

Layer Normalization 是一种用于深度学习模型中的正则化和加速训练的技术,它通过归一化每一层的输入来稳定和加速神经网络的训练过程。与 Batch Normalization 不同,Layer Normalization 对每个样本的所有特征进行归一化,而不是在小批量(mini-batch)上对每个特征进行归一化。

2.3 前馈神经网络

3. Decoder

3.1 多头注意力机制Mask

为什么需要mask:解码器中的未来信息屏蔽,在解码阶段,模型不应该看到未来的词,因为这会导致数据泄露,并且不符合实际应用情境。例如,在机器翻译任务中,当翻译一句话时,每个时刻只能基于之前的词语来预测下一个词。

3.2 交互层Cross Attention Layer

作用:交互层的核心是交叉注意力机制,它使得解码器可以在生成每个输出词时参考编码器的所有输入。

  • 查询(Query):来自解码器当前时间步的隐藏状态。
  • 键(Key)和值(Value):由编码器生成的隐藏状态提供。
  • 计算注意力分布:通过计算查询与所有键之间的相似度得分,并使用 Softmax 函数将其转换为概率分布。然后,该分布用于对值进行加权求和,得到最终的上下文向量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/65318.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ARM发布Armv9.5架构:迈向更强性能与灵活性的新时代

2024年11月30日,ARM正式发布了其最新的Armv9.5架构,这是Arm技术发展的又一重要里程碑。从表中信息来看,Armv9.5架构的发布标志着该公司的架构系列在性能、灵活性和可扩展性方面取得了进一步突破。本次发布不仅是技术上的提升,更是…

分布式系统架构6:链路追踪

这是小卷对分布式系统架构学习的第6篇文章,关于链路追踪,之前写过traceId的相关内容:https://juejin.cn/post/7135611432808218661,不过之前写的太浅了,且不成系统,只是简单的理解,今天来捋一下…

Ubuntu 20.04安装gcc

一、安装GCC 1.更新包列表 user596785154:~$ sudo apt update2.安装gcc user596785154:~$ sudo apt install gcc3.验证安装 user596785154:~$ gcc --version二 编译C文件 1.新建workspace文件夹 user596785154:~$ mkdir workspace2.进入workspace文件夹 user596785154:~…

ansible-性能优化

一. 简述: 搞过运维自动化工具的人,肯定会发现很多运维伙伴们经常用saltstack和ansible做比较,单从执行效率上来说,ansible确实比不上saltstack(ansible使用的是ssh,salt使用的是zeromq消息队列[暂没深入了解]),但其实…

【ArcGISPro/GeoScenePro】检查并处理高程数据

数据 https://arcgis.com/sharing/rest/content/items/535efce0e3a04c8790ed7cc7ea96d02d/data 数字高程模型 (DEM) 是一种栅格,可显示地面或地形的高程。 数字表面模型 (DSM) 是另一种高程栅格,可显示表面的高度,例如建筑物或树冠的顶部。 您需要准备 DEM 和 DSM 以供分析…

【C++面向对象——类与对象】Computer类(头歌实践教学平台习题)【合集】

目录😋 任务描述 相关知识 一、不同访问属性成员的访问方式 1. public成员 2. private成员 3. protected成员 二、观察构造函数和析构函数的执行过程 1. 构造函数 2. 析构函数 三、学习类的组合使用方法 1. 类的组合概念 2. 实现示例 实验步骤 测试说明 …

xilinx的高速接口构成原理和连接结构及ibert工具的使用-以k7 GTX为例

一、相关简介 Xilinx的高速接口称之为transceivers(高速收发器),这部分的电路是专用电路,供电等都是独立的,根据速率可以分为GTP/GTX/GTH/GTY/GTM等。 Xilinx的高速接口是QUAD为单位的,没一个QUAD由一个时钟COMMON资…

rabbitmq——岁月云实战笔记

1 rabbitmq设计 生产者并不是直接将消息投递到queue,而是发送给exchange,由exchange根据type的规则来选定投递的queue,这样消息设计在生产者和消费者就实现解耦。 rabbitmq会给没有type预定义一些exchage,而实际我们却应该使用自己…

2.系统学习-逻辑回归

逻辑回归 前言最大似然估计概率似然函数(likelihood function)最大似然估计 逻辑回归逻辑回归的似然函数与梯度 分类问题常用评价指标项目案例拓展内容作业 前言 逻辑回归与线性回归均属于广义线性模型,区别在于线性回归用于解决回归问题,例如身高、销量…

记录一次电脑被入侵用来挖矿的过程(Trojan、Miner、Hack、turminoob)

文章目录 0、总结1、背景2、端倪3、有个微软的系统更新,就想着更新看看(能否冲掉问题)4、更新没成功,自动重启电脑5、风险文件(好家伙命名还挺规范,一看名字就知道出问题了)6、开机有一些注册表…

阿里云 人工智能与机器学习

阿里云的 人工智能(AI)与机器学习(ML) 服务为企业提供了全面的AI解决方案,帮助用户在多个行业实现数据智能化,提升决策效率,推动业务创新。阿里云通过先进的技术和丰富的工具,支持用…

Structured-Streaming集成Kafka

一、上下文 《Structured-Streaming初识》博客中已经初步认识了Structured-Streaming,Kafka作为目前最流行的一个分布式的实时流消息系统,是众多实时流处理框架的最优数据源之一。下面我们就跟着官方例子来看看Structured-Streaming是如何集成Kafka的&a…

生物医学信号处理--绪论

前言 参考书籍:刘海龙,生物医学信号处理,化学工业出版社 生物医学信号分类 1、由生理过程自发或者诱发产生的电生理信号和非电生理信号 • 电生理信号:ECG/心电、EEG/脑电、EMG/肌电、 EGG/胃电、 EOG/眼电 • 非电生理信号&am…

unity 播放 序列帧图片 动画

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、方法一:代码控制播放序列帧1、设置图片属性2、创建Image组件3、简单的代码控制4、挂载代码并赋值 二、方法二:直接使用1.Image上添加…

小程序与物联网(IoT)融合:开启智能生活新篇章

一、引言 随着移动互联网技术的飞速发展,小程序作为一种轻量级的应用形式,凭借其无需下载安装、即用即走的特点,迅速渗透到人们生活的各个领域。与此同时,物联网(IoT)技术也在不断进步,将各种物…

如何很快将文件转换成另外一种编码格式?编码?按指定编码格式编译?如何检测文件编码格式?Java .class文件编码和JVM运行期内存编码?

如何很快将文件转换成另外一种编码格式? 利用VS Code右下角的"选择编码"功能,选择"通过编码保存"可以很方便将文件转换成另外一种编码格式。尤其,在测试w/ BOM或w/o BOM, 或者ANSI编码和UTF编码转换,特别方便。VS文件另…

PCL点云库入门——PCL库点云特征之PFH点特征直方图(Point Feature Histograms -PHF)

1、算法原理 PFH点(Point Feature Histogram)特征直方图的原理涉及利用参数化查询点与邻域点之间的空间差异,并构建一个多维直方图以捕捉点的k邻域几何属性。这个高维超空间为特征表示提供了一个可度量的信息空间,对于点云对应曲面…

5. CSS引入方式

5.1 CSS的三种样式 按照 CSS 样式书写的位置(或者引入的方式),CSS样式表可以分为三大类: 1.行内样式表(行内式) 2.内部样式表(嵌入式) 3. 外部样式表(链接式) 5.2 内部样式表 …

为什么ip属地一会河南一会江苏

在使用互联网的过程中,许多用户可能会遇到这样一个问题:自己的IP属地一会儿显示为河南,一会儿又变成了江苏。这种现象可能会让人感到困惑,甚至产生疑虑,担心自己的网络活动是否受到了某种影响。为了解答这一疑问&#…