Transformer从零详细解读——DASOU讲AI

Transformer从零详细解读——DASOU讲AI

web/2025/7/9 3:41:31/文章来源:https://blog.csdn.net/WBingJ/article/details/144893713

1. 从全局角度概括Transformer

transformer的任务是什么？

进一步细化

进一步细化，注意：每个encoder结构相同，参数不同；decoder同理

原论文中的图如下：

2.Encoder

2.1 输入部分

（1）Embedding：

将输入的离散符号（如单词或字符）转换为连续向量表示的关键步骤。

（2）位置编码：

为什么需要位置编码？

与递归神经网络（RNN）和卷积神经网络（CNN）不同，这些传统模型天然地对输入序列的顺序敏感，因为它们通过连续处理或滑动窗口的方式处理数据。

然而，自注意力机制在计算时会同时考虑序列中所有元素之间的关系，这意味着它本身并不具备捕捉元素相对或绝对位置的能力。在原始的 Transformer 模型中，位置编码是通过正弦和余弦函数来实现的。

2.2 注意力机制

详细讲解见下面博客

https://blog.csdn.net/WBingJ/article/details/144832299?spm=1001.2014.3001.5501

原因：传统的序列到序列（Seq2Seq）模型使用一个固定大小的上下文向量来表示整个输入序列，这在处理长序列时可能会导致信息丢失。注意力机制通过允许模型在每个时间步关注输入序列的不同部分，解决了这一问题。

作用：允许模型在处理输入序列时，能够有选择性地聚焦于最相关的部分，而不是对所有部分一视同仁

具体来说，自注意力机制通过计算查询（Query）、键（Key）和值（Value）之间的相似度来生成注意力权重。

残差

新的表示 z1z1 和 z2z2 通过残差连接与原始输入相加，并经过归一化层。
归一化后的结果再次进入前馈神经网络。

为什么使用残差：

缓解梯度消失/爆炸问题：在非常深的神经网络中，随着层数的增加，反向传播过程中梯度会逐渐变小（梯度消失）或变得非常大（梯度爆炸）。这使得网络难以收敛，甚至无法正常训练。残差连接通过引入直接路径来传递信息，使得梯度可以更容易地从输出层反向传播到输入层。

具体步骤

输入向量 xx:
- 输入向量 xx 是残差块的初始输入。
前馈网络 F(x)F(x):
- 输入 x 通过第一个权重层和 ReLU 激活函数。
- 输出再通过第二个权重层和 ReLU 激活函数。
残差连接:
- 将原始输入 x 与前馈网络的输出 z 相加

Layer Normalization

Layer Normalization 是一种用于深度学习模型中的正则化和加速训练的技术，它通过归一化每一层的输入来稳定和加速神经网络的训练过程。与 Batch Normalization 不同，Layer Normalization 对每个样本的所有特征进行归一化，而不是在小批量（mini-batch）上对每个特征进行归一化。

2.3 前馈神经网络

3. Decoder

3.1 多头注意力机制Mask

为什么需要mask：解码器中的未来信息屏蔽，在解码阶段，模型不应该看到未来的词，因为这会导致数据泄露，并且不符合实际应用情境。例如，在机器翻译任务中，当翻译一句话时，每个时刻只能基于之前的词语来预测下一个词。

3.2 交互层Cross Attention Layer

作用：交互层的核心是交叉注意力机制，它使得解码器可以在生成每个输出词时参考编码器的所有输入。

查询（Query）：来自解码器当前时间步的隐藏状态。
键（Key）和值（Value）：由编码器生成的隐藏状态提供。
计算注意力分布：通过计算查询与所有键之间的相似度得分，并使用 Softmax 函数将其转换为概率分布。然后，该分布用于对值进行加权求和，得到最终的上下文向量。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/web/65318.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

ARM发布Armv9.5架构：迈向更强性能与灵活性的新时代

ARM发布Armv9.5架构：迈向更强性能与灵活性的新时代

2024年11月30日，ARM正式发布了其最新的Armv9.5架构，这是Arm技术发展的又一重要里程碑。从表中信息来看，Armv9.5架构的发布标志着该公司的架构系列在性能、灵活性和可扩展性方面取得了进一步突破。本次发布不仅是技术上的提升，更是…

阅读更多...

【Python运维】使用Python与Docker进行高效的容器化应用管理

【Python运维】使用Python与Docker进行高效的容器化应用管理

《Python OpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界随着容器化技术的广泛应用，Docker已成为现代软件开发与运维中不可或缺的工具。Docker容器提供了一种轻量级、可移植的方式来部署和管理应用…

阅读更多...

分布式系统架构6：链路追踪

分布式系统架构6：链路追踪

这是小卷对分布式系统架构学习的第6篇文章，关于链路追踪，之前写过traceId的相关内容：https://juejin.cn/post/7135611432808218661，不过之前写的太浅了，且不成系统，只是简单的理解，今天来捋一下…

阅读更多...

Ubuntu 20.04安装gcc

Ubuntu 20.04安装gcc

一、安装GCC 1.更新包列表 user596785154:~$ sudo apt update2.安装gcc user596785154:~$ sudo apt install gcc3.验证安装 user596785154:~$ gcc --version二编译C文件 1.新建workspace文件夹 user596785154:~$ mkdir workspace2.进入workspace文件夹 user596785154:~…

阅读更多...

问题：Flask应用中的用户会话(Session)管理失效

问题：Flask应用中的用户会话(Session)管理失效

我来分享一个常见的PythonWeb开发问题： 问题：Flask应用中的用户会话(Session)管理失效这是一个在Flask开发中经常遇到的问题。当用户登录后，有时会话会意外失效，导致用户需要重复登录。解决方案： 1. 首先&#x…

阅读更多...

ansible-性能优化

ansible-性能优化

一. 简述： 搞过运维自动化工具的人，肯定会发现很多运维伙伴们经常用saltstack和ansible做比较，单从执行效率上来说，ansible确实比不上saltstack(ansible使用的是ssh,salt使用的是zeromq消息队列[暂没深入了解])，但其实…

阅读更多...

.net core 线程锁，互斥锁，自旋锁，混合锁

.net core 线程锁，互斥锁，自旋锁，混合锁

线程锁、互斥锁、自旋锁和混合锁是多线程编程中的重要概念，它们用于控制对共享资源的访问，避免数据竞争和不一致性。每种锁有其特定的适用场景和特点。我们来逐一解释它们，并进行比较。 1. 线程锁（Thread Lock） 线程…

阅读更多...

【ArcGISPro/GeoScenePro】检查并处理高程数据

【ArcGISPro/GeoScenePro】检查并处理高程数据

数据 https://arcgis.com/sharing/rest/content/items/535efce0e3a04c8790ed7cc7ea96d02d/data 数字高程模型 (DEM) 是一种栅格，可显示地面或地形的高程。数字表面模型 (DSM) 是另一种高程栅格，可显示表面的高度，例如建筑物或树冠的顶部。您需要准备 DEM 和 DSM 以供分析…

阅读更多...

【C++面向对象——类与对象】Computer类（头歌实践教学平台习题）【合集】

【C++面向对象——类与对象】Computer类（头歌实践教学平台习题）【合集】

目录😋 任务描述相关知识一、不同访问属性成员的访问方式 1. public成员 2. private成员 3. protected成员二、观察构造函数和析构函数的执行过程 1. 构造函数 2. 析构函数三、学习类的组合使用方法 1. 类的组合概念 2. 实现示例实验步骤测试说明 …

阅读更多...

xilinx的高速接口构成原理和连接结构及ibert工具的使用-以k7 GTX为例

xilinx的高速接口构成原理和连接结构及ibert工具的使用-以k7 GTX为例

一、相关简介 Xilinx的高速接口称之为transceivers(高速收发器），这部分的电路是专用电路，供电等都是独立的，根据速率可以分为GTP/GTX/GTH/GTY/GTM等。 Xilinx的高速接口是QUAD为单位的，没一个QUAD由一个时钟COMMON资…

阅读更多...

创建型模式4.原型模式

创建型模式4.原型模式

创建型模式工厂方法模式（Factory Method Pattern）抽象工厂模式（Abstract Factory Pattern）建造者模式（Builder Pattern）原型模式（Prototype Pattern）单例模式（Singleto…

阅读更多...

python学opencv|读取图像（二十七）使用time()绘制弹球动画

python学opencv|读取图像（二十七）使用time()绘制弹球动画

【1】引言前序已经学习了pythonopencv画线段、圆形、矩形、多边形和文字的相关操作，具体文章链接包括且不限于： python学opencv|读取图像（十八）使用cv2.line创造线段_cv2. 画线段-CSDN博客 python学opencv|读取图像&#xff0…

阅读更多...

rabbitmq——岁月云实战笔记

rabbitmq——岁月云实战笔记

1 rabbitmq设计生产者并不是直接将消息投递到queue，而是发送给exchange，由exchange根据type的规则来选定投递的queue，这样消息设计在生产者和消费者就实现解耦。 rabbitmq会给没有type预定义一些exchage，而实际我们却应该使用自己…

阅读更多...

2.系统学习-逻辑回归

2.系统学习-逻辑回归

逻辑回归前言最大似然估计概率似然函数(likelihood function)最大似然估计逻辑回归逻辑回归的似然函数与梯度分类问题常用评价指标项目案例拓展内容作业前言逻辑回归与线性回归均属于广义线性模型，区别在于线性回归用于解决回归问题，例如身高、销量…

阅读更多...

记录一次电脑被入侵用来挖矿的过程（Trojan、Miner、Hack、turminoob）

记录一次电脑被入侵用来挖矿的过程（Trojan、Miner、Hack、turminoob）

文章目录 0、总结1、背景2、端倪3、有个微软的系统更新，就想着更新看看（能否冲掉问题）4、更新没成功，自动重启电脑5、风险文件（好家伙命名还挺规范，一看名字就知道出问题了）6、开机有一些注册表…

阅读更多...

行为树详解（6）——黑板模式

行为树详解（6）——黑板模式

【动作节点数据共享】行为树中需要的参数可以来自游戏中的各个模块，如果仅需从多个模块获取少量参数，那么可以直接在代码中调用其他模块的单例继而层层调用获取数据。如果获取的参数量很大，从架构上看，我们需要通过加一个中间…

阅读更多...

阿里云人工智能与机器学习

阿里云人工智能与机器学习

阿里云的人工智能（AI）与机器学习（ML） 服务为企业提供了全面的AI解决方案，帮助用户在多个行业实现数据智能化，提升决策效率，推动业务创新。阿里云通过先进的技术和丰富的工具，支持用…

阅读更多...

如果Adobe 退出中国后怎么办

如果Adobe 退出中国后怎么办

最近听说Adobe要退出中国了?那咱们的设计师们可得好好想想怎么搞到正版软件了。别急，今天教大家一个超酷的福利——Edu邮箱！ Edu邮箱是什么？有什么好处？ Edu邮箱就是学校给学生和老师们发的邮箱，一般结尾是.edu。有了…

阅读更多...

Structured-Streaming集成Kafka

Structured-Streaming集成Kafka

一、上下文《Structured-Streaming初识》博客中已经初步认识了Structured-Streaming，Kafka作为目前最流行的一个分布式的实时流消息系统，是众多实时流处理框架的最优数据源之一。下面我们就跟着官方例子来看看Structured-Streaming是如何集成Kafka的&a…

阅读更多...

Spring Boot 项目中集成 Kafka-03

Spring Boot 项目中集成 Kafka-03

在 Spring Boot 项目中集成 Kafka 有多种方式，适应不同的应用场景和需求。以下将详细介绍几种常用的集成方法，包括： 使用 Spring Kafka (KafkaTemplate 和 KafkaListener)使用 Spring Cloud Stream 与 Kafka Binder使用 Spring for Apache K…

阅读更多...

最新文章