【自然语言处理六-最重要的模型-transformer-下】

【自然语言处理六-最重要的模型-transformer-下】

news/2025/4/26 9:13:31/文章来源:https://blog.csdn.net/zishuijing_dd/article/details/136427404

自然语言处理六-最重要的模型-transformer-下

transformer decoder
- Masked multi-head attention
- encoder和decoder的连接部分-cross attention
- decoder的输出
- - AT(Autoregresssive)
  - NAT

transformer decoder

今天接上一篇文章讲的encoder 自然语言处理六-最重要的模型-transformer-上，继续讲transformer的decoder，也就是下图中的红框部分
在这里插入图片描述

可以看出encoder和decoder部分去掉粉红色框的部分，结构几乎一样，下面分三部分介绍不同点

Masked multi-head attention

decoder的注意力是masked的注意力，什么是masked的attention呢？下面是self attention:

在这里插入图片描述
需要注意的是：
selfattention中注意力bⁱ的输出是需要关注所有的输入，也就是下面那一整排向量

但如果是masked self-attention，注意力是这样子的：
在这里插入图片描述
这个与普通的self attention的区别：
bⁱ只能关注a⁰到aⁱ的输入，不能包括aⁱ⁺¹后的输入，那么为什么需要masked attention呢？
用下面的语音辨识，举个例子说明一下：

encoder是把一次性把所有的输入都输入到模型，计算注意力分数，但是对于decoder来说，它是一个字一个字产生：
比如decoder计算第一个位置应该输入什么的时候，它并不知道下一个的输入是“機”，所以必须遮蔽右边的输入，因此又叫masked self-attention。
decoder中下一次的输入是在本次输入BEGIN计算出来以后“機”这个字，作为下一次的输入。
需要说明的一点是：
实际上我们在训练的时候是知道每个输入的，因为这些信息是训练资料提供的，但真正测试使用的时候，是无法知晓的。

encoder和decoder的连接部分-cross attention

下面是encoder和decoder的互连部分：
在这里插入图片描述
相同的Add和Norm不再赘述，下面是attention部分，这个attention部分的输入分为3部分:
有两个箭头来自encoder的输出（这部分用作self attention中的k和v）
一个箭头来自decoder上一层的输出（这一部分用作q）

所以计算attention的流程是这样的：

在这里插入图片描述
左边这边encoder的输出，用于生成k v，右边decoder上一层的输出，用作q
按照普通的attention计算注意力分数后，最终生成v
然后进行add 残差连接和norm 归一化后，作为这一层的输出
然后继续输入到FC（feed forward netword）中

除了上面几部分不同，还需要关注的decoder如何处理输出。

decoder的输出

decoder输出的序列长度应该是多长呢？
比还是以语音辨识为例，输入一段语音究竟应该输出多少个字符根本无法确认，那么decoder究竟是怎么确定输出的长度的呢？有两种做法AT和NAT (AT是Autoregresssive的缩写)

AT(Autoregresssive)

这种做法就是让机器自己决定要输多少长度的sequence，当模型输出END的时候，就认为decoder输出完毕

NAT

在这里插入图片描述
这种情况下有几种方法确定decoder输出的长度：
1.添加一个网络来预测输出的长度
2.输入一排BEGIN向量，输出一排向量即可，最终的输出截止到输出为END

通常情况下，我们都是用AT，效果更好一些

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/728738.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

MySql分布式事务

MySql分布式事务

1 seata 底层原理 Seata（Simple Extensible Autonomous Transaction Architecture）是一个开源的分布式事务解决方案，其底层原理主要基于改进的传统2PC（Two-Phase Commit，两阶段提交）协议，并结合…

阅读更多...

吴恩达机器学习笔记十五什么是导数计算图大型神经网络案例

吴恩达机器学习笔记十五什么是导数计算图大型神经网络案例

假设函数 J(w)w^2，当 w3 时， J(w)3*39 当我们给w增加一个很小的量时，观察J(w)如何变化。例如 w30.001， 则J（w）9.006001，因此当w3且增加一个变化量 ε 时，J(w)将会增加 6ε&#x…

阅读更多...

Northwestern University-844计算机科学与技术/软件工程-机试指南【考研复习】

Northwestern University-844计算机科学与技术/软件工程-机试指南【考研复习】

本文提到的西北大学是位于密歇根湖泊畔的西北大学。西北大学（英语：Northwestern University，简称：NU）是美国的一所著名私立研究型大学。它由九人于1851年创立，目标是建立一所为西北领地地区的人服务的大学。…

阅读更多...

自动化测试_jenkins集成

自动化测试_jenkins集成

时间回到此刻你的自动化脚本已经写的差不多,已经可以实现自动化的去执行这些ui测试用例了但是呢?结束了吗? no 少年,离结束还差得远呢! 首先我有几个问题? 此刻的你,能否做到,自动定时的执行自动化用例,能否做到执行完用例后,自动发送包含报告的邮件给相关测试人员或…

阅读更多...

泛型 --java学习笔记

泛型 --java学习笔记

什么是泛型定义类、接口、方法时，同时声明了一个或者多个类型变量（如：<E>），称为泛型类、泛型接口，泛型方法、它们统称为泛型可以理解为扑克牌中的癞子，给它什么类型它就是什么类型如…

阅读更多...

[Buuctf] [MRCTF2020]Transform

[Buuctf] [MRCTF2020]Transform

1.查壳 64位exe文件，没有壳 2.用64位IDA打开找到主函数，F5查看伪代码从后往前看，有一个判断语句，是两个数组进行比较的，我们双击byte_40F0E0查看里面的内容所以能够推出byte_414040的内容，byte_4140…

阅读更多...

音频库及分析软件介绍

音频库及分析软件介绍

搞音频的兄弟必须要看一下的，俗话说，工欲善其事必先利其器，好的音频分析软件，对于音频分析工程师来讲，可谓是非常重要的，下面由小编介绍一下：

阅读更多...

opengl 学习(一)-----创建窗口

opengl 学习(一)-----创建窗口

创建窗口分类opengl 学习(一)-----创建窗口效果解析教程补充分类 c opengl opengl 学习(一)-----创建窗口 demo: #include "glad/glad.h" #include "glfw3.h" #include <iostream> #include <cmath> #include <vector>using names…

阅读更多...

数据结构与算法-线性查找

数据结构与算法-线性查找

引言在计算机科学领域，数据结构和算法是构建高效软件系统的核心要素。今天我们将聚焦于最基础且广泛应用的一种查找算法——线性查找，并探讨其原理、实现步骤以及实际应用场景。一、什么是线性查找？ 线性查找（Linear Search&am…

阅读更多...

QT6.6 android开发环境搭建

QT6.6 android开发环境搭建

一.目标本文目的为实现在QT6.6下搭建android开发环境，可以实现QT6.6开发的QT程序（widget及qml工程）部署到android设备中。二.环境安装 1.QT6.6环境安装 （1）在线安装器下载： https://download.qt.io/a…

阅读更多...

c++单例九品

c++单例九品

c单例九品单例实现第一品单例实现第二品单例实现第三品单例实现第四品单例实现第五品单例实现第六品单例实现第七品单例实现第八品单例实现第九品该专栏用于记录C中的单例模式，通过九种单例的实现方式，从代码安全和性能角度来分析、学习和品鉴实现优劣…

阅读更多...

redis最新版本在Windows系统上的安装

redis最新版本在Windows系统上的安装

一、说明这次安装操作主要是根据redis官网说明，一步步安装下来的，英语比较好的同学，可以直接看文章底部的超链接1，跳到官网按步操作即可。目前redis的最新稳定版本为redis7.2。二、Windows环境改造 Redis在Windows上不被官方…

阅读更多...

实战：循环神经网络与文本内容情感分类

实战：循环神经网络与文本内容情感分类

在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能为力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单…

阅读更多...

已解决CircuitBreakerOpenException断路器打开异常的正确解决方法，亲测有效！！！

已解决CircuitBreakerOpenException断路器打开异常的正确解决方法，亲测有效！！！

已解决CircuitBreakerOpenException断路器打开异常的正确解决方法，亲测有效！！！ 目录问题分析报错原因解决思路解决方法总结问题分析在微服务架构中，为了提高系统的可用性和稳定性，通常会使用…

阅读更多...

【前端】尚硅谷Promise

【前端】尚硅谷Promise

文章目录【前端目录贴】

阅读更多...

Python3统计json格式文件中各个key对应值出现的频次

Python3统计json格式文件中各个key对应值出现的频次

需求： 现在有一个文件query_demo.json，里面的数据格式示例如下，query字段代表的是用户的提问，现在想统计所有不同query出现的频次。 [{"query": "会议开始提醒弹窗如何开启","intention": "…

阅读更多...

Elemenu中el-table中使用el-popover选中关闭无效解决办法

Elemenu中el-table中使用el-popover选中关闭无效解决办法

主要是技术太菜,没找到原因,一点点才找到这个办法解决因为在el-table-column里,因为是多行,使用trigger"manual" 时,用v-model"visible"来控制时,控件找不到这个值,才换成trigger"click" 先找到弹出关闭事件,再找元素的属性右键>审核元素…

阅读更多...

JS算法总结

JS算法总结

1 找出字符串的可整除数组一个整数可表示为 a10b； 常用取模公式：(a10b)%m(a%m10b)%m 由上式可得：当前字符串所代表的数字，能否被 m 整除。等价于前一个字符串与 m 的余数当前数字的和，这个和能否被 m 整除。例如&…

阅读更多...

关于比特币的AI对话

关于比特币的AI对话

【ChatGPT】比特币源码开源吗？ 是的，比特币的源码是开源的。比特币项目是在MIT许可证下发布的，这意味着任何人都可以查看、修改、贡献和分发代码。比特币的源码托管在GitHub上，可以通过下面的链接进行访问： https://g…

阅读更多...

【深度优先】【图论】【C++算法】2045. 到达目的地的第二短时间

【深度优先】【图论】【C++算法】2045. 到达目的地的第二短时间

作者推荐视频算法专题 LeetCode2045. 到达目的地的第二短时间城市用一个双向连通图表示，图中有 n 个节点，从 1 到 n 编号（包含 1 和 n）。图中的边用一个二维整数数组 edges 表示，其中每个 edges[i] [ui, vi] 表…

阅读更多...

最新文章