如何理解Transformer论文中的positional encoding，和三角函数有什么关系？

如何理解Transformer论文中的positional encoding，和三角函数有什么关系？

news/2025/7/2 14:39:35/文章来源:https://blog.csdn.net/qq_19968255/article/details/135427256

大家好，我分享交流下这个问题。

Positional Encoding

掏出一张被无数人讲述的架构图。
在这里插入图片描述
Transformer 模型中的位置编码（Positional Encoding）是为了让模型能够考虑单词在句子中的位置。

由于 Transformer 的自注意力（Self-Attention）机制本身并不考虑单词的顺序，位置编码就成为了引入这种顺序信息的关键。

位置如图

位置编码（Positional Encoding）分别加到了输入嵌入（Input Embedding）和输出嵌入（Output Embedding）之后。

输入嵌入（Input Embedding）

输入序列，例如序列狗咬人 这些单词也叫Token（词符）。

Token 是文本序列中的最小单位，可以是单词、字符等形式。

tokens：[“狗”, " 咬人"]。Token 的词汇表中包含了所有可能情况，每个 token 预先被分配了唯一的数字 ID，称为 token ID。

最后是词嵌入（Word Embedding）。词嵌入的目标是把每个 token 转换为固定长度的向量表示

这些向量可以根据 token ID 在预训练好的词嵌入库（例如 Word2Vec 等）中拿到。

结合示例（“狗咬人描述”）

在这里插入图片描述

对于输入序列“狗咬人”，模型首先会获得每个单词“狗”和“咬人”的嵌入向量。

然后，模型会为序列中的每个位置生成一个位置编码向量。

最后，每个单词的嵌入向量会与其对应位置的位置编码向量相加，生成最终的向量，该向量同时包含了单词的语义信息和位置信息。

这样，即使是单词“狗”出现在不同的位置，其最终的向量表示也会因为位置编码的加入而有所不同，从而使得模型能够区分“狗咬人”和“人咬狗”。

三角函数

在这里插入图片描述

位置编码（Positional Encoding）不一定非要使用三角函数。虽然在原始的Transformer模型中，位置编码使用了正弦和余弦函数的固定模式，但这不是唯一的方法。

快速回顾三角函数

Transformer 模型中的位置编码（Positional Encoding）是为了让模型能够考虑单词在句子中的位置。由于 Transformer 的自注意力（Self-Attention）机制本身并不考虑单词的顺序，位置编码就成为了引入这种顺序信息的关键。

假设你有一个长度为L的输入序列，要计算第K个元素的位置编码。位置编码由不同频率的正弦和余弦函数给出：

在这里插入图片描述

k：对象在输入序列中的位置，0<=k<L/2
d: 输出嵌入空间的维度
P(k,j): 位置函数，用于映射输入序列中k处的元素到位置矩阵的(k,j)处
n：用户定义的标量，由 Attention Is All You Need 的作者设置为 10,000。
i: 用于映射到列索引，0<=i<d/2，单个值i映射到正弦和余弦函数

你可以看到偶数位置对应正弦函数，奇数位置对应余弦函数。
在这里插入图片描述

如果有不清楚可以看下A Gentle Introduction to Positional Encoding in Transformer Models, Part 1 ，有代码和图表展示。

中文版本：http://www.bimant.com/blog/transformer-positional-encoding-illustration/

总结

后面有疑问咱们继续交流！

独立开源软件开发者，SolidUI作者，对于新技术非常感兴趣，专注AI和数据领域，如果对我的文章内容感兴趣，请帮忙关注点赞收藏，谢谢！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/601913.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

bat批处理文件_bat注释汇总

bat批处理文件_bat注释汇总

文章目录 1、示例（直接结合脚本和结果进行理解） 1、示例（直接结合脚本和结果进行理解） %这是一个注释% %这是另一个注释%rem 这是一个注释 rem 这是另一个注释:这是一个注释 ::这是一个注释 :?这是另一个注释if 1 1 ( %这里会执…

阅读更多...

Golang 切片

Golang 切片

前言在Go语言中，切片是一个引用类型，它提供了对数组的动态窗口。切片并不存储任何数据，它只是描述了底层数组中的一个片段。切片的定义包括三个部分：指向数组的指针、切片的长度和切片的容量基本使用声明切片：声…

阅读更多...

Django在urls.py利用函数path()配置路由时传递参数给调用的视图函数的方法

Django在urls.py利用函数path()配置路由时传递参数给调用的视图函数的方法

01-单个参数的传递问：在urls.py利用函数path()配置路由时能不能传递一些参数给调用的视图函数？因为我有很多路由调用的其实是同一个视图函数，所以希望能传递一些额外的参数。比如路由的PATH信息如果能传递就好了。答：在Django中…

阅读更多...

伐木工 - 华为OD统一考试

伐木工 - 华为OD统一考试

OD统一考试题解： Java / Python / C 题目描述一根X米长的树木，伐木工切割成不同长度的木材后进行交易，交易价格为每根木头长度的乘积。规定切割后的每根木头长度都为正整数,也可以不切割，直接拿整根树木进行交易。请问伐木工如…

阅读更多...

MySQL 日期比较

MySQL 日期比较

MySQL日期格式比较常用的两个函数是DATEDIFF()和TIMESTAMPDIFF()。 DATEDIFF SELECT DATEDIFF(2023-12-31 23:59:59, 2023-12-30); # 1SELECT DATEDIFF(2023-11-30 23:59:59, 2023-12-31); # -31第一个参数减去第二个参数得到的天数。 TIMESTAMPDIFF SELECT TIMESTAMPDIFF(…

阅读更多...

libexif库介绍

libexif库介绍

libexif是一个用于解析、编辑和保存EXIF数据的库。它支持EXIF 2.1标准(以及2.2中的大多数)中描述的所有EXIF标签。它是用纯C语言编写的，不需要任何额外的库。源码地址：https://github.com/libexif/libexif ，最新发布版本为0.6.24，…

阅读更多...

计算圆弧的起始角度、终止角度和矩形信息并使用drawArc绘制圆弧

计算圆弧的起始角度、终止角度和矩形信息并使用drawArc绘制圆弧

Qt中常用绘制圆弧的库函数： //函数原型 void QPainter::drawArc(const QRectF &rectangle, int startAngle, int spanAngle)Qt规定1约占16个像素，比如一个完整的圆等于360度，对应的像素角度就是 5760度（16 * 360）…

阅读更多...

深度学习中的自动化标签转换：对数据集所有标签做映射转换

深度学习中的自动化标签转换：对数据集所有标签做映射转换

在机器学习中，特别是在涉及图像识别或分类的项目中，标签数据的组织和准确性至关重要。本文探讨了一个旨在高效转换标签数据的 Python 脚本。该脚本在需要更新或更改类标签的场景中特别有用，这是正在进行的机器学习项目中的常见任务。我们将逐…

阅读更多...

基于JavaWeb+SSM+Vue家政项目微信小程序系统的设计和实现

基于JavaWeb+SSM+Vue家政项目微信小程序系统的设计和实现

基于JavaWebSSMVue家政项目微信小程序系统的设计和实现源码获取入口Lun文目录前言主要技术系统设计功能截图订阅经典源码专栏Java项目精品实战案例《500套》源码获取源码获取入口 Lun文目录目录 1系统概述 1 1.1 研究背景 1 1.2研究目的 1 1.3系统设计思想 1 2相关技术 2…

阅读更多...

如何使用RESTful API构建 web 应用程序

如何使用RESTful API构建 web 应用程序

RESTful API 是一种设计风格，用于构建可扩展、灵活和可维护的 web 应用程序。它是一种基于 HTTP 协议的架构风格，旨在提供一组规范和约束，以便客户端和服务器之间的通信更加简单和可预测。 RESTful API 通过使用 HTTP 动词来定义资源的操作&…

阅读更多...

【DevOps-01]】DevOps介绍

【DevOps-01]】DevOps介绍

一、简要描述 DevOps：Development & Operations的缩写，也就是开发&运维 DevOps是一个不断提高效率并且持续不断工作的过程。核心：简化Dev和Ops团队之间的流程，使整体软件开发过程更快速。 DevOps定义： DevOps 强调的是高效组织团队之间如何通过自动化的工具协作和…

阅读更多...

数据结构OJ实验16-选择排序与堆排序与归并排序

数据结构OJ实验16-选择排序与堆排序与归并排序

A. DS排序--简单选择排序题目描述给出一个数据序列，使用简单选择排序算法进行升序排序。输入第一行输入t，表示有t个测试示例第二行输入n，表示第一个示例有n个数据(n>1) 第三行输入n个数据，都是正整数，数据…

阅读更多...

MyBatis 进阶

MyBatis 进阶

MyBatis 进阶复杂CURD返回设置返回类型：resultType返回字典映射：resultMap 多表查询动态SQL使⽤<<if>if>标签<trim\>标签<where\>标签<set\>标签<foreach\>标签其他打开日志单元测试不污染数据库复杂CURD 返回设…

阅读更多...

docker 一些有用的操作

docker 一些有用的操作

创建一个网络组 docker network create xxx(网络名称) docker network inspect xxx 网络的配置信息 docker network list 所有网络的列表docker部署 1 编写Dockerfile文件 2 打包镜像 docker build -t 镜像名 . 3 运行镜像 docker run -d -p 5001:5001 --net 网络名称 --na…

阅读更多...

Model::unguard()的作用

Model::unguard()的作用

这是在生成假数据时碰见的，浅查了一下 Model::unguard() 是 Laravel 框架中的一个方法，它的作用是取消对 Eloquent 模型的属性赋值的安全性保护。在默认情况下，Laravel 的 Eloquent 模型会对属性赋值做一些安全性检查，例如防止…

阅读更多...

Java：IO流详解

Java：IO流详解

文章目录基础流1、IO概述1.1 什么是IO1.2 IO的分类1.3 顶级父类们 2、字节流2.1 一切皆为字节2.2 字节输出流 OutputStream2.3 FileOutputStream类2.3.1 构造方法2.3.2 写出字节数据2.3.3 数据追加续写2.3.4 写出换行 2.4 字节输入流 InputStream2.5 FileInputStream类2.5.1 构…

阅读更多...

LeetCode 225.用队列实现栈（详解） ૮꒰ ˶• ༝ •˶꒱ა

LeetCode 225.用队列实现栈（详解） ૮꒰ ˶• ༝ •˶꒱ა

题目详情： 思路：1.定义两个队列用于存储栈的数据，其中一个为空。 2.对我们定义的栈进行入数据，就相当于对不为空的队列进行入数据。 3.对我们定义的栈进行删除，相当于取出不为空的队列中的数据放到为空的队列中&#x…

阅读更多...

线程的6中状态

线程的6中状态

这个6中状态是Java Thread类中的枚举值中来的。 public enum State {/*** Thread state for a thread which has not yet started.*/NEW,/*** Thread state for a runnable thread. A thread in the runnable* state is executing in the Java virtual machine but it may* be…

阅读更多...

Springboot基于注解的AOP操作

Springboot基于注解的AOP操作

注解类 package com.example.springaop.annotation;import java.lang.annotation.ElementType; import java.lang.annotation.Retention; import java.lang.annotation.RetentionPolicy; import java.lang.annotation.Target;/*** @module* @author：DUOLUONIANDAI* @DATA：20…

阅读更多...

Java 线程池四种拒绝策略

Java 线程池四种拒绝策略

文章目录 Java 线程池的拒绝策略 AbortPolicy 策略CallerRunsPolicy 策略DiscardPolicy 策略DiscardOldestPolicy 策略 Java 线程池的拒绝策略 Java 线程池的拒绝策略一共有四种，分别为AbortPolicy，CallerRunsPolicy，DiscardPolicy&#xff…

阅读更多...

最新文章