李宏毅-Self-attention机制详解

李宏毅-Self-attention机制详解

diannao/2025/4/27 5:27:38/文章来源:https://blog.csdn.net/ADDDDDDS/article/details/138725952

原视频链接：attention

一. 基本问题分析

1. 模型的input

无论是预测视频观看人数还是图像处理，输入都可以看作是一个向量，输出是一个数值或类别。然而，若输入是一系列向量，长度可能会不同，例如把句子里的单词都描述为向量，那么模型的输入就是一个向量集合，并且每个向量的大小都不一样。解决这个问题的方法是One-hot Encoding以及Word Embedding，其中Word Embedding更能考虑到相似向量的语义信息，如下所示：

2. 模型的output

输出可以是每个vector都产生个对应的label，即N to N。如：在社交网络中，推荐某个用户商品（这个用户可能会买或者不买）；

也可以是N to 1。如：情感分析，给出一句话this is good，输出positive；反之给出另一段消极的话输出negative；

也可以是N to M。如：翻译工作，翻译到另一个语言可能和原语言单词长度不一样

3. attention的引入

比如我们想利用全连接网络，输入一个句子，输出对应单词的标签。当一个句子里出现两个相同的单词，并且它们的词性不同（例如：I saw a saw. 我看见一把锯子），这个时候就需要考虑上下文：利用滑动窗口，每个向量查看窗口中相邻的其他向量的性质。但是滑动窗口所观看的视野是有限的，窗口增大又会计算量增大，且容易过拟合，这就引出了self-attention机制。

二. self-attention机制

输入整个语句的向量到self-attention中，输出对应单词的向量，再将其结果输入到全连接网络，最后输出标签。以上过程可多次重复，如图所示：

1. 初探“self-attention层”内部机理

这里的a1-a4可以是输入的向量，也可以是隐藏层的输出，b1-b4都是观察到全局的信息（即a1-a4）才得到的输出，如下所示：

那么这里的b1-b4又是如何产生的呢？b1考虑了a1和这个序列里面哪些是重要的，哪些是次要的。这种重要程度指标通过α表示，即向量之间都有一个相关程度：

接下来考虑α是如何计算的，下图有两种方法，论文用的是第一种（图左侧），因此着重讲述。继续使用上面的例子，绿色方块代表两个向量a1和a4，我们想计算它们的相关度，将其分别乘上矩阵Wq与Wk（这两个矩阵是通过模型学习学到的）得到向量q与k，再将q与k做内积就得到α了。

这样我们可以分别计算出a2、a3、a4对应的k2、k3、k4（Wk是这些向量所共享的），我们可以分别计算出a1与a2、a3、a4的相关度α1,2、α1,3、α1,4，当然α1,1是和自己的相关度，也可以算。如下所示：

有了α后，我们可以考虑b1-b4的计算了，怎么使用这些α抽取关注的特征呢？我们再引入一个矩阵Wv(同样是学习得到的)，分别将a1-a4与Wv相乘得到v1-v4，将v1与α1,1相乘，v2与α1,2相乘...最后相加，即得到了b1。b2、b3、b4是同理的，下图只画出来了b1：

2. 再探“self-attention层”内部机理

看起来可能复杂，但是实际上涉及的参数只有输入的向量以及Wq、Wk、Wv三个矩阵。运算过程也都是矩阵乘法。我们从矩阵乘法的角度重新理解下，如下图所示，我们将输入向量a1-a4拼起来，分别乘Wq、Wk、Wv即得到了q1-a4、k1-k4、v1-v4：

将k1-k4与q1-q4做内积即得到了每个向量与其他三个向量的相关度，如下图所示，例如第一个向量与其他三个向量的相关度为α1,2、α1,3、α1,4,而α1,1代表和自己的相关度：

将α组成的矩阵记为A，经过softmax处理一下记为A':

v1-v4组成矩阵V，与A'相乘，根据矩阵乘法，V与A'的第一列相乘再相加的结果即为b1，同理可得b2-b4，b1-b4组成的矩阵就是最终的输出了：

3. 总结

阶段1：根据Q和K计算两者的相似性或者相关性
阶段2：对第一阶段的原始分值进行归一化处理
阶段3：根据权重系数A'对V进行加权求和，得到最终的输出

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/13465.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

C 深入指针（4）

C 深入指针（4）

目录一、字符指针变量 1 初始化 2 与字符串数组的区别二、数组指针变量 1 初始化 2 二维数组传参本质三、函数指针变量 1 初始化 2 用法四、typedef关键字五、函数指针数组一、字符指针变量 1 初始化 //VS2022 x64 #include <stdio.h> int main() {…

阅读更多...

机器人非线性阻抗控制系统

机器人非线性阻抗控制系统

机器人非线性控制系统本质上是一个复杂的控制系统，其状态变量和输出变量相对于输入变量的运动特性不能用线性关系来描述。这种系统的形成基于两类原因：一是被控系统中包含有不能忽略的非线性因素，二是为提高控制性能或简化控制系统结构而人为…

阅读更多...

人形机器人场景应用全解析，2024睿抗 AI ROBOT创新挑战赛火热报名中！

人形机器人场景应用全解析，2024睿抗 AI ROBOT创新挑战赛火热报名中！

人工智能（AI）已成为推动科技革命和产业变革的关键力量。随着大模型等AIGC技术的迅猛发展，AI正深刻改变我们的生活并重新定义生产方式。越来越多人期望将AI技术从纯粹的思维和计算扩展到与物理世界的互动中，即发展具身智能。为了推…

阅读更多...

探索中国文本到视频AI模型——Vidu

探索中国文本到视频AI模型——Vidu

引言随着人工智能技术的不断进步，我们见证了从文本到视频内容生成的革命。最近，一个名为Vidu的中国文本到视频AI模型引起了全球的关注。由清华大学和中国AI初创公司声书科技联合开发的Vidu，于2024年4月27日宣布，它声称能够生成高…

阅读更多...

测试周期记录

测试周期记录

测试周期是软件开发生命周期中的一个重要环节，它包括单元测试、集成测试、系统测试和验收测试等阶段。本文将详细介绍测试周期的各个阶段及其重要性，帮助读者更好地理解测试周期在软件开发过程中的作用。一、单元测试单元测试是测试周期中的第一个阶段…

阅读更多...

个人工控方面收藏网址记录（持续更新中）

个人工控方面收藏网址记录（持续更新中）

1、OPC类 OPC Foundation GitHub Downloads - Unified Automation (unified-automation.com) 物联网IoT协议之OPC UA快速入门教程 | 源码先生的调试人生 (debugself.com) OPC Servers - OPC UA Migration - 100 Solutions by Matrikon (matrikonopc.com) Prosys OPC UA Simu…

阅读更多...

k8s coredns配置

k8s coredns配置

1.coredns可根据集群具体数量修改pod数，官方推荐比例为5/1，即有15台服务器最好是3个pod。 2.coredns会继承pod所在主机的dns解析,修改了主机的dns解析之后，coredns有一段时间的缓存，重启coredns才会在集群内部立刻生效该解析。 …

阅读更多...

SpringBoot3集成WebSocket

SpringBoot3集成WebSocket

标签：WebSocket，Session，Postman。一、简介 WebSocket通过一个TCP连接在客户端和服务器之间建立一个全双工、双向的通信通道，使得客户端和服务器之间的数据交换变得更加简单，允许服务端主动向客户端推送数据&#xf…

阅读更多...

003_PyCharm的安装与使用

003_PyCharm的安装与使用

如果你正在学习PyQt，本系列教程完全可以带你入门直至入土。所谓从零开始，就是从软件安装、环境配置开始。不跳过一个细节，不漏掉一行代码，不省略一个例图。 IDE 开始学习一个编程语言，我们肯定是首先得安装好它&…

阅读更多...

std::funture和std::promise

std::funture和std::promise

#include <iostream> #include <thread> #include <future>void calculateResult(std::promise<int>& promiseObj) {// 模拟耗时计算std::this_thread::sleep_for(std::chrono::seconds(2));// 设置结果到 promise 中promiseObj.set_value(42); }i…

阅读更多...

信息系统项目管理师——十大管理过程输入、工具和技术、输出（论文篇）二

信息系统项目管理师——十大管理过程输入、工具和技术、输出（论文篇）二

六、项目风险管理规划风险管理在撰写关于“规划风险管理”的论文时，这个过程是项目风险管理的第一步，旨在建立风险管理的框架，为整个项目周期内的风险识别、分析、应对和监控奠定基础。以下是规划风险管理过程中可能涉及的输入、工具和技…

阅读更多...

Python学习（五）异常处理

Python学习（五）异常处理

异常概念异常的捕获方法 try: f open("D:/abc.txt","r",encoding"UTF-8") except: print("出现异常了，因为文件不存在，我将open的模式，改为w模式去打开") f open("D:/abc.txt&qu…

阅读更多...

Python代码：十、字符串连接

Python代码：十、字符串连接

1、题目小明有两个最好的朋友，他们的名字分别用input读入记录在两个字符串中，请使用字符串连接（）帮助牛牛将两个朋友的名字依次连接在一个字符串中输出。 2、代码 import sysstr1 input() str2 input() str3 str1 str2 pr…

阅读更多...

从0到1：使用HuggingFace的管线加载Diffusion模型生成第一张图像！

从0到1：使用HuggingFace的管线加载Diffusion模型生成第一张图像！

Hugging Face系列1：详细剖析Hugging Face网站资源前言本篇摘要1. Hugging Face Hub三大件1.1 模型1.1.1 模型简介1.1.2 制作模型卡片1.1.3 模型下载和上传1.1.4 模型应用 1.2 数据集1.2.1 数据集简介1.2.2 调用代码1.2.3 AutoTrain在线微调 1.3 Space应用1.3.1 内容…

阅读更多...

理解 Python 中的 `super()` 与 `__init__()` 方法

理解 Python 中的 `super()` 与 `init()` 方法

在 Python 的面向对象编程中，super() 函数和 __init__() 方法是两个非常重要的概念。它们在类的继承和初始化过程中扮演着关键的角色。本文将深入探讨这两个概念的工作原理，并通过示例代码来展示它们的使用。基本原理 __init__() 方法 __init__() 是…

阅读更多...

Vue中的全局事件总线：EventBus与$bus的比较详解与实战应用

Vue中的全局事件总线：EventBus与$bus的比较详解与实战应用

EventBus实例： var EventBus new Vue() 会创建一个名为EventBus的Vue实例，并将其存储在变量EventBus中。Vue.prototype.$bus new Vue() 则直接在Vue的原型上创建一个新的Vue实例，并将其赋值给$bus属性。使用方式： var EventBus…

阅读更多...

C# 结合 JavaScript 对 Web 控件进行数据输入验证

C# 结合 JavaScript 对 Web 控件进行数据输入验证

目录关于数据验证范例运行环境验证设计 JavaScript 方法设计实现调用示例 C# 方法设计实现调用示例小结关于数据验证在 Web 应用的录入界面，数据验证是一项重要的实现功能，数据验证是指确认 Web 控件输入或选择的数据&#xff…

阅读更多...

类对象作为类成员

类对象作为类成员

在C中，类对象可以作为另一个类的成员变量。这种设计方式可以用于创建复杂的对象结构，使得一个类的对象能够包含另一个类的对象。这种嵌套类的组合方式可以增强代码的可重用性和模块化。类对象作为类成员的示例让我们通过一个示例来解释这一概念。假设…

阅读更多...

武汉信息系统建设和服务能力评估CS认证咨询

武汉信息系统建设和服务能力评估CS认证咨询

很多企业在咨询信息系统建设和服务能力评估的时候喜欢百度搜索，不管是本地咨询机构还是外地咨询机构只要价格便宜就找谁，这个在低等级的CS1是可以这么操作的，一旦上升到CS2级别及以上的，我们一般不推荐找外地咨询机构，…

阅读更多...

【文末附gpt升级方案】字节跳动发布豆包大模型：AI领域的革新与引领

【文末附gpt升级方案】字节跳动发布豆包大模型：AI领域的革新与引领

随着科技的飞速进步，人工智能（AI）已逐渐成为推动社会发展的重要力量。在这一背景下，字节跳动公司以其前瞻性的眼光和创新能力，于XXXX年XX月XX日正式发布了豆包大模型，这一举动无疑在AI领域掀起了新一轮的浪…

阅读更多...

最新文章