Transformer - 注意⼒机制 Attention 中的 Q, K, V 解释（2）

Transformer - 注意⼒机制 Attention 中的 Q, K, V 解释（2）

news/2025/7/12 11:54:53/文章来源:https://blog.csdn.net/flyfish1986/article/details/137563135

Transformer - 注意⼒机制 Attention 中的 Q, K, V 解释（2）

flyfish
Transformer - 注意⼒机制 Scaled Dot-Product Attention 计算过程
Transformer - 注意⼒机制代码实现
Transformer - 注意⼒机制 Scaled Dot-Product Attention不同的代码比较
Transformer - 注意⼒机制代码解释
Transformer - 注意⼒机制 Attention 中的 Q, K, V 解释（1）
Transformer - 注意⼒机制 Attention 中的 Q, K, V 解释（2）

加权求和
在这里插入图片描述

矩阵乘法
在这里插入图片描述
第一个矩阵横着向量
第二个矩阵列着向量

在这里插入图片描述
17的由来
两个矩阵相乘，在结果矩阵中的一个元素就是加权求和得到的

最后结果是

在注意力机制中就是用矩阵乘法实现的加权求和
$x^Ty =\begin{pmatrix} x_1 x_2 \dots x_n \end{pmatrix} \begin{pmatrix} y_1\\y_2 \\ \vdots \\ y_n \end{pmatrix} = x_1y_1+x_2y_2+\dots+x_ny_n=\sum_{i=1}^n x_i y_i$

点积（Dot Product）、数量积、标量积、点乘

点积的名称源自表示点乘运算的点号 $\bullet b)$ ，标量积的叫法则是在强调其运算结果为标量而非向量。
两个向量 $\vec{a}=\left[a_{1}, a_{2}, \cdots, a_{n}\right]$ 和 $\vec{b}=\left[b_{1}, b_{2}, \cdots, b_{n}\right]$ 的点积定义为：

$\vec{a} \cdot \vec{b}=\sum_{i=1}^{n} a_{i} b_{i}=a_{1} b_{1}+a_{2} b_{2}+\cdots+a_{n} b_{n}$

在欧几里得空间中，点积可以直观地定义为

$\vec{a} \cdot \vec{b}=|\vec{a}||\vec{b}| \cos \theta$
$|\vec{x}|$ 表示 $\vec{x}$ 的模（长度）， $\theta$ 表示两个向量之间的角度。
$\cos \theta=\frac{\mathbf{a} \cdot \mathbf{b}}{|\vec{a}||\vec{b}|}$

两个向量夹角余弦值就是两个向量的余弦相似度
两个向量之间的余弦相似性是用 $\theta$ 来衡量的。
在这里插入图片描述

如果 $\theta$ =0°，则x和y向量重叠，从而证明它们相似。
如果 $\theta$ =90°，则x和y向量不同。

加权求和，矩阵乘法，点积都可以实现计算两者相似性
简述是加权求和就是点积，矩阵乘法可以实现点积

一篇文章，文章的标题就是key，文章的内容就是V
使用搜索引擎时，输入到搜索栏中的文本就是 query
输入内容 query 与文章标题 key之间的相似性计算就是评分函数
在注意力机制中例如计算Q和K的点积实际就是计算两者的相似性
这个点积结果经过scale就是评分函数

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/808820.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【数字化转型】上市公司智能制造词频统计数据（1991-2022年）

【数字化转型】上市公司智能制造词频统计数据（1991-2022年）

数据来源：上市公司年报时间跨度：1991-2022年数据范围：上市公司数据指标： 版本一智能制造智能机器智能生产机器人全自动全机器版本二宏观政策中国制造2025 工业4.0 互联网范式特征自动化信息化信息…

阅读更多...

Socks5代理IP使用教程及常见使用问题

Socks5代理IP使用教程及常见使用问题

当我们在互联网上浏览网页、下载文件或者进行在线活动时，隐私和安全问题常常被提及。在这样的环境下，一个有效的解决方案是使用Sock5IP。本教程将向您介绍Sock5IP的使用方法，帮助您保护个人隐私并提升网络安全。一、什么是Sock5IP&#xff1…

阅读更多...

QT学习day5

QT学习day5

#include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget),socket(new QTcpSocket(this)) {ui->setupUi(this);//初始化界面ui->msgEdit->setEnabled(false);//不可用ui->sendBtn-&g…

阅读更多...

spring启动流程

spring启动流程

【spring容器启动】之bean的实例化和初始化（文末附:spring循环依赖原理）_实例化bean和初始化bean-CSDN博客

阅读更多...

js中new FormData对象的作用

js中new FormData对象的作用

一、js FormData方法介绍 1. 概述 FormData类型其实是在XMLHttpRequest 2级定义的，它是为序列化表以及创建与表单格式相同的数据（当然是用于XHR传输）提供便利。 2. 构造函数创建一个formData对象实例有几种方式： 1、创建一个空…

阅读更多...

[Kubernetes[K8S]集群:master主节点初始化]：通过Calico和Coredns网络插件方式安装

[Kubernetes[K8S]集群:master主节点初始化]：通过Calico和Coredns网络插件方式安装

文章目录操作流程：前置：Docker和K8S安装版本匹配查看0.1：安装指定docker版本 **[1 — 7] ** [ 配置K8S主从集群前置准备操作 ]一：主节点操作查看主机域名->编辑域名->域名配置二：安装自动填充，虚拟…

阅读更多...

如何借助AI高效完成写作提纲

如何借助AI高效完成写作提纲

AI变革力量：未来数据中心的智能化之旅！ 在当今这个信息爆炸的时代，人工智能（AI）在众多领域展现出了它的能力，特别是在写作领域。AI写作工具不仅能够帮助我们高效地生成内容，还能在一定程度上提升…

阅读更多...

【Sublime详解】mac最好用的编辑器-配置-插件- Alignment-费元星

【Sublime详解】mac最好用的编辑器-配置-插件- Alignment-费元星

######################## 先同步下自己用了8年多的配置： mac 打开配置快捷键：command, 逗号 // Settings in here override those in "Default/Preferences.sublime-settings", // and are overridden in turn by syntax-specific setti…

阅读更多...

代码随想录算法训练营第三十一天| 455.分发饼干、376.摆动序列、53.最大子序和

代码随想录算法训练营第三十一天| 455.分发饼干、376.摆动序列、53.最大子序和

系列文章目录目录系列文章目录455.分发饼干贪心算法大饼干喂胃口大的（先遍历胃口）胃口大的先吃大饼干(先遍历饼干）小饼干先喂胃口小的（先遍历胃口）胃口小的先吃小饼干（先遍历饼干） 376. 摆动序…

阅读更多...

ABR 车路协同场景

ABR 车路协同场景

#include <iostream> #include <sstream> #include <vector> #include <regex> #include <string> using namespace std; int main() { // 创建一个字符串，用于存储输入 string input; // 从标准输入读取一行 get…

阅读更多...

原 Excel 文件中的偶数行替换成对应上下两行的平均值

原 Excel 文件中的偶数行替换成对应上下两行的平均值

实现代码 import openpyxl# 打开Excel文件 input_file input.xlsx output_file input3.xlsx wb openpyxl.load_workbook(input_file) output_wb openpyxl.Workbook()# 处理每个工作表 for sheet_name in wb.sheetnames:sheet wb[sheet_name]# 新建一个工作表，…

阅读更多...

14-pyspark的DataFrame使用总结

14-pyspark的DataFrame使用总结

目录前言DataFrame使用总结 DataFrame的构建方法1：通过列表构建方法2：通过Row对象构建方法3：通过表Schema构建方法4：rdd结合字符串构建 DataFrame的方法 PySpark实战笔记系列第五篇 10-用PySpark建立第一个Spark RDD(PySpark实战…

阅读更多...

CSGO游戏搬砖，落袋为安才是王道

CSGO游戏搬砖，落袋为安才是王道

1.市场燃了，都在赚钱，谁在赔钱？ 首先要分清“纸面富贵”和“落袋为安”。市场燃了，你库存里的渐变大狙从5000直接涨到了1W，你赚到5000了吗？严格讲，你需要把库存里的渐变大狙卖出去，提…

阅读更多...

每天五分钟深度学习：逻辑回归算法的损失函数和代价函数是什么？

每天五分钟深度学习：逻辑回归算法的损失函数和代价函数是什么？

本文重点前面已经学习了逻辑回归的假设函数，训练出模型的关键就是学习出参数w和b，要想学习出这两个参数，此时需要最小化逻辑回归的代价函数才可以训练出w和b。那么本节课我们将学习逻辑回归算法的代价函数是什么？为什么不能平方差损失函数线性回归的代价函数我们使用…

阅读更多...

2024-基于人工智能的药物设计方法研究-AIDD

2024-基于人工智能的药物设计方法研究-AIDD

AIDD docx 基于人工智能的药物设计方法研究 AI作为一种强大的数据挖掘和分析技术已经涉及新药研发的各个阶段，有望推动创新药物先导分子的筛选、设计和发现，但基于AI的数据驱动式创新药物设计和筛选方法仍存在若干亟待解决的问题。我们课题组的核心研究…

阅读更多...

基于达梦数据库开发-python篇

基于达梦数据库开发-python篇

文章目录前言一、搭建demo前提初始化简单demo 二、可能出现的异常情况DistutilsSetupErrorNo module named dmPythonlist报错总结前言出于信创的考虑，近年来基于国产数据库达梦的应用开发逐渐变多。本文将介绍在windows环境下基于DM8版本的python的简单开发使用…

阅读更多...

matlab使用教程(40)—二维傅里叶变换和多项式插值

matlab使用教程(40)—二维傅里叶变换和多项式插值

1使用 FFT 进行多项式插值使用快速傅里叶变换 (FFT) 来估算用于对一组数据进行插值的三角函数多项式的系数。 1.1数学中的 FFT FFT 算法通常与信号处理应用相关，但也可以在数学领域更广泛地用作快速计算工具。例如，通常通过解算简单的线性系统来计算…

阅读更多...

24/04/11总结

24/04/11总结

IO流(First edition): IO流：用于读入写出文件中的数据流的方向（输入指拿出来,输出指写进去) 输入流:读取输出流:写出操作文件类型字节流:所有类型文件字符流:纯文本字节流: InputStream的子类:FileInputStream:操作本地文件的字节输入流 OutputSt…

阅读更多...

ssm036基于Java的图书管理系统+jsp

ssm036基于Java的图书管理系统+jsp

图书管理系统设计与实现摘要现代经济快节奏发展以及不断完善升级的信息化技术，让传统数据信息的管理升级为软件存储，归纳，集中处理数据信息的管理方式。本图书管理系统就是在这样的大环境下诞生，其可以帮助管理者在短时间内处…

阅读更多...

数位排序-自定义比较函数

数位排序-自定义比较函数

数位排序 4653. 数位排序 - AcWing题库题目大意：输入两个数，n,m。将1~n的数，按照以下规则排序： 当两个数各个数位之和不同时，将数位和较小的排在前面，当数位之和相等时，将数值小的排在…

阅读更多...

最新文章