一文搞懂各种Attention机制

一文搞懂各种Attention机制

news/2025/7/2 18:51:54/文章来源:https://blog.csdn.net/bitcarmanlee/article/details/142639316

1.各种Attention

最近在重读Transformer论文的过程中，结合其他看过的资料，对各种Attention概念有进一步的了解。回顾最初刚接触时候的迷糊，觉得有必要写一篇文章记录一下对各种attention新的理解。

2.论文中的Transformer架构图

先上经典的Transformer架构图镇楼
在这里插入图片描述
上面这张图是论文中经典的transformer整体架构。除了这张整体架构图，还有如下两张图
上面这些图里各种attention，scaled dot-product attention, multi-head attention, self attention, masked multi-head attention 等等，一堆相关名词与概念，很容易就把人给闹晕了。下面我们来分析一下这些attention的区别。

3.Scaled Dot-Product Attention

Scaled Dot-Product Attention，直接翻译的话就是缩放点积注意力。
在这里插入图片描述
即对应论文中上面这个公式。

输入包括维度dk，查询值Q(query)，键值K(key)，维度为dk的值V(value)。根据上面的公式，可以得到注意力分数。
在这里插入图片描述

4.self-attention

self-attention，指的是通过Scaled Dot-Product Attention的计算方式，计算注意力分数，最终对向量实现加权求和操作，得到输入序列中的每个位置加权向量表示。

在自注意力（Self-Attention）机制中，“Self”这个词的理解关键在于它描述了注意力的来源和应用是在同一组数据内部。在自注意力机制中，每个元素（例如，句子中的一个词或者序列中的一个项）的表示是由序列内部的其他元素通过注意力权重来加权平均得到的。这种注意力计算是序列内部元素之间的相互关系，而不是像传统的注意力机制那样，通常是在不同序列之间进行，比如在机器翻译中源语言序列和目标语言序列之间的关系。

Self在自注意力中强调的是模型在处理序列时，每个元素的上下文表示是由序列内部的元素共同决定的，而不是依赖于外部的元素或者序列。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/884182.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Scala 的trait

Scala 的trait

在Scala中，trait是一种特殊概念。trait可以作为接口，同时也可以定义抽象方法。类使用extends继承trait，在Scala中，无论继承类还是继承trait都用extends关键字。在Scala中， 类继承trait后必须实现其中的抽象方法&#x…

阅读更多...

Zipkin使用指南分布式追踪核心概念与架构详解

Zipkin使用指南分布式追踪核心概念与架构详解

1. 简介什么是Zipkin Zipkin是一个分布式追踪系统，主要用于监控和分析微服务架构中的调用链路。它帮助开发者和运维团队深入理解服务调用路径，从而识别性能瓶颈、异常或故障点。Zipkin最初是由Twitter开源的，当前已成为微服务追踪的流行解…

阅读更多...

Python+Appium+Pytest+Allure自动化测试框架-代码篇

Python+Appium+Pytest+Allure自动化测试框架-代码篇

文章目录自动化测试框架工程目录示例测试代码示例结果查看allurepytest编写pytest测试样例的规则pytest conftest.py向测试函数传参 appium启动appium服务代码端通过端口与appium服务通信对设备进行操作在pytest测试用例中调用appium 更多功能 PythonAppiumPytestAllure自动化…

阅读更多...

【C++】红黑树的Iterator改造以及mapset的模拟实现与封装

【C++】红黑树的Iterator改造以及mapset的模拟实现与封装

目录 01.红黑树的迭代器 operator: operator*、-> operator、! 02.红黑树的改造 begin和end方法 keyOfValue insert方法 find方法 size方法 clear方法 03.map&set的模拟实现 01.红黑树的迭代器前面的博客我们介绍了红黑树的底层原理并手撕了一个自己的红…

阅读更多...

微信小程序服务通知

微信小程序服务通知

项目中用到了小程序的服务消息通知，通知订单状态信息，下边就是整理的一下代码，放到项目中，把项目的小程序appid和小程序的secret写进去，直接运行即可提前申请好小程序服务信息通知短信模板，代码需要用到模…

阅读更多...

linux命令行的艺术

linux命令行的艺术

文章目录前言基础日常使用文件及数据处理系统调试单行脚本冷门但有用仅限 OS X 系统仅限 Windows 系统在 Windows 下获取 Unix 工具实用 Windows 命令行工具Cygwin 技巧更多资源免责声明熟练使用命令行是一种常常被忽视，或被认为难以掌握的技能，但实际…

阅读更多...

【vue】11.Vue 3生命周期钩子在实践中的具体应用

【vue】11.Vue 3生命周期钩子在实践中的具体应用

Vue 3的生命周期钩子为开发者提供了在不同阶段操作组件的强大能力。本文将带您了解每个生命周期钩子的使用场景，并通过简单的案例来展示它们在实际开发中的应用。 1. 创建阶段（Creation Hooks） beforeCreate 进行一些初始化操作&#xff0c…

阅读更多...

2024年最新版SSL证书

2024年最新版SSL证书

SSL证书行业变动很大，随着操作系统，浏览器新版本不断增加，对SSL证书兼容性要求越来也高，对于安全性也有所提升，主流CA机构根证书及交叉链迎来了换新，这是为了延续下一个20个年的安全计划的提前不如&#xf…

阅读更多...

Spark入门到实践

Spark入门到实践

Spark入门到实践一、Spark 快速入门1.1 Spark 概述1.2 Spark 最简安装1.3 Spark实现WordCount1.3.1 下载安装Scala1.3.2 添加Spark依赖1.3.3 Scala实现WordCount1.3.4 通过IDEA运行WordCount1.3.5 IDEA配置WordCount输入与输出路径1.3.6 通过IDEA运行WordCount1.3.7 查看运行结…

阅读更多...

vue、小程序腾讯地图开放平台使用

vue、小程序腾讯地图开放平台使用

一、登录账号腾讯地图API 官方文档： 腾讯位置服务 - 立足生态，连接未来二、申请秘钥 key 从首页【开发文档】-【微信小程序 SDK】进到微信小程序的开发文档：微信小程序JavaScript SDK | 腾讯位置服务然后我们根据【Hello World】的提示…

阅读更多...

linux的文件IO操作---read函数如何退出

linux的文件IO操作---read函数如何退出

关于 read 函数和 EOF（End Of File）的概念。1. EOF 的定义： EOF 是一个信号，表示文件的末尾已经被到达，没有更多的数据可以读取。在 Unix 和 Linux 系统中，EOF 通常与文件的结束关联，但也可以…

阅读更多...

前端必知必会-JavaScript 对象

前端必知必会-JavaScript 对象

文章目录 JavaScript 对象对象属性对象方法JavaScript 变量JavaScript 对象JavaScript 对象定义JavaScript 对象文字创建 JavaScript 对象使用 new 关键字对象属性访问对象属性 JavaScript 对象方法JavaScript 原始值JavaScript 对象是可变的总结 JavaScript 对象现实生活中…

阅读更多...

电赛入门之软件stm32keil+cubemx

电赛入门之软件stm32keil+cubemx

hal库可以帮我们一键生成许多基本配置，就不需要自己写了，用多了hal库就会发现原来用基本库的时候都过的什么苦日子（笑下面我们以f103c8t6，也就是经典的最小核心板来演示一、配置工程首先来新建一个工程这里我们配置rcc和sys&…

阅读更多...

漏洞分析技术实践_数组越界漏洞

漏洞分析技术实践_数组越界漏洞

1. 基础知识 1.1 数组原理数组是一段连续的内存存储空间，包含多个类型相同的元素。通过数组名可以在内存中找到对应的数组空间，并且可以通过数组名和索引来访问数组中的元素。 #include <stdio.h>int main(){int a[10];int i0;printf("a’…

阅读更多...

Elasticsearch开源仓库404 7万多star一夜清零

Elasticsearch开源仓库404 7万多star一夜清零

就在昨晚，有开发者惊奇地发现自己的开源项目 star 数竟然超过了最流行的开源全文搜索引擎 Elasticsearch。发生了什么事？Elasticsearch 竟然跌得比股票还凶 —— 超 7 万 star 的 GitHub 仓库竟然只剩下 200 多。从社交媒体的动态来看，Elast…

阅读更多...

汽车免拆诊断案例 | 2010款起亚赛拉图车发动机转速表指针不动

汽车免拆诊断案例 | 2010款起亚赛拉图车发动机转速表指针不动

故障现象　一辆2010款起亚赛拉图车，搭载G4ED 发动机，累计行驶里程约为17.2万km。车主反映，车辆行驶正常，但组合仪表上的发动机转速表指针始终不动。故障诊断　接车后进行路试，车速表、燃油存量表及发动机冷却温度…

阅读更多...

硅谷(12)菜单管理

硅谷(12)菜单管理

菜单管理模块 11.1 模块初始界面 11.1.1 API&&type API: import request from /utils/request import type { PermisstionResponseData, MenuParams } from ./type //枚举地址 enum API {//获取全部菜单与按钮的标识数据ALLPERMISSTION_URL /admin/acl/permission…

阅读更多...

【电商搜索】现代工业级电商搜索技术-亚马逊-经典的Item-to-Item协同推荐算法

【电商搜索】现代工业级电商搜索技术-亚马逊-经典的Item-to-Item协同推荐算法

【电商搜索】现代工业级电商搜索技术-亚马逊-经典的Item-to-Item协同推荐算法文章目录【电商搜索】现代工业级电商搜索技术-亚马逊-经典的Item-to-Item协同推荐算法1. 论文信息2. 算法介绍3. 创新点小结4. 实验效果5. 算法结论6. 代码实现7. 问题及优化方向1. 冷启动问题2. 稀…

阅读更多...

computed拦截v-model

computed拦截v-model

一，问题在父组件和子组件中都使用v-model会打破单项数据流。二，方法基于上述问题采用computed拦截v-model  <template><div><my-component v-model"form"></my-component></div> &l…

阅读更多...

Django中分组查询(annotate 和 aggregate 使用)

Django中分组查询(annotate 和 aggregate 使用)

在 Django 中，aggregate() 和 annotate() 是两个常用的聚合函数。它们都可以用来对一组查询结果进行聚合操作，但它们的作用是有所不同的。 aggregate() 是用于聚合整个查询集的结果，通常用于返回一个值，例如计算查询集中所有结果…

阅读更多...

最新文章