注意力机制 self-attention 的原理探究

一、点积的认识

向量的点积可以表示相似性的原因在于它衡量了两个向量之间的方向是否相似。当两个向量的方向趋于一致时,它们的点积会更大;当两个向量的方向趋于相互垂直时,它们的点积会接近于0。这种性质使得点积在衡量向量之间的相似性和相关性时非常有用。

具体来说,两个向量A和B的点积A*B可以表示为两个向量在同一方向上的投影长度之积的和。如果两个向量在同一方向上的投影长度越大,它们的点积也会越大,表明它们的方向更加相似。相反,如果两个向量的方向差异较大,它们在同一方向上的投影长度会减小,点积也会减小,表明它们的方向差异较大。

因此,通过计算向量的点积,我们可以判断两个向量之间的方向是否相似,从而衡量它们的相似性。在机器学习和数据分析中,点积常用于计算特征之间的相似性,从而进行特征选择、聚类、分类等任务。

1.1 向量夹角可以表示相似性的原理

两个向量A和B之间的夹角可以通过它们的点积和向量的模(长度)来计算。假设向量A = [a_1, a_2, ..., a_n],向量B = [b_1, b_2, ..., b_n],它们之间的夹角可以通过以下公式计算: 

其中,向量A和向量B的点积,||A||和||B||分别表示向量A和向量B的模(长度)。

推导过程:

通过以上推导,我们可以看到向量夹角的计算与点积之间有着密切的关系。通过点积和向量的模(长度)的计算,我们可以求解两个向量之间的夹角,从而衡量它们之间的相似度或相关性。

所以本质上还是点积的大小进行线性的缩放,不会影响相似性的衡量。

二、注意力机制

在深度学习中,注意力机制是一种重要的技术,用于模型在处理序列数据时能够更加关注重要的部分,从而提高模型的性能。注意力机制可以使模型在生成输出时,根据输入的不同部分赋予不同的权重,使得模型能够更加灵活地学习和利用输入数据的信息。

下面我们以Transformer模型中的自注意力机制(Self-Attention)为例来详细解释和实现注意力机制。

2.1 注意力机制的描述

在注意力机制中,Q(Query)、K(Key)、V(Value)和softmax函数是核心概念,用于计算注意力权重并生成输出表示。

Query(查询)、Key(键)、Value(值)

  • Query Q(查询):查询是用来寻找与之相关性的键的向量。在注意力机制中,查询向量Q通常是通过对输入数据进行线性变换得到的,用于衡量查询与键的相似度,决定了在生成输出表示时每个键的重要程度。

  • Key K(键):键是用来表示输入数据的向量,与查询一起计算注意力权重。键向量K也是通过对输入数据进行线性变换得到的。

  • Value V(值):值是用来生成最终输出表示的向量。值向量V同样是通过对输入数据进行线性变换得到的,根据注意力权重对值进行加权求和得到最终输出。

Softmax函数

Softmax函数是一个常用的激活函数,通常用于多分类问题中,将输入转化为概率分布。在注意力机制中,softmax函数被用来计算注意力权重,将注意力分数转化为概率分布,使得不同位置的输入在生成输出时得到不同的权重。

2.2 生成过程和举例说明

2.3 推导举例

为了推导注意力的分数,我们首先定义查询向量Q和键向量K之间的相关性度量,通常使用点积(dot product)作为相似度度量。然后通过缩放处理和应用softmax函数,将相关性转化为注意力权重。

相关性表示:

  • 通过点积计算查询向量Q和键向量K之间的相似度,可以理解为在d维空间中,两个向量的方向相同且长度相似时,点积的值较大,表示两个向量之间的相关性较高。

  • 缩放处理可以使得点积的值不受向量维度的影响,使得训练更加稳定。

  • softmax函数将缩放后的分数转化为概率分布,使得不同位置的输入在生成输出时得到不同的权重,体现了不同位置之间的相关性。

通过以上推导,可以看到为什么可以使用点积作为相关性度量,并通过缩放和softmax函数得到注意力权重,从而实现在生成输出表示时对不同位置的输入进行加权处理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/756096.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ins中扰动分析举例

扰动分析很重要,搞明白扰动分析,基本上就可以清楚了误差模型。 什么是扰动分析: 简单理解 测量值 真值 误差 这里的误差就是与测量直接对应的误差,例如 把误差分离出来 误差 测量值 - 真值 &#xff…

Docker基本配置及使用

Docker基本配置及使用 使用步骤 1.卸载旧版 代码如下:首先如果系统中已经存在旧的Docker,则先卸载 yum remove docker \docker-client \docker-client-latest \docker-common \docker-latest \docker-latest-logrotate \docker-logrotate \docker-engin…

网站首页添加JS弹屏公告窗口教程

很多小白站长会遇到想给自己的网站添加一个弹屏公告&#xff0c;用于做活动说明、演示站提示等作用与目的。 下面直接上代码&#xff1a;&#xff08;直接复制到网页头部、底部php、HTML文件中&#xff09; <script src"https://www.mohuda.com/site/js/sweetalert.m…

0基础学习VR全景平台篇第145篇:图层控件功能

大家好&#xff0c;欢迎观看蛙色VR官方——后台使用系列课程&#xff01;这期&#xff0c;我们将为大家介绍如何使用图层控件功能。 一.如何使用图层控件功能&#xff1f; 进入作品编辑页面&#xff0c;点击左边的控件后就可以在右边进行相应设置。 二.图层控件有哪些功能&am…

款海韵-650LX:电流参数是最大电流!

其实&#xff0c;在选择电源时&#xff0c;不需要担心峰值功率和额定功率。 您只需检查参数是否与您相应部件的功率匹配即可。 1.首先需要了解各个参数的含义。 电源上有5个电压参数&#xff0c;分别是12V、5V、3.3V、5VSB、-12V。 12V为CPU、显卡和机械硬盘的电机部分供电。 …

Linux课程_____用户的管理

一、规则 用户至少属于一个组,在创建时如果不指定组,将会创建同名的组 用户只能有一个基本组(主组),但可以隶属于多个附加组 如果一个组作为某用户的基本组,此组将不能被删除 UID: 用户标识 GID: 组的标识 root管理员的uid及gid 都为0 二、用户的配置文件 1./etc/passwd …

3/19作业

select实现的TCP并发服务器 #include <myhead.h> #define SER_PORT 8888 #define SER_IP "192.168.47.130"int main(int argc, const char *argv[]) {int sfd -1;sfd socket(AF_INET,SOCK_STREAM,0);if(sfd -1){perror("socket");return -1;}pri…

resize-observer源码解读

resize-observer github 地址&#xff1a;https://github.com/devrelm/resize-observer 本地启动 npm installnpm startnode 18.16.0 (npm 9.5.1) 启动失败报错 node:internal/crypto/hash:71this[kHandle] new _Hash(algorithm, xofLen);^Error: error:0308010C:digital …

【Py/Java/C++三种语言OD2023C卷真题】20天拿下华为OD笔试之【模拟】2023C-攀登者2【欧弟算法】全网注释最详细分类最全的华为OD真题题解

有LeetCode算法/华为OD考试扣扣交流群可加 948025485 可上全网独家的 欧弟OJ系统 练习华子OD、大厂真题 绿色聊天软件戳 od1336了解算法冲刺训练 文章目录 题目描述与示例题目描述输入描述输出描述 示例输入输出 解题思路原路返回和非原路返回原路返回走过的总路程从左边空地出…

流畅的Python(二十一)-类元编程

一、核心要义 1.类元编程时指在运行时创建或定制类的技艺 2.类是一等对象,因此任何时候都可以使用函数新建类&#xff0c;而无需使用class关键字 3.类装饰器也是函数&#xff0c;不过能够审查、修改&#xff0c;甚至把被装饰的类替换为其它类。 4.元类(type类的子类)类编程…

内网渗透学习-环境搭建

1、环境搭建测试 虚拟机网络环境配置&#xff0c;模拟外网和内网 主机操作系统网络内网ip外网ip物理主机window10vmnet8192.168.70.1攻击机kali Linuxvmnet8192.168.70.134域控主机win server 2008 r2vmnet0192.168.52.138域成员主机win server 2k3vmnet0192.168.52.141服务器…

HarmonyOS NEXT应用开发之swiper指示器导航点位于swiper下方

介绍 本示例介绍通过分割swiper区域&#xff0c;实现指示器导航点位于swiper下方的效果。 效果预览图 使用说明 加载完成后swiper指示器导航点&#xff0c;位于显示内容下方。 实现思路 将swiper区域分割为两块区域&#xff0c;上方为内容区域&#xff0c;下方为空白区域。…

【数据结构】链表力扣刷题详解

前言 题目链接 移除链表元素 链表的中间结点 反转链表 分割链表 环形链表的约瑟夫问题 ​ 欢迎关注个人主页&#xff1a;逸狼 创造不易&#xff0c;可以点点赞吗~ 如有错误&#xff0c;欢迎指出~ 移除链表元素 题述 给你一个链表的头节点 head 和一个整数 val &#xff0c;请…

【Spring Cloud Gateway】路由配置uri三种方式及区别

websocket配置方式 ws:// 或 wss:// 开头的 URI&#xff0c;表示配置的是支持 Websocket 协议的目标地址。 这种方式适用于需要与客户端建立长连接、实现双向通信的场景&#xff0c;比如实时消息推送、即时聊天等。 使用 Websocket 配置方式可以让 Spring Cloud Gateway 能够…

代理IP品质对Tik Tok代理的重要性

随着Tik Tok的迅速崛起&#xff0c;越来越多的人开始关注如何透过Tik Tok进行行销和推广。其中&#xff0c;使用Tik Tok代理程式是常见的方法。 然而&#xff0c;在选择和使用代理时&#xff0c;IP品质是一个不可忽视的因素。本文将探讨IP品质对Tik Tok代理的重要性&#xff0…

鸿蒙Harmony应用开发—ArkTS声明式开发(容器组件:GridRow)

栅格布局可以为布局提供规律性的结构&#xff0c;解决多尺寸多设备的动态布局问题&#xff0c;保证不同设备上各个模块的布局一致性。 栅格容器组件&#xff0c;仅可以和栅格子组件(GridCol)在栅格布局场景中使用。 说明&#xff1a; 该组件从API Version 9开始支持。后续版本…

初中分班怎么分按什么标准

初中是学生生涯中一个重要的阶段&#xff0c;它承接着小学的基础教育&#xff0c;同时为高中的深入学习打下基础。在这个关键时期&#xff0c;分班成为学校、家长和学生共同关注的焦点。那么&#xff0c;初中分班是按照什么标准来进行的呢&#xff1f; 学业成绩是初中分班的首要…

考研复习C语言进阶(4)

1. 为什么存在动态内存分配 我们已经掌握的内存开辟方式有&#xff1a; int val 20;//在栈空间上开辟四个字节 char arr[10] {0};//在栈空间上开辟10个字节的连续空间 但是上述的开辟空间的方式有两个特点&#xff1a; 1. 空间开辟大小是固定的。 2. 数组在申明的时候&#…

Docker知识--01

虚拟化 # 什么是虚拟化 在计算机中&#xff0c;虚拟化&#xff08;英语&#xff1a;Virtualization&#xff09;是一种资源管理技术&#xff0c;是将计算机的各种实体资源&#xff0c;如服务器、网络、内存及存储等&#xff0c;予以抽象、转换后呈现出来&#xff0c;打…

深度学习模型参数的计算

1. 模型尺寸与参数量 根据神经网络模型中的参数数量估计模型体积的大小涉及多个考虑因素&#xff0c;包括参数的数据类型、每种数据类型的存储要求以及存储模型结构或元数据的任何额外开销。下面是估计模型大小的一般方法&#xff1a; 1.1.数据类型 神经网络参数通常存储为浮…