多头注意力机制基本概念

文章目录

  • 基本概念
  • 模型
  • 小结

基本概念

我们可以用独立学习得到的h组不同的 线性投影来变换查询、键和值。 然后,这h组变换后的查询、键和值将并行地送到注意力汇聚中。 最后,将这h个注意力汇聚的输出拼接在一起, 并且通过另一个可以学习的线性投影进行变换, 以产生最终输出。 这种设计被称为多头注意力。对于h个注意力汇聚输出,每一个注意力汇聚都被称作一个头(head)。
在这里插入图片描述

模型

每个注意力头 h i h_i hi的计算公式为
h i = f ( W i ( q ) q , W i ( k ) k , W i ( v ) v ) ∈ R p v , \mathbf{h}_i = f(\mathbf W_i^{(q)}\mathbf q, \mathbf W_i^{(k)}\mathbf k,\mathbf W_i^{(v)}\mathbf v) \in \mathbb R^{p_v}, hi=f(Wi(q)q,Wi(k)k,Wi(v)v)Rpv,
其中q-查询、k-键、v-值。 W i ( q ) W_i^(q) Wi(q)为q通过全连接层后得到的参数、 W i ( k ) W_i^(k) Wi(k)为k通过全连接层后得到的参数、 W i ( v ) W_i^(v) Wi(v)为v通过全连接层后得到的参数。

f f f为注意力汇聚函数,f内的注意力评分函数可以是加性注意力、缩放点击注意力。

多头注意力的输出需要经过另一个线性转换, 它对应着h个头连结后的结果,因此其可学习参数是 W o W_o Wo
W o [ h 1 ⋮ h h ] ∈ R p o . \begin{split}\mathbf W_o \begin{bmatrix}\mathbf h_1\\\vdots\\\mathbf h_h\end{bmatrix} \in \mathbb{R}^{p_o}.\end{split} Wo h1hh Rpo.
基于这种设计,每个头都可能会关注输入的不同部分, 可以表示比简单加权平均值更复杂的函数。

小结

  • 多头注意力融合了来自于多个注意力汇聚的不同知识,这些知识的不同来源于相同的查询、键和值的不同的子空间表示。

  • 基于适当的张量操作,可以实现多头注意力的并行计算。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/173883.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue+SpringBoot项目前端如何获取本地磁盘路径的照片

一、问题 今日项目中遇到的问题: 在页面想要展示本地磁盘路径的照片,但是一直无法显示出来 原因:可能是vue无法直接读取本地磁盘的照片(本人盲猜) 1.解决思路 1.后端进行静态资源映射 2.前端调用 2.实现步骤一 在后端的…

PostgreSQL 修改表字段名称

用SQL语句进行修改,一条语句就可以搞定: 当你字段名有多余空格的时候,使用这种方法则可以进行修改为新的字段名 ALTER TABLE table_name RENAME COLUMN "旧字段名" TO "新字段名";

你要了解的 OpenAI 那些事:创立简史,技术背景等

原文: https://openaigptguide.com/what-is-openai/ OpenAI 是一家人工智能研究公司,成立于2015年,总部位于美国旧金山。目前,OpenAI由创始人Sam Altman、首席技术官Ilya Sutskever、首席执行官Ilya Sutskever(同时担…

Keil报错_Error:CreateProcess failed,Command:‘xxx\fromelf.exe‘

1、报错信息 2、分析及解决 错误原因:fromelf.exe路径错误,无法执行命令。 发生情景:编译从另一个电脑拷贝的代码时。 解决方法: 1、当你不需要生成bin文件时,可以选择不执行这个命令。(去掉√&#xf…

每日一练2023.11.27———连续因子【PTA】

题目要求: 一个正整数 N 的因子中可能存在若干连续的数字。例如 630 可以分解为 3567,其中 5、6、7 就是 3 个连续的数字。给定任一正整数 N,要求编写程序求出最长连续因子的个数,并输出最小的连续因子序列。 输入格式&#xff…

在工程中输出尽量用log而不用直接打印

在工程中输出尽量用log而不用直接打印 工程中,建议尽量使用日志(log)系统而不是直接使用 printf 函数进行输出。这是因为日志系统可以提供更强大和灵活的功能,同时也具有以下优点: 可配置性: 日志系统通常具有配置选项…

百度智能云正式上线Python SDK版本并全面开源

文章目录 前言一、SDK的优势二、千帆SDK:快速落地LLM应用三、如何快速上手千帆SDK3.1、SDK快速启动3.2. SDK进阶指引 3.3. 通过Langchain接入千帆SDK4、开源社区 前言 百度智能云千帆大模型平台再次升级!在原有API基础上,百度智能云正式上线…

Jenkins Pipeline应用实践

Jenkins Pipeline是一种可编程的、可扩展的持续交付管道,允许您使用脚本来定义整个软件交付过程。 以下是使用Jenkins Pipeline创建和配置流水线的基本步骤。 Part 01. 创建一个Pipeline Job 在Jenkins中创建一个新的"Pipeline"类型的Job。 以下是在Je…

跨境电商与物联网:智能设备的未来

随着科技的不断发展,跨境电商和物联网的结合呈现出前所未有的新格局。在这个数字化的时代,智能设备正成为跨境电商的新宠,为商业、物流和消费者带来了全新的体验。本文将深入探讨跨境电商与物联网的结合,探讨智能设备在未来的发展…

nrm : 镜像源工具npm镜像切换

nrm命令 安装nrm&#xff1a;npm i -g nrm 查看镜像源&#xff1a;nrm ls&#xff0c;带*号的为当前使用的源 添加新镜像&#xff1a;nrm add [镜像源名称] <源的URL路径> 切换镜像源&#xff1a;nrm use [镜像源名称] 删除一个镜像源&#xff1a;nrm del [镜像源名称] …

为什么制定交易策略要根据资金量,澳福一个例子说清楚

为什么制定交易策略要根据资金量。其实很简单&#xff0c;澳福一个例子说清楚。 假如投资者现在有一大笔资金&#xff0c;就可以用这笔资金的1个百分点的利息来支付自己的日常开支&#xff0c;一百万的1%利息就足够了&#xff0c;可以支付你想要的一切。澳福和各位投资者是不是…

【axios】拦截器:axios.interceptors.request.use|axios.interceptors.response.use

文章目录 概述设置拦截器Axios 拦截器的实现任务注册任务编排任务调度 来源 概述 axios有请求拦截器&#xff08;request&#xff09;、响应拦截器&#xff08;response&#xff09;、axios自定义回调处理&#xff08;这里就是我们常用的地方&#xff0c;会将成功和失败的回调…

成为一名优秀教师的关键要素

在教育领域&#xff0c;要想成为一名优秀的教师可是需要多方面的素质和技能的。以下是我总结出的几点关键要素&#xff0c;供大家参考。 热爱教育事业 首先对教育事业充满热爱和热情。只有对事业有强烈的兴趣和热爱&#xff0c;才能在漫长的工作中保持耐心、专注和投入。热爱教…

2023年【通信安全员ABC证】考试题及通信安全员ABC证证考试

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 2023年【通信安全员ABC证】考试题及通信安全员ABC证证考试&#xff0c;包含通信安全员ABC证考试题答案和解析及通信安全员ABC证证考试练习。安全生产模拟考试一点通结合国家通信安全员ABC证考试最新大纲及通信安全员A…

基于springboot+maven的个人理财管理系统

基于springbootmaven的个人理财管理系统,演示地址:个人理财系统登录界面 用户名:admin,密码&#xff1a;123456 共分为用户信息管理(用户信息&#xff0c;银行卡&#xff0c;个人征信)&#xff0c;理财产品管理(零钱理财&#xff0c;工资理财&#xff0c;期限理财&#xff0c…

FLASK博客系列9——你想成为我的新用户吗?

距离上次发文好久好久了。 先说声抱歉&#xff0c;拖更的毛病我会改掉的。 上次我们教大家如何用后台去管理用户和新增文章&#xff0c;但始终都是单机操作&#xff0c;怎么让你的朋友也来加入你的小站呢&#xff1f;今天我们来为我们的网站增添一个新功能&#xff0c;实现用户…

文心一言 VS 讯飞星火 VS chatgpt (144)-- 算法导论12.1 4题

四、用go语言&#xff0c;对于一棵有 n 个结点的树&#xff0c;请设计在 O(n)时间内完成的先序遍历算法和后序遍历算法。 我个人喜欢 灵小智 。 文心一言&#xff1a; 在 Go 语言中&#xff0c;我们可以使用递归来实现树的前序遍历和后序遍历。以下是实现这两种方法的代码。…

window环境搭建StarRocksFE节点

StarRocks部署–源码编译 前言 ​ 注意:本文借用了一些其他文章的一些截图&#xff0c;同时自己做了具体的编译步骤&#xff0c;添加了一些新的内容 ​ 目标&#xff1a; 编译StarRocks2.5.13版本FE节点代码&#xff0c;在本地window环境运行&#xff0c;可以访问到8030界面…

UIkit-UIAlertContent

简单Demo //注意&#xff01;&#xff01;&#xff01;必须放在viewController的viewDidAppear里面&#xff0c;viewDidLoad里面不行 - (void)viewDidAppear:(BOOL)animated {// 创建 UIAlertControllerUIAlertController *alertController [UIAlertController alertControll…

YOLO的网络结构组成

YOLOv5的CSP结构是 将原输入分成两个分支&#xff0c;分别进行卷积操作使得通道数减半&#xff0c; 然后一个分支进行Bottleneck * N操作&#xff0c;然后concat两个分支&#xff0c;使得BottlenneckCSP的输入与输出是一样的大小&#xff0c;这样是为了让模型学习到更多的特征。…