自注意力机制Self-attention(2)

目录:
自注意力机制Self-attention(1)
自注意力机制Self-attention(2)

1 内容回顾

在这里插入图片描述
b2b^2b2的计算过程为例来说明:
query: q1=Wqa1q^1 = W^q a^1q1=Wqa1, q2=Wqa2q^2 = W^q a^2q2=Wqa2, q3=Wqa3q^3 = W^q a^3q3=Wqa3, q4=Wqa4q^4 = W^q a^4q4=Wqa4;
key:k1=Wka1k^1 = W^k a^1k1=Wka1, k2=Wka2k^2 = W^k a^2k2=Wka2, k3=Wka3k^3 = W^k a^3k3=Wka3k4=Wka4k^4 = W^k a^4k4=Wka4;
value:v1=Wva1v^1 = W^v a^1v1=Wva1, v2=Wva2v^2 = W^v a^2v2=Wva2, v3=Wva3v^3 = W^v a^3v3=Wva3, v4=Wva4v^4 = W^v a^4v4=Wva4;
attention score:α2,1=q2⋅k1\alpha_{2,1} = q^2 \cdot k^1α2,1=q2k1, α2,2=q2⋅k2\alpha_{2,2} = q^2 \cdot k^2α2,2=q2k2, α2,3=q2⋅k3\alpha_{2,3} = q^2 \cdot k^3α2,3=q2k3, α2,4=q2⋅k4\alpha_{2,4} = q^2 \cdot k^4α2,4=q2k4;
Soft-max:α2,1′=exp⁡(α2,1)∑jexp⁡(α2,j)\alpha_{2,1}^{'} = \frac{\exp(\alpha_{2,1})}{\sum_j \exp(\alpha_{2,j})}α2,1=jexp(α2,j)exp(α2,1), α2,2′=exp⁡(α2,2)∑jexp⁡(α2,j)\alpha_{2,2}^{'} = \frac{\exp(\alpha_{2,2})}{\sum_j \exp(\alpha_{2,j})}α2,2=jexp(α2,j)exp(α2,2), α2,3′=exp⁡(α2,3)∑jexp⁡(α2,j)\alpha_{2,3}^{'} = \frac{\exp(\alpha_{2,3})}{\sum_j \exp(\alpha_{2,j})}α2,3=jexp(α2,j)exp(α2,3), α2,2′=exp⁡(α2,4)∑jexp⁡(α2,j)\alpha_{2,2}^{'} = \frac{\exp(\alpha_{2,4})}{\sum_j \exp(\alpha_{2,j})}α2,2=jexp(α2,j)exp(α2,4);
b2=α2,1′v1+α2,2′v2+α2,3′v3+α2,4′v4=∑iα2,i′vib^2 = \alpha_{2,1}^{'}v^1 + \alpha_{2,2}^{'}v^2 + \alpha_{2,3}^{'}v^3 + \alpha_{2,4}^{'}v^4 = \sum_i \alpha^{'}_{2,i}v^ib2=α2,1v1+α2,2v2+α2,3v3+α2,4v4=iα2,ivi.
问:a1,…,a4a^1, \dots, a^4a1,,a4是什么?
答:就是输入的一组向量,如经过编码后的“I saw a saw”。
问:WqW^qWq, WkW^kWk, WvW^vWv是什么?
答:矩阵,需要通过学习得到。

下面通过矩阵操作进一步来回顾自注意力机制的计算过程。
在这里插入图片描述
查询矩阵:Q=WqIQ = W^q IQ=WqI;
关键字矩阵:K=WkIK = W^k IK=WkI;
值矩阵:V=WvIV = W^v IV=WvI.
在这里插入图片描述
注意力分数矩阵:A=KTQA = K^T QA=KTQ;
进行Soft-max:A′=softmax(A)A^{'} = softmax(A)A=softmax(A);

在这里插入图片描述
在这里插入图片描述
O=VA′O = V A^{'}O=VA
在这里插入图片描述
唯一需要学的参数是WqW^qWq, WkW^kWk, WvW^vWv

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/507521.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

风格迁移模型测试效果

1 模型简介 Selfie2anime模型:动漫风格,训练集主要针对人物头像;对应论文为:U-gat-it: Unsupervised generative attentional networks with adaptive layer-instance normalization for image-to-image translation Hayao模型&a…

黑白棋级别预测

1 当前成果 上图是对于AI级别为40级以下的对局结果统计图,横坐标是对于AI级与当前模型预测级别的差值,纵坐标是玩家的胜率。由图中可以看出,玩家胜率符合预测。当AI级别比预测级别高时,玩家胜率越来越低,反之玩家胜率会…

风格迁移--U-GAT-IT模型(ICLR 2020)

1 论文简介 论文题目: U-gat-it: Unsupervised generative attentional networks with adaptive layer-instance normalization for image-to-image translation 论文代码:https://github.com/taki0112/UGATIT 论文数据集:https://github.co…

毕业大论文到底怎么写?

本文主要写给本科生的,研究生也可以作为参考。 1 题目 题目建议控制在25字以内,能突出显示自己的主要工作即可。 “问题方法”式。比如:恶意流量检测的矩阵分解算法研究,问题是恶意流量检测,方法为矩阵分解&#xf…

麻雀优化算法_多种智能优化算法应用案例分享-附代码

1.智能优化算法应用:基于灰狼算法的Otsu图像多阈值分割智能优化算法应用:基于灰狼算法的Otsu图像多阈值分割-附代码_Jack旭的博客-CSDN博客​blog.csdn.net2.智能优化算法应用:基于灰狼算法的二维Otsu图像阈值分割智能优化算法应用&#xff1…

Transform机制(1)

本文是对李宏毅老师的课程进行了整理。 视频地址为: https://www.bilibili.com/video/BV1Wv411h7kN?p35 1 引入 Transform的应用场景 2 基本原理 Transform机制由编码器(Encoder)和解码器(Decoder)构成。 编码器…

CGCKD2021大会报告整理(1)--宽度学习

本文先把这次听陈俊龙老师的报告截图发出来,后面再来整理宽度学习的基本原理。

java根据逗号拆分_Excel技巧—超实用的字符串拆分小技巧

点赞再看,养成习惯;当断不断,反受其乱。微信搜索【亦心Excel】关注这个不一样的自媒体人。本文GitHub https://github.com/hugogoos/Excel已收录,包含Excel系统学习指南系列文章,以及各种Excel资料。我们每天都在Excel…

动漫变身调研报告

1 问题描述 由于手机等移动设备计算资源有限,导致目前风格迁移模型无法在手机等移动设备上实现高分辨率图像的风格转换。 2 竞品调研 为了了解已有产品中对动漫变身技术的使用情况,通过调研,我们发现了在醒图 APP (抖音&#x…

网站维护页面_营销型企业网站有哪些功能?

营销型企业网站是企业进行网络营销的一个利器,现在也越来越多企业重视做一个营销型网站。因为网站是客户和企业在网络上互相沟通的一个平台。所以营销型网站的功能也是运营人员在运营的过程中非常重视的体验,今天牛商网就和你说说营销型企业网站有哪些功…

如何写研究周报?

本文适合准备做研究的本科生或者研究生,目前还是一个初稿,请多提宝贵建议,我会及时更新。 1 为什么要写研究周报? 锻炼自己的文档整理能力;理清自己的思路;研究周报不是写给导师看的,而是写给…

一文重新认识联邦学习

重要申明:本文转载自https://user.guancha.cn/main/content?id674888。 人工智能助力抗疫又添新场景。据报道,英国剑桥爱登布鲁克医院(Addenbrooke’s Hospital)与全球20家医院和医疗科技中心联合医疗科技领军企业英伟达采用人工…

spi四种工作模式时序图_还没学会SPI总线协议?干货都在这里

SPI总线基本概念SPI是一种高速、全双工、同步的串行通信总线,全称是Serial Peripheral Interface,使用时在芯片的管脚上只占用三根或者四根线(如果单向传输的话只需三根线就可以了),节约了芯片的管脚资源,所以在实际项目中应用也非…

命令不识别_互助问答138期:GMM命令代码中如何识别年份国家及异方差检验问题...

老师您好,有两个关于系统GMM的问题想请教一下:(1)在所学的教程里,系统GMM没有引入时间,我目前是分行业分国家的时间为T年的面板数据,请问时间应该放入xtdpdsys的命令中的哪个位置?代码是写作i.year吗&#…

【二叉树】【单调双向队列】LeetCode239:滑动窗口最大值

作者推荐 map|动态规划|单调栈|LeetCode975:奇偶跳 涉及知识点 单调双向队列 二叉树 题目 给你一个整数数组 nums,有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。滑动窗口每次只向右移动一位。 返回 滑动…

如何理解马尔可夫决策过程?

1 引言 马尔可夫性:无后效性,指系统的下个状态只与当前状态信息有关,而与更早之前的状态无关; 马尔可夫链(Markov Chain, MC):系统的下一个状态只与当前状态相关; 马尔可夫决策过程(Markov Decision Proce…

雷电3接口能干嘛_acasis阿卡西斯推出首款雷电3接口WIFI6网卡:内置Intel AX200

手机、笔记本、平板等智能移动设备已经无声无息成为人们不可或缺的一部分,5G、WiFi是作为信息首发的主要通讯技术。还记得以前连接路由器的人多了就开始卡起来,这是旧式WiFi信道拥堵所造成的,随着技术发展,WiFi从802.11n到802.11a…