Transformer模型-用jupyter演示逐步计算attention

Transformer模型-用jupyter演示逐步计算attention

news/2025/10/26 10:25:40/文章来源:https://blog.csdn.net/ank1983/article/details/137151606

学习transformer模型-用jupyter演示如何计算attention，不含multi-head attention，但包括权重矩阵W。

input embedding：文本嵌入

每个字符用长度为5的向量表示：

注意力公式：

1，准备Q K V：

先生成权重矩阵WQ，WK，WV。权重矩阵W*是训练的目标。

再生成 Q K V。

2，计算Q和K的点积，即相似度。

3，除以 K向量维度的平方根，好做softmax，不然比例计算会失衡。

4，做softmax，得出百分比。

5，百分比再跟V相乘，得出attention

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/787149.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Android 9.0 Launcher3定制化之修改添加的默认文件夹为9宫格样式

Android 9.0 Launcher3定制化之修改添加的默认文件夹为9宫格样式

1.前言在9.0的系统产品rom定制化开发中，对于Launcher3的定制功能也是不少的，比如在Launcher3中添加默认文件夹，把默认的app添加的文件夹里面，其他的app 然后按顺序排序。在文件夹布局就是默认的9宫格布局，接下来分析下相关源码来实现功能 2.Launcher3定制化之修改添加的…

阅读更多...

漏洞扫描神器：Netsparker 保姆级教程（附链接）

漏洞扫描神器：Netsparker 保姆级教程（附链接）

一、介绍 Netsparker是一款专业的网络安全扫描工具，用于自动化地发现和修复网站和Web应用程序中的安全漏洞。它提供了全面的安全测试，包括SQL注入、跨站脚本攻击、远程文件包含、命令注入等常见的安全漏洞。 Netsparker具有以下特点： 自动化…

阅读更多...

【CSS】结构伪类选择器

【CSS】结构伪类选择器

html元素： <div class"box"><ul><li>我是li001</li><li>我是li002</li><li>我是li003</li><li>我是li004</li><li>我是li005</li><li>我是li006</li><li>…

阅读更多...

AI预测福彩3D第24弹【2024年4月2日预测--第6套算法开始计算第1次测试】

AI预测福彩3D第24弹【2024年4月2日预测--第6套算法开始计算第1次测试】

今天，咱们进行第6套算法测试，本套算法将结合012路直选共27种组合，同时考虑了对012路的和值进行统计分析。今天为第1次测试，好了，废话不多说了。直接上结果~ 仍旧是分为两个方案，1大1小。经过人工神经网络计…

阅读更多...

Neo4j数据库（一）

Neo4j数据库（一）

目录新建节点 Neo4j CQL创建具有属性的节点多个标签到节点单个标签到关系 MATCH命令 RETURN命令： Neo4j CQL - MATCH & RETURN匹配和返回总结：本文介绍了Neo4j的CREATE，MATCH，RETURN的基本操作新建节点 Neo4j创建一…

阅读更多...

护眼台灯怎么选看哪些指标？护眼灯十大品牌推荐

护眼台灯怎么选看哪些指标？护眼灯十大品牌推荐

在追求高效工作与学习的同时，如何保护视力健康，避免长时间用眼带来的疲劳与伤害，已成为现代人关注的焦点。护眼台灯作为提升用眼环境的重要工具，其选择显得尤为关键。那么，面对市面上琳琅满目的护眼台灯产品&#xff0…

阅读更多...

小白的第一次sql注入实战

小白的第一次sql注入实战

前言当时最初接触安全的时候拿下的第一个shell，还是比较兴奋的，忽略一下文章写的很水。有id尝试sql注入找这种sql注入的站用sql检索就行了，但是最好挂代理用谷歌搜索，百度的话搜sql注入的很多被别人打过了，导致链…

阅读更多...

Rust 机器学习图形库 petgraph

Rust 机器学习图形库 petgraph

一、介绍 Petgraph 是一个开源的图数据结构库，提供了非常丰富的图形类型和算法，并且支持将图形以 Graphviz 格式输出，还允许你为图的节点和边赋予任意类型的数据，从而能够灵活地处理和表示复杂的数据关系。 Petgraph 支持边的方…

阅读更多...

备战蓝桥杯---贪心刷题2

备战蓝桥杯---贪心刷题2

话不多说，直接看题： 首先我们大致分析一下，先排序一下，Kn，那就全部选。当k<n时，k是偶数，那么结果一定非负，因为假如负数的个数有偶数个，那么我们成对选它&#xff0…

阅读更多...

Reasoning on Graphs: Faithful and Interpretable Large Language Model Reasonin

Reasoning on Graphs: Faithful and Interpretable Large Language Model Reasonin

摘要大型语言模型(llm)在复杂任务中表现出令人印象深刻的推理能力。然而，他们在推理过程中缺乏最新的知识和经验幻觉，这可能导致不正确的推理过程，降低他们的表现和可信度。知识图谱(Knowledge graphs, KGs)以结构化的形式捕获了大量的事实…

阅读更多...

element-ui-plus el-tree 树形结构如何自定义内容

element-ui-plus el-tree 树形结构如何自定义内容

element-ui-plus el-tree 树形结构如何自定义内容本文提及的 elementUI 版本为 elementUI Plus 版本一、需求项目中遇到一个需要设置权限的地方，但目录和权限是放在一起的，这样就很不好区分类别，为了区分类别，就需要自定义树…

阅读更多...

【Win】修改打印机名字

【Win】修改打印机名字

直接修改注册表容易翻车，手动改变只需要两步 1 定位属性 2 修改名字

阅读更多...

Python文件操作命令

Python文件操作命令

文件操作我知道你最近很累，是那种看不见的、身体上和精神上的疲惫感，但是请你一定要坚持下去。就算无人问津也好，技不如人也好，千万别让烦躁和焦虑毁了你的热情和定力。别贪心，我们不可能什么都有，也别灰心…

阅读更多...

为什么都说”一入Java深似海“？

为什么都说”一入Java深似海“？

引言在当今数字化时代，编程已经成为一项至关重要的技能。而在众多编程语言中，Java以其广泛的应用领域和强大的功能特性，吸引了无数开发者的目光。无论是Web开发、移动应用还是大数据处理，Java都发挥着举足轻重的作用。然而&…

阅读更多...

java的包装类型问题

java的包装类型问题

java的基本类型大家都知道。但是实际应用。还就只有， boolean,int,long,float,double,string 不常用的 char,byte,short 他们的包装类型 Character Byte Short Java 基本数据类型的包装类型的大部分都用到了缓存机制来提升性能。 Byte,Short,Integer,Lo…

阅读更多...

C++的字节对齐

C++的字节对齐

什么是字节对齐参考什么是字节对齐，为什么要对齐? 现代计算机中，内存空间按照字节划分，理论上可以从任何起始地址访问任意类型的变量。但实际中在访问特定类型变量时经常在特定的内存地址访问，这就需要各种类型数据按照一定的规…

阅读更多...

纳米软件电源测试系统：如何让电源模块检测更简单？

纳米软件电源测试系统：如何让电源模块检测更简单？

纳米软件NSAT-8000电源模块测试系统专门为AC-DC、DC-DC电源模块提供一站式测试解决方案。系统适用于电源研发、生产测试场景，并提供测试数据采集、智能分析、故障预测与诊断、维护决策与优化等大数据应用服务。那么如何用电源测试系统检测电源模块的各项性能指标呢…

阅读更多...

docker部署修改主机网络

docker部署修改主机网络

教学版教程：docker 部署教学版本-CSDN博客文章浏览阅读1.1k次，点赞23次，收藏18次。1）docker 部署mysql、redis、nginx ;2)docker compose一键单机部署；3）docker网络；4）dcocker swarn…

阅读更多...

如何在Bash中比较数字

如何在Bash中比较数字

问题： 我无法让数值比较工作正常： echo "enter two numbers"; read a b;echo "a$a"; echo "b$b";if [ $a \> $b ]; thenecho "a is greater than b"; elseecho "b is greater than a"; fi;问题在…

阅读更多...

JUC：double-checked locking(DCL) 懒汉单例模式

JUC：double-checked locking(DCL) 懒汉单例模式

文章目录 double-checked locking(DCL) 问题解决方法 volatile作用 double-checked locking(DCL) 问题第一个if用于后续进入的线程，不用再获取锁来判断是否已经创建了对象。第二个if，为的是第一个进入的线程创建对象，以及防止卡在第一个if之…

阅读更多...

最新文章