Transformer拆积木

Transformer拆积木

web/2025/4/7 17:43:07/文章来源:https://blog.csdn.net/weixin_44092088/article/details/140126289

文章目录

Concepts
- Embedding
- Encoder
- Decoder
- Self-Attention matric calculation
- Final Linear and Softmax Layer
- Loss function
参考

学一下已经问鼎中原七年之久的Transformer

Concepts

开始拆积木！
A high level look

Embedding

Encoder

请添加图片描述

Decoder

Self-Attention matric calculation

请添加图片描述

Final Linear and Softmax Layer

这一块输出的非常非常长的vector叫做logits vector，又是一个不好翻译的专有词汇。

在图像分类的领域里，这里的Linear+Softmax就是Classifier；

Loss function

请添加图片描述
不管是连续的还是离散的，反正下面这一堆概率就是probability distribution（我之前一直以为是像高中那样的高斯曲线图才叫这个distribution），其实分布也不一定非要符合什么规律，毫无规律也可以；
在这里插入图片描述

参考

The Illustrated Transformer
Transformer通俗笔记：从Word2Vec、Seq2Seq逐步理解到GPT、BERT
The Annotated Transformer 非常完整的一份代码

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/web/38763.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【文档+源码+调试讲解】科研经费管理系统

【文档+源码+调试讲解】科研经费管理系统

目录目录摘要 ABSTRACT 1 绪论 1.1 课题背景 1.2 研究现状 1.3 研究内容 2 系统开发环境 2.1 vue技术 2.2 JAVA技术 2.3 MYSQL数据库 2.4 B/S结构 2.5 SSM框架技术 3 系统分析 3.1 可行性分析 3.1.1 技术可行性 3.1.2 操作可行性 3.1.3 经济可行性 3.1…

阅读更多...

解析服务器地址异常的原因和解决方法

解析服务器地址异常的原因和解决方法

在网络利用开发和运维进程中，解析服务器地址异常是常见的问题之一。特别是在触及到跨境业务和国际网络传输时，由于网络环境的复杂性，解析服务器地址异常可能会致使用户没法正常访问网站或利用程序。解析服务器地址异常可能由多种缘由引发&am…

阅读更多...

虚拟机的网络配置

虚拟机的网络配置

📑打牌 ： da pai ge的个人主页 🌤️个人专栏 ： da pai ge的博客专栏 ☁️ 每一步都向着梦想靠近，坚持就是胜利的序曲一 …

阅读更多...

手机系统设置选项

手机系统设置选项

通用设置选项 1. 忽略电池优化选项参考 https://blog.csdn.net/dodod2012/article/details/132045963 <uses-permission android:name"android.permission.REQUEST_IGNORE_BATTERY_OPTIMIZATIONS"/>public static boolean isIgnoreBatteryOption(Context c…

阅读更多...

俄罗斯ozon运费计算工具，跨境电商ozon物流运费计算工具

俄罗斯ozon运费计算工具，跨境电商ozon物流运费计算工具

OZON平台服装类目卖家而言，如何快速、准确地为产品定价，并有效管理运费成本，直接关系到市场竞争力与利润空间。接下来我们看看俄罗斯ozon运费计算工具，跨境电商ozon物流运费计算工具。萌啦Ozon定价工具：智能模拟&…

阅读更多...

Cesium----加载SuperMap的S3M地形

Cesium----加载SuperMap的S3M地形

在原生Cesium中加载S3M地形，需要用到Supermap发布的一个插件：iClient3D-for-WebGL， 在vite vure3，cesium 1.119中进行了实现，注意的点在于需要把SuperMap3D 放置在cesium的Build路径下然后在代码中直接调用SuperMap3…

阅读更多...

windows重装系统

windows重装系统

一、下载Ventoy工具，制作启动盘官网地址：https://www.ventoy.net/cn/download.html 电脑插入用来制作系统盘的U盘，建议大小在8G以上。双击打开刚解压出来的Ventoy2Disk.exe文件。打开界面如图： 确认U盘，如图&am…

阅读更多...

【HICE】基于httpd下的web服务器搭建

【HICE】基于httpd下的web服务器搭建

1.下载httpd： dnf install httpd -y 2.进入httpd中： cd /etc/httpd cd conf.d 3.编辑一个新的vhost.conf 4.重启httpd服务 systemctl restart httpd 5.关闭防火墙 systemctl stop firewalld setenforce 0 6.文本写入（网页编辑&…

阅读更多...

8年经验之谈！自动化测试框架该如何搭建？

8年经验之谈！自动化测试框架该如何搭建？

前言最近好多小伙伴都在说接口自动化测试，那么究竟什么是接口自动化测试呢？让我们一起往下看就知道了，首先我们得先弄清楚下面这个问题。为什么要做（自动化）接口测试？ 1、由于现在各个系统的复杂度不断…

阅读更多...

springboot的MultipartFile转File读取

springboot的MultipartFile转File读取

在Spring Boot中，处理文件上传时，MultipartFile接口被用来封装上传的文件信息。如果需要将MultipartFile转换为Java标准的File对象进行读取。以下是具体的操作流程： 1. 创建临时文件首先，需要将接收到的MultipartFile对象转…

阅读更多...

准化 | 水系统碳中和标准体系初见成效

准化 | 水系统碳中和标准体系初见成效

2024年5月31日，中华环保联合会发布《团体标准公告 2024年第10号（总第78号）》，批准发布了由中华环保联合会提出并归口的《废水处理温室气体监测技术规程》(T/ACEF 142-2024)、《工业水系统碳排放核算方法与报告指南》(T/ACEF143-20…

阅读更多...

yarn不同操作系统的安装与配置

yarn不同操作系统的安装与配置

Yarn 是一个快速、可靠且安全的依赖包管理工具，用于替代 npm。以下是在不同操作系统上安装和配置 Yarn 的步骤。 1. 安装 Node.js 在安装 Yarn 之前，请确保已经安装了 Node.js，因为 Yarn 需要 Node.js 环境。你可以在 Node.js — Run JavaSc…

阅读更多...

昇思25天学习打卡营第十五天｜基于MobileNetv2的垃圾分类

昇思25天学习打卡营第十五天｜基于MobileNetv2的垃圾分类

基于MobileNetv2的垃圾分类 MobileNetv2模型原理介绍 MobileNet网络是由Google团队于2017年提出的专注于移动端、嵌入式或IoT设备的轻量级CNN网络，相比于传统的卷积神经网络，MobileNet网络使用深度可分离卷积（Depthwise Separable Convolut…

阅读更多...

Zabbix 6.0 案例

Zabbix 6.0 案例

自定义监控内容案列：自定义监控客户端服务器登录的人数需求：限制登录人数不超过 3 个，超过 3 个就发出报警信息 1.在客户端创建自定义 key 明确需要执行的 linux 命令 who | wc -l 2.在被监控主机的配置文件目录中（/etc/za…

阅读更多...

港大推出XRec：「会说话」的推荐系统大模型, 从黑盒预测到可解释

港大推出XRec：「会说话」的推荐系统大模型, 从黑盒预测到可解释

代码链接: https://github.com/HKUDS/XRec 论文链接: https://arxiv.org/pdf/2406.02377 实验室链接: https://sites.google.com/view/chaoh 最近,香港大学数据智能实验室推出了一款名为 XRec 的全新智能大模型,旨在为传统推荐系统注入可解释性的新动力。XRec 利用大语言模型…

阅读更多...

PyTorch入门笔记

PyTorch入门笔记

学习参考： PyTorch简单入门视频深入浅出PyTorch 小土堆笔记前置知识 AI vs ML vs DL AI（Artificial Intelligence）：通过让机器模仿人类进而超越人类ML（Machine Learning）：让机器模仿人类的一…

阅读更多...

【AI原理解析】—支持向量机原理

【AI原理解析】—支持向量机原理

目录 1. 支持向量机（SVM）概述 2. 超平面与支持向量 3. 间隔最大化 4. 优化问题 5. 核函数 6. 总结 1. 支持向量机（SVM）概述定义：支持向量机是一种监督学习模型，主要用于数据分类问题。其基本思想是…

阅读更多...

【C++】const详解

【C++】const详解

📢博客主页：https://blog.csdn.net/2301_779549673 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正！ 📢本文作为 JohnKi ，引用了部分大佬的案例 📢未来很长，…

阅读更多...

Android 常用文件系统命令

Android 常用文件系统命令

Android 常用文件系统命令当系统正在对某个文件系统的区域进行写入操作时（读的话没关系），突然断电，会造成文件系统对应区域的损坏（如写入脏数据）， 而e2fsck算法就是用来恢复受损的文件系统&am…

阅读更多...

力扣1177.构建回文串检测

力扣1177.构建回文串检测

力扣1177.构建回文串检测因为子串可以重新排序因此考虑一下什么情况需要替换字母1.当前有一个字母的数量为奇数需要替换的次数为0 2.当前有二个字母的数量为奇数需要替换的次数为1 (奇数个a 奇数个b 需要将b -> a) 3.当前有三个字母的数量为奇数需要替换的次数为1 4.当…

阅读更多...

最新文章