Transformer模型框架

Transformer模型框架

diannao/2025/4/27 6:40:36/文章来源:https://blog.csdn.net/qq_1532145264/article/details/137141228

Transformer 模型框架源自2017年论文《Attention is All You Need》

Self-Attention

1、Transformer 结构

Transformer 整体框架由 Encoder 和 Decoder 组成，本质上是 Self-Attention 模型的叠加。

在这里插入图片描述

2、Encoder

Encoder 的主要作用是让机器更清楚的了解到句子中词的特征，或词与词的关系（图就表现在像素上）。Encoder 模型中通过输入词向量，输出新的词向量。

在这里插入图片描述

POSITIONAL ENCODING：让词向量蕴含词的相对位置信息。
残差结构的作用：避免出现梯度消失的情况。
Layer Norm 的作用：为了保证数据特征分布的稳定性，并且可以加速模型的收敛。

3、Decoder

Decoder 的主要作用根据 Encoder 了解到词的特征，预测新的词。

在这里插入图片描述

Decoder 中的 Self-Attention 采用 Masked Self-Attention ，在翻译上体现在已经翻译的结果将会对下一个要翻译的词都会有一定的贡献。

4、Transformer 工作流程

以翻译 “我是学生” 将德语翻译为英语为例：

在这里插入图片描述

题外话：第一性原理、本质

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/52085.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

时钟信号如何影响高分辨率ADC

时钟信号如何影响高分辨率ADC

1 简介在数据采集系统中，时钟作为时间基准，使所有部件都能同步工作。对于ADC，精确而稳定的时钟确保主机向ADC发送命令，ADC以正确的顺序接收来自主机的命令。更为重要的是，系统时钟信号允许用户在需要时对输入进行采集…

阅读更多...

为什么？MCU中需要ADC模块

为什么？MCU中需要ADC模块

“做成ADC拿去诡市，贱卖!”-----长安红茶续篇库比蒂诺的枪声——苹果发布AI PC芯片M4，打响2024年AI大模型第一枪芯品快报：亚德诺（ADI）超静音步进电机驱动芯片——TMC2209 为什么MCU中需要ADC模块原创芯愿景软件集成电路大数据平台在微控制器（MCU）芯片中，通…

阅读更多...

nginx基础配置实例

nginx基础配置实例

nginx账户认证功能由ngx_http_auth_basic_module 模块提供此功能建立非交互用户认证 [rootNginx ~]# htpasswd -cmb /usr/local/nginx/conf/.htpasswd admin admin创建web测试静态文本 mkdir /webdata/nginx/example.org/example/login echo login > /webdata/nginx/e…

阅读更多...

遗传算法与深度学习实战（7）——使用遗传算法解决N皇后问题

遗传算法与深度学习实战（7）——使用遗传算法解决N皇后问题

遗传算法与深度学习实战（7）——使用遗传算法解决N皇后问题 0. 前言1. N 皇后问题2. 解的表示3. 遗传算法解决 N 皇后问题小结系列链接 0. 前言进化算法 (Evolutionary Algorithm, EA) 和遗传算法 (Genetic Algorithms, GA) 已成功解决了许多复杂的设计…

阅读更多...

JWT加密工具

JWT加密工具

JWT加密工具 2.JWT介绍 JSON Web Token（JWT）,它定义了一种简洁的、自包含的协议格式，JWT可以使用HMAC算法或使用RSA的公钥/私钥对进行签名，防止被篡改。 JWT官网： https://jwt.io JWT组成 JWT由三个部分组成&…

阅读更多...

AI-Talk开发板SDK

AI-Talk开发板SDK

一、说明可以在Windows、Ubuntu、macOS安装和编译SDK。此文章只介绍在Ubuntu下安装和编译SDK。其它方式可参考聆思官方环境搭建教程。二、环境搭建 1、安装依赖安装git和wget软件包： sudo apt install --no-install-recommends git wget 如果已安装就跳…

阅读更多...

C/C++实现蓝屏2.0

C/C++实现蓝屏2.0

🚀欢迎互三👉：程序猿方梓燚 💎💎 🚀关注博主，后期持续更新系列文章 🚀如果有错误感谢请大家批评指出，及时修改 🚀感谢大家点赞👍收藏⭐评论✍ 前…

阅读更多...

这家AGV机器人龙头高歌猛进，半年营收27亿，国内对手们慌了吗？

这家AGV机器人龙头高歌猛进，半年营收27亿，国内对手们慌了吗？

导语大家好，我是社长，老K。专注分享智能制造和智能仓储物流等内容。机器人业务高歌猛进，海康威视创新引擎全速运转海康威视于近日揭晓了其2024年上半年的辉煌成绩单。这份报告不仅彰显了公司整体业务的稳健增长，更引人注目的是…

阅读更多...

vue-element-admin解决三级目录的KeepAlive缓存问题（详情版）

vue-element-admin解决三级目录的KeepAlive缓存问题（详情版）

vue-element-admin解决三级目录的KeepAlive缓存问题（详情版） 本文章将从问题出现的角度看看KeepAlive的缓存问题，然后提出两种解决方法。本文章比较详细，如果只是看怎么解决，代码怎么改，请前往配置版。一…

阅读更多...

uView的u-notice-bar组件横向滚动不生效问题解决

uView的u-notice-bar组件横向滚动不生效问题解决

uView的u-notice-bar组件横向滚动不生效问题解决此问题导致我换了vant组件的 notice-bar，一度以为是该组件存在bug。uniapp中有vant组件打包小程序又是一个问题，于是乎不得不回来继续折腾uView的u-notice-bar组件，偶然发现css属性animation-…

阅读更多...

【Cypress】截图插件

【Cypress】截图插件

在视觉回归测试中，基准截图和测试运行中的截图是指两个不同时间点或条件下捕捉到的页面截图，用于比较和检测视觉差异。 1. 基准截图 (Baseline Image): - 这是你在项目中首次运行视觉回归测试时保存的截图，它代表了页面在最初设定的理想状…

阅读更多...

英语写作中“使……能够”allow enable的用法及替代表达

英语写作中“使……能够”allow enable的用法及替代表达

现在英语写作中allow enable 使用比较多，为了丰富表达，本文给出allow enable 例句的同时给出替代表达。例句1： Mobile phones allow/enable people to keep contact with others anywhere anytime.（手机使人们任何地点任何时间…

阅读更多...

26-vector arraylist和linkedlist的区别

26-vector arraylist和linkedlist的区别

‌Vector, ArrayList, 和 LinkedList 是Java中常见的三种列表实现，它们各自具有不同的特点和适用场景。‌ ‌同步性与线程安全‌： ‌Vector‌ 是同步的，即线程安全的，它的所有方法都是同步的，可以由两个线程安全地访问…

阅读更多...

nginx简介及功能介绍

nginx简介及功能介绍

目录 niginx与apache niginx特点 nginx模块介绍 nginx的编译安装 nginx的平滑升级及版本回滚 niginx的常用参数 nginx独立文件编写 location匹配用法自定义日志文件检测 nginx中的长链接管理 nginx下载服务器设置 nginx的状态页面 nginx的数据压缩功能 nginx的…

阅读更多...

Python3 集成 gRPC 服务

Python3 集成 gRPC 服务

Python3 集成 gRPC 服务及 protocol buffers 1、gRPC是什么？1.1、gRPC大致请求流程1.2、gRPC特性1.3、gRPC优势和劣势1.3.1、优势1.3.2、劣势 2、构建一个python3的gRPC服务2.1、虚拟环境搭建(可选择自动安装pip)2.1、引入相关依赖2.2、创建项目2.2.1、项目整体结构…

阅读更多...

springboot 整合spring-boot-starter-data-elasticsearch

springboot 整合spring-boot-starter-data-elasticsearch

依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-elasticsearch</artifactId></dependency> 配置 spring:elasticsearch:rest:uris: "http://localhost:9200" # Elastics…

阅读更多...

集团数字化转型方（五）

集团数字化转型方（五）

集团数字化转型方案通过全面整合人工智能（AI）、大数据分析、云计算和物联网（IoT）等前沿技术，构建了一个高度智能化的业务平台，从而实现业务流程的自动化、数据驱动的决策支持、精准的市场预测、以及个性化的…

阅读更多...

快速带你玩转高性能web服务器后续

快速带你玩转高性能web服务器后续

目录一、Nginx 高级配置 1.1 Nginx 状态页 1.2 Nginx 压缩功能 1.3 Nginx的版本隐藏 1.4 Nginx 变量使用 1.4.1 内置变量二、 Nginx Rewrite 相关功能 2.1 ngx_http_rewrite_module 模块指令 2.1.1 if 指令 2.1.2 set 指令 2.1.3 break 指令 2.1.4 return 指令 2…

阅读更多...

【卡码网C++基础课 1.A+B问题1】

【卡码网C++基础课 1.A+B问题1】

文章目录题目描述与分析一、C函数基础二、输入输出流三、变量四、写入数据五、输出数据六、尝试第一次提交七、循环输入输出八、延伸题目描述与分析题目描述： 你的任务是计算ab。输入描述： 输入包含一系列的a和b对，通过空格隔开。一对a…

阅读更多...

【UE5】基于摄像机距离逐渐剔除角色

【UE5】基于摄像机距离逐渐剔除角色

效果步骤 1. 新建一个工程，在内容浏览器中添加第三人称游戏内容包 2. 找到第三人称角色的材质实例“MI_Quinn_01”并打开找到材质实例的父项材质“M_Mannequin” 打开材质“M_Mannequin” 在材质图表中添加如下节点此时运行效果如文章开头所示。参考视频&#…

阅读更多...

最新文章