深度学习中Transformer的简单理解

Transformer

网络结构

Transformer也是由编码器解码器组成的。

每一层Encoder编码器都由很多层构成的,编码器内又是self-attention前馈网络构成的。Self-attention是用来做加权平均,前馈网络用来组合。

但是decoder有点不同,多了一层Encoder-Decoder Attention。这一层的作用是关注全局,也就是不仅仅要关注编码,还要关注解码过程。在翻译中,也就是不仅仅关注翻译后的内容,还要关注翻译前的上下文内容

Self-attention又可以拆解成多个部分,就变成了Multi-Head Attention

最终得到了,整个网络结构。

数据流程

首先,把单词做统一长度的向量化,再嵌入位置信息,这样方便单词的统一,最终是同一长度(比如都是512位)

然后,再通过一个编码器,生成下一个编码。这里的Self-attention就是个零件(比如单词)自查表,它的作用就是通过权重标明相互之间的关系并且嵌入上下文信息

具体的方法是,每个向量先嵌入位置信息

再乘以三个训练好的向量Q、K和V矩阵

(我感觉,看上去像是一个数据库的查询操作)Q就是我提出了一个查询语句,K就是查询时候键值,两个相乘就得到了一个特征向量。V就像是数据库里面的值,所以,就像利用前面计算得到的特征向量分别计算V的相关性。

一个单词的K向量所有单纯的Q向量相乘,得到的权重就是Attention

然后,通过归一化后,利用softmax函数过滤掉不相干的单词。再乘以V向量,加权求和。最终得到输出向量

所有的步骤,就只需要知道,反正最后得到了单词的权重计算

用矩阵描述就是,先把X乘以三个矩阵。

然后,利用得到的Q和K,计算Z矩阵。

如果是Multihead-Attention,就会使用多个不同权重的矩阵,计算多次,得到多个Z。Multihead的作用是,消除QKV初始值的影响。那就像是八个不同的人做,更能够排除意外的影响。

最后通过一个加权平均,合成一个Z矩阵。

梳理

变形金刚要变形,从小车到机器人。

  1. 编码器一开始,先拆成零件。

  1. Self-attention就是给出一个变形说明书,说明零件之间的关系和权重。

  1. 左边编码把输入转换成了降维的向量零件说明书,K和V;右边解码,还需要看两个东西,一个自己的拆解说明书和与其他零件的项目关系;一个零件一个零件的组装。

  1. 最后,线性层把向量投影到一个很长的序列中,包含所有单词的序列。

  1. softmax做归一化,得到一个最大的概率。

参考资料:

【【Transformer模型】曼妙动画轻松学,形象比喻贼好记】 https://www.bilibili.com/video/BV1MY41137AK/?share_source=copy_web&vd_source=91d02e058149c97e25d239fb93ebef76

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/123142.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从0到1之微信小程序快速入门(基础知识)

目录 JSON 配置文件 WXML 模板 WXSS 样式 JS 逻辑交互 微信小程序中,每个页面由4 个基本文件组成,它们分别是:js文件(页面的脚本文件,存放页面的数据、事件处理函数等)、json文件(当前页面的配置文件,配置窗口的外…

html2pdf

页面布局时将需要保存在同一页pdf的dom元素用div包裹,并为该div添加class类名,例如.convertPDF,如果有多页创建多个.convertPDF这个div,再循环保存pdf即可 用到了html2canvas和JsPdf这两个插件,自行站内搜索安装

磁盘管理(初始化,引导块,坏块管理,固态硬盘)

目录 1.磁盘初始化2.引导块3.坏块的管理1.坏块检查2.坏块链表3.扇区备用 4.固态硬盘(SSD)1.原理2.组成3.读写性能特性4.与机械硬盘相比5.磨损均衡技术 1.磁盘初始化 ①进行低级格式化(物理格式化),将磁盘的各个磁道划分…

openEuler 22.03 x86架构下docker运行arm等架构的容器——筑梦之路

为什么要这样做? 随着国产化的普及,国家政策对信创产业的支持,尤其一些金融证券行业、政府单位等,逐渐开始走国产化信创的路线,越来越多接触到国产 CPU (arm 平台,比如华为的鲲鹏处理器&#xf…

koa搭建服务器(二)

在上一篇文章已经成功的运行了一个http服务器,接下来就是使用Sequelize ORM(官方文档:Sequelize 简介 | Sequelize中文文档 | Sequelize中文网)来操作数据库。 1、安装依赖 首先也是需要安装相关的依赖 npm i sequelize npm i …

MySQL面试题

面试题一 1、创建一个数据库 create database db_one; 2、 创建四张表 create table student( s_id int(10) not null comment 学号 primary key, s_name varchar(20) not null comment 姓名, s_birth year comment 生日, s_sex varchar(4) default "女" comment 性…

【PointNet—论文笔记分享】

第一个直接基于原始点云数据进行分割、分类的模型,之前都是基于多视图或者体素的方式。 论文: PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation代码: TensorFlow版 Pytorch版 基本模型架构: 分别对每个点进行特征提取…

微信小程序vue+uniapp旅游景点门票预订系统 名胜风景推荐系统

与此同时越来越多的旅游公司建立了自己的基于微信小程序的名胜风景推荐平台,管理员通过网站可以添加用户、景点分类、景点信息、在线预订、最新推荐,用户可以对景点信息进行在线预订,以及开展电子商务等。互联网的世界里蕴藏无限生机&#xf…

redis6.0源码分析:简单动态字符串sds

文章目录 sds简介与特性(面试)sds结构模型数据结构苛刻的数据优化数据结构优化uintX_t对齐填充 sds优势O(1)时间复杂度获取字符串长度二进制安全杜绝缓冲区溢出自动扩容机制——sdsMakeRoomFor方法 内存重分配次数优化 sds最长是多少部分API源码解读创建sds释放sds sds简介与特…

如何从Android手机上轻松恢复误删除的短信 ?

当您使用 Android 手机时,您可能会误删除一些 Android 短信。如果这些消息对您很重要,您可能想要恢复它们。在这种情况下,您可以尝试使用U1tData安卓数据恢复(奇客软件) 来完成这项工作。这篇文章将向您展示更多信息。…

MinIO安装

Minio是一个开源的分布式对象存储服务器,它兼容Amazon S3服务接口。它可以用于构建私有云存储,为应用程序提供可扩展的对象存储功能。 安装 docker安装 docker run -d -p 9000:9000 -p 50000:50000 --name minio \ -e "MINIO_ROOT_USERadminpili…

Springmvc 讲解(1)

文章目录 前言一、SpringMvc1、简介2、核心组件和调用流程2.1 涉及组件的理解 3、小案例快速体验3.1场景需求3.1.1 导入依赖3.1.2 controller声明3.1.3 核心配置类3.1.4 环境搭建3.1.6 配置tomcat3.1.7 测试 二、SpringMvc 接收参数1.路径设置注解2、param接收参数四种类型2.1 …

AD教程(一)工程组成及创建

AD教程(一)工程组成及创建 工程组成 原理图库 绘制电阻模型、芯片模型、电容模型等,即将元件模型绘制出来。 原理图 将绘制的原件模型放置到原理图中,然后再添加连接的导线、网络标号。器件和器件之间的连接关系,在原…

单片机中的 _nop_() 延时以及其相关的基础扩展

使用 _nop_() 函数做延时遇到的一些问题 以及对此延伸出的一些需要了解的基本概念 ...... by 矜辰所致 完善文章内容结构,补充指令周期、机器周期等一些基本概念 2023/10/25前言 最近还是继续做着项目,因为在某 8051 内核芯片上使用到了 I…

Docker数据卷

目录 1.bind mount 2.docker managed volume 1.bind mount docker run -it --rm -v /tmp/data1:/data1 -v /tmp/data2:/data2:ro -v /etc/passwd:/mnt/passwd:ro busybox 2.docker managed volume docker run -d --name web1 webserver:v3 docker inspect web1 cd/var/lib/doc…

泰州市旅游景点门票预订管理系统 vue+uniapp微信小程序

本文从管理员、用户的功能要求出发,泰州市旅游景点管理小程序中的功能模块主要是实现用户、景点类型、景区信息、门票预定。经过认真细致的研究,精心准备和规划,最后测试成功,系统可以正常使用。分析功能调整与泰州市旅游景点管理…

leetcode经典面试150题---4.删除有序数组中的重复项II

目录 题目描述 前置知识 代码 方法一 双指针 思路 图解 实现 复杂度 题目描述 给你一个有序数组 nums ,请你 原地 删除重复出现的元素,使得出现次数超过两次的元素只出现两次 ,返回删除后数组的新长度。 不要使用额外的数组空间&…

[java/力扣110]平衡二叉树——优化前后的两种方法

分析 根据平衡二叉树的定义,只需要满足:1、根节点两个子树的高度差不超过1;2、左右子树都为平衡二叉树 代码 public class BalancedBinaryTree {public class TreeNode{int val;TreeNode left;TreeNode right;TreeNode(){}TreeNode(int va…

【OJ for Divide and Conquer】OJ题解

文章目录 A - Ultra-QuickSortB - Hanoi Tower Troubles Again! [找规律递归]C - Fibonacci Again[找规律]E - [Fire Net](https://programmerall.com/article/7276104269/)[DFS 搜索 ⭐⭐]F - Gridland[找规律]G - Maximum Subarray Sum[动态规划/分治..经典⭐]I - Quoit Desi…

C++深度优先(DFS)算法的应用:收集所有金币可获得的最大积分

涉及知识点 深度优化(DFS) 记忆化 题目 节点 0 处现有一棵由 n 个节点组成的无向树,节点编号从 0 到 n - 1 。给你一个长度为 n - 1 的二维 整数 数组 edges ,其中 edges[i] [ai, bi] 表示在树上的节点 ai 和 bi 之间存在一条边。另给你一个下标从 0…