Transformer学习笔记(一)

Transformer学习笔记

基于 3B1B 可视化视频

自注意力机制

1.每个词的初始嵌入是一个高维向量,只编码该单词含义,与上下文没有关联

2.对初始向量进行位置编码,在高维向量中编码进位置信息(单词在语言序列中的位置信息),称此时的向量为E(GPT3中为12288维)

3.每个向量E,配有一个查询向量Q,用于向自身前面的向量序列查询信息(比如一个名词的查询向量中可能就蕴含着下面的问题:我的前面有没有对我的形容词?),每个向量的查询向量通过查询矩阵Wq生成: E·Wq -> Q. 因此,Wq的横向维度会与词向量的维度相match,纵向维度未要求(GPT-3中是128维)。所以E·Wq -> Q这个过程相当于把一个较高维的词向量映射到了一个低维空间。Wq矩阵在一个模型中是固定的,其中的参数是通过训练得到的。

4.每个向量E,同时配有一个键向量,用于回应查询向量的提问(比如后方有个词向量的查询向量问到:我的前方有没有形容我的形容词?键向量就用于回应这个查询向量),每个词向量的键向量通过键矩阵Wk生成:E·Wk -> K. 因此这个过程也是会把原本较高维度的词向量映射到一个低维空间(GPT-3中是128维)中。具体回应过程可以看成是在对比Q和K的匹配程度,匹配程度越高,说明该向量E与发出查询向量Q的E的关联性也就越大。这里用点积来衡量两个向量的匹配程度,点积结果越大,二者间的匹配程度越高,于是我们说,这个词E“注意到了”后面的词的嵌入。

在这里插入图片描述

5.如上图,在求出上述匹配度矩阵后,以匹配度作为权重,对每一列进行加权求和。因此我们想要把权重调整为在0-1之间的值并且其权重总和为1。因此,对每列权重数据做一次softmax()

在这里插入图片描述

将得到的矩阵称为Attention Pattern。

在一些模型中,我们往往会看到Cross-Attention,在Cross-Attention中,Wq和Wk会作用在不同的数据集上,如下图:

回到Self-Attention上,可以看见Transformer的原始论文中对Attention Pattern的表现形式:

在这里插入图片描述


从以上可以看出,每个词向量既接收来自身后的询问Q也接收来自词向量之前的询问Q。这样的做法会产生以下的效果:

训练时输入,“a fluffy blue creature roamed the verdant forest”,最终经过上述一系列计算根据forest的向量值输出下一个预测词,再根据输出与原本结果对模型参数进行调整,这样的过程固然可以,但效率太低。这一长串的文本只能对模型进行一次训练。由此我们提出一个方法:每输入一个词便进行一次预测训练。即达到以下效果:

a -预测下一个词                     
a fluffy -预测下一个词
a fluffy blue -预测下一个词
a fluffy blue creature -预测下一个词
a fluffy blue creature roamed -预测下一个词
a fluffy blue creature roamed the -预测下一个词
a fluffy blue creature roamed the verdant forest -预测下一个词

为了能使运算同步进行,每个词向量只对自己身后的词向量的查询进行匹配度回应,而不对自己之前的词向量发出的查询进行回应。或者说,每个向量只对自己之前的词向量发出查询请求,而不对自己身后的词向量发出查询请求(体现了自回归特性)。不然的话,比如此时训练序列为a fluffy blue creature roamed the此时forest收到了来自其前面词向量的查询并进行了回应,那就相当于透露了答案信息。

所以,在此,我们希望在Attention Pattern矩阵中主对角线的下半部分的值都为0。为了实现这一效果,在softmax之前将主对角线以下的值全部设为负无穷。这个步骤被称为Masking。(并不是所有的注意力机制都会运用此方法)

Masking这一步骤不仅在GPT的训练中用到,在使用GPT作为工具的时候也同样在运用。

从这也可以发现,随着文本输入越来越长,其Attention Pattern呈现平方指数级增长,因此这也成为了大语言模型的一个瓶颈,为解决这一瓶颈,有很多新的研究在进行中。


得到Attention Pattern过后,接下来介绍值向量V。每个词向量E配有一个值向量V,用于衡量自身的动量(例如:red hat,对于hat来说在高维空间指向的是初始embeding的位置,而加上red的值向量后,hat在高维空间中将指向红色帽子的位置)。每个词向量的值向量V通过值矩阵生成:Wv·E -> V。由于V最终要作为动量与词向量相加,所以V的维度要与词向量的维度一致,也因此Wv的纵向维度要与E一致(12288*12288)。Wv在模型中是固定的,其参数通过训练得到。在得到每个向量的值向量后,根据Attention Pattern中的响应程度,对每个词向量更新:
E j = E j + ∑ i = 1 j V i ∗ a t t e n t i o n S c o r e Ej=Ej+\sum_{i=1}^j Vi*attentionScore Ej=Ej+i=1jViattentionScore
以上为Single-Head Attention的工作流程。

对于Multi-Head Attention,即模型中有多个Wq、Wk、Wv矩阵,即每个词向量有多个查询向量V、键向量K,值向量V。可以将一幅Wq、Wk、Wv理解为一个Head(GPT3中有96个头),最终词向量的改变量为每个Head中的改变量相加。

在Transformer相关论文中Value矩阵通常会被转换为Wv↑和Wv↓两个矩阵相乘,此时Value矩阵特指Wv↓,这样做的目的是为了实现并行计算,但原理是相同的。


MLP多层感知器

我们对LLM输入Michael Jordan plays,大语言模型会输出basketball。对于一个不认识Michael Jordan的人来说,他能理解这句话的每个单词的含义,但是无法确定plays应该输出什么。所以,这个LLM一定存储了一个记忆,这个记忆就是Michael Jordan是打篮球的,这也是一个事实。LLM是如何记住这一事实的,即是我们要讨论的问题。

回想下手写数字识别的Neural Network,它的网络中也存储了一些记忆,能够识别输入图像的图形特征。带着这个思维,将能更好的理解Transformer中记忆的存储过程和结构。

在经过Self-Attention后,我们得到更新后的词向量序列。相较于初始的单词Embeding,此时的词向量序列embeded了更多的context信息。

MLP的结构如下图:

在这里插入图片描述

经过MLP时,各个词向量间不再相互影响,每个词向量并行的经过相同的运算。因此,关注一个词向量的运算过程就可以知道所有词的运算过程。

1.第一层映射

由于MLP的第一个矩阵会把词向量映射到更高的维度,所以称此矩阵为W↑。可以看成将矩阵W↑的行向量与词向量做点积,还记得Self-Attention中查询向量Q和键向量V吗?查询向量Q和键向量V做点积,从而计算出二者间的响应度(匹配度),这里也可以这样理解。可以把W↑的行向量看做一个个询问向量,向词向量询问各种问题,由此得出一个响应匹配度。在GPT3中W↑的纵向维度为4*12288。

之后加上一个Bias(用于增加参数调节的灵活度)。于是上述过程可用公式表示为:

接下来将蕴含响应度的向量通过一个激活函数,这里采用的是ReLU函数(很多模型会使用一个稍作修改的函数GELU)。

在经过激活函数后,我们得到类似于AttentionScore的向量,在Self-Attention中将值矩阵Wv乘以AttentionScore作为词向量的改变量。这里将该向量乘以W↓获得该词向量的补充信息(也要加上一个Bias向量),可以发现只有在第一轮映射中值大于0的地方(通过ReLU后被激活,这里没有考虑Bias对第一轮映射结果的改变),才会在第二轮映射中添加响应位置的向量。过程如下:

最后将获得的补充信息添加到词向量中得到一层MLP的完整运算过程:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/886416.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

antd table表格设置最小宽度,列宽等比例显示

最近ui有个设计稿,表格要求如图: 由于本地antd table列宽column没有设置最小宽度minWidth属性,只有width属性,所以开发时我考虑按照列宽等比例计算后去设置width属性; 一、实现: 1.表头数组中设置minWidth…

算法沉淀一:双指针

目录 前言: 双指针介绍 对撞指针 快慢指针 题目练习 1.移动零 2.复写零 3.快乐数 4.盛水最多的容器 5.有效三角形的个数 6.和为s的两个数 7.三数之和 8.四数之和 前言: 此章节介绍一些算法,主要从leetcode上的题来讲解&#xff…

若点集A=B则A必能恒等变换地变为B=A这一几何常识推翻直线(平面)公理

黄小宁 关键词:“更无理”复数 复平面z各点z的对应点z1的全体是z1面。z面平移变为z1面就使x轴⊂z面沿本身平移变为ux1轴。R可几何化为R轴,R轴可沿本身平移变为R′轴,R′轴可沿本身平移变为R″轴,...。直线公理和平面公理使几百年…

vue3中pinia状态管理库使用以及持久化配置方法总结

在 Vue 3 中,Pinia 是一个状态管理库,旨在替代 Vuex,提供更简单和更直观的 API。Pinia 支持 TypeScript,且其设计更符合 Vue 3 的组合式 API。 安装 Pinia 首先,你需要安装 Pinia和pinia-plugin-persistedstate。可以…

http(s)接口设计注意事项

http(s)在设计时应考虑: 一、签名认证 鉴权,如jwt方式等。 二、重要参数加密 如:用户的登录密码、银行卡号、转账金额、用户身份证等。 三、IP白名单 为了进一步加强API接口的安全性,防止接口的签名或者加密被破解了&#x…

HelloMeme 上手即用教程

HelloMeme是一个集成空间编织注意力的扩散模型,用于生成高保真图像和视频。它提供了一个代码库,包含实验代码和预训练模型,支持PyTorch和FFmpeg。用户可以通过简单的命令行操作来生成图像和视频。 本文将详细介绍,如何在GPU算力租…

Vue2+ElementUI:用计算属性实现搜索框功能

前言: 本文代码使用vue2element UI。 输入框搜索的功能,可以在前端通过计算属性过滤实现,也可以调用后端写好的接口。本文介绍的是通过计算属性对表格数据实时过滤,后附完整代码,代码中提供的是死数据,可…

blind-watermark - 水印绑定

文章目录 一、关于 blind-watermark安装 二、bash 中使用三、Python 调用1、基本使用2、attacks on Watermarked Image3、embed images4、embed array of bits 四、并发五、相关 Project 一、关于 blind-watermark Blind watermark 基于 DWT-DCT-SVD. github : https://githu…

【小白可懂】微信小程序---课表渲染

结果展示:(代码在最后) WeChat_20241116174431 项目简介 在数字化校园建设的大背景下,为了更好地服务于在校师生,我们开发了一款基于微信小程序的课表管理系统。该系统采用了现代化的前端技术和优雅的设计风格&#x…

循环神经网络(GRU)全面解析

1. 引言 什么是GRU? GRU(Gated Recurrent Unit,门控循环单元)是一种循环神经网络(Recurrent Neural Network, RNN)变体,旨在处理序列数据。GRU在LSTM(Long Short-Term Memory&…

Kafka一些常用的命令行操作【包含主题命令、生产者和消费者命令】

文章目录 1、主题命令2、生产者命令行操作3、消费者命令行操作 1、主题命令 查看当前服务器中的所有 topic: kafka-topics.sh --bootstrap-server node01:9092 --list 创建topic: kafka-topics.sh --bootstrap-server node01:9092 --create --topic to…

前端开发设计模式——责任链模式

目录 一、定义和特点 1. 定义 2. 特点 二、实现方式 定义抽象处理者(Handler)类 创建具体处理者(ConcreteHandler)类 构建责任链 以下是一个用 JavaScript 实现的示例: 三、应用场景 1. 表单验证 2. 请求处…

P1325 雷达安装

题目&#xff1a;P1325 雷达安装 代码分析&#xff1a; #include<bits/stdc.h> using namespace std; long long n,d,x[10005],y[10005]; struct node{double l,r; }a[1010]; bool cmp(node A,node B){return A.r<B.r;//按右端点从小到大排序 } int main(){cin>…

C# x Unity 从玩家控制类去分析命令模式该如何使用

本文部分内容出自游戏编程模式一书,游戏编程模式,有兴趣的小伙伴可以去看看,虽然不是unity x c#写的 但是思路挺好的 目录 目录 0.先说结论 发现问题 命令模式如何解耦 打个断点更利于分析 怎么实现延迟命令? 如何撤销命令? 脚本整体一览 不足分析(AI) 0.先说结论 …

odoo 17 后端路由接口认证自定义

odoo 17 后端路由接口认证自定义 在接口中, 我们都知道有3中常用的认证方式 user 用户级认证public 访问时赋予公共用户none 不做任何用户级处理 一般不做数据库重要数据校验, 仅做访问处理 以上是源码提供的三种方式 接下来我们自定义一个认证方式 首先找到的这认证是在…

Spark RDD 的 compute 方法

角度一 Spark RDD 的 compute 方法 1. 什么是 compute&#xff1f; compute 是 Spark RDD 中的核心方法之一。 它定义了如何从特定的分区中获取数据&#xff0c;并返回一个 迭代器&#xff0c;供上层操作使用。每个 RDD 的计算逻辑由 compute 方法决定&#xff0c;不同类型的…

Day44 | 动态规划 :状态机DP 买卖股票的最佳时机IV买卖股票的最佳时机III

Day44 | 动态规划 &#xff1a;状态机DP 买卖股票的最佳时机IV&&买卖股票的最佳时机III&&309.买卖股票的最佳时机含冷冻期 动态规划应该如何学习&#xff1f;-CSDN博客 本次题解参考自灵神的做法&#xff0c;大家也多多支持灵神的题解 买卖股票的最佳时机【…

IDEA2024:右下角显示内存

使用场景&#xff1a; 实时知晓idea内存使用情况 解决方案: 开启内存显示 View -> Apperance -> Status Bar Widgets -> Memory Indicator 效果如下&#xff1a;

HBase理论_背景特点及数据单元及与Hive对比

本文结合了个人的笔记以及工作中实践经验以及参考HBase官网&#xff0c;我尽可能把自己的知识点呈现出来&#xff0c;如果有误&#xff0c;还请指正。 1. HBase背景 HBase作为面向列的数据库运行在HDFS之上&#xff0c;HDFS缺乏随机读写操作&#xff0c;HBase正是为此而出现。…

git创建远程仓库,以gitee码云为例GitHub同理

git远程Remote服务端仓库构建的视频教程在这 Git建立服务端Remote远程仓库&#xff0c;gitee码云例&#xff0c;Github_哔哩哔哩_bilibili 1、登gitee码云/Github 登录 - Gitee.com https://github.com/ &#xff08;没账号的注册一下就行&#xff09; 点击如下图位置的创…