Python记忆组合透明度语言模型

🎯要点

🎯浏览器语言推理识别神经网络 | 🎯不同语言秽语训练识别数据集 | 🎯交互式语言处理解释 Transformer 语言模型 | 🎯可视化Transformer 语言模型 | 🎯语言模型生成优质歌词 | 🎯模型不确定性和鲁棒性深度学习估计基准 | 🎯文本生成神经网络诗歌生成 | 🎯模型透明度 | 🎯验证揭示前馈Transformer 语言模型记忆组合 | 🎯可视化语言模型注意力 | 🎯Transformer语言模型文本解释器和视觉解释器 | 🎯分布式训练和推理模型 | 🎯知识获取模型 | 🎯信息提取模型 | 🎯文本生成模型 | 🎯语音图像视频模型

🍇Python注意力

注意力机制描述了神经网络中最近出现的一组新层,在过去几年中引起了广泛关注,尤其是在序列任务中。文献中对“注意力”有很多不同的定义,但我们在这里使用的定义如下:注意力机制描述了(序列)元素的加权平均值,其权重根据输入查询和元素的键动态计算。那么这到底是什么意思呢?目标是对多个元素的特征取平均值。但是,我们不希望对每个元素赋予相同的权重,而是希望根据它们的实际值赋予它们权重。换句话说,我们希望动态地决定我们更希望“关注”哪些输入。

💦缩放点积注意力

自注意力背后的核心概念是缩放点积注意力。我们的目标是建立一种注意力机制,序列中的任何元素都可以关注任何其他元素,同时仍能高效计算。点积注意力将一组查询 Q ∈ R T × d k Q \in R ^{T \times d_k} QRT×dk、键 K ∈ R T × d k K \in R ^{T \times d_k} KRT×dk 和值 V ∈ R T × d v V \in R ^{T \times d_v} VRT×dv 作为输入,其中 T T T 是序列长度, d k d_k dk d v d_v dv 分别是查询/键和值的隐藏维度。为了简单起见,我们现在忽略批量维度。从元素 i i i j j j的注意力值基于查询 Q i Q_i Qi和键 K j K_j Kj的相似度,使用点积作为相似度度量。在数学中,我们计算点积注意力如下:
注意力  ( Q , K , V ) = softmax ⁡ ( Q K T d k ) V \text { 注意力 }(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^T}{\sqrt{d_k}}\right) V  注意力 (Q,K,V)=softmax(dk QKT)V
其中 Q、K、V 是查询、键和值向量的串联。

矩阵乘法 Q K T Q K^T QKT 对每个可能的查询和键对执行点积,产生形状为 T × T T \times T T×T 的矩阵。每行代表特定元素 i i i​ 相对于序列中所有其他元素的注意力 logits。对此,我们应用 softmax 并与值向量相乘以获得加权平均值(权重由注意力决定)。这种注意力机制的另一个视角提供了如下所示的计算图。

我们尚未讨论的一方面是缩放因子 1 / d k 1 / \sqrt{d_k} 1/dk 。这个比例因子对于在初始化后保持注意力值的适当方差至关重要。请记住,我们初始化层的目的是使整个模型具有相等的方差,因此 Q Q Q K K K 的方差也可能接近 1 。然而,对方差为 σ 2 \sigma^2 σ2 的两个向量执行点积会产生方差为 d k d_k dk 倍的标量:
q i ∼ N ( 0 , σ 2 ) , k i ∼ N ( 0 , σ 2 ) → Var ⁡ ( ∑ i = 1 d k q i ⋅ k i ) = σ 4 ⋅ d k q_i \sim N \left(0, \sigma^2\right), k_i \sim N \left(0, \sigma^2\right) \rightarrow \operatorname{Var}\left(\sum_{i=1}^{d_k} q_i \cdot k_i\right)=\sigma^4 \cdot d_k qiN(0,σ2),kiN(0,σ2)Var(i=1dkqiki)=σ4dk
如果我们不将方差缩小到 ∼ σ 2 \sim \sigma^2 σ2,则 logits 上的 softmax 对于一个随机元素将饱和为 1,对于所有其他元素则饱和为 0。通过 softmax 的梯度将接近于零,因此我们无法正确地学习参数。请注意, σ 2 \sigma^2 σ2 的额外因子,即用 σ 4 \sigma^4 σ4 而不是 σ 2 \sigma^2 σ2,通常不是问题,因为我们保持原始方差 σ 2 \sigma^2 σ2 接近无论如何,到1。

上图中的块 Mask (opt.) 表示对注意力矩阵中的特定条目进行可选屏蔽。例如,如果我们将具有不同长度的多个序列堆叠成一个批次,就会使用此功能。为了仍然受益于 PyTorch 中的并行化,我们将句子填充到相同的长度,并在计算注意力值时屏蔽填充标记。这通常是通过将相应的注意力逻辑设置为非常低的值来实现的。

在讨论了缩放点积注意力块的细节之后,我们可以在下面编写一个函数,在给定查询、键和值三元组的情况下计算输出特征:

def scaled_dot_product(q, k, v, mask=None):d_k = q.size()[-1]attn_logits = torch.matmul(q, k.transpose(-2, -1))attn_logits = attn_logits / math.sqrt(d_k)if mask is not None:attn_logits = attn_logits.masked_fill(mask == 0, -9e15)attention = F.softmax(attn_logits, dim=-1)values = torch.matmul(attention, v)return values, attention

请注意,上面的代码支持序列长度前面的任何附加维度,因此我们也可以将其用于批处理。但是,为了更好地理解,让我们生成一些随机查询、键和值向量,并计算注意力输出:

seq_len, d_k = 3, 2
pl.seed_everything(42)
q = torch.randn(seq_len, d_k)
k = torch.randn(seq_len, d_k)
v = torch.randn(seq_len, d_k)
values, attention = scaled_dot_product(q, k, v)
print("Q\n", q)
print("K\n", k)
print("V\n", v)
print("Values\n", values)
print("Attention\n", attention)
Qtensor([[ 0.3367,  0.1288],[ 0.2345,  0.2303],[-1.1229, -0.1863]])
Ktensor([[ 2.2082, -0.6380],[ 0.4617,  0.2674],[ 0.5349,  0.8094]])
Vtensor([[ 1.1103, -1.6898],[-0.9890,  0.9580],[ 1.3221,  0.8172]])
Valuestensor([[ 0.5698, -0.1520],[ 0.5379, -0.0265],[ 0.2246,  0.5556]])
Attentiontensor([[0.4028, 0.2886, 0.3086],[0.3538, 0.3069, 0.3393],[0.1303, 0.4630, 0.4067]])

💦多头注意力

缩放点积注意力允许网络参与序列。然而,序列元素通常需要关注多个不同方面,并且单个加权平均值并不是一个好的选择。这就是为什么我们将注意力机制扩展到多个头,即相同特征上的多个不同的查询键值三元组。具体来说,给定一个查询、键和值矩阵,我们将它们转换为 h h h 子查询、子键和子值,并独立地通过缩放的点积注意力。然后,我们连接头部并将它们与最终的权重矩阵组合起来。从数学上来说,我们可以将此操作表示为:
多头  ( Q , K , V ) = Concat ⁡ ( head  1 , … , head  h ) W O 其中 head  i = Attention  ( Q W i Q , K W i K , V W i V ) \begin{aligned} \text { 多头 }(Q, K, V) & =\operatorname{Concat}\left(\text { head }_1, \ldots, \text { head }_h\right) W^O \\ \text { 其中 head }_i & =\text { Attention }\left(Q W_i^Q, K W_i^K, V W_i^V\right) \end{aligned}  多头 (Q,K,V) 其中 head i=Concat( head 1,, head h)WO= Attention (QWiQ,KWiK,VWiV)
在没有任意查询、键和值向量作为输入的情况下,我们如何在神经网络中应用多头注意力层?查看批量大小, T T T 序列长度, d model  d_{\text {model }} dmodel  X X X 的隐藏维度)。连续的权重矩阵 W Q 、 W K W^Q、W^K WQWK W V W^V WV 可以将 X X X​ 转换为表示输入的查询、键和值的相应特征向量。使用这种方法,我们可以实现下面的多头注意力模块。

def expand_mask(mask):assert mask.ndim >= 2, "Mask must be at least 2-dimensional with seq_length x seq_length"if mask.ndim == 3:mask = mask.unsqueeze(1)while mask.ndim < 4:mask = mask.unsqueeze(0)return mask
class MultiheadAttention(nn.Module):def __init__(self, input_dim, embed_dim, num_heads):super().__init__()assert embed_dim % num_heads == 0, "Embedding dimension must be 0 modulo number of heads."self.embed_dim = embed_dimself.num_heads = num_headsself.head_dim = embed_dim // num_headsself.qkv_proj = nn.Linear(input_dim, 3*embed_dim)self.o_proj = nn.Linear(embed_dim, embed_dim)self._reset_parameters()def _reset_parameters(self):nn.init.xavier_uniform_(self.qkv_proj.weight)self.qkv_proj.bias.data.fill_(0)nn.init.xavier_uniform_(self.o_proj.weight)self.o_proj.bias.data.fill_(0)def forward(self, x, mask=None, return_attention=False):batch_size, seq_length, _ = x.size()if mask is not None:mask = expand_mask(mask)qkv = self.qkv_proj(x)qkv = qkv.reshape(batch_size, seq_length, self.num_heads, 3*self.head_dim)qkv = qkv.permute(0, 2, 1, 3) # [Batch, Head, SeqLen, Dims]q, k, v = qkv.chunk(3, dim=-1)values, attention = scaled_dot_product(q, k, v, mask=mask)values = values.permute(0, 2, 1, 3) # [Batch, SeqLen, Head, Dims]values = values.reshape(batch_size, seq_length, self.embed_dim)o = self.o_proj(values)if return_attention:return o, attentionelse:return o

👉参阅一:计算思维

👉参阅二:亚图跨际

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/852013.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安卓兼容的编程语言有哪些:探索多样化的开发选择

安卓兼容的编程语言有哪些&#xff1a;探索多样化的开发选择 在安卓应用开发的世界里&#xff0c;编程语言的选择丰富多样&#xff0c;每一种语言都有其独特的优势和适用场景。本文将从四个方面、五个方面、六个方面和七个方面&#xff0c;深入剖析安卓兼容的编程语言&#xf…

【JavaScript脚本宇宙】探索前端图形与图像库:从2D图形到图像懒加载

优化用户体验&#xff1a;探究图像懒加载库的选择 前言 在Web开发中&#xff0c;图形和图像库扮演着至关重要的角色&#xff0c;它们可以让我们轻松地操作和呈现各种图形、图像以及数据可视化。本文将介绍一系列前端开发中常用的图形和图像库&#xff0c;从2D图形到3D图形&am…

指定文件停止git跟踪方法

1、当你已经将一个文件提交到Git仓库&#xff0c;然后将其添加到.gitignore文件中&#xff0c;但Git仍然跟踪该文件时&#xff0c;这是因为Git已经开始跟踪这个文件的历史。要让Git停止跟踪这个文件&#xff0c;你需要从Git的索引中显式地删除它。以下是解决这个问题的步骤&…

【面向就业的Linux基础】从入门到熟练,探索Linux的秘密(二)

主要内容介绍可tmux和vim的一些常用操作&#xff0c;可以当作笔记需要的时候进来查就行。 文章目录 前言 一、tmux和vim 二、Linux系统基本命令 1.tmux教程 2. vim教程 3.练习 总结 前言 主要内容介绍可tmux和vim的一些常用操作&#xff0c;可以当作笔记需要的时候进来查就行…

【Git系列】Git LFS常用命令的使用

前言 LFS是Large File Storage的缩写&#xff0c;是一个 Git 扩展&#xff0c;用于管理大型二进制文件&#xff0c;它允许将这些文件存储在单独的存储库中&#xff0c;以便更有效地处理 Git 仓库。 常用命令 LFS安装 git lfs 要求 git > 1.8.2 linux环境&#xff1a; …

javaWeb项目-ssm+vue中国风音乐推介网站功能介绍

本项目源码&#xff1a;java-ssmvue中国风音乐推介网站源码说明文档资料资源-CSDN文库 项目关键技术 开发工具&#xff1a;IDEA 、Eclipse 编程语言: Java 数据库: MySQL5.7 框架&#xff1a;ssm、Springboot 前端&#xff1a;Vue、ElementUI 关键技术&#xff1a;springboot、…

主管面试问题

在一个电商网站的场景中&#xff0c;我会测试以下内容&#xff1a; a. 商品搜索功能&#xff1a;包括搜索结果的准确性、排序规则、关键字过滤等&#xff1b; b. 商品详情页面&#xff1a;包括商品信息的正确性、图片显示、库存数量等&#xff1b; c. 购物车功能&#xff1a;包…

Python网络爬虫5-实战网页爬取

1.需求背景 在上一篇Python网络爬虫4-实战爬取pdf中&#xff0c;以松下品牌说明书为例说明了网页爬取PDF的分析流程。在实际的应用中&#xff0c;具体代码需要根据不同的网址情况和需求进行更改。 明确要求&#xff1a; 此次&#xff0c;想要爬取苏泊尔品牌下的说明书pdf&…

开源大模型与闭源大模型浅析

引言 技术发展背景 早期语言模型 预训练与微调的范式 开源与闭源模型的兴起 当前的技术前沿 未来发展趋势 开源大模型的特点与优势 技术共享与创新加速 成本效益 社区驱动的发展 透明度和可审计性 促进教育与人才培养 灵活性和自定义 闭源大模型的特点与优势 商…

线性表-链表

前言 内存空间是所有程序的公共资源&#xff0c;在一个复杂的系统运行环境下&#xff0c;空闲的内存空间可能散落在内存各处。我们知道&#xff0c;存储数组的内存空间必须是连续的&#xff0c;而当数组非常大时&#xff0c;内存可能无法提供如此大的连续空间。此时链表的灵活…

【第5章】Vue之API风格

文章目录 前言一、选项式 API&#xff08;Options API&#xff09;1. 代码2. 效果 二、组合式 API&#xff08;Composition API&#xff09;1. 代码2. 效果 三、两者之间的区别总结 前言 Vue.js 提供了两种主要的 API 风格来组织组件的代码&#xff1a;选项式 API&#xff08;…

ios描述文件.mobileprovision 如何查看包含的设备 udid|IPA查看是否包含设备 UDID|轻松签查看证书是否包含自己设备 UDID

前言 之前蒲公英支持上传证书查看证书有效期和包含设备 【干货】IOS苹果P12证书有效性检测 及查看证书是否包含自己的设备 【干货】IOS苹果P12证书有效性检测 及查看证书是否包含自己的设备 - 路灯IT技术博客 - 后厂村路灯 如今蒲公英下架了该功能&#xff0c;已经没有证书检…

新等保2.0防护体系方案

等保2.0防护体系 吉祥学安全知识星球&#x1f517;除了包含技术干货&#xff1a;Java代码审计、web安全、应急响应等&#xff0c;还包含了安全中常见的售前护网案例、售前方案、ppt等&#xff0c;同时也有面向学生的网络安全面试、护网面试等。 最近在写一些咨询相关的材料&…

计算机网络(6) TCP协议

TCP&#xff08;Transmission Control Protocol&#xff0c;传输控制协议&#xff09;是互联网协议套件中一种核心协议。它提供面向连接的、可靠的字节流传输服务&#xff0c;确保数据从一端正确无误地传输到另一端。TCP的主要特点包括&#xff1a; 可靠性&#xff1a;TCP使用…

返回值返回引用返回指针之间的区别

一、返回值 当函数返回一个值时&#xff0c;实际返回的是一个变量的拷贝。 优点&#xff1a; 简单易用&#xff1b;安全&#xff0c;不会导致悬挂指针或悬挂引用&#xff1b; 缺点&#xff1a; 当返回值是一个较大的对象时会产生拷贝开销&#xff0c;影响程序性能&#xf…

PHP聚合通多平台支付平台源码

源码介绍 php聚合通多平台支付平台源码&#xff0c;源码搭建了一下&#xff0c;这个源码不复杂&#xff0c;修改一下数据库账号密码然后导入数据库就可以&#xff0c;和网站恢复备份一样简单&#xff01; 源码截图 源码下载 PHP聚合通多平台支付平台源码

Android 调用系统相册、系统相机拍照

Android 调用系统相册、系统相机拍照工具类 第一步(准备工作)&#xff1a;设置文件共享 1.1、指定 FileProvider 新建FileProvider类&#xff0c;名字随意&#xff0c;继承自FileProvider public class MainFileProvider extends FileProvider { }1.2 、清单中添加FileProv…

【小白专用 已验证24.6.7】C# MySQL数据库访问操作封装类

一、底层库介绍 本文主要介绍数据库访问操作类&#xff0c;包含&#xff1a;SQL插入脚本、SQL查询脚本、数据库表是否存在判断、带参脚本执行、包含事务回滚脚本执行、存储过程脚本等等。 特殊说明 在使用之前&#xff0c;先安装 MySql.Data 插件 二、底层库源码 2.1 程序源…

C++ 24 之 拷贝构造函数

c24拷贝构造函数.cpp #define _CRT_SECURE_NO_WARNINGS #include <iostream> using namespace std;class Person3 { private:int p_age; public:// 构造函数分类&#xff1a;// 按参数分类&#xff1a;1、有参 2、无参// 按类型分类:普通、拷贝&#xff08;复制&…

仲恺ZK——信计专业《软件体系结构》复习总结

前言 以下是我在总结的复习内容&#xff0c;有需要可以参考借鉴一下。我的主页还有另外一篇《2024年考试回忆》&#xff0c;两者结合起来复习&#xff0c;帮助你轻松过考试&#x1f60a;。总的来说&#xff0c;考试不会太难&#xff0c;只要你了解了各类设计模式的含义即可&am…