基于自动编码器的预训练模型方法模型预训练方法RetroMAE和RetroMAE-2

文章目录

    • RetroMAE
      • RetroMAE详情
        • 编码
        • 解码
        • 增强解码
    • RetroMAE-2
      • RetroMAE-2详情
        • 编码
        • [CLS]解码
        • OT解码和训练目标
        • 向量表征
    • 总结
    • 参考资料

RetroMAE

RetroMAE 出自论文《RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder》,是一种针对于检索的基于自动编码器的预训练模型方法。

作者认为对于基于自动编码的预训练如下两个因素很重要:

  • 重建任务必须对于编码质量有要求
  • 预训练数据必须得到充分应用

因此,RetroMAE为了满足这两个因素有三个主要设计:

  • MAE工作流,预训练方法遵循掩码自动编码工作流。一个输入句子经过两次不同的掩码处理后生成两个掩码输入:一个掩码输入经过编码器encoder生成句子向量;另一个掩码输入和句子向量一起输入到解码器decoder后通过掩码语言模型MLM(masked language modeling)重建原始句子。
  • 非对称结构,RetroMAE的模型结构是非对称的,encoder是完整的BERT模型,可用来生成输入句子的向量。decoder只是一层简单的transformer,它被来重建输入句子。
  • 非对称的掩码率,encoder输入使用一个适中的掩码率:1530%(比BERT略高),而decoder输入的掩码率激进多了:5070%。

在这里插入图片描述

RetroMAE详情

在这里插入图片描述

编码

设输入句子X经过掩码后的受污染输入记为 X ~ e n c \tilde{X}_{enc} X~enc,其中掩码率为15~30%。Bert-like encoder记作 Φ e n c ( ⋅ ) \Phi_{enc}(\cdot) Φenc(),它被用来将 X ~ e n c \tilde{X}_{enc} X~enc转化为向量 h X ~ h_{\tilde{X}} hX~
h X ~ ← Φ e n c ( X ~ e n c ) ( 1 ) h_{\tilde{X}} \leftarrow \Phi_{enc}(\tilde{X}_{enc}) \qquad \qquad (1) hX~Φenc(X~enc)(1)
作者使用CLS token的隐向量状态作为句子向量。

解码

设解码阶段输入句子X经过掩码后的受污染输入记为 X ~ d e c \tilde{X}_{dec} X~dec,其中掩码率为50~70%, X ~ d e c \tilde{X}_{dec} X~dec和编码器生成的向量 h X ~ h_{\tilde{X}} hX~会组合成如下序列( e x i e_{x_i} exi x i x_i xi的embedding, p i p_i pi是位置向量):
H X ~ d e c ← [ h X ~ , e x 1 + p 1 , ⋯ , e x N + p N ] ( 2 ) \mathbf{H}_{\tilde{X}_{dec}} \leftarrow [h_{\tilde{X}}, e_{x_1}+ p_1, \cdots, e_{x_N} + p_N] \qquad \qquad (2) HX~dec[hX~,ex1+p1,,exN+pN](2)
使用仅一层transformer作为decoder,记作 Φ d e c \Phi_{dec} Φdec,它通过优化如下目标函数来重建原始句子X(CE是交叉熵损失):
L d e c = ∑ x i ∈ m a s k e d C E ( x i ∣ Φ d e c ( H X ~ d e c ) ) ( 3 ) \mathcal{L}_{dec} = \sum_{x_i \in masked} CE(x_i |\Phi_{dec}(\mathbf{H}_{\tilde{X}_{dec}})) \qquad \qquad (3) Ldec=ximaskedCE(xiΦdec(HX~dec))(3)
因为decoder结构很简单,且使用了激进的掩码率,所以就强迫encoder必须生成高质量的句子向量来成功重建原始输入。

增强解码

前述解码过程中的交叉熵损失函数是从掩码token得到,而每一个掩码token总是从相同的上下文 H X ~ d e c \mathbf{H}_{\tilde{X}_{dec}} HX~dec重建,作者认为如果满足下列因素预训练效果能够进一步提升:1)从输入句子中得到更多训练信号(training signals),2)重建任务能够基于多样化的上下文。所以作者们提出了增强解码。

增强解码为解码操作生成两个输入流: H 1 ( q u e r y ) \mathbf{H}_1(query) H1(query) H 2 ( c o n t e x t ) \mathbf{H}_2(context) H2(context)
H 1 ← [ h X ~ + p 0 , ⋯ , h X ~ + p N ] H 2 ← [ h X ~ , e x 1 + p 1 , ⋯ , e x N + p N ] ( 4 ) \begin{gathered} \mathbf{H}_{1} \leftarrow [h_{\tilde{X}} + p_0, \cdots, h_{\tilde{X}} + p_N] \\ \mathbf{H}_{2} \leftarrow [h_{\tilde{X}}, e_{x_1}+ p_1, \cdots, e_{x_N} + p_N] \end{gathered} \qquad \qquad (4) H1[hX~+p0,,hX~+pN]H2[hX~,ex1+p1,,exN+pN](4)
上式中 h X ~ h_{\tilde{X}} hX~是句子向量, e x i e_{x_i} exi是token embedding(在此处没有token会被掩码), p i p_i pi是位置向量。

然后引入位置相关注意力掩码矩阵 M ∈ R L × L \mathbf{M} \in \mathbb{R}^{L \times L} MRL×L,则自注意力过程可表示为下列式子:
Q = H 1 W Q , K = H 2 W K , V = H 2 W V ; M i j = { 0 , can be attended,  − ∞ , masked;  A = softmax ⁡ ( Q T K d + M ) V . ( 5 ) \begin{gathered} \mathbf{Q}=\mathbf{H}_1 \mathbf{W}^Q, \mathbf{K}=\mathbf{H}_2 \mathbf{W}^K, \mathbf{V}=\mathbf{H}_2 \mathbf{W}^V ; \\ \mathbf{M}_{i j}= \begin{cases}0, & \text { can be attended, } \\ -\infty, & \text { masked; }\end{cases} \\ \mathbf{A}=\operatorname{softmax}\left(\frac{\mathbf{Q}^T \mathbf{K}}{\sqrt{d}}+\mathbf{M}\right) \mathbf{V} . \end{gathered} \qquad \qquad (5) Q=H1WQ,K=H2WK,V=H2WV;Mij={0,, can be attended,  masked; A=softmax(d QTK+M)V.(5)
输出 A \mathbf{A} A H 1 \mathbf{H}_1 H1(残差连接)一起用来重建输入,目标函数如下:
L d e c = ∑ x i ∈ X C E ( x i ∣ A , H 1 ) ) ( 6 ) \mathcal{L}_{dec} = \sum_{x_i \in X} CE(x_i |\mathbf{A}, \mathbf{H_1})) \qquad \qquad (6) Ldec=xiXCE(xiA,H1))(6)
每一个token x i x_i xi基于掩码矩阵 M \mathbf{M} M的第i行重建,所以注意力掩码矩阵 M \mathbf{M} M由如下规则生成(可参考上面图片右侧矩阵来理解),第一个位置(除第一行在对角线上的元素外)和 s ( X ≠ i ) s(X_{\neq i}) s(X=i)对于重建 x i x_i xi是可见的,而对角线上的元素总是会被掩码的(也就是说每一个token在重建过程中不能将自己包括进来):
M i j = { 0 , x j ∈ s ( X ≠ i ) , or  j ∣ i ≠ 0 = 0 − ∞ , otherwise.  ( 7 ) \mathbf{M}_{ij} = \begin{cases}0, & x_j \in s(X_{\neq i}), \text{or } j_{|i \neq 0} =0 \\ -\infty, & \text { otherwise. }\end{cases} \qquad \qquad (7) Mij={0,,xjs(X=i),or ji=0=0 otherwise. (7)

使用了增强解码的预训练流程算法如下图,encoder使用与BERT一致的掩码语言模型任务(MLM),其损失记作 L e n c \mathcal{L}_{enc} Lenc,它与decoder的损失求和作为预训练模型的最终损失函数。

在这里插入图片描述

RetroMAE-2

RetroMAE-2出自论文《RetroMAE-2: Duplex Masked Auto-Encoder For Pre-Training Retrieval-Oriented Language Models》,是RetroMAE团队提出的改进版本。

RetroMAE只使用了CLS的token的隐状态向量作为语义表示,RetroMAE-2希望将其他token的embedding也利用起来,所以提出了名为DupMAE(Duplex Masked Auto-Encoder)的自动编码框架。

在这里插入图片描述

RetroMAE-2详情

在这里插入图片描述

编码

设输入句子X经过掩码后的受污染输入记为 X ~ e n c \tilde{X}_{enc} X~enc,其中掩码率为30%。Bert-like encoder记作 Φ e n c ( ⋅ ) \Phi_{enc}(\cdot) Φenc(),它被用来将 X ~ e n c \tilde{X}_{enc} X~enc转化为向量[CLS]向量 h X ~ h_{\tilde{X}} hX~和普通token向量 H X ~ e n c \mathbf{H}_{\tilde{X}_{enc}} HX~enc
h X ~ , H X ~ e n c ← Φ e n c ( X ~ e n c ) ( 1 ) h_{\tilde{X}},\ \mathbf{H}_{\tilde{X}_{enc}} \leftarrow \Phi_{enc}(\tilde{X}_{enc}) \qquad \qquad (1) hX~, HX~encΦenc(X~enc)(1)
掩码token由常规MLM预测得到,MLM的损失函数记为 L m l m \mathcal{L}_{mlm} Lmlm

[CLS]解码

与RetroMAE的增强解码实现方式一模一样,参见前面记录。

OT解码和训练目标

OT向量的解码任务基于两个考虑:

  • 与[CLS]解码一样,解码网络尽可能简单化
  • 与[CLS]解码任务的目标函数不一样,因此两个类型的向量可以捕捉互补信息

OT向量(掩码token除外) H X ~ e n c : { h x 1 , . . . , h x N } \mathbf{H}_{\tilde{X}_{enc}}:\{h_{x1}, ..., h_{x_N} \} HX~enc:{hx1,...,hxN}经线性转换到词汇空间( W O ∈ R d × ∣ V ∣ W^O \in \mathbb{R}^{d \times |V|} WORd×V,d是向量尺寸, ∣ V ∣ |V| V是词汇表尺寸):
μ x i ← h x i T W O , x i ∈ X ~ e n c \mu_{x_i} \leftarrow h^T_{x_i} W^O,\ x_i \in \tilde{X}_{enc} μxihxiTWO, xiX~enc
上述结果接着经过token-wise max-pooling后聚合得到(对于每个词汇在 X ~ e n c \tilde{X}_{enc} X~enc里所有token中的最大激活值将被保留):
μ X ~ e n c ← t o k e n . M a x ( { μ x i ∣ X ~ e n c } ) \mu_{\tilde{X}_{enc}} \leftarrow token.Max(\{\mu_{x_i} | \tilde{X}_{enc} \}) μX~enctoken.Max({μxiX~enc})
尝试去恢复输入的BoW特征的目标函数如下,目的是使OT向量能够更好编码词汇信息(式中,$x \in set(X) $是输入X中的去重token,V是整个词汇表):
m i n . − ∑ x ∈ s e t ( X ) l o g e x p ( μ X ~ e n c [ x ] ) ∑ x ′ ∈ V e x p ( μ X ~ e n c [ x ′ ] ) min. - \sum_{x\in set(X)} log \frac {exp(\mu_{\tilde{X}_{enc}} [x])} { \sum_{x^{\prime} \in V} exp(\mu_{\tilde{X}_{enc}} [x^{\prime}]) } min.xset(X)logxVexp(μX~enc[x])exp(μX~enc[x])

整个训练任务的目标函数为encoder损失、[CLS]解码损失和上式损失之和:
m i n . L m l m + L d e c + L B o W min. \mathcal{L}_{mlm} + \mathcal{L}_{dec} + \mathcal{L}_{BoW} min.Lmlm+Ldec+LBoW

向量表征

使用如下的聚合方法将[CLS]向量和OT向量统一起来。

  1. 将[CLS]向量 h X h_X hX经过线性转换到更低维度 d ′ d^{\prime} d h ^ X ← h X T W c l s , W c l s ∈ R d × d ′ \hat{h}_X \leftarrow h^T_X W^{cls},\ W^{cls} \in \mathbb{R}^{d \times d^{\prime}} h^XhXTWcls, WclsRd×d
  2. 使用稀疏化的方式将OT embedding减少维度: μ ^ X ← { i : μ X [ i ] ∣ i ∈ I X } \hat {\mu}_X \leftarrow \{i: \mu_X[i] \ |\ i \in I_X \} μ^X{i:μX[i]  iIX},式中的 I X I_X IX μ X [ i ] ∈ T o p − k ( μ X ) \mu_X[i] \in Top-k(\mu_X) μX[i]Topk(μX),k是 μ X \mu_X μX里要被保留的元素个数。
  3. 对于每一个文档,将前面两项拼起来作为其语义表征: [ h ^ X ; μ ^ x ] [\hat{h}_X; \hat{\mu}_x] [h^X;μ^x]

对于每一个query,其与文档的相关性基于如下形式的内积得到:
⟨ q , d ⟩ = h ^ q T h ^ d + ∑ I d μ q [ i ] μ d [ i ] \langle q, d \rangle = \hat{h}^T_q \hat{h}_d + \sum_{I_d} \mu_q[i] \mu_d[i] q,d=h^qTh^d+Idμq[i]μd[i]

总结

本文记录了RetroMAE和RetroMAE-2的原理,RetroMAE是针对文本检索专门优化的预训练方法,BGE文本向量使用了RetroMAE来预训练基础模型。RetroMAE-2进一步在RetroMAE基础上考虑利用词性信息,看到网上有人将其称为RetroMAE+keyword,而2024年的BGE-M3向量模型虽然仍基于RetroMAE来预训练模型,但是向量本身也是考虑了稀疏向量的,与RetroMAE-2有相似之处。

参考资料

  1. Liu, Zheng, and Yingxia Shao. 2022. “RetroMAE: Pre-Training Retrieval-Oriented Transformers via Masked Auto-Encoder,” May.
  2. Xiao, Shitao, and Zheng Liu. 2022. “RetroMAE v2: Duplex Masked Auto-Encoder For Pre-Training Retrieval-Oriented Language Models,” November.
  3. RetroMAE github
  4. 知乎文章:RetroMAE+key word=RetroMAE-2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/785429.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ES-7.12-官方文档阅读-ILM-Automate rollover

教程:使用ILM自动化滚动创建index 当你持续将带有时间戳的文档index到Elasticsearch当中时,通常会使用数据流(data streams)以便可以定义滚到到新索引。这是你能够实施一个hot-warm-cold架构来满足你的性能要强,控制随…

OpenHarmony实战:RK3568 开发板镜像烧录指南

前言 烧录开发板是每个开发者的必修课,每次对系统的修改务必进行烧录测试,确保修改正确和不会引入新问题。 本文基于 Windows10,以 RK3568 开发板为例,指导如何烧录 OpenHarmony 镜像,镜像也叫固件。Hihoop&#xff…

Oracle利用BBED恢复崩溃实例(ORA-01092,ORA-00704,ORA-01578)

BBED修复数据损坏引起的数据库崩溃(ORA-01092,ORA-00704,ORA-01578)(2021年某苏州国企的案例) 1.Symptom 用户一个边缘系统出现数据文件损坏,且没有备份,数据库无法启动 报错如下,发现是oracle bootstra…

【Vue3进阶】- 第2学堂小商城实战课程前言

该教程为进阶教程,如果你还不了解Vue3的基础知识,可以先前往Vue3基础教程,从入门到实战。 学习时遇到的任何疑问都欢迎在相应课文页面下方的问答区进行提问哦 我能学到什么? 编程写法千千万,实现需求是第一。 教程中…

Docker容器、Serverless与微服务:腾讯云云原生架构技术实践案例集解析

前言 随着云原生技术的飞速发展,容器化和函数计算正成为企业和开发者关注的焦点。在这一潮流中,腾讯云凭借其卓越的技术实力和深厚的行业积累,发布了《2023腾讯云容器和函数计算技术实践精选集》,为我们提供了一份深入探索云原生…

CAS(Compare And Swap)

目录 CAS概念 乐观锁与悲观锁 ABA问题 Unsafe类 ​编辑 原子类 基本类型原子类 原子引用类 原子数组 原子更新器类 原子累加器 CAS概念 CAS是Compare And Swap的缩写,中文翻译成:比较并交换,实现无锁并发时常用到的一种技术。它一…

3.Labview字符串与路径精讲(下) — 字符串及路径的用法汇总

本章讲解labview中的字符串和路径具体实践用例,从前面板字符串属性到后面板字符串函数应用做出详细概述,通过本文的学习希望大家了解到字符串及路径在labview编程中的重要地位。 本系列文章为labview 从基础到强化到精通的学习文章,大家可以随…

奥比中光深度相机(二):PyQt5实现打开深度摄像头功能

文章目录 奥比中光深度相机(二):PyQt5实现打开深度摄像头功能官方给出的调用深度相机源码环境精炼 UI界面设计逻辑代码构建槽函数连接提取视频流在界面中显示深度视频流注意关闭相机 总体代码效果演示运行main.py代码选择相机打开摄像头关闭摄…

HarmonyOS实战开发-如何实现一个简单的健康生活应用(上)

介绍 本篇Codelab介绍了如何实现一个简单的健康生活应用,主要功能包括: 用户可以创建最多6个健康生活任务(早起,喝水,吃苹果,每日微笑,刷牙,早睡),并设置任…

BabySQL【2019极客大挑战】

知识点: 功能分析 登录界面一般是 where username and password 可以从username出手,注释掉and语句单引号闭合绕过 通过测试和报错信息发现是一个单引号读取输入可以单引号闭合绕过关键字过滤 or and 过滤 || &&替换双写绕过select from wher…

【leetcode】力扣简单题两数之和

题目 思路 代码实现 #include<iostream> #include<unordered_map>using namespace std;class Solution { public:vector<int> TwoNumber(const vector<int>& nums, int target){vector<int> number_vector;unordered_map<int, int> …

【Linux】常见命令

⭐ 作者&#xff1a;小胡_不糊涂 &#x1f331; 作者主页&#xff1a;小胡_不糊涂的个人主页 &#x1f496; 持续更文&#xff0c;关注博主少走弯路&#xff0c;谢谢大家支持 &#x1f496; 常用命令 1. ls2. pwd3. cd4. touch5. cat6. mkdir7. rm8. cp9. mv10. tail11. vim12.…

TCP粘包是怎么回事,如何处理?

还是大剑师兰特&#xff1a;曾是美国某知名大学计算机专业研究生&#xff0c;现为航空航海领域高级前端工程师&#xff1b;CSDN知名博主&#xff0c;GIS领域优质创作者&#xff0c;深耕openlayers、leaflet、mapbox、cesium&#xff0c;canvas&#xff0c;webgl&#xff0c;ech…

基于《2023腾讯云容器和函数计算技术实践精选集》—探索腾讯云TKE的Docker容器、Serverless和微服务优势

重剑无锋&#xff0c;大巧不工。 ——金庸 腾讯云TKE&#xff0c;全称Tencent Kubernetes Engine&#xff0c;是一种完全托管式的容器服务。它可以帮助用户快速、高效地部署和管理Kubernetes集群&#xff0c;并提供一系列与之相关的云服务&#xff0c;如负载均衡、云硬盘、对象…

OSPF---开放式最短路径优先协议

1. OSPF描述 OSPF协议是一种链路状态协议。每个路由器负责发现、维护与邻居的关系&#xff0c;并将已知的邻居列表和链路费用LSU报文描述&#xff0c;通过可靠的泛洪与自治系统AS内的其他路由器周期性交互&#xff0c;学习到整个自治系统的网络拓扑结构;并通过自治系统边界的路…

掼蛋游戏规则

1、牌型&#xff1a;单牌、对牌、三张牌、三带二、顺子、同花顺、钢板&#xff08;例&#xff1a; 222333、444555&#xff09;、炸弹&#xff08;4涨以上相同的牌&#xff09;、三连对 2、牌大小&#xff1a;大王&#xff0c;小王&#xff0c;级牌&#xff0c;A&#xff0c;…

从学习海底捞到学习巴奴,中国餐饮带洋快餐重归“产品主义”

俗话说“民以食为天”&#xff0c;吃饭一向是国人的头等大事&#xff0c;餐饮业也是经济的强劲助推力。新世纪以来&#xff0c;餐饮业不断讲述着热辣滚烫的商业故事。 2006年&#xff0c;拥有“必胜客”、“肯德基”等品牌的餐饮巨头百胜集团&#xff0c;组织两百多名区域经理…

太阳能光伏发电应用场景有哪些?

随着全球能源结构的转型和环保意识的提升&#xff0c;太阳能光伏发电作为一种清洁、可再生的能源形式&#xff0c;其应用场景正日益广泛。下面&#xff0c;我们将详细探讨太阳能光伏发电的主要应用场景。 首先&#xff0c;工业领域是太阳能光伏发电的重要应用领域。工业厂房通常…

EasyCVR视频汇聚平台海康Ehome2.0与5.0设备接入时的配置区别

安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快&#xff0c;可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等&#xff0c;以及支持厂家私有协议与SDK接入&#xff0c;包括海康Ehome、海大宇等设备的SDK等。平台既具备传统安…

Nessus【部署 01】Linux环境部署漏洞扫描工具Nessus最新版详细过程分享(下载+安装+注册+激活)

Nessus最新版详细部署过程分享 1. 获取激活码2.主程序下载安装启动2.1 下载2.2安装2.3 启动 3.许可证及插件3.1 许可证获取3.2 插件安装 4.安装总结 Nessus官方网站&#xff1a; https://www.tenable.com/products/nessus/nessus-essentials 及介绍&#xff1a; 国际数据公司&…