大模型上下文长度扩展中的检索增强技术简述

基于Transformer的语言模型在众多自然语言处理任务上都取得了十分优异的成绩,在一些任务上已经达到SOTA的效果。但是,经过预训练后,模型能够较好处理的序列长度就固定下来。而当前的众多场景往往需要处理很长的上下文(如:大的代码仓库、书籍等长文档的摘要、few-shot等输入较长的in-context learning场景等等),其长度超过了模型预训练时使用的长度,无法一次性输入模型,导致语言模型无法充分利用长输入中完整的知识,因而性能受到制约。

针对这一问题,研究者们提出了多种检索的方法,从全部的历史上文中检索所需的相关token,放入有限的窗口内计算attention,使得模型能够利用短的输入窗口处理长的序列。

方法概述

受预训练的限制,模型能够较好处理的序列长度相对固定,通常为2048、4096等等。在不改变attention计算机制的前提下,很难保证在模型能力损失较小的同时,显著扩展模型能够处理的上下文长度。并且,在长文本上训练的代价也很高,直接在长文本上从头训练一个窗口长度很长的模型较为困难。于是,我们希望模型能够在有限的处理窗口中能够关注长上下文中关键的token,获取其中的信息,从而充分利用长文本中的知识,提升处理长文本的能力。

图片

图1 基于检索增强的处理流程

众多研究者提出了基于检索增强的方法,通过在上下文历史中查找关键token,并将它们放入attention计算中的方式,增强模型在长文本任务上的表现。其大致流程如图1所示,基本思路是分段处理,通过多次调用短上下文模型来处理长上下文输入,在此过程中保存K-V Cache供后续分段使用。引入检索增强技术之后,模型的处理流程如下。首先,模型以不同的检索粒度从K-V Cache中取出相应的 token 表示。然后,模型计算当前处理的token与这些历史token的相似度,并根据相似度结果选取最相关的top-k token。检索到的token会与当前窗口内的上下文拼接在一起,组合成新的上下文,用于当前的输入。随后,进行合适的位置编码。最后,把输入序列送入模型层,得到当前层的输出,其中最关键的是attention部分。下文将按上述处理顺序,对应图1中的四个关键步骤依次介绍。 ## 技术交流&资料

技术要学会分享、交流,不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。

成立了大模型算法面试和技术交流群,相关资料、技术交流&答疑,均可加我们的交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友。

方式①、微信搜索公众号:机器学习社区,后台回复:加群
方式②、添加微信号:mlc2040,备注:来自CSDN + 技术交流

用通俗易懂的方式讲解系列

  • 重磅来袭!《大模型面试宝典》(2024版) 发布!

  • 重磅来袭!《大模型实战宝典》(2024版) 发布!

  • 用通俗易懂的方式讲解:一文讲透最热的大模型开发框架 LangChain

  • 用通俗易懂的方式讲解:这应该是最全的大模型训练与微调关键技术梳理

  • 用通俗易懂的方式讲解:大模型训练过程概述

  • 用通俗易懂的方式讲解:专补大模型短板的RAG

  • 用通俗易懂的方式讲解:大模型微调方法总结

  • 用通俗易懂的方式讲解:掌握大模型这些优化技术,优雅地进行大模型的训练和推理!

1 检索粒度与表示

我们首先关注的问题是如何从K-V Cache中检索与当前处理步骤最相关的一部分token,其中首要的问题是检索粒度,也就是检索的基本单元的大小。

最基本的是token级别的检索。具体来说,是在K-V Cache中逐个token计算与当前待处理的token的相似度,选取相似度最高的top-k token对应的key与value向量作为检索结果。这类方法的代表有MemTRM[1]、FoT[2]、Unlimiformer[3]等等。

尽管token级别的检索在实现上相对简单,但也面临一些限制。首先,由于检索到的是离散的token,相邻的token并不一定能被一并检索,这可能导致语义上的独立。其次,每次生成新token时,都需要与K-V Cache中的所有token重新计算相似度,这增加了计算量,检索效率较低。

为了改进这些缺陷,有研究者提出使用更粗的检索粒度,把输入序列分成一个个长度相同的block,在block级别进行检索。block级别的检索是在处理每个新的token时,从K-V Cache里以block为单位进行相似度计算,选取top-k block作为检索结果。block级别的检索得到是一连串相邻的token,语义上比离散的token更连贯。另外,由于每次检索只在block上进行一次相似度计算,大大减少了计算量并且提高了检索效率。

然而,block级别的检索也带来了一个新的问题:如何有效地表示block以完成相似度计算。如图2所示,为了充分利用block内token的信息,可以按一定规则对block内的token进行信息融合的操作,从而得到block的表示。例如,LongMEM[4]通过计算block内token表示的mean pooling来表示相应的block;而InFLLM[5]则是在block计算每个token与其他token的一种整体相似性指标(representative score),选取其中分数较高的一部分token共同作为block的表示。此外,还有方法引入额外的token来表示block,如Landmark[6]方法中在词表内添加了一个新的token—Landmark,并将其放置在每个block的末尾作为block的代表,同时这个Landmark token也参与到序列的计算中,通过Grouped Softmax实现层次化的attention机制,我们在后面还会展开阐述Landmark的具体做法。

图片

图2 block的表示

2 相似度计算

在确定检索粒度后,我们需要建立适当的规则来计算相似度。目前的方法几乎都采用将当前处理的token的query向量与检索粒度所代表的key向量进行内积计算作为相似度的标准。这种做法源于标准的attention计算机制,标准attention中所计算的query与key的内积本身就是一种便于计算的相似度,而且相似度越高,相应value的权重就越高。现有的方法充分利用这一特性,计算当前token的query向量与检索粒度所代表的key向量相似度作为attention贡献的度量,通过舍弃低贡献的上下文来节省上下文窗口的可用空间,得到一种attention的有效近似。

3 位置编码

在完成相似度计算后,我们选择相似度最高的top-k token作为检索的结果。我们把这部分来自上下文历史的token记作retrieved context token,而在当前窗口范围内的token记为local context token。把这两类context token拼接在一起,就得到了输入当前层的完整context token序列。

接下来,在将这一组合的context token输入到模型进行attention计算之前,需要考虑位置编码,以区分不同位置token。在检索方法中,由于retrieved context token的位置不固定,并且在缓存时记录每个token具体的位置的代价较高,很难给出准确的位置信息。因此,需要找到一个合适的编码位置的方式来融合一定的位置信息。Sun等人[79]在PG19[8]数据集上的实验表明,相对位置信息对远距离的token似乎并不重要。基于此,MemTRM、FoT、InfLLM等方法直接将retrieved context token部分的位置编码设置成相同的位置向量,忽略了retrieved context token内彼此的位置信息。而另一些方法认为retrieved context token内部的相对顺序依然重要,因此为其添加了位置编码,如LongMEM则是直接使用ALiBi[9]进行相对位置编码,Landmark方法则将retrieved context token与local context token放在同一窗口内,对它们重新进行相对位置编码。

4 Attention计算

在进行attention计算时,我们需要考虑如何充分利用由retrieved context token和local context token这两类token组成的context tokens。

最简单的处理方法是将两类token视作同等地位,直接使用常规的attention计算方式。如在FoT与InfLLM中就是使用标准的attention进行计算;在Unlimiformer中则是使用Cross Attention完成相应的计算。

然而,对于当前处理的token来说,这两类context token包含信息的重要性并不相同。为了充分利用它们的信息,Joint Attention对它们做了一定的区分,分别计算local context与retrieved context中各自的attention。然后,加权得到最终的attention结果,可以概括成以下的公式:

其中,表示最终的attention结果,和 分别表示利用local context和retrieved context计算的attention结果,是一个可学习的参数,用于平衡两个部分的贡献。在MemTRM与LongMEM 中均采用了这种方法。

Landmark在此基础上更进一步。为区分retrieved context token内来自不同位置的信息,Landmark提出使用Grouped Softmax来更细粒度地分配权重。具体来说,该方法首先将Landmark这一类token与local context token放在一起进行softmax计算,从中选出Top-K个相关的block,同时保留softmax的计算结果。然后分别在这些block内单独计算attention,利用先前计算softmax结果对不同block的attention进行加权,得到最终的attention结果。

5 检索位置

另外,检索的实现也是有一定资源的消耗,因此在平衡效率和性能的目标下,不同的方法对检索时机的选取有所不同。其中,MemTRM、LongMEM、FoT选择在模型中的某些指定层进行检索,而Landmark、InfLLM则是在每一层都进行检索。专用于encoder-decoder架构的方法则是在decoder部分进行检索,例如Unlimiformer在每个decoder层均进行检索。

以上就是通过检索增强处理长文本方法的流程,可以将上述提到方法的各环节大致整理为如下的表格:

表1 上述方法各环节内容

在这里插入图片描述
性能对比

上述方法在一些长文本数据集上验证其语言能力:PG-19[11](英文书籍)、arXiv(数学论文)、C4[10](网络文档)、GitHub(代码)和 Isabelle(定理证明)等等。通常选用PPL作为评价的指标。此外,还涉及一些自然语言理解的任务,如SST-2[11]、MR[12]、Subj[13]、SST-5[11]、MPQA[14]等等。

虽然不同的方法选择了其中相同的一些数据集或任务进行验证实验,但在各自的实验中,使用的数据集、基线、数据处理、训练方式等实验设置不同,导致不同方法即便在相同数据集或任务上的实验结果也不可比。

总的来说,现有工作各自的实验结果在一定程度上证明了这些方法处理长文本的有效性,但目前仍然缺乏可以直接用于对比各项工作性能的公开结果。

与检索增强生成(RAG)技术的对比

虽然通过检索增强处理长文本的方法和检索增强生成(Retrieval Augmented Generation,RAG)均用到了检索,但二者之间还是存在着一定的区别。

首先,二者在检索对象上存在区别。长文本检索增强方法是在上下文历史的表示中检索,而RAG则侧重于在广泛的外部知识库中检索。

其次,这两类方法在检索的实现上也有所不同。如前面介绍的内容,长文本检索增强方法直接利用K-V Cache中的key计算相似度,作为检索的标准。并将检索到的(key,value)对直接用于模型后续attention的计算。相比之下,RAG面对庞大的外部知识库,利用一个独立的检索器(retriever)完成检索。此外,RAG可能还需要额外的组件来确保检索到的内容与生成的文本之间的一致性。由于这种结构上的复杂性,RAG通常不适用于直接处理长文本。通过上述分析,我们可以看出,虽然两种方法都涉及检索过程,但它们在检索对象和检索实现上有着不同,各有其适用的场景和限制。

那么,可以考虑采用 RAG 的方法来处理长文本吗?答案是肯定的。RPT[15]架构正是借鉴了RAG的检索思路来处理长文本。如图3所示,其整体流程与前文介绍相似,但每个步骤涉及的对象和处理方式有所区别,下面进行简要介绍。RPT采用encoder-decoder架构,在decoder阶段进行检索。它参照了RAG的实现,并配备了一个可训练的检索器。不同于RAG,RPT仅从encoder的输出中进行检索,而不涉及外部知识。具体来说,输入首先通过encoder处理,得到最后一层的隐层表示,这些表示被存储下来,构成检索库。在decode阶段进行Cross Attention计算时,会借助一个额外的检索器在这个检索库中检索。检索器首先将encoder的输出与decoder的输入通过一个双向attention层进行对齐,然后计算这两者对齐后的表示的内积作为相似度评分,最后选择top-k的表示作为检索结果。值得注意的是,此处的检索是在 block-to-block 级别进行,与之前的token-to-token和token-to-block不同。检索完成后,所得的表示还需通过一个邻接门控(neighbor gating)机制,参与到最终的Cross Attention的计算中。这里的Cross Attention采用了 RAG 中的一种变体—Chunked Cross Attention[16],这种形式能够有效学习到上下文的连贯性,从而更准确地预测下文。

图片

图3 RPT[15]架构

参考文献

[1] Wu Y, Rabe M N, Hutchins D L, et al. Memorizing transformers[J]. arXiv preprint arXiv:2203.08913, 2022.

[2] Tworkowski S, Staniszewski K, Pacek M, et al. Focused transformer: Contrastive training for context scaling[J]. Advances in Neural Information Processing Systems, 2024, 36.

[3] Bertsch A, Alon U, Neubig G, et al. Unlimiformer: Long-range transformers with unlimited length input[J]. Advances in Neural Information Processing Systems, 2024, 36.

[4] Wang W, Dong L, Cheng H, et al. Augmenting language models with long-term memory[J]. Advances in Neural Information Processing Systems, 2024, 36.

[5] Xiao C, Zhang P, Han X, et al. InfLLM: Unveiling the Intrinsic Capacity of LLMs for Understanding Extremely Long Sequences with Training-Free Memory[J]. arXiv preprint arXiv:2402.04617, 2024.

[6] Mohtashami A, Jaggi M. Random-access infinite context length for transformers[J]. Advances in Neural Information Processing Systems, 2024, 36.

[7] Dai Z, Yang Z, Yang Y, et al. Transformer-xl: Attentive language models beyond a fixed-length context[J]. arXiv preprint arXiv:1901.02860, 2019.

[8] Rae J W, Potapenko A, Jayakumar S M, et al. Compressive transformers for long-range sequence modelling[J]. arXiv preprint arXiv:1911.05507, 2019.

[9] Press O, Smith N A, Lewis M. Train short, test long: Attention with linear biases enables input length extrapolation[J]. arXiv preprint arXiv:2108.12409, 2021.

[10] Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer[J]. Journal of machine learning research, 2020, 21(140): 1-67.

[11] Socher R, Perelygin A, Wu J, et al. Recursive deep models for semantic compositionality over a sentiment treebank[C]//Proceedings of the 2013 conference on empirical methods in natural language processing. 2013: 1631-1642.

[12] Auer S, Bizer C, Kobilarov G, et al. Dbpedia: A nucleus for a web of open data[C]//international semantic web conference. Berlin, Heidelberg: Springer Berlin Heidelberg, 2007: 722-735.

[13] Pang B, Lee L. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts[J]. arXiv preprint cs/0409058, 2004.

[14] Wiebe J, Wilson T, Cardie C. Annotating expressions of opinions and emotions in language[J]. Language resources and evaluation, 2005, 39: 165-210.

[15] Rubin O, Berant J. Long-range language modeling with self-retrieval[J]. arXiv preprint arXiv:2306.13421, 2023.

[16] Borgeaud S, Mensch A, Hoffmann J, et al. Improving language models by retrieving from trillions of tokens[C]//International conference on machine learning. PMLR, 2022: 2206-2240.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/38309.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CppTest单元测试框架(更新)

目录 1 背景2 设计3 实现4 使用4.1 主函数4.2 使用方法 1 背景 前面文章单元测试之CppTest测试框架中讲述利用宏ADD_SUITE将测试用例自动增加到测试框架中。但在使用中发现一个问题,就是通过宏ADD_SUITE增加多个测试Suite时,每次运行时都是所有测试Suit…

逆向开发环境准备

JDK安装 AndroidStudio安装 默认sdk路径 C:\Users\Administrator\AppData\Local\Android\Sdk 将platform-tools所在的目录添加到path C:\Users\Administrator\AppData\Local\Android\Sdk\platform-tools 主要目的是使用该目录下的adb等命令 将tools所在的目录添加到path C:\Us…

1-5题查询 - 高频 SQL 50 题基础版

目录 1. 相关知识点2. 例题2.1.可回收且低脂的产品2.2.寻找用户推荐人2.3.大的国家2.4. 文章浏览 I2.5. 无效的推文 1. 相关知识点 sql判断,不包含null,判断不出来distinct是通过查询的结果来去除重复记录ASC升序计算字符长度 CHAR_LENGTH() 或 LENGTH(…

sqlmap注入详解

免责声明:本文仅做分享... 目录 1.介绍 2.特点 3.下载 4.帮助文档 5.常见命令 指定目标 请求 HTTP cookie头 HTTP User-Agent头 HTTP协议的证书认证 HTTP(S)代理 HTTP请求延迟 设定超时时间 设定重试超时 设定随机改变的参数值 利用正则过滤目标网址 避免过多的…

前端笔记-day11

文章目录 01-空间-平移02-视距03-空间旋转Z轴04-空间旋转X轴05-空间旋转Y轴06-立体呈现07-案例-3D导航08-空间缩放10-动画实现步骤11-animation复合属性12-animation拆分写法13-案例-走马灯14-案例-精灵动画15-多组动画16-全民出游全民出游.htmlindex.css 01-空间-平移 <!D…

基于Spring Boot的在线医疗咨询平台的设计与实现【附源码】

基于Spring Boot的在线医疗咨询平台的设计与实现 Design and implementation of the computer hardware mall based on Spring Boot Candidate&#xff1a; Supervisor&#xff1a; April 20th, 2024 学位论文原创性声明 本人郑重声明&#xff1a;所呈交的论文是本人在导师…

初中英语优秀作文分析-006How to Deal with the Exam Stress-如何应对考试压力

更多资源请关注纽扣编程微信公众号 记忆树 1 We students are very busy with schoolwork and in the face of many exams every school day. 翻译 我们学生忙于功课&#xff0c;每个上学日都面临许多考试。 简化记忆 考试 句子结构 We students 主语 我们学生&#xf…

Vite: 高阶特性 Pure ESM

概述 ESM 已经逐步得到各大浏览器厂商以及 Node.js 的原生支持&#xff0c;正在成为主流前端模块化方案。 而 Vite 本身就是借助浏览器原生的 ESM 解析能力( type“module” )实现了开发阶段的 no-bundle &#xff0c;即不用打包也可以构建 Web 应用。不过我们对于原生 ESM 的…

综合评价类模型——突变级数法

含义 首先&#xff1a;对评价目标进行多层次矛盾分解其次&#xff1a;利用突变理论和模糊数学相结合产生突变模糊隶属函数再次&#xff1a;由归一公式进行综合量化运算最终&#xff1a;归一为一个参数&#xff0c;即求出总的隶属函数&#xff0c;从而对评价目标进行排序分析特点…

成都市水资源公报(2000-2022年)

数据年限&#xff1a;2000-2022年&#xff0c;无2009年 数据格式&#xff1a;pdf、word、jpg 数据内容&#xff1a;降水量、地表水资源量、地下水资源量、水资源总量、蓄水状况、平原区浅层地下水动态、水资源情况分析、供水量、用水量、污水处理、洪涝干旱等

类似李跳跳的软件有什么,强烈推荐所有安卓手机安装!!!

今天阿星分享一款让安卓手机更顺滑的神器——智慧岛。你问我李跳跳&#xff1f;由于大家都知道的原因&#xff0c;那是个曾经让广告无处遁形的神兵利器&#xff0c;可惜现在它已经退休了。不过别担心&#xff0c;智慧岛接过了接力棒&#xff0c;继续为我们的安卓体验保驾护航。…

Raccon:更好防侧信道攻击的后量子签名方案

1. 引言 安全社区已经开发出了一些出色的加密算法&#xff0c;这些算法非常安全&#xff0c;但最终&#xff0c;所有的数据都会被存储在硅和金属中&#xff0c;而入侵者越来越多地会在那里放置监视器来破解密钥。 破解加密密钥通常涉及暴力破解方法或利用实施过程中的缺陷。然…

2029年AI服务器出货量将突破450万台,AI推理服务器即将爆发式增长

在2020年&#xff0c;新冠疫情与远程办公模式的兴起推动了所有类型服务器的出货量达到峰值&#xff0c;随后几年里&#xff0c;除了AI服务器之外的所有类别都回归到了正常水平。 根据Omdia的研究数据&#xff0c;AI服务器的出货量在2020年急剧上升&#xff0c;并且至今未显示出…

日志的介绍

知识铺垫&#xff1a;在我们日常开发中&#xff0c;其实日志是和我们息息相关的。但可能平常都没怎么注意到日志相关的知识点&#xff0c;也不怎么关注日志&#xff0c;然后&#xff0c;在生产环境中&#xff0c;日志是必不可少的存在&#xff0c;项目出现问题了都是通过日志来…

cesium 添加 Echarts 图层(空气质量点图)

cesium 添加 Echarts 图层(下面附有源码) 1、实现思路 1、在scene上面新增一个canvas画布 2、通坐标转换,将经纬度坐标转为屏幕坐标来实现 3、将ecarts 中每个series数组中元素都加 coordinateSystem: ‘cesiumEcharts’ 2、示例代码 <!DOCTYPE html> <html lan…

Excel 数据筛选难题解决

人不走空 &#x1f308;个人主页&#xff1a;人不走空 &#x1f496;系列专栏&#xff1a;算法专题 ⏰诗词歌赋&#xff1a;斯是陋室&#xff0c;惟吾德馨 目录 &#x1f308;个人主页&#xff1a;人不走空 &#x1f496;系列专栏&#xff1a;算法专题 ⏰诗词歌…

图形化用户界面-java头歌实训

图形化用户界面 import java.awt.*; import javax.swing.*; public class GraphicsTester extends JFrame { public GraphicsTester() { super("Graphics Demo"); setSize(480, 300); setDefaultCloseOperation(JFrame.EXIT_ON_CLOSE); } public void paint…

服务器raid5坏盘-换盘-修复阵列过程

目录 背景原因分析解决步骤名词解释进入raid管理界面换回旧4号&#xff0c;进行import再次更换4号盘 总结 背景 服务器除尘之后文件服务器部分文件不能访问了,部分文件夹内容为空&#xff0c;起初以为是新配置的权限的问题&#xff0c;排查之后发现不仅仅是权限问题 jumpserv…

VTK学习日志:基于VTK9.3.0+Visual Studio c++实现DICOM影像MPR多平面重建+V R体绘制4个视图展示功能的实现(二)

前段时间对VTK9.3.0进行了编译&#xff0c;开发了MPRVR实现的demo,显示效果不是很理想&#xff0c;正好趁着周末有时间&#xff0c;再度对之前的程序进行优化和完善&#xff0c;先展示下效果&#xff1a; VTK实现MPRVR四视图 再次讲解下基于VTK的MPRVR实现的简单项目创建过程&a…

Linux安装Node-RED并实现后台运行及开机启动

首先确保系统中已近成功安装Node.js&#xff0c;并保证需要的合适版本&#xff1a; 关于node.js的安装可以参考我的另一篇博文:《AliyunOS安装Node.js》。 然后就可以使用npm工具安装Node-RED了&#xff0c;很简单使用如下命令&#xff1a; sudo npm install -g --unsafe-per…