检索增强生成 (RAG) 模型已成为一种有前途的方法,它利用存储在文档中的外部知识来提高生成文本的准确性和相关性。通过检索和调节相关的上下文文档,与传统语言模型相比,RAG 模型可以产生更真实、更深入和更具体的响应。
然而,与任何新技术一样,RAG 模型也面临着一系列挑战,需要解决这些挑战才能充分发挥其潜力。在这篇博文中,我将深入探讨 RAG 模型的主要痛点,并探索这些问题的潜在解决方案。具体来说,重点关注检索、条件、忠诚度和安全性等领域出现的核心困难。
对于每个主要痛点,我们首先解释背景并描述它为什么会造成问题。然后,我们提出具体的方法、架构变更和创新,以帮助缓解或解决该挑战。鉴于底层语言模型在 RAG 模型中发挥的不可或缺的作用,我们还讨论了语言模型技术的进步如何促进进步。
最后,您将详细了解当今 RAG 面临的最紧迫问题以及该领域如何发展以克服这些问题。掌握这些知识后,您将能够构建更先进、更负责任的 RAG 模型。让我们开始吧!
痛点一:检索质量低下
背景:RAG 模型严重依赖于检索到的上下文文档的质量。如果检索器无法找到相关的事实段落,则会严重阻碍模型根据有用信息进行调节并产生准确、深入的响应的能力。不幸的是,现成的稀疏向量检索器通常在语义匹配和检索高质量文档方面存在困难。
解决方案:
- 通过监督训练信号或模型反馈对检索器进行微调。这可增强与目标域的相关性。
- 使用 DPR 或 ANCE 等模型来采用密集检索模型,以实现更高的召回率和相关性。
- 尝试使用多向量表示、近似最近邻搜索和最大内积搜索来提高速度而不影响准确性。
- 级联密集和稀疏检索器以结合相关性和速度等优势。
- 对于事实性,使用可信度指标偏向权威、值得信赖的来源进行检索。
LLM 角色:大型语言模型的表示学习技术可以显著改善检索器模型的语义匹配和相关性判断。
痛点2:缺乏覆盖
背景:尽管外部知识对于高质量的 RAG 输出必不可少,但即使是最大的语料库也无法完全覆盖用户可能查询的实体和概念。如果无法访问全面的知识来源,该模型将针对小众或新兴主题返回不了解情况的通用答案。
解决方案:
- 通过聚合来自不同来源的文档来扩展语料库,以增加覆盖的可能性。
- 实施系统来检测运行时的覆盖差距并恢复到传统的语言模型完成。
- 设计模块化架构来添加/更新知识源,无需完全重新训练。
- 探索从语言模型中自动生成知识以填补尚未发现的空白。
LLM 角色:预训练语言模型提供广泛的世界知识,可以暂时弥补 RAG 模型所缺乏的空白。它们生成合成文本的能力也可以帮助解决覆盖范围不足的问题。
痛点 3:难以根据情境进行调节
背景:即使检索效果良好,RAG 模型也常常难以正确调节上下文文档并将外部知识纳入生成的文本中。如果没有有效的上下文调节,它们就无法产生具体、真实的响应。
解决方案:
- 通过专用的交叉注意力转换层加强语境化。
- 使用自监督目标对语言模型解码器进行预训练,以教授如何整合外部文本。
- 设计提供明确条件信号和监督的训练方案。
- 针对更长的文档和增强记忆的架构模型并行训练。
- 更好地处理实体引用以改善基础。
LLM 角色:大型语言模型的自我监督预训练使其具备有助于语境化的总结等技能。
痛点四:幻觉与虚构
背景:由于过度依赖语言模型先验,RAG 模型经常生成看似合理但完全不正确或不真实的陈述,而无需在检索到的上下文中进行验证。这种幻觉会误导用户。
解决方案:
- 通过训练信号直接最小化幻觉文本的可能性。
- 以编程方式分析输出,根据与上下文的不匹配自动检测捏造。
- 设计一个验证头网络来在生成之前明确验证语句。
- 在检索到的文档上使用可信度指标,以防止对不可靠来源的依赖。
- 通过将优化重点放在上下文基础之上来削弱无条件语言模型先验。
LLM 角色:大型语言模型提供了强大的先验,这会增加幻觉风险。但它们的可扩展性使基于分类器的幻觉检测等创新成为可能。
痛点五:缺乏解释和可解释性
背景:与传统的 QA 系统不同,RAG 模型无法提供生成文本背后的推理。其响应的解释仍然是隐含的和不透明的,而不是明确的。这损害了可调试性、信任和负责任的开发。
解决方案:
- 设计模型架构来明确地将证据和解释跟踪为结构化链/图。
- 实现辅助头来预测诸如突出片段之类的解释性证据。
- 在每个生成步骤附加有意义的上下文标签来追踪起源。
- 通过引用来源生成描述推理的自然语言解释。
- 总结查询和上下文之间可证明响应的关键语义联系。
LLM 角色:大型语言模型提供了强大的少样本能力,我们可以利用这种能力以最少的额外训练生成模型推理的事后解释。
痛点六:安全及管控风险
背景:通过以任意 Web 文档为条件来生成文本,RAG 模型可以在其输出中传播有害、有偏见或有毒的内容。它们的开放式生成也增加了恶意使用的风险,并且缺乏控制。
解决方案:
- 在语料库创建期间彻底审查文档并实施安全分类器。
- 使用分类器框架(如 OPT 或 GPT-3 的分类器)开发运行时过滤器以捕获不安全的输出。
- 通过输入提示、输出重写和微调方法设计控制方案。
- 通过转向检索上下文并关注接地输出来限制生成自由。
- 使用分类器 API 和外部安全服务实现模块化内容控制。
LLM 角色:大型语言模型提供分类器微调等成熟的技术,可在保持生成质量的同时提供保障。
痛点七:推理速度慢
背景:检索与生成的耦合阻碍了 RAG 模型与标准语言模型的延迟相匹配。推理管道缺乏针对需要毫秒级响应的实时应用的优化。
解决方案:
- 优化标记化、编码和检索推理,以最大限度地减少生成之前的开销。
- 使用 NMSLIB、FAISS 或 ScaNN 等库来采用有效的近似最近邻索引。
- 利用模型并行性和批量检索+生成来提高管道效率。
- 设计模型蒸馏方法,以最小的质量损失压缩检索器-生成器组合。
- 尽可能将检索转移到离线,以避免运行时瓶颈。
LLM 角色:来自大型语言模型的轻量级、优化的解码器补充了检索器速度,以缩短端到端延迟。
痛点八:个性化与落地难
背景:在通用语料库上训练的 RAG 模型缺乏针对特定用户需求、背景和查询生成定制响应的能力。它们无法在没有个人理解的情况下解决模糊的信息请求。
解决方案:
- 设计角色情境记忆来追踪用户资料和对话情境。
- 对与目标用户匹配的标记查询->响应对进行微调 RAG 模型。
- 实施多任务训练,以便根据先前的对话和用户反馈做出反应。
- 利用元学习开发少量个性化技术。
- 设计用户特定的扩展模块来补充检索语料库。
LLM 角色:大型语言模型在小样本学习和记忆上下文方面的能力使得能够使用来自新用户的有限数据进行快速微调以实现个性化。
痛点九:质量评估困难
背景:由于可能存在多种多样的接地响应,使用自动化指标可靠地评估 RAG 模型输出的正确性和质量变得十分困难。人工评估也缺乏可扩展性。这阻碍了迭代改进。
解决方案:
- 生成带有专家依据的注释测试集,以实现标准化评估。
- 根据语义而不是 n-gram 重叠开发专门的指标。
- 通过有针对性的自动评估分别量化相关性、连贯性、一致性等关键轴。
- 利用用户反馈信号作为个性化质量判断来设计在线学习方案。
- 构建以注释而不是数字分数为中心的交互式评估界面。
LLM 角色:少量和零样本能力允许利用语言模型排名和现有测试集作为更昂贵的人工审查之前的初步质量基准。
痛点十:难以保持真实性
背景:由于缺乏明确的机制来验证事实,RAG 模型依赖于预训练中的虚假模式和不准确的检索上下文,从而产生看似合理但却是错误的主张。这损害了可信度。
解决方案:
- 开发辅助头部来直接从检索到的上下文中预测真实性。
- 实现对错误索赔的交互式识别,以便通过在线学习进行改进。
- 结合结构化知识库来针对已知实体和关系进行事实核查。
- 设计信心估计方法来量化确定性并标记未经验证的陈述。
- 实施出处追踪,对来源的责任属性声明进行追踪。
- 尽量减少开放式的生成,以利于从已验证的上下文中提取摘要。
虽然 LLM 在常识推理和事实验证等领域取得了重大进展,但其应用范围仍然有限。因此,将检索与结构化知识库和人机交互相结合对于确保开放域问答场景中的真实性仍然至关重要。除了迄今为止讨论的挑战之外,RAG 模型还面临着严重的安全漏洞,如果不加以解决,恶意行为者可能会利用这些漏洞。
痛点十一:中毒攻击
背景:攻击者可以操纵检索到的文档和上下文,在条件生成中注入有害行为。由于 RAG 模型隐式信任检索,因此此类毒害攻击很容易破坏模型的完整性。
解决方案:
- 在语料库创建期间对知识来源和文档出处进行严格审核。
- 在将文档纳入语料库之前,先用安全分类器对其进行解毒。
- 通过对检索到的上下文进行异常值和 XAB 检测来检测中毒尝试。
- 实现知识来源多样化,以限制对可能受到损害的知识来源的依赖。
痛点12——模型反转
背景:通过分析 RAG 模型输出,攻击者可以从训练语料库和检索存储中部分重建敏感文本,从而违反隐私和保密性的期望。
解决方案:
- 正式的隐私分析来指导语料库的聚合、过滤和拆分。
- 通过在训练期间添加噪声来实现差异隐私技术。
- 限制从敏感检索上下文中生成的内容,以最大限度地减少暴露。
痛点 13 — 后门触发器
背景:复杂的 RAG 模型管道通过由生成器隐式编码的受污染上下文为植入后门提供了新的攻击面。
解决方案:
- 使用包含伪触发器的陷阱上下文进行严格测试以捕获漏洞。
- 采用通用对抗触发检测技术来识别异常。
- 持续监控良性集合上的模型行为以检测偏差。
通过承认并防范新出现的安全威胁,尽管存在对手,我们仍然可以培养对 RAG 技术的信任。
前进的道路
在这次广泛的分析中,我们探讨了困扰最先进 RAG 模型的最大痛点,涵盖了检索质量、安全性、速度、评估难度等挑战。但对于每个问题,我还概述了利用改进的训练目标、模型架构、数据增强技术和优化的推理管道等方法的有希望的解决方案。
此外,我们还讨论了 LLM 领域令人兴奋的进展如何为应对这些挑战提供基础。无监督预训练范式继续增强语义搜索、小样本学习、摘要和一致性跟踪等能力,从而缓解现有 RAG 设计的不足。
然而,要完全解决这些多方面的问题,仅仅改进语言模型是不够的。它需要与信息检索、知识表示、人机交互和机器学习等互补领域进行交叉融合,以创建下一代 RAG 模型。
RAG 研究的跨学科性质使其具有独特的优势,可以推动对话式 AI 的重大进步——将检索、推理和语言理解结合在一起。随着研究人员整合解决方案以解决这里确定的最大障碍,我们离挖掘这项技术的潜力又近了一步。
虽然在实际采用 RAG 之前,仍需做大量工作来降低风险并提高可靠性,但这篇博文概述了可行的研究方向,让我们有理由感到乐观。我们希望该分析能够推动更有影响力的探索,通过获取人类知识来增强稳健且有益的文本生成。