RAG与LLM本身知识存在冲突时,大模型如何抉择?

原文:https://arxiv.org/pdf/2404.10198.pdf
在这里插入图片描述

引言

image.png
在人工智能领域,大型语言模型(LLMs)因其强大的语言理解和生成能力而备受关注。然而,这些模型在处理特定问题时可能会产生错误信息,即所谓的“幻觉”,这种现象在需要精确事实和数据的任务中尤为危险,比如医疗咨询或法律分析。为了解决这一问题,研究者们提出了检索增强生成(RAG)框架,它通过检索相关信息并将其作为上下文提供给LLMs,以提高模型的准确性。但RAG系统在面对检索内容与模型内部知识不一致时的表现如何?本文将深入分析RAG模型的忠实度,探讨在RAG和LLMs内部先验之间存在的冲突。

研究动机

尽管RAG模型在提高LLMs回答质量方面显示出了巨大潜力,但它们在面对与内部知识不一致的检索信息时的行为尚不明确。这种冲突源于两个方面:一是LLMs的内部知识,即模型在训练过程中学到的信息;二是检索到的信息,可能来自最新的数据源或外部数据库。当这两者发生冲突时,模型将如何取舍?是否会倾向于信任其内部知识,还是外部检索到的信息?此外,如果检索到的信息本身存在错误或误导性,模型是否能够识别并纠正这些错误?

  • 在LLMs单独给出错误答案时,提供正确的检索内容是否总能修正错误?
  • 当检索内容不正确时,LLMs是否能识别并忽略错误信息,还是会重复这些错误?
  • 模型的内部先验知识与检索到的信息之间的冲突如何影响其最终回答的准确性?

为了解答这些问题,本研究旨在深入分析RAG模型的忠实度,即在RAG和LLMs内部先验之间存在的冲突。通过系统性的实验和分析,研究者们希望能够量化这种冲突,并探索在何种条件下,LLMs更可能依赖于其内部知识或检索到的信息。这项研究不仅对于理解RAG模型的行为至关重要,而且对于指导未来RAG系统的设计和优化具有重要意义。

方法

在探讨RAG模型的可靠性之前,我们需要了解其工作原理。RAG结合了检索和生成两个步骤,首先通过检索系统找到与问题相关的信息,然后将这些信息作为上下文提供给LLMs,以期望生成更准确的回答。

实验的核心目的是量化并分析LLMs在内部先验知识与检索到的信息不一致时的偏好行为。具体来说,研究者们想要了解:

  1. 在LLMs单独给出错误答案时,提供正确的检索内容是否总能修正错误。
  2. 当检索内容不正确时,LLMs是否会忽略错误信息,或者是否会重复这些错误。

3.1 方法论

3.1.1 数据集构建

研究者们从六个不同领域生成了1,294个问题,包括药物剂量、体育统计、新闻、日期、名称和城市等,以构建一个全面的测试集。

3.1.2 引入扰动

研究者们为了评估大型语言模型(LLMs)在检索增强生成(RAG)框架下如何处理与内部知识不一致的检索信息,特意对参考文档进行了系统性的扰动,包括数值的增减和分类信息的修改。以下是对引入扰动这一实验步骤的更详细解释,扰动的目的是:

  • 模拟错误信息:在现实世界中,检索到的信息可能由于各种原因(如数据输入错误、信息过时等)而不准确或误导性。
  • 测试模型的鲁棒性:通过引入扰动,研究者们可以测试LLMs在面对错误信息时是否能够维持其回答的准确性。
  • 量化内部先验与RAG信息的冲突:通过比较模型在有无扰动的检索信息下的行为,研究者们可以量化模型依赖内部先验知识与检索信息之间的冲突。

扰动的类型,研究者们根据数据集的特点,设计了不同类型的扰动:

  1. 数值扰动:对于涉及数值(如药物剂量、体育统计、新闻数据)的数据集,研究者们通过乘以不同的数值因子(如0.1、0.2、直到10.0)来生成扰动版本。
  2. 年份扰动:对于维基百科的年份数据集,研究者们以20年为步长,对年份进行了从-100年到100年的绝对修改。
  3. 分类信息扰动:对于名称和地点等分类信息,研究者们设计了轻微、显著和滑稽三种扰动级别,以模拟不同程度的错误信息。

基于扰动数据,进行实验步骤如下:

  1. 生成原始问题和答案对:从特定领域的网页内容中提取信息,并使用LLMs生成问题和答案对。
  2. 生成扰动问题和答案对:对每个问题的答案进行系统性的修改,生成多个扰动版本。
  3. 质量控制:通过额外的步骤,确保生成的问题符合特定的格式和标准。
  4. 模型查询:将原始问题和扰动后的问题连同上下文一起提供给LLMs,并记录其回答。
  5. 收集数据:收集LLMs的回答以及输出令牌的对数概率,用于后续分析。
3.1.3 RAG与模型先验的比较

通过比较模型在有无检索内容时的回答,以及回答的token概率,来分析模型对RAG信息的偏好程度。LLMs的内部先验知识是指模型在训练过程中学到的知识,这些知识构成了模型对世界的基本理解。当LLMs独立于外部信息源回答问题时,它们依赖于这些内部知识来生成回答。
RAG是一种框架,它通过检索与问题相关的外部信息,并将其作为上下文提供给LLMs,以期望生成更准确、更贴近当前知识的答复。
研究者们设计了一个实验流程,以量化分析LLMs在内部先验与RAG信息不一致时的偏好行为:

  1. 无上下文查询:首先,研究者们在没有提供任何外部上下文的情况下,让LLMs回答问题,并记录下模型的回答及其令牌概率(即模型对其回答的置信度)。
  2. 有上下文查询:然后,研究者们在提供相关检索内容的情况下,再次让LLMs回答同样的问题,并记录下这次的回答及令牌概率。
  3. 比较回答:研究者们比较两次查询下模型的回答。如果LLMs在有检索内容的情况下给出的回答与无上下文时相同,这表明模型更偏好其内部先验知识。如果回答与检索内容一致,则表明模型更偏好RAG信息。

RAG偏好率是衡量LLMs倾向于使用RAG信息而非其内部先验知识的程度。它是通过计算所有RAG查询中模型偏好RAG信息的比例来得出的。

3.1.4 提示技术的影响

研究者们还探讨了不同的提示技术(如严格遵循、宽松遵循)对模型RAG偏好率的影响。提示技术的选择对于模型如何整合检索到的信息以及如何生成回答起到了关键作用。在论文中,研究者们考察了不同的提示技术对LLMs在RAG设置下的表现有何影响。以下是对这些提示技术影响的详细解释:

  1. 标准提示(Standard Prompt)

标准提示是基于流行的LLM开源库中使用的RAG提示模板。这种模板的设计旨在平衡模型的内部知识和检索到的内容,使模型能够在生成回答时同时考虑这两方面信息。

  1. 严格提示(Strict Prompt)

严格提示的设计目的是强制模型严格遵循检索到的上下文信息。这种提示方式倾向于忽略模型的内部先验知识,更多地依赖于检索到的内容来生成回答。这种方法可能会导致模型更频繁地采用检索信息,即使这些信息与模型的内部知识相悖。

  1. 宽松提示(Loose Prompt)

与严格提示相对,宽松提示鼓励模型在生成回答时,对检索到的上下文信息进行推理和判断。这种提示方式给予模型更多的灵活性,使其能够在内部知识和检索信息之间做出更加合理的权衡。宽松提示下,模型可能会更加谨慎地处理与内部知识不一致的检索信息。

3.2 实验设计

实验的核心是比较模型在有无参考文档的情况下回答问题的能力。研究者们使用了GPT-4和其他两个模型(GPT-3.5和Mistral-7B)来评估RAG的性能。实验步骤如下:

  1. 数据集准备:从六个不同领域收集信息,生成问题和答案对。
  2. 问题生成:使用LLMs根据收集的信息生成问题。
  3. 答案验证:通过额外的质量控制步骤,确保问题和答案符合特定的格式和标准。
  4. 扰动生成:对参考文档进行系统性扰动,创建不同的错误版本。
  5. 模型查询:首先在没有上下文的情况下查询LLMs,记录先验回答和概率。
  6. RAG查询:在包含检索内容的情况下再次查询LLMs,比较回答与先验回答的差异。
  7. 偏好率计算:计算模型对RAG信息的偏好率,并与先验概率和偏离程度进行比较。
  8. 提示技术影响分析:使用不同的提示技术,评估其对模型RAG偏好率的影响。

3.3 实验结果

image.png
研究结果表明,当提供正确的检索信息时,RAG模型能够显著提高与参考答案的一致性(从34.7%提升至94%)。然而,当检索内容与模型内部知识不一致时,模型的行为受到其内部先验知识的影响。具体来说,模型对其初始回答的置信度越高,它就越不可能偏好RAG提供的信息。此外,当RAG值与模型先验值偏离程度越大时,模型越不可能采用RAG值。不同的提示技术也对模型的RAG偏好率有显著影响,严格提示会提高RAG的偏好率,而宽松提示则会降低偏好率。

3.3.1 一致性分析

image.png
实验结果显示,当引入RAG时,模型与参考答案的一致性显著提高,从平均34.7%提升至94%。研究者们通过比较模型在有无扰动的检索信息下的回答,来分析模型对RAG信息的偏好程度。此外,通过改变扰动的幅度,研究者们还能够探索模型偏好的“临界点”,即模型从偏好RAG信息转向偏好内部先验知识的时刻。

引入扰动是评估LLMs在RAG设置下如何处理不一致信息的关键步骤。这一方法不仅揭示了模型可能的局限性,也为改进RAG系统提供了见解。通过这种方法,研究者们能够更好地理解LLMs在面对不完美检索信息时的行为,这对于提高RAG系统在各种应用场景中的可靠性和有效性至关重要。

在实际应用中,了解LLMs如何处理不准确的检索信息对于构建可靠的RAG系统至关重要。例如,在医疗咨询或法律分析等领域,错误的信息可能导致严重后果。通过引入扰动的实验,研究者们可以评估和改进LLMs在面对不完美信息源时的表现,从而提高系统的整体性能和用户信任度。

3.3.2 RAG偏好率与先验概率的关系

研究发现,模型对RAG信息的偏好率与其内部先验概率呈负相关。即,当模型对其初始回答的置信度越高,它就越不可能偏好RAG提供的信息。
当RAG值与模型先验值偏离程度越大时,模型越不可能采用RAG值。实验结果揭示了两个关键发现:

  1. RAG偏好率与先验概率的负相关性:LLMs对RAG信息的偏好率与其在没有上下文时对其回答的置信度呈负相关。这意味着,如果模型对其内部生成的回答非常有信心,它就不太可能改变其答案以适应检索到的信息。
  2. 对检索信息偏离程度的敏感性:当检索到的信息与模型的内部先验知识越来越不一致时,模型越来越倾向于回归到其先验知识。

这项分析对于理解和改进RAG系统至关重要。它表明,尽管RAG可以显著提高LLMs的准确性,但模型的内部先验知识仍然在决策过程中扮演着重要角色。此外,当检索信息不准确或误导性时,模型可能无法正确地纠正错误,这强调了对检索信息质量控制的重要性。

RAG与模型先验的比较分析提供了对LLMs在面对不一致信息时如何做出选择的深入理解。这项研究强调了在设计RAG系统时需要考虑的复杂性,以及在依赖这些系统提供关键信息时需要谨慎的原因。通过理解这些动态,可以更好地指导未来的研究和RAG系统的实际部署。

3.3.3 提示技术的影响

不同的提示技术对模型的RAG偏好率有显著影响。严格提示会提高RAG的偏好率,而宽松提示则会降低偏好率。研究者们通过实验发现,不同的提示技术对模型的RAG偏好率有显著影响。具体来说:

  • 标准提示下,模型会根据检索信息的相关性和准确性,适度地整合这些信息到其回答中。
  • 严格提示导致模型显示出更高的RAG偏好率,表明模型更倾向于采用检索到的信息,即使这可能与它的内部知识不一致。
  • 宽松提示下,模型的RAG偏好率随着先验概率的增加而显著下降,表明模型在面对不确定的检索信息时,更可能依赖其内部知识。

提示技术的选择对LLMs在RAG设置下的行为产生了重要影响。严格提示可能会导致模型过度依赖检索信息,而宽松提示则鼓励模型在内部知识与检索信息间做出更加平衡的判断。这些发现对于设计RAG系统时如何平衡模型的内部知识和检索信息提供了重要的见解。

在实际应用中,选择适当的提示技术对于确保RAG系统提供准确、可靠的回答至关重要。例如,在需要严格数据准确性的领域(如医疗或法律咨询),可能更倾向于使用宽松提示,以减少对可能存在错误的检索信息的依赖。相反,在需要快速整合最新信息的场景中,严格提示可能会更合适。理解不同提示技术的影响,有助于开发者根据具体应用场景定制RAG系统,以达到最佳性能。

创新点

本研究的创新之处在于系统性地分析了RAG模型在面对与内部知识不一致的检索信息时的行为,并量化了模型对RAG信息的偏好程度。此外,研究还探讨了不同提示技术对模型偏好的影响,为RAG系统的设计提供了有价值的见解。

不足与展望

尽管本研究在理解RAG模型的可靠性方面取得了进展,但仍存在一些局限性。首先,研究的领域范围有限,未能涵盖所有可能的应用场景。其次,问题生成过程主要基于事实,未涉及更复杂的逻辑推理。最后,由于API的限制,未能对所有主流模型进行全面评估。
未来的研究可以探索更广泛的领域,开发更复杂的问题生成技术,并尝试获取更多模型的内部概率信息,以进一步深化我们对RAG模型的理解。

结论

image.png
RAG模型作为一种提高LLMs准确性的有效手段,其在实际应用中的表现受到了广泛关注。本研究通过系统性的分析和实验,揭示了RAG模型在面对不一致信息时的内在机制,为未来RAG系统的设计和优化提供了重要的理论和实证支持。随着LLMs在医疗、法律等领域的广泛应用,深入理解RAG模型的可靠性对于确保其输出的准确性和安全性具有重要意义。

本研究揭示了RAG模型在面对不一致信息时的内在机制,为未来RAG系统的设计和优化提供了重要的理论和实证支持。研究结果强调了在设计RAG系统时需要考虑模型内部先验知识与检索信息之间的平衡,以及提示技术的选择对于模型行为的影响。这些发现对于确保RAG系统在实际应用中的准确性和可靠性具有重要意义。然而,研究也存在局限性,如领域范围的限制和问题生成过程的简化,未来研究需要在更广泛的领域和更复杂的问题生成技术上进行探索。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/1201.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

springcloud第4季 springcloud-alibaba之sentinel

一 sentinel介绍 1.1 sentinel作用 sentinel是面向分布式、多语言异构化服务架构的流量治理组件,主要以流量为切入点,从流量路由、流量控制、熔断降级、系统自适应过载保护、热点流量防护等多个维度来帮助开发者保障服务的稳定性。 1.2 组成部分 sen…

基于人工智能的机动车号牌检测与推理系统v1.0

基于人工智能的机动车号牌检测与推理系统v1.0代码重构与实现。 目前整合3中现有算法,并完成阶段性改造,包括【传统方法检测车牌,SVM推理字符】、【YOLO方法检测车牌,SVM推理字符】、【YOLO方法检测车牌,CNN推理字符】&…

FPGA - 基于自定义AXI FULL总线的PS和PL交互

前言 在FPGA - ZYNQ 基于Axi_Lite的PS和PL交互中,介绍了基于基于AXi_Lite的PL和PS交互,接下来构建基于基于Axi_Lite的PS和PL交互。 AXI_GP、AXI_HP和AXI_ACP接口 首先看一下ZYNQ SoC的系统框图,如下图所示。在图中,箭头方向代表…

OpenHarmony 蓝牙相关API用法

介绍 本示例通过使用蓝牙低功耗心率服务,展示蓝牙相关API用法。实现了以下几点功能: 发现具有特定服务的设备。连接到设备。发现服务。发现服务的特征、如何读取给定特征的值、为特征设置通知等。 相关概念 BLE扫描:通过BLE扫描接口实现对…

互联网技术知识点总览——计算机网络知识框架

简介 本文对计算机网络的知识点整体框架进行梳理和分享如下:

【深度学习】写实转漫画——CycleGAN原理解析

1、前言 上一篇,我们讲解了按照指定文本标签生成对应图像的CGAN。本篇文章,我们讲CycleGAN。这个模型可以对图像风格进行转化,并且训练还是在非配对的训练集上面进行的,实用性挺大 原论文:Unpaired Image-to-Image T…

自定义鼠标软件 SteerMouse最新完整激活版

SteerMouse是一款实用的Mac OS X系统辅助工具,可以帮助用户自定义鼠标和触控板的设置,提高使用效率。它提供了多种功能,如自定义按钮、滚轮和光标速度,以及调整灵敏度等,使用户能够根据自己的需求和习惯进行优化。 Ste…

idea 将项目上传到gitee远程仓库具体操作

目录标题 一、新建仓库二、初始化项目三、addcommit四、配置远程仓库五、拉取远程仓库内容六、push代码到仓库七、如果是私有仓库可能会拉取失败(一)需要增加SSH 公钥(二)把远程仓库地址换成ssh的连接八、如果是私有仓库&#xff…

【PCL】教程conditional_euclidean_clustering 对输入的点云数据进行条件欧式聚类分析...

[done, 3349.09 ms : 19553780 points] Available dimensions: x y z intensity 源点云 Statues_4.pcd 不同条件函数output.pcd 【按5切换到强度通道可视化】 终端输出: Loading... >> Done: 1200.46 ms, 19553780 points Downsampling... >> Done: 411…

学习BOM

目录 前言: 1. BOM组成: 1.1Window 对象: 1.1Location 对象: 1.2Navigator 对象: 1.2.1 navigator 对象包含了关于浏览器的信息包括: 1.3History 对象: 1.4常用的history的方法和属性: 1.4Document…

力扣-LCP 02.分式化简

题解: class Solution:def fraction(self, cont: List[int]) -> List[int]:# 初始化分子和分母为 0 和 1n, m 0, 1# 从最后一个元素开始遍历 cont 列表for a in cont[::-1]:# 更新分子和分母,分别为 m 和 (m * a n)n, m m, (m * a n)# 返回最终的…

大型网站系统架构演化实例_9.分布式服务

1. 第十阶段:分布式服务 随着业务拆分越来越小,存储系统越来越庞大,应用系统的整体复杂度呈指数级增加,部署维护越来越困难。由于所有应用要和所有数据库系统连接,在数万台服务器规模的网站中,这些连接的数…

计算机网络 -- 多人聊天室

一 程序介绍和核心功能 这是基于 UDP 协议实现的一个网络程序,主要功能是 构建一个多人聊天室,当某个用户发送消息时,其他用户可以立即收到,形成一个群聊。 这个程序由一台服务器和n个客户端组成,服务器扮演了一个接受…

[Kubernetes] etcd的集群基石作用

文章目录 1. 配置存储2. 数据一致性3. 服务发现与协调4. 集群状态中枢5. 集群稳定性 1. 配置存储 etcd作为一个高度可靠的分布式键值存储系统,存储了Kubernetes集群的完整配置和状态数据。集群的元数据,包括节点信息、命名空间、部署、副本集、服务、持…

5.11 mybatis之returnInstanceForEmptyRow作用

文章目录 1. 当returnInstanceForEmptyRowtrue时2 当returnInstanceForEmptyRowfalse时 mybatis的settings配置中有个属性returnInstanceForEmptyRow,该属性新增于mybatis的3.4.2版本,低于此版本不可用。该属性的作用官方解释为:当返回行的所…

使用Python+opencv实现自动扫雷

大家好,相信许多人很早就知道有扫雷这么一款经典的游戏,更是有不少人曾听说过中国雷圣,也是中国扫雷第一、世界综合排名第二的郭蔚嘉的顶顶大名。扫雷作为一款在Windows9x时代就已经诞生的经典游戏,从过去到现在依然都有着它独特的…

汽车4S集团数据分析

派可数据分析--汽车4S集团。 派可数据汽车4S集团数据分析概述。派可数据汽车4S集团分析主题全面涵盖行业内各板块业务分析,具体包括:保险业务分析、客户关系分析、汽车保养情况分析、售后维修主题分析、整车销售分析、整车库存分析、装具销售分析、配件…

dbearver达梦连接

1、新建达梦驱动 新建驱动管理器 点击“数据库”,选择“驱动管理器” 配置 点击“新建”,出现配置界面 类名:dm.jdbc.driver.DmDriver #固定值,不能修改URL模板:jdbc:dm://{host}/DMHR #配置要连接的数据库信息默认…

【VIC水文模型】准备工作:平台软件安装

VIC水文模型所需平台软件安装 1 Arcgis安装2 Cygwin安装(Linux系统)3 Matlab/R/Fortran的安装Notepad 4 VIC模型程序代码获取参考 由于VIC模型的编程语言为C语言,交互方式为控制台输指令,需要在Linux系统上运行。Windows 上使用 …

Https网站接口被黑被恶意调取

背景: 维护的一个网站最近短信接口被黑,发送大量短信。起初以为是在网站内部操作,优化了发送短信前的操作,如添加图形验证码,屏蔽国外IP等。但后续还存在被调取情况,定位排查到是该接口在外部被恶意调取。 …