【论文阅读】Self-DC:何时检索,何时生成?

对于RAG来说,什么时候利用外部检索,什么时候使用大模型产生已知的知识,以回答当前的问题?这是一个非常有趣的话题。
《Self-DC: When to retrieve and When to generate? Self Divide-and-Conquer for Compositional Unknown Questions》这篇论文正好探讨了这个问题。
文章的解决思路的核心就在于,首先得到大模型对问题的置信度分数,然后可以相应地选择处理问题的方式。将置信度评分分为[0,α-β],(α-β,α+β),[α+β,1]三个范围,其中α和β是超参数。因此,当置信度分数落在左侧([0,α−β])或右侧([α+β,1])时,可以分别调用检索-读取或生成-读取来回答。遇到不确定或令人困惑的问题时,就是(α-β,α+β)这个置信度区间的问题,将问题分解成几个子问题,旨在减少不确定性。然后,将所有子问题的答案结合起来,以提示大模型获得最终答案。
在这里插入图片描述

摘要

文章提出了一种新的方法来处理开放域问答中的组合性未知问题(Compositional Unknown Questions)。这些问题由一些已知或未知的子问题组成,传统的二元分类(已知或未知)方法在处理这类问题时变得次优和低效。为了解决这个问题,作者首次提出了一个组合性未知问题问答数据集(CuQA),并引入了一个自适应的框架,称为自划分-征服(Self-DC),使大型语言模型(LLMs)能够根据需求灵活地调用不同的方法,从而提高性能和效率。实验结果表明,Self-DC在两个数据集(CuQA和FreshQA)上的性能可与几个强基线模型相媲美,甚至更好,同时检索时间大大减少。

解决的主要问题

文章旨在解决以下问题:

  1. 组合性未知问题的识别和处理:这些问题包含多个子问题,有的可以用已知知识回答,有的需要未知知识。
  2. 高效调用不同方法:在不同的子问题上动态地使用生成-然后-读取(generate-then-read)或检索-然后-读取(retrieve-then-read)。
  3. 减少不必要的外部检索:避免对每个组合性未知问题都进行外部检索,以提高效率。

方法

为了解决上述问题,文章提出了以下方法:

  1. 数据集构建(CuQA):创建了一个新的数据集,自动收集基于维基百科的最新事件,以生成组合性未知问题。
  2. 自划分征服框架(Self-DC):提出了一个框架,该框架利用LLMs自身的置信度评分来决定是使用内部知识生成答案还是调用外部检索。框架包括以下几个关键组件:
    • 置信度评分获取:使用verbalize-based或probability-based方法来获取LLMs对问题回答的置信度。
    • 问题分解(decompose):将问题分解为多个子问题,以降低不确定性。
    • 子问题答案组合(combine-sub-qas):将分解得到的子问题的答案组合起来,形成对原始问题的最终答案。
    • 生成-然后-读取(generate-then-read):生成相关知识后,由LLMs回答问题。
    • 检索-然后-读取(retrieve-then-read):检索外部信息后,由LLMs回答问题。
      通过这种方法,Self-DC能够根据问题的复杂性和LLMs的置信度,智能地选择最合适的策略来解决问题,从而在保持高效性的同时提高回答的准确性。
      在这里插入图片描述

文章中提出的Self-DC(Self Divide-and-Conquer)框架的核心在于根据大型语言模型(LLMs)对问题的置信度分数来决定是调用外部检索还是生成已知知识来回答当前问题。具体来说,置信度分数的获取和不确定问题的分解方法如下:

置信度分数的获取

置信度分数通过以下两种方法获得:

  1. verbalize-based (verb): 指导LLMs输出0到100之间的置信度水平,这个置信度水平跟在问题答案后面。然后,将这个置信度水平重新映射到[0, 1]的范围内。
  2. probability-based (prob): 利用概率信息来计算置信度分数。具体来说,首先提示LLMs用几个词生成答案,然后获取生成内容中第i个标记的概率ˆpi。将序列中概率的平均值作为置信度分数。
    在这里插入图片描述

不确定问题的分解

当LLMs对问题的置信度分数处于不确定区间(α-β, α+β)时,采取以下步骤分解问题:

  1. 分解(decompose): 提示LLMs将总体问题系统地分解为几个更小的子问题。这些子问题的答案共同有助于推导出原始问题的解答。
  2. 迭代调用: 对于每个子问题,递归地调用Self-DC框架的主要函数,以获取每个子问题的答案。
  3. 组合子问题的答案(combine-sub-qas): 分解后,将调用主要函数进入下一次迭代,目的是得到每个子问题的答案。然后,将所有子问题的答案结合起来,以获得原始问题的答案,完成迭代。
    通过这种方法,Self-DC框架能够灵活地处理组合性未知问题,这些问题包含已知和未知的子问题。框架根据LLMs自身的置信度评分来动态地调用不同的功能,从而在必要时仅调用组合推理,而不是不加区分地对待所有问题。

终止条件

为了确保迭代不会无限制地进行下去,Self-DC设置了终止条件,包括:

  1. 子问题的数量变为1,即它可能是一个单一的问题。
  2. 迭代深度小于一个预定义的阈值t
    当满足这些条件时,将当前子问题视为未知问题,并调用检索-读取来处理。

实验结果表明,Self-DC在CuQA和FreshQA数据集上的有效性和效率上都优于几个强基线模型,展示了其在解决组合性推理问题方面的潜力。
文章提出的Self-DC方法通过动态地调用内部已知知识或外部未知知识,不仅在性能上可与现有的复杂迭代检索方法相媲美或更好,而且在检索次数上更少,展示了其在不同应用中通过精心选择超参数的潜力。

文章中定义了几个子函数(Sub-Functions)作为关键组件,以处理不同类型的问题并实现Self-DC(Self Divide-and-Conquer)框架的目标。这些子函数包括:

  1. generate-then-read: 这个子函数首先提示大型语言模型(LLMs)生成一个维基百科的背景文档来回答问题,然后要求LLMs通过引用生成的段落来回答问题。
  2. retrieve-then-read: 这个子函数使用检索器首先检索外部知识,然后要求LLMs通过引用检索到的段落来回答问题。
  3. decompose: 这个子函数提示LLMs将一个宽泛的问题系统地分解为几个更小的子问题。这些子问题的答案共同有助于推导出原始问题的解答。
  4. combine-sub-qas: 在分解之后,调用主要函数进入下一次迭代,目的是得到每个子问题的答案。然后,这个子函数将所有子问题的答案结合起来,以得到原始问题的答案,完成迭代。
  5. get_confidence_score: 这个子函数用于获取LLMs对问题回答的置信度分数,可以基于verbalize-based或probability-based方法来实现。

这些子函数共同工作,使Self-DC框架能够灵活地处理开放域问答中的组合性未知问题。框架根据LLMs的置信度分数来决定是直接生成答案、检索相关信息还是分解问题并递归求解。通过这种方式,Self-DC能够在必要时有效地调用组合推理,而不是对所有问题进行统一处理,从而提高了处理复杂问题的效率和性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/3375.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【设计模式】12、observer 观察者模式

文章目录 十二、observer 观察者模式12.1 subscriber12.1.1 broker_test.go12.2.2 broker.go12.2.3 client.go 十二、observer 观察者模式 https://refactoringguru.cn/design-patterns/observer 发布订阅模式, client 都可以向 broker 注册, broker 管理所有 connection, 当…

MySQL尾部空格处理与哪些设置有关? 字符集PAD SPACE与NO PAD属性的区别、MySQL字段尾部有空格为什么也能查询出来?

文章目录 一、问题背景二、字符集PAD_ATTRIBUTE属性(补齐属性)2.2、PAD SPACE与NO PAD的具体意义 三、CHAR类型尾部空格的处理四、其他问题4.1、在PAD SPACE属性时如何实现精准查询 五、总结 以下内容基于MySQL8.0进行讲解 一、问题背景 一次查询中发现…

Threejs加载字体加载FontLoader与TTFLoader

在 Three.js 中使用自定义字体进行 3D 文本渲染。它最初是以 JSON 格式加载字体,现在Three.js已经有一个 TTFLoader 类,可用于加载 TTF 字体文件并将它们用作 TextGeometry ! 1、最初使用FontLoader加载json字体方法如下 const loader new…

NVIDIA CUDA Toolkit

NVIDIA CUDA Toolkit CUDA Toolkit 12.4 Update 1 Downloads | NVIDIA Developer CUDA Toolkit是用于CUDA开发的软件包,主要包括CUDA编译器、运行时库、GPU驱动程序和开发工具等。它允许开发者使用通用编程语言(如C、C)来利用NVIDIA GPU进行…

ZDOCK linux 下载(无需安装)、配置、使用

ZDOCK 下载 使用 1. 下载1)教育邮箱提交申请,会收到下载密码2)选择相应的版本3)解压 2. 使用方法Step 1:将pdb文件处理为ZDOCK可接受格式Step 2:DockingStep 3:创建所有预测结构 1. 下载 1&…

2023平航杯——介质取证部分复现

闻早起的电脑 教徒“闻早起”所使用的笔记本电脑使用何种加密程式? VeraCrypt 教徒“闻早起”所使用的笔记本电脑中安装了一款还原软件,其版本号为?【标准格式:1.2.3.4】 8.71.020.5734 教徒“闻早起”所使用的笔记本电脑中登…

.gitignore语法及配置问题

语法及配置 前言.gitignore语法Git 忽略规则优先级gitignore规则不生效Java项目中常用的.gitignore文件c项目中常用的.gitignore注意事项 前言 在工程中,并不是所有文件都需要保存到版本库中,例如“target”目录及目录下的文件就可以忽略。在Git工作区的…

CSS中的 5 类常见伪元素详解!

你好,我是云桃桃。 一个希望帮助更多朋友快速入门 WEB 前端的程序媛。 云桃桃-大专生,一枚程序媛,感谢关注。回复 “前端基础题”,可免费获得前端基础 100 题汇总,回复 “前端工具”,可获取 Web 开发工具合…

使用python setup.py报错:Upload failed (403) / Upload failed (400)

当前报错的环境 Python 3.9.19twine1.15.0 本地~/.pypirc已正确配置了用户名和密码,用在pypi.org注册: [pypi]username skylerhupassword ${password}执行 python setup.py sdist upload -r pypi 打包上传到仓库报错。 在不久之前同样的环境&#…

2018-2023年上市公司富时罗素ESG评分数据

2018-2023年上市公司富时罗素ESG评分数据 1、时间:2018-2023年 2、来源:整理自WIND 3、指标:证券代码、简称、ESG评分 4、范围:上市公司 5、指标解释: 富时罗素将公司绿色收入的界定和计算作为公司ESG 评级打分结…

macbook m1 nacos集群启动失败报错的解决办法

问题来源:(黑马springcloud学习过程)P29-06-Nacos配置管理-nacos集群搭建 问题描述:详情见nacos.log和start.out WebServerException: Unable to start embedded Tomcat (mach-o file, but is an incompatible architecture (have ‘x86_64’, need ‘a…

记录如何用php将敏感文字内容替换为星号的方法

在PHP中&#xff0c;将敏感文字用星号替换通常涉及到字符串的搜索和替换操作。你可以使用PHP的内置函数str_replace()来实现这个功能。下面是一个基本的示例&#xff0c;展示如何将特定的敏感词替换为星号&#xff1a; <?php // 要检查的原始文本 $text "这个文本包…

什么是DTU和串口服务器的区别

在工业物联网的快速发展中&#xff0c;数据传输单元&#xff08;DTU&#xff09;和串口服务器作为两种关键设备&#xff0c;各自扮演着重要的角色。对于传统行业来说&#xff0c;了解它们的基本概念和区别&#xff0c;有助于更好地选择和应用这些技术&#xff0c;提升生产效率和…

重发布的原理及其应用

重发布的作用&#xff1a; 在一个网络中&#xff0c;若运行多种路由协议或者相同协议的不同进程&#xff1b;因为协议之间不能直接沟通计算&#xff0c;进程之间也是独立进行转发和运算的&#xff0c;所以&#xff0c;需要使用重发布来实现路由的共享。 条件 &#xff1a; 1&am…

js 模拟鼠标移动事件,并监听鼠标移动

代码实现 function simulateClick( x, y) {// 获取目标元素 const element document.querySelector("xxxxx"); // 创建一个鼠标移动事件 var mouseMoveEvent new MouseEvent(mousemove, {screenX: x window.screenX, screenY: y window.screenY, clientX: x,…

Unity 异常 bug

OverlapBoxNonAlloc 使用bug 环境&#xff1a; Unity2021.3.15 在测试场景中使用 OverlapBoxNonAlloc 测试检测没有问题 但是到了真实应用场景&#xff0c;使用 OverlapBoxNonAlloc 检测移动中的小怪 小怪碰撞体为&#xff1a;带有 Rigidbody 的Circle Collider 2D 就会出现异…

Linux网络—DNS域名解析服务

目录 一、BIND域名服务基础 1、DNS系统的作用及类型 DNS系统的作用 DNS系统类型 DNS域名解析工作原理&#xff1a; DNS域名解析查询方式&#xff1a; 2、BIND服务 二、使用BIND构建域名服务器 1、构建主、从域名服务器 1&#xff09;主服务器配置&#xff1a; 2&…

找不到vcruntime140_1.dll,无法继续执行代码的多种解决方法

在启动电脑并着手进行日常工作的过程中&#xff0c;当我尝试运行一款至关重要的软件时&#xff0c;系统突然弹出一个令人困扰的错误提示&#xff1a;“由于找不到vcruntime140_1.dll&#xff0c;无法继续执行代码”&#xff0c;这个错误信息明确指出&#xff0c;由于缺失了vcru…

人大金仓(KingbaseES V9)的Python环境的配置和基本使用

人大金仓(KingbaseES V9)提供了Python的驱动,可以通过Python来访问人大金仓数据库,不过这个配置并不算十分友好。 要使用这个Python驱动,除了要根据架构来下载对应的版本之外,还需要从KingbaseES的部署中拷贝一些lib文件出来。为了简化这些操作,我写一个脚本对自动化整…

【SAP ME 26】SAP ME创建开发组件(DC)mobile

目录 1、说明 2、创建开发组件(DC) 3、相关性 4、公共部分 5、构建