新算法UoT助力AI提问——主动寻求信息,任务完成率提高57.8%

引言:信息寻求在不确定性环境中的重要性

在不确定性环境中,信息寻求的能力至关重要。在许多实际应用中,如医学诊断和故障排除,解决任务所需的信息并非一开始就给出,而需要通过提问后续问题来主动寻求(例如,医生询问患者更多关于症状的细节)。本文介绍了一种算法——不确定性思维(Uncertainty of Thoughts,UoT),该算法通过提问有效问题来增强大语言模型的主动信息寻求能力。UoT结合了不确定性模拟、基于信息增益的奖励以及奖励传播方案,使模型能够在最大化预期奖励的方式下选择最佳问题。在医学诊断、故障排除和“20个问题”游戏的实验中,UoT在多个大语言模型(LLMs)上平均提高了57.8%的任务成功完成率,并提高了效率(即完成任务所需的问题数量)。此基准测试和代码已公开发布。

论文标题:Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in Large Language Models

公众号「夕小瑶科技说」后台回复“UoT”获取论文pdf。

UoT方法概述:结合不确定性模拟、信息增益奖励和奖励传播

1. 不确定性模拟:UoT首先生成多个候选问题,并模拟每个问题可能的未来场景及其发生的可能性,形成树状结构。

2. 信息增益奖励:在模拟中,使用基于信息增益的奖励来评估问题。这种奖励激励模型寻求信息,以最大限度地减少其不知道的信息量。

3. 奖励传播:利用奖励传播方案来计算提出每个候选问题的预期奖励,从而选择具有最高预期奖励的问题作为提问对象。

UoT方法通过模拟可能的未来场景来使模型能够预测不同问题的潜在价值,并通过奖励机制引导模型选择能够最大化信息增益的问题。这种方法不仅提高了任务完成的成功率,还提高了效率,减少了达成目标所需的问题数量。

问题生成与模拟:如何通过LLM生成候选问题并模拟未来情景

1. 问题生成

在信息寻求的任务中,如医疗诊断或故障排除,生成候选问题是关键的第一步。Uncertainty of Thoughts (UoT) 算法通过大语言模型(LLM)生成一系列候选问题。这些问题基于当前的对话历史和可能性集合,即所有可能的选项,例如所有相关的疾病或故障类型。例如,在医疗诊断中,如果患者报告说他们的喉咙红肿,LLM可能会生成如“你有发烧吗?”或“你最近有呕吐吗?”等问题。

2. 多步模拟

生成问题后,UoT 通过模拟未来几个步骤的可能情景来评估每个问题。这个模拟过程形成了一个树状结构,其中包括回答者节点和提问者节点。例如,对于问题“你有呕吐吗?”,模型会模拟肯定和否定的答案,并为每个可能的答案生成新的问题,进一步扩展对话树。这样,模型可以预测每个问题可能带来的信息增益,并选择最有可能减少不确定性的问题。

基于不确定性的奖励计算:信息增益如何衡量问题的有效性

1. 不确定性与信息增益

在UoT算法中,问题的有效性通过信息增益来衡量,即通过提问减少的不确定性。信息增益是信息论中的一个概念,用于衡量观察到某个事件后不确定性的减少量。在上下文中,信息增益用于评估一个问题在接收到答案后能够减少多少关于未知选项的不确定性。

2. 熵与条件熵

UoT使用熵来衡量随机变量的不确定性水平。在对话树的每个节点上,模型计算当前可能性集合的条件熵,这反映了在给定当前对话历史后剩余的不确定性。当接收到一个答案时,这个集合会被进一步限制,从而减少熵。信息增益是在接收到答案后熵的减少量,这个量用于计算每个问题的奖励。

3. 奖励函数

UoT定义了一个奖励函数,将信息增益转化为奖励值,这些值在[0, 1]范围内。奖励值越高,表示问题在减少不确定性方面越有效。这个奖励函数帮助模型选择那些预期能最大化信息增益的问题。

通过奖励传播进行问题选择:如何选择最大化预期奖励的问题

1. 累积奖励

UoT算法通过奖励传播机制来选择问题。首先,它计算每个节点的累积奖励,这是该节点及其所有祖先节点奖励的总和。这个累积奖励反映了从对话开始到当前节点的总奖励。

2. 预期奖励

接下来,模型计算每个节点的预期奖励,这是在该节点及其所有后代节点上预期接收的总奖励值。预期奖励从叶子节点向根节点传播,使得模型能够在根节点处计算出每个候选问题的预期信息增益。

3. 选择最优问题

最后,UoT选择具有最高预期奖励的问题作为下一个提问。这个过程考虑了即时和未来的信息增益,确保选择的问题能够在整个对话过程中最大化信息收集,从而提高任务完成的成功率和效率。

实验设置:评估UoT在不同LLMs上的通用性

1. 模型选择

在实验中,为了评估UoT算法在不同大语言模型上的通用性,研究者选择了多种LLMs进行测试。这些模型包括Llama 2-70B-Chat、Cohere、PaLM 2、Claude 2、GPT-3.5-turbo和GPT-4。这些模型的选择涵盖了开源和商业模型,旨在验证UoT方法的广泛适用性。

2. 基线方法

实验中使用了多种基线方法进行比较,包括直接提示(Direct Prompting)在开放集(DPOS)和封闭集(DPCS)设置中的表现,规划提示(Planning Prompting,PP)、Chain-of-Thought(CoT)、CoT-SC(Self-Consistency)、Reflexion和Tree-of-Thoughts(ToT)在两种设置下的表现。这些基线方法代表了目前LLMs在信息获取和规划能力方面的不同方法。

3. 场景和数据集

实验设计了三种场景:20 Questions游戏、简化的医疗诊断任务和基本的故障排除任务。这些任务旨在衡量模型提问有效性的能力。例如,20 Questions游戏要求模型提出“是”或“否”的问题来确定一个未知的对象或实体。医疗诊断和故障排除任务则模拟现实世界中的交互,如医生询问病人症状以确定诊断,或技术支持人员与客户互动以识别和解决问题。

实验结果与分析:UoT在多个任务中提高成功率和效率的表现

1. 20 Questions

在20 Questions游戏中,所有类型的LLMs配备UoT后,在DPOS和DPCS设置中均表现优于基线方法。特别是在GPT-4上,UoT实现了最高的成功率,平均比第二好的Reflexion高出7.5%。此外,UoT在成功案例中的平均对话轮数也比Reflexion少2轮,显示出更高的效率。

2. 医疗诊断

在简化的医疗诊断任务中,UoT在DX数据集上配备GPT-4时,成功率达到了97.0%。在MedDG数据集上,UoT在PaLM 2和GPT-4上的成功率分别为80.7%和88.0%。UoT显著减少了对话长度,GPT-4在DX数据集上的平均MSC为2.0,低于DPOS和DPCS方法的3.5和3.0。

3. 故障排除

在故障排除任务中,UoT同样实现了最高的成功率(SR)为67.3%,以及最低的成功案例中的平均对话轮数(MSC)为7.8。当配备UoT时,GPT-3.5在封闭集设置中的成功率从22.6%提高到67.1%。

4. 总体表现

平均而言,UoT在5个数据集和6种不同LLMs上,与DPCS相比,成功率提高了57.8%。

  • 特别是对于Cohere,成功率提高了102.8%。

  • UoT的表现也超过了CoT-SC 38.4%和Reflexion 31.2%。即使与使用树结构方法的Original-ToT和Adapted-ToT相比,UoT仍然显示出更优的性能,分别提高了33.7%和17.7%。

  • 为提高效率而设计的Pruned UoT方法,也比Adapted-ToT高出10.4%。

UoT的优势和效率:与现有方法相比UoT的改进

1. 优势分析

UoT的主要优势在于其能够通过模拟可能的未来场景、基于不确定性的奖励和奖励传播机制,有效地引导模型减少不确定性并提出最佳问题。这种方法与现有的基于直接提示或仅基于给定信息进行推理或规划的方法不同,UoT通过积极寻求信息来提高模型的性能。

2. 效率提升

UoT不仅提高了成功率,还提高了效率,即完成任务所需的问题数量。例如,在20 Questions游戏中,UoT在成功案例中的平均对话轮数比Reflexion少,而在医疗诊断任务中,UoT在GPT-4上的平均MSC远低于其他方法。这表明UoT能够更快地收敛到正确的答案,减少了资源的消耗

3. 与现有方法的比较

UoT与现有方法相比,在多个任务中都显示出显著的性能提升。例如:

  • 在20 Questions游戏中,UoT比Reflexion平均高出7.5%的成功率;

  • 在医疗诊断任务中,UoT的成功率远高于DPOS和DPCS方法;

  • 在故障排除任务中,UoT也实现了最高的成功率和最低的对话轮数。

这些结果表明,UoT在处理不确定性和模糊性高的任务中,比现有方法更有效。

开放集和修剪UoT的性能:在开放集场景中UoT的适用性

在开放集场景中,问题提问者(Questioner)并不初始就知晓所有可能的选项集合(即可能性空间Ω),这与封闭集场景形成对比。在这种情况下,UoT需要适应性地初始化并根据当前的交互历史不断调整可能性集合Ωi。这种开放集的适用性是UoT的一项重要扩展,因为它更接近现实世界中的不确定性和信息寻求场景。

为了适应开放集场景,UoT采用了一种特定的方法,即在交互开始时提示问题提问者初始化可能性空间Ω,然后根据交互历史hi重新初始化可能性集合Ωi。在此之后,UoT的其他部分保持不变,继续通过模拟、基于不确定性的奖励和奖励传播机制来选择最优问题。

此外,UoT还引入了修剪机制,类似于Beam Search,在构建模拟树时提高效率,通过限制探索树上的路径数量来减少计算量。这种修剪方法被称为修剪UoT,它在实验中表现出了提高效率的潜力,与Adapted-ToT相比,修剪UoT在成功率上提高了10.4%。

在开放集场景下的性能评估中,UoT相比于直接提示(DPOS)方法,在20 Questions、Medical Diagnosis和Troubleshooting任务中平均提高了17.4%的成功率,这进一步证明了UoT在开放集场景中的有效性和实用性。

讨论与未来工作:UoT的局限性和未来研究方向

尽管UoT在多个数据集和任务中表现出色,但它仍然存在一些局限性和未来的研究方向。

  • 首先,UoT目前主要关注于封闭集场景,即问题提问者初始就知晓所有可能的选项集合。然而,现实世界中的问题往往更加开放和不确定,这要求UoT能够更好地适应开放集场景。

  • 其次,UoT在处理答案时假设答案可以分为少数几个语义上不同的类别,如肯定和否定回答。这种假设简化了不确定性度量的计算,但在现实世界中,答案可能更加复杂和多样化。因此,未来的工作可以探索如何将UoT扩展到更广泛的答案选择中。

  • 此外,UoT的模拟步骤目前被限制在三步以内,这是为了在效率和效果之间取得平衡。未来的研究可以探索更深层次的规划和模拟,以进一步提高UoT的性能。

  • 最后,UoT目前在简化的场景中进行评估,如20 Questions游戏和简化的医疗诊断任务。更现实的场景,如完全开放式的医疗诊断或故障排除任务,可能会带来额外的挑战,例如答案可能无法完全排除某些可能性,或者问题和答案可能完全开放式。这些挑战需要未来的研究来解决。

总结:UoT在主动信息寻求任务中的新基准和潜力

本文介绍的Uncertainty of Thoughts (UoT)算法,通过树状模拟、基于不确定性的奖励和奖励传播机制,显著提高了大型语言模型在需要主动信息寻求的任务中的性能。在五个数据集上的实验结果表明,UoT平均提高了57.8%的成功率,为评估大型语言模型在主动信息寻求任务中的能力树立了新的基准。

UoT的有效性不仅体现在封闭集场景中,其对开放集场景的适应性和修剪机制的引入,进一步证明了其在现实世界中应用的潜力。未来的研究将需要解决UoT在处理更复杂答案和更现实场景中的局限性,以及探索更深层次的规划和模拟,以进一步提升其性能和实用性。

公众号「夕小瑶科技说」后台回复“UoT”获取论文pdf。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/692014.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用AndroidStudio调试Framework

1.前言 最近在工作过程中,涉及到FW的一些修改,比如PhoneWindowManager,只能通过加日志看打印的方式查看一些内容,比较低效,所以想了解一下FW的调试方式,后来发现AS就可以调试FW.我平时都是在Docker服务器编…

网站管理新利器:免费在线生成 robots.txt 文件!

🤖 探索网站管理新利器:免费在线生成 robots.txt 文件! 你是否曾为搜索引擎爬虫而烦恼?现在,我们推出全新的在线 robots.txt 文件生成工具,让你轻松管理网站爬虫访问权限,提升网站的可搜索性和…

Redis(十四)双写一致性工程案例

文章目录 问题概述canal功能安装部署mysql配置canal服务端canal客户端(Java程序) 问题概述 canal https://github.com/alibaba/canal 功能 数据库镜像数据库实时备份索引构建和实时维护(拆分异构索引、倒排索引等)业务 cache 刷新带业务逻辑的增量数据…

OpenCV 4基础篇| 色彩空间类型转换

目录 1. 色彩空间基础2. 色彩空间类型2.1 GRAY 色彩空间2.2 BGR 色彩空间2.3 CMY(K) 色彩空间2.4 XYZ 色彩空间2.5 HSV 色彩空间2.6 HLS 色彩空间2.7 CIEL*a*b* 色彩空间2.8 CIEL*u*v* 色彩空间2.9 YCrCb 色彩空间 3. 类型转换函数3.1 cv2.cvtColor3.2 cv2.inRange 1. 色彩空间…

安达发|APS生产排程软件6大核心技术

APS生产排程软件是一种先进的生产计划和调度工具,它通过整合企业内外部资源,实现生产计划的优化和生产过程的自动化控制。APS生产排程软件的核心技术包括产品工艺数据管理(PDM)、客户需求管理(CRM)、高级计…

生成自己的rola模型简单版四步完成

工具准备:秋叶整合包,lora 训练器 秋叶整合包地址:https://pan.quark.cn/s/2c832199b09b#/list/share lora训练器地址:lora训练器_免费高速下载|百度网盘-分享无限制 (baidu.com) 第一章 图像预处理 根据自己需要准备一个图片…

软件工具安装遇到bug、报错不知道怎么解决?看这里!

前言 本文举例了几个常见的软件工具使用问题,文末会提供一些我自己整理和使用的工具资料 。 "在追逐零 Bug 的路上,我们不断学习、改进,更加坚定自己的技术信念。让我们相信,每一个 Bug 都是我们成长的机会。" 一、VM…

LeetCode 热题 100 | 二叉树(中下)

目录 1 基础知识 1.1 队列 queue 1.2 栈 stack 1.3 常用数据结构 1.4 排序 2 98. 验证二叉搜索树 3 230. 二叉搜索树中第 K 小的元素 4 199. 二叉树的右视图 菜鸟做题忘了第几周&#xff0c;躺平过了个年TT 1 基础知识 1.1 队列 queue queue<type> q…

【办公类-16-07-04】合并版“2023下学期 中班户外游戏(有场地和无场地版,一周一次)”(python 排班表系列)

背景需求&#xff1a; 把 无场地版&#xff08;贴周计划用&#xff09; 和 有场地版&#xff08;贴教室墙壁上用&#xff09; 组合在一起&#xff0c;一个代码生成两套。 【办公类-16-07-02】“2023下学期 周计划-户外游戏 每班1周五天相同场地&#xff0c;6周一次循环”&…

论文阅读——ONE-PEACE

ONE-PEACE: EXPLORING ONE GENERAL REPRESENTATION MODEL TOWARD UNLIMITED MODALITIES 适应不同模态并且支持多模态交互。 预训练任务不仅能提取单模态信息&#xff0c;还能模态间对齐。 预训练任务通用且直接&#xff0c;使得他们可以应用到不同模态。 各个模态独立编码&am…

Maxwell安装部署

1 Maxwell输出格式 database&#xff1a;变更数据所属的数据库table&#xff1a;变更数据所属的表type&#xff1a;数据变更类型ts&#xff1a;数据变更发生的时间xid&#xff1a;事务idcommit&#xff1a;事务提交标志&#xff0c;可用于重新组装事务data&#xff1a;对于inse…

无人机数据链技术,无人机数据链路系统技术详解,无人机数传技术

早期的无人机更多的为军事应用服务&#xff0c;如军事任务侦查等&#xff0c;随着技术和社会的发展&#xff0c;工业级无人机和民用无人机得到快速的发展&#xff0c;工业级无人机用于农业植保、地理测绘、电力巡检、救灾援助等&#xff1b;民用无人机用于航拍、物流等等领域。…

美国Mercari煤炉注册教程,还不快来Get!

想要掘金全球电商市场&#xff0c;美国的Mercari平台绝对值得关注。Mercari&#xff0c;也被称作煤炉&#xff0c;类似于我们国内的闲鱼二手交易平台&#xff0c;它同时拥有美国和日本两个市场。其中&#xff0c;美国市场的消费需求稳定且持续增长&#xff0c;成为了许多跨境电…

医卫医学试题及答案,分享几个实用搜题和学习工具 #笔记#笔记#微信

收录了大量考试类型的题库&#xff0c;大到考公&#xff0c;小到知识竞赛&#xff0c;题库资源算是比较丰富的了。操作起来也不难&#xff0c;我们只需输入题目内容&#xff0c;即可快速搜索出答案&#xff0c;而且它在给出答案的同时还会附带解析。最重要的是&#xff0c;搜题…

​LeetCode解法汇总105. 从前序与中序遍历序列构造二叉树

目录链接&#xff1a; 力扣编程题-解法汇总_分享记录-CSDN博客 GitHub同步刷题项目&#xff1a; https://github.com/September26/java-algorithms 原题链接&#xff1a;力扣&#xff08;LeetCode&#xff09;官网 - 全球极客挚爱的技术成长平台 描述&#xff1a; 给定两个整…

2024年【N1叉车司机】考试题及N1叉车司机新版试题

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 N1叉车司机考试题是安全生产模拟考试一点通总题库中生成的一套N1叉车司机新版试题&#xff0c;安全生产模拟考试一点通上N1叉车司机作业手机同步练习。2024年【N1叉车司机】考试题及N1叉车司机新版试题 1、【多选题】…

【Linux系统化学习】动静态库 | 软硬链接

目录 硬链接和软链接 硬链接 软链接 动态库和静态库 静态库 静态库的生成 静态库的使用 将库打包和使用 动态库 动态库的生成 动态库的使用 库搜索路径 硬链接和软链接 硬链接 上篇文章我们说到真正找到磁盘上的文件并不是文件名&#xff0c;而是inode。其实在…

Day 6.文件属性和权限的获取

时间获取 1.time time_t time(time_t *tloc); 功能&#xff1a; 返回1907-1-1到现在的秒数&#xff08;格林威治时间&#xff09; 参数&#xff1a; tloc&#xff1a;存放秒数空间的首地址 返回值&#xff1a; 成功返回秒数 失败返回-1 2.localtime struct tm *loca…

Python入门:常用模块—logging模块

logging日志的分级&#xff1a; debug(),info(),warning(),error(),critical() 5个级别 最简单用法 1 2 3 4 import logging logging.warning("user [mike] attempted wrong password more than 3 times") logging.critical("server is down") 输出&…

普中51单片机学习(二)

51单片机介绍 所需基础知识 基础数模电知识&#xff0c;简单的C语言。 PS&#xff1a;如果有不懂的直接通义千问。。。 什么是单片机 在一片集成电路芯片上集成微处理器、存储器、I/O接口电路&#xff0c;从而构成了单芯片微型计算机&#xff0c;即单片机。 学习方法 多实…