引言:信息寻求在不确定性环境中的重要性
在不确定性环境中,信息寻求的能力至关重要。在许多实际应用中,如医学诊断和故障排除,解决任务所需的信息并非一开始就给出,而需要通过提问后续问题来主动寻求(例如,医生询问患者更多关于症状的细节)。本文介绍了一种算法——不确定性思维(Uncertainty of Thoughts,UoT),该算法通过提问有效问题来增强大语言模型的主动信息寻求能力。UoT结合了不确定性模拟、基于信息增益的奖励以及奖励传播方案,使模型能够在最大化预期奖励的方式下选择最佳问题。在医学诊断、故障排除和“20个问题”游戏的实验中,UoT在多个大语言模型(LLMs)上平均提高了57.8%的任务成功完成率,并提高了效率(即完成任务所需的问题数量)。此基准测试和代码已公开发布。
论文标题:Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in Large Language Models
公众号「夕小瑶科技说」后台回复“UoT”获取论文pdf。
UoT方法概述:结合不确定性模拟、信息增益奖励和奖励传播
1. 不确定性模拟:UoT首先生成多个候选问题,并模拟每个问题可能的未来场景及其发生的可能性,形成树状结构。
2. 信息增益奖励:在模拟中,使用基于信息增益的奖励来评估问题。这种奖励激励模型寻求信息,以最大限度地减少其不知道的信息量。
3. 奖励传播:利用奖励传播方案来计算提出每个候选问题的预期奖励,从而选择具有最高预期奖励的问题作为提问对象。
UoT方法通过模拟可能的未来场景来使模型能够预测不同问题的潜在价值,并通过奖励机制引导模型选择能够最大化信息增益的问题。这种方法不仅提高了任务完成的成功率,还提高了效率,减少了达成目标所需的问题数量。
问题生成与模拟:如何通过LLM生成候选问题并模拟未来情景
1. 问题生成
在信息寻求的任务中,如医疗诊断或故障排除,生成候选问题是关键的第一步。Uncertainty of Thoughts (UoT) 算法通过大语言模型(LLM)生成一系列候选问题。这些问题基于当前的对话历史和可能性集合,即所有可能的选项,例如所有相关的疾病或故障类型。例如,在医疗诊断中,如果患者报告说他们的喉咙红肿,LLM可能会生成如“你有发烧吗?”或“你最近有呕吐吗?”等问题。
2. 多步模拟
生成问题后,UoT 通过模拟未来几个步骤的可能情景来评估每个问题。这个模拟过程形成了一个树状结构,其中包括回答者节点和提问者节点。例如,对于问题“你有呕吐吗?”,模型会模拟肯定和否定的答案,并为每个可能的答案生成新的问题,进一步扩展对话树。这样,模型可以预测每个问题可能带来的信息增益,并选择最有可能减少不确定性的问题。
基于不确定性的奖励计算:信息增益如何衡量问题的有效性
1. 不确定性与信息增益
在UoT算法中,问题的有效性通过信息增益来衡量,即通过提问减少的不确定性。信息增益是信息论中的一个概念,用于衡量观察到某个事件后不确定性的减少量。在上下文中,信息增益用于评估一个问题在接收到答案后能够减少多少关于未知选项的不确定性。
2. 熵与条件熵
UoT使用熵来衡量随机变量的不确定性水平。在对话树的每个节点上,模型计算当前可能性集合的条件熵,这反映了在给定当前对话历史后剩余的不确定性。当接收到一个答案时,这个集合会被进一步限制,从而减少熵。信息增益是在接收到答案后熵的减少量,这个量用于计算每个问题的奖励。
3. 奖励函数
UoT定义了一个奖励函数,将信息增益转化为奖励值,这些值在[0, 1]范围内。奖励值越高,表示问题在减少不确定性方面越有效。这个奖励函数帮助模型选择那些预期能最大化信息增益的问题。
通过奖励传播进行问题选择:如何选择最大化预期奖励的问题
1. 累积奖励
UoT算法通过奖励传播机制来选择问题。首先,它计算每个节点的累积奖励,这是该节点及其所有祖先节点奖励的总和。这个累积奖励反映了从对话开始到当前节点的总奖励。
2. 预期奖励
接下来,模型计算每个节点的预期奖励,这是在该节点及其所有后代节点上预期接收的总奖励值。预期奖励从叶子节点向根节点传播,使得模型能够在根节点处计算出每个候选问题的预期信息增益。
3. 选择最优问题
最后,UoT选择具有最高预期奖励的问题作为下一个提问。这个过程考虑了即时和未来的信息增益,确保选择的问题能够在整个对话过程中最大化信息收集,从而提高任务完成的成功率和效率。
实验设置:评估UoT在不同LLMs上的通用性
1. 模型选择
在实验中,为了评估UoT算法在不同大语言模型上的通用性,研究者选择了多种LLMs进行测试。这些模型包括Llama 2-70B-Chat、Cohere、PaLM 2、Claude 2、GPT-3.5-turbo和GPT-4。这些模型的选择涵盖了开源和商业模型,旨在验证UoT方法的广泛适用性。
2. 基线方法
实验中使用了多种基线方法进行比较,包括直接提示(Direct Prompting)在开放集(DPOS)和封闭集(DPCS)设置中的表现,规划提示(Planning Prompting,PP)、Chain-of-Thought(CoT)、CoT-SC(Self-Consistency)、Reflexion和Tree-of-Thoughts(ToT)在两种设置下的表现。这些基线方法代表了目前LLMs在信息获取和规划能力方面的不同方法。
3. 场景和数据集
实验设计了三种场景:20 Questions游戏、简化的医疗诊断任务和基本的故障排除任务。这些任务旨在衡量模型提问有效性的能力。例如,20 Questions游戏要求模型提出“是”或“否”的问题来确定一个未知的对象或实体。医疗诊断和故障排除任务则模拟现实世界中的交互,如医生询问病人症状以确定诊断,或技术支持人员与客户互动以识别和解决问题。
实验结果与分析:UoT在多个任务中提高成功率和效率的表现
1. 20 Questions
在20 Questions游戏中,所有类型的LLMs配备UoT后,在DPOS和DPCS设置中均表现优于基线方法。特别是在GPT-4上,UoT实现了最高的成功率,平均比第二好的Reflexion高出7.5%。此外,UoT在成功案例中的平均对话轮数也比Reflexion少2轮,显示出更高的效率。
2. 医疗诊断
在简化的医疗诊断任务中,UoT在DX数据集上配备GPT-4时,成功率达到了97.0%。在MedDG数据集上,UoT在PaLM 2和GPT-4上的成功率分别为80.7%和88.0%。UoT显著减少了对话长度,GPT-4在DX数据集上的平均MSC为2.0,低于DPOS和DPCS方法的3.5和3.0。
3. 故障排除
在故障排除任务中,UoT同样实现了最高的成功率(SR)为67.3%,以及最低的成功案例中的平均对话轮数(MSC)为7.8。当配备UoT时,GPT-3.5在封闭集设置中的成功率从22.6%提高到67.1%。
4. 总体表现
平均而言,UoT在5个数据集和6种不同LLMs上,与DPCS相比,成功率提高了57.8%。
-
特别是对于Cohere,成功率提高了102.8%。
-
UoT的表现也超过了CoT-SC 38.4%和Reflexion 31.2%。即使与使用树结构方法的Original-ToT和Adapted-ToT相比,UoT仍然显示出更优的性能,分别提高了33.7%和17.7%。
-
为提高效率而设计的Pruned UoT方法,也比Adapted-ToT高出10.4%。
UoT的优势和效率:与现有方法相比UoT的改进
1. 优势分析
UoT的主要优势在于其能够通过模拟可能的未来场景、基于不确定性的奖励和奖励传播机制,有效地引导模型减少不确定性并提出最佳问题。这种方法与现有的基于直接提示或仅基于给定信息进行推理或规划的方法不同,UoT通过积极寻求信息来提高模型的性能。
2. 效率提升
UoT不仅提高了成功率,还提高了效率,即完成任务所需的问题数量。例如,在20 Questions游戏中,UoT在成功案例中的平均对话轮数比Reflexion少,而在医疗诊断任务中,UoT在GPT-4上的平均MSC远低于其他方法。这表明UoT能够更快地收敛到正确的答案,减少了资源的消耗。
3. 与现有方法的比较
UoT与现有方法相比,在多个任务中都显示出显著的性能提升。例如:
-
在20 Questions游戏中,UoT比Reflexion平均高出7.5%的成功率;
-
在医疗诊断任务中,UoT的成功率远高于DPOS和DPCS方法;
-
在故障排除任务中,UoT也实现了最高的成功率和最低的对话轮数。
这些结果表明,UoT在处理不确定性和模糊性高的任务中,比现有方法更有效。
开放集和修剪UoT的性能:在开放集场景中UoT的适用性
在开放集场景中,问题提问者(Questioner)并不初始就知晓所有可能的选项集合(即可能性空间Ω),这与封闭集场景形成对比。在这种情况下,UoT需要适应性地初始化并根据当前的交互历史不断调整可能性集合Ωi。这种开放集的适用性是UoT的一项重要扩展,因为它更接近现实世界中的不确定性和信息寻求场景。
为了适应开放集场景,UoT采用了一种特定的方法,即在交互开始时提示问题提问者初始化可能性空间Ω,然后根据交互历史hi重新初始化可能性集合Ωi。在此之后,UoT的其他部分保持不变,继续通过模拟、基于不确定性的奖励和奖励传播机制来选择最优问题。
此外,UoT还引入了修剪机制,类似于Beam Search,在构建模拟树时提高效率,通过限制探索树上的路径数量来减少计算量。这种修剪方法被称为修剪UoT,它在实验中表现出了提高效率的潜力,与Adapted-ToT相比,修剪UoT在成功率上提高了10.4%。
在开放集场景下的性能评估中,UoT相比于直接提示(DPOS)方法,在20 Questions、Medical Diagnosis和Troubleshooting任务中平均提高了17.4%的成功率,这进一步证明了UoT在开放集场景中的有效性和实用性。
讨论与未来工作:UoT的局限性和未来研究方向
尽管UoT在多个数据集和任务中表现出色,但它仍然存在一些局限性和未来的研究方向。
-
首先,UoT目前主要关注于封闭集场景,即问题提问者初始就知晓所有可能的选项集合。然而,现实世界中的问题往往更加开放和不确定,这要求UoT能够更好地适应开放集场景。
-
其次,UoT在处理答案时假设答案可以分为少数几个语义上不同的类别,如肯定和否定回答。这种假设简化了不确定性度量的计算,但在现实世界中,答案可能更加复杂和多样化。因此,未来的工作可以探索如何将UoT扩展到更广泛的答案选择中。
-
此外,UoT的模拟步骤目前被限制在三步以内,这是为了在效率和效果之间取得平衡。未来的研究可以探索更深层次的规划和模拟,以进一步提高UoT的性能。
-
最后,UoT目前在简化的场景中进行评估,如20 Questions游戏和简化的医疗诊断任务。更现实的场景,如完全开放式的医疗诊断或故障排除任务,可能会带来额外的挑战,例如答案可能无法完全排除某些可能性,或者问题和答案可能完全开放式。这些挑战需要未来的研究来解决。
总结:UoT在主动信息寻求任务中的新基准和潜力
本文介绍的Uncertainty of Thoughts (UoT)算法,通过树状模拟、基于不确定性的奖励和奖励传播机制,显著提高了大型语言模型在需要主动信息寻求的任务中的性能。在五个数据集上的实验结果表明,UoT平均提高了57.8%的成功率,为评估大型语言模型在主动信息寻求任务中的能力树立了新的基准。
UoT的有效性不仅体现在封闭集场景中,其对开放集场景的适应性和修剪机制的引入,进一步证明了其在现实世界中应用的潜力。未来的研究将需要解决UoT在处理更复杂答案和更现实场景中的局限性,以及探索更深层次的规划和模拟,以进一步提升其性能和实用性。
公众号「夕小瑶科技说」后台回复“UoT”获取论文pdf。