对于RAG来说,什么时候利用外部检索,什么时候使用大模型产生已知的知识,以回答当前的问题?这是一个非常有趣的话题。
《Self-DC: When to retrieve and When to generate? Self Divide-and-Conquer for Compositional Unknown Questions》这篇论文正好探讨了这个问题。
文章的解决思路的核心就在于,首先得到大模型对问题的置信度分数,然后可以相应地选择处理问题的方式。将置信度评分分为[0,α-β],(α-β,α+β),[α+β,1]三个范围,其中α和β是超参数。因此,当置信度分数落在左侧([0,α−β])或右侧([α+β,1])时,可以分别调用检索-读取或生成-读取来回答。遇到不确定或令人困惑的问题时,就是(α-β,α+β)这个置信度区间的问题,将问题分解成几个子问题,旨在减少不确定性。然后,将所有子问题的答案结合起来,以提示大模型获得最终答案。
摘要
文章提出了一种新的方法来处理开放域问答中的组合性未知问题(Compositional Unknown Questions)。这些问题由一些已知或未知的子问题组成,传统的二元分类(已知或未知)方法在处理这类问题时变得次优和低效。为了解决这个问题,作者首次提出了一个组合性未知问题问答数据集(CuQA),并引入了一个自适应的框架,称为自划分-征服(Self-DC),使大型语言模型(LLMs)能够根据需求灵活地调用不同的方法,从而提高性能和效率。实验结果表明,Self-DC在两个数据集(CuQA和FreshQA)上的性能可与几个强基线模型相媲美,甚至更好,同时检索时间大大减少。
解决的主要问题
文章旨在解决以下问题:
- 组合性未知问题的识别和处理:这些问题包含多个子问题,有的可以用已知知识回答,有的需要未知知识。
- 高效调用不同方法:在不同的子问题上动态地使用生成-然后-读取(generate-then-read)或检索-然后-读取(retrieve-then-read)。
- 减少不必要的外部检索:避免对每个组合性未知问题都进行外部检索,以提高效率。
方法
为了解决上述问题,文章提出了以下方法:
- 数据集构建(CuQA):创建了一个新的数据集,自动收集基于维基百科的最新事件,以生成组合性未知问题。
- 自划分征服框架(Self-DC):提出了一个框架,该框架利用LLMs自身的置信度评分来决定是使用内部知识生成答案还是调用外部检索。框架包括以下几个关键组件:
- 置信度评分获取:使用verbalize-based或probability-based方法来获取LLMs对问题回答的置信度。
- 问题分解(decompose):将问题分解为多个子问题,以降低不确定性。
- 子问题答案组合(combine-sub-qas):将分解得到的子问题的答案组合起来,形成对原始问题的最终答案。
- 生成-然后-读取(generate-then-read):生成相关知识后,由LLMs回答问题。
- 检索-然后-读取(retrieve-then-read):检索外部信息后,由LLMs回答问题。
通过这种方法,Self-DC能够根据问题的复杂性和LLMs的置信度,智能地选择最合适的策略来解决问题,从而在保持高效性的同时提高回答的准确性。
文章中提出的Self-DC(Self Divide-and-Conquer)框架的核心在于根据大型语言模型(LLMs)对问题的置信度分数来决定是调用外部检索还是生成已知知识来回答当前问题。具体来说,置信度分数的获取和不确定问题的分解方法如下:
置信度分数的获取
置信度分数通过以下两种方法获得:
- verbalize-based (verb): 指导LLMs输出0到100之间的置信度水平,这个置信度水平跟在问题答案后面。然后,将这个置信度水平重新映射到[0, 1]的范围内。
- probability-based (prob): 利用概率信息来计算置信度分数。具体来说,首先提示LLMs用几个词生成答案,然后获取生成内容中第i个标记的概率
ˆpi
。将序列中概率的平均值作为置信度分数。
不确定问题的分解
当LLMs对问题的置信度分数处于不确定区间(α-β, α+β)时,采取以下步骤分解问题:
- 分解(decompose): 提示LLMs将总体问题系统地分解为几个更小的子问题。这些子问题的答案共同有助于推导出原始问题的解答。
- 迭代调用: 对于每个子问题,递归地调用Self-DC框架的主要函数,以获取每个子问题的答案。
- 组合子问题的答案(combine-sub-qas): 分解后,将调用主要函数进入下一次迭代,目的是得到每个子问题的答案。然后,将所有子问题的答案结合起来,以获得原始问题的答案,完成迭代。
通过这种方法,Self-DC框架能够灵活地处理组合性未知问题,这些问题包含已知和未知的子问题。框架根据LLMs自身的置信度评分来动态地调用不同的功能,从而在必要时仅调用组合推理,而不是不加区分地对待所有问题。
终止条件
为了确保迭代不会无限制地进行下去,Self-DC设置了终止条件,包括:
- 子问题的数量变为1,即它可能是一个单一的问题。
- 迭代深度小于一个预定义的阈值
t
。
当满足这些条件时,将当前子问题视为未知问题,并调用检索-读取来处理。
实验结果表明,Self-DC在CuQA和FreshQA数据集上的有效性和效率上都优于几个强基线模型,展示了其在解决组合性推理问题方面的潜力。
文章提出的Self-DC方法通过动态地调用内部已知知识或外部未知知识,不仅在性能上可与现有的复杂迭代检索方法相媲美或更好,而且在检索次数上更少,展示了其在不同应用中通过精心选择超参数的潜力。
文章中定义了几个子函数(Sub-Functions)作为关键组件,以处理不同类型的问题并实现Self-DC(Self Divide-and-Conquer)框架的目标。这些子函数包括:
- generate-then-read: 这个子函数首先提示大型语言模型(LLMs)生成一个维基百科的背景文档来回答问题,然后要求LLMs通过引用生成的段落来回答问题。
- retrieve-then-read: 这个子函数使用检索器首先检索外部知识,然后要求LLMs通过引用检索到的段落来回答问题。
- decompose: 这个子函数提示LLMs将一个宽泛的问题系统地分解为几个更小的子问题。这些子问题的答案共同有助于推导出原始问题的解答。
- combine-sub-qas: 在分解之后,调用主要函数进入下一次迭代,目的是得到每个子问题的答案。然后,这个子函数将所有子问题的答案结合起来,以得到原始问题的答案,完成迭代。
- get_confidence_score: 这个子函数用于获取LLMs对问题回答的置信度分数,可以基于verbalize-based或probability-based方法来实现。
这些子函数共同工作,使Self-DC框架能够灵活地处理开放域问答中的组合性未知问题。框架根据LLMs的置信度分数来决定是直接生成答案、检索相关信息还是分解问题并递归求解。通过这种方式,Self-DC能够在必要时有效地调用组合推理,而不是对所有问题进行统一处理,从而提高了处理复杂问题的效率和性能。