题目
大型语言模型的思维链主动提示
论文地址:https://arxiv.org/abs/2302.12246
项目地址:https://github.com/shizhediao/active-prompt
摘要
大型语言模型(LLM)规模的不断扩大为各种需要推理的复杂任务带来了涌现能力,例如算术和常识推理。众所周知,任务相关提示的有效设计对于逻辑思维模式产生高质量答案的能力至关重要。特别地,用于复杂问答任务的有效方法是基于实例的提示和思维链(CoT)推理,这显著提高了LLMs的性能。然而,当前的CoT方法依赖于一组固定的人工注释样本,这些样本对于不同的任务来说不一定是最有效的例子。本文提出了一种新的方法,主动提示,以适应不同的任务与任务具体的例子提示(注释与人类设计的CoT推理)LLM。为此,我们提出了一个关键问题的解决方案,即从特定任务查询池中确定哪些问题是最重要和最有助于注释的。借鉴基于不确定性的主动学习的相关问题,我们引入了一些度量来描述不确定性,从而选择最不确定的问题进行标注。实验结果表明了该方法的优越性,在八个复杂推理任务上取得了较好的性能。对不同不确定性指标、池大小、零触发学习和准确度-不确定性关系的进一步分析证明了我们方法的有效性。
简介
大型语言模型(LLM)(Raffel等人,2020;布朗等人,2020;Chowdhery等人,2022;张等;Tay等人,2022;Scao等人,2022;曾等,2022;Smith et al,2022)近年来取得了巨大的成功。应用LLMs的一个典型方法是在上下文中学习(Brown等人,2020 ),它在传统的语言理解和生成任务中表现良好,但在复杂的推理任务中表现不佳(Rae等人,2021;梁等,2022;魏等,2022a)。最近的提示研究(魏等,2022b王等,2022;周等(2022)发现,对样例中推理步骤的详细描述赋予了逻辑推理模块良好的推理能力,即思维链提示。然而,思维链提示依赖于人类工程学:它要求人们选择几个信息丰富的问题,然后用CoT和答案对它们进行注释。
人工注释的样本(带有注释的CoT和答案的问题)对于不同的任务不一定是最有效的。例如,原始的思维链提示(Wei等人,2022b)为八个问题制作了样本,这些样本要么是从训练集中随机选择的,要么是由人类手动编写的。由于推理任务的本质在难度、范围、领域等方面存在显著的差异,我们不知道什么样的问题最值得注释。也不清楚特定的样本集是否是引出所需信息的最佳选择。然而,好消息是为不同的任务注释八个样本是微不足道的。它花费很少的金钱和人力。有鉴于此,我们确定关键问题是如何确定哪些问题是最重要的和对注释最有帮助的。我们提出了一个解决这个问题的方法,利用不确定性,并引入一些人工来注释一小组问题。注释预算是合理的。
图1:我们提出的方法的图示。有四个阶段。(1)不确定性估计:在有或没有一些人写的思维链的情况下,我们查询大型语言模型k次(在该图示中为k”5 ),以生成具有一组训练问题的中间步骤的可能答案。然后,我们基于k个答案通过不确定性度量来计算不确定性u(在这个例子中我们使用了不一致)。(2)选择:根据不确定性,我们选择最不确定的问题进行标注。(3)注释:我们涉及人类来注释所选择的问题。(4)推理:用新的标注样本推理每个问题。
通过借鉴基于不确定性的主动学习(Gentile et al,2022)的相关问题,我们引入了几个指标来表征模型对每个问题的预测的不确定性。因此,我们提出了一种新的基于不确定性的标注策略来自下游数据集的许多问题涉及到人类对rational链的注释,显著地提高了性能。具体来说,给定一个数据集D,我们首先要求模型回答它k次。然后,我们根据每个问题的k个答案来计算这个模型的不确定性u。使用u,我们选择具有最大u的最不确定的n个问题,并通过甲骨文对这些问题进行注释,以制作新的样本E。最后,我们按照思维链提示的标准配方对每个测试问题进行预处理(Wei等人,2022b)。我们提出的方法的示意图如图1所示。
文献中有几种不同的不确定性估计方法(Settles,2009;Culotta和McCallum,2005年)。在我们的主要实验中,我们通过所有预测答案的不一致和熵来表征不确定性u。此外,我们还研究了其他不同的不确定性指标,如方差和自信度。对于自信,我们使用新的模板重新组织问题生成的答案,然后询问模型对这种生成的信心。在这种情况下,u被定义为{非常自信、自信、不自信、错误答案}中的分类变量。据观察,分歧、熵和方差表现相似,而自信不起作用,因为LLM容易过于自信。
我们在八个数据集上进行实验,包括算术推理、常识推理和符号推理。实验结果表明,我们提出的方法优于竞争基线模型的有效性。对不同不确定性度量、池大小、零炮学习和准确度-不确定性关系的进一步分析显示了每个提议模块的益处并揭示了它们的效果。我们的贡献有三个方面:1)我们建议明智地选择最有帮助和信息最丰富的问题进行标注,减少人类工程学的工作量。2)我们引入了一种有效的基于不确定性的问题选择策略,该策略使用了几种不同的不确定性度量。3)我们提出的方法在多个推理任务上大大超过了竞争基线模型。据我们所知,我们的工作首次证明了在解决复杂推理任务的思维链提示中主动问题选择的好处。
主动提示
我们提出的方法的示意图如图1所示。给定l个未标记的训练数据Dtr“tq1,q2,…、qlu和m测试数据Dte”tp1、p2、…,pmu用每个q和p表示没有任何回答或推理步骤的问题,我们的目标是注释通过构建新样本集E=用推理步骤c和答案a,然后用E提示测试数据Dte,得到预测。在本节中,我们将解释如何选择n个最不确定的问题并对其进行注释。
不确定性估计要从一个大的数据集中选择几个问题,我们需要一个无监督的方法。先前的研究(Gentile等人,2022年)表明,减少模型的不确定性有助于提高模型的性能。因此,我们引入LLMs的不确定性作为选择数据的度量。在思维链设置中,我们首先转发LLM k次,以获得每个问题的k个答案。那么问题的不确定性可以用不同的方法来衡量。在我们的工作中,我们考虑了四个潜在的不确定性指标,如下所述。
不一致首先,我们考虑使用k个生成的答案分歧在于计算预测中的唯一答案。实现很简单。我们首先通过集合操作对唯一答案进行计数以移除重复项,获得h个唯一项。然后,通过u " h{k计算不一致。熵不确定性也可以用熵来表征,熵的计算公式如下其中Pθpaj |qiq是某个预测答案在所有预测中出现的频率。较大的熵表示系统中较大的不确定性,较小的熵表示较小的不确定性。所以在复杂推理中,熵比较大的问题会被选为候选。方差我们进一步认为方差是一种不确定性度量,我们假设它可能更适合算术答案。其中一个据观察,预测的答案有很大的差异。一些预测的答案是小数字(例如1),而一些是大数字(例如10000)。为了缓解大数的支配问题,我们建议通过问题中提到的所有数来规范化预测。例如,给定一个问题有x1个人。每个人有2个苹果。总共有多少苹果?和一个预测答案yˇ,归一化后我们得到。
我们首先进行了一项试点研究,发现基于不一致、熵和方差的指标表现很好,明显优于自信(详情见第5.1节)。因此,在我们的实验中,我们主要应用不一致和熵作为我们的方法,这是易于实现的。
选择与标注在获得每道题的不确定度后,我们可以根据每道题的不确定度建立一个不确定度排名。然后,我们将选择前n个不确定性问题进行标注。如果有n个以上不确定性最大的问题,我们会从中随机抽取n个问题。这n个问题将由人类注释者用基本原理链和答案进行注释,以构建新的样本E将取代首字母E,我们将使用它来提示一些想法。推理使用新的带注释的样本E,我们在推理阶段用它们提示每个问题。此外,我们应用自洽性(王等,2022)对一个温度为T的问题进行m次推断,然后选择最一致的答案。
实验设置
在本节中,我们将在以下三个小节中描述数据集和评估指标、基线模型以及实施的详细信息。更多详情见附录a。
数据集和评价指标
遵循LLMs推理研究中的标准评价设置(魏等,2022b),我们的实验在三种类型的数据集上进行:GSM8K (Cobbe等,2021),ASDiv(苗等,2020),SVAMP (Patel等,2021),AQuA(凌等,2017),singleq(KoncelKedziorski等,2016),(Talmor等,2019),StrategyQA(,等,2021),最后一个字母连接(魏等,2022b)。对于最后一个字母连接,我们在一个非分布设置上进行测试,其中提示是两个字母,而测试问题是四个字母。这些数据集的统计数据见表6。我们报告精确的匹配准确度作为评估度量。
基线
在我们的实验中,以下四种方法作为主要的基线:思维链(CoT)(魏等,2022b),自洽(SC)(王等,2022),自动CoT(张等,2022b),随机CoT。Random-CoT与Active-Prompt共享相同的注释过程。
唯一的区别是,它从训练数据中随机抽取问题进行标注,而不是应用我们提出的不确定性度量。我们的实验主要基于CodeX code-davinci-002(陈等,2021),原因有二。首先,在我们进行实验时,这是最有能力的模型,与以前研究中的观察结果一致(魏等人,2022b王等,2022;苗等,2020)。第二,在最初的有限测试期是免费的。除了code-davinci-002之外,我们还使用text-davinci-002、text-davinci-003和gpt-3.5-turbo进行了性能测试,以验证我们的方法在主要实验中的有效性。我们从OpenAI的服务2中调用API。
实现超参数
在我们的实现中,模型在推断之前只能访问训练数据D”tXtr,Ytru,并且在测试数据D”tXte,Yteu上进行评估。我们应用与Wei等人(2022b)相同数量的样本,对于GSM8K、ASDiv、SVAMP和SingleEq是8个,是7个,StrategyQA是6个,AQuA和Letter是4个(4)。鉴于一些数据集(即ASDiv、SVAMP和SingleEq)只有测试分裂,我们采用GSM8K的标注结果,并将其转移到这些数据集进行推理。转移详情如表6所示。在推断阶段,我们设定温度T”0.7,每题推断40次。然后我们取最一致的答案。除非特别说明,否则使用的gpt-3.5-turbo的默认版本是gpt-3.5-turbo-0613。
不确定性评估在这个阶段,我们从一些手工注释的样本开始,以帮助推断不确定性评估阶段的答案。这些带注释的样本直接取自魏等人(2022b)。我们称之为稳定预测的少数提示技巧。然而,我们的方法并不依赖于少数镜头提示,其他无样本的方法,如零镜头提示(小岛康誉等人,2022年)也可以应用,我们在第5.1节中证明了这一点。在我们的实验中,我们将候选实例的大小限制为1000个。如果原始训练数据的大小大于1,000,我们仅从中随机抽取1,000个实例,并在估计不确定性时考虑这样的子集。
如果大小小于1,000,我们将使用完整的数据。我们对不同的池大小进行了实验,发现1000提供了稳定的性能,并且随着池大小的增加,性能会有所提高。在我们的主要实验中,所有数据集的k都设置为10。
第5.1节讨论了性能与安全系数的分析。结果表明,随着池大小的增加,性能不断提高,并将收敛于k = 10。对于不确定性度量,我们主要报告了基于不一致(主动提示(D))和基于熵(主动提示(E))的方法的性能。由于已经观察到,StrategyQA通常与最大不一致为2/2 = 1相关联,所以我们也考虑主动提示(D)的频率。
注释我们的方法需要对一些选定的问题进行人工注释。注释者是合著者之一,熟悉机器学习和思维链提示。由于我们的方法的重点是样本选择而不是注释,注释者没有进行试错,并且参照以前的注释实践(Wei等人,2022b)进行最少的人因工程。给定一个问题,注释者将主要编写推理步骤并给出正确答案。不同注释器的效果以及选择和注释的不同效果将在5.1节中讨论。
实验结果
实验结果显示在表1中。总的来说,我们的模型远远优于所有的基线模型。穿过八基准数据集Active-Prompt (D)分别比text-davinci-002和code-davinci-002的自洽性平均提高了7.0%和1.8%。它证明了我们提出的主动选择方法的有效性。在这一节中,我们讨论算术推理、常识和符号推理的结果。
算术推理:与所有基线模型相比,主动提示取得了最好的性能,表明了我们方法的优越性。与竞争基线相比,自我一致性、主动提示(D)在代码为davinci-002的情况下平均优于它2.1%。使用text-davinci-002可以观察到更大的改进,其中ActivePrompt (D)比自洽性提高了7.2%。我们注意到,对于code-davinci-002,最大的改进出现在GSM8K (4.2%)和AQuA (3.1%)中。一个可能的原因是,这两个数据集不需要CoT提示的可移植性,因为我们可以直接从它们自己的训练集中选择和注释问题。
表1:主动提示的整体性能。CoT和SC表示思维链(魏等,2022b)和自我一致性(王等,2022)方法。粗体表示最佳结果。a: Cobbe等人(2021),b: Lan等人(2022),c: Pi等(2022),d: Amini等(2019),e: Hu等(2019),f:徐等(2021),g: Chowdhery等(2022)。CoT和SC的统计数据主要来自原始论文,未报告的条目来自不同来源(李等人,2023)。w.o. SC表示考虑到成本,结果不适用自洽性。
但是ASDiv,SVAMP,SingleEq没有训练数据,所以我们需要把带注释的CoT从GSM8K转移到它们身上。这表明,如何更好地将提示从一个任务转移到另一个任务被认为是未来的一个重要研究方向。常识和符号推理:在常识推理和符号推理任务中观察到一致的提高。在所有三项任务中,ActivePrompt都优于self-consistency。请注意,我们测试的是字母(4)上的非分布设置,这更具挑战性,与所有基线模型相比,Active-Prompt仍然实现了最佳性能。
分析
在这一部分中,我们进一步进行了几个额外的实验来揭示fewshot提示、主动选择、不同的注释器、不确定性度量、池大小和提示工程的影响。最后,我们分析了不确定性和准确性之间的关系,希望对我们的方法如何工作提供更多的解释。
表2:对三个算术推理任务,CSQA和字母(4)的消融研究。零发射有效提示表示在不确定性估计期间消除了对少发射CoTs的依赖性。彦俊。和彦俊。(B)是两个不同的注释者。(D)、(E)和(V)分别表示不一致、熵和方差。粗体表示每个数据集中最好的。GSM8K、ASDiv、SingEq的结果用代码-davinci-002获得,而CSQA和字母(4)的结果用文本-davinci-002获得。
消融研究
在本节中,我们揭示了我们提出的模型设计中各种模块的影响。首先,我们通过去除少数样本的依赖性来报告在零镜头设置下的性能,然后探索我们提出的主动样本选择策略的贡献。此外,我们还探讨了不同注释器、不同不确定性度量和池大小的影响。为了验证他们的贡献,我们一个接一个地消融他们,并评估三个下游任务:GSM8K、ASDiv和SingleEq。结果如表2所示。
在我们的主要实验中,我们从4-8个人工注释的样本开始,以帮助在不确定性估计阶段推断答案,并证明我们方法的有效性。这些带注释的样本直接取自魏等人(2022b)。然而,我们的方法独立于所提供的样本。
在这一节中,我们假设无法访问它们,进行进一步的实验。受Zero-ShotCoT(小岛康誉等人,2022)的最新研究的启发,我们发现可以绕过编写初始样本的手动工作。我们不是使用4-8个人类编写的样本来生成k预测,而是简单地添加“让我们一步一步地思考。”并让LLMs生成推理步骤和最终答案。结果显示在表2零触发主动提示中,其性能与主动提示相比具有竞争力,表明我们的方法不一定依赖于少量触发样本。
主动选择的效果我们的主要贡献是提出了一个有效的样本选择策略(即主动选择)。我们通过随机选择相同数量的问题进行标注,用随机选择代替主动选择。注释过程与Active-Prompt完全相同,具有相同的注释过程和注释者。这个模型被称为随机床。结果如表2所示。据观察,主动提示明显优于随机提示。
Random-CoT仅与另一个基线模型自洽性表现相当,说明我们应用的注释过程没有优势,并且是主动选择策略导致性能增益。例如,在GSM8K数据集上,Random-CoT (78.6)略微优于SC (78.0),而显著落后于Active-Prompt(82.2)3.6%。所有数据集上的Random-CoT的完整结果在表1中报告,与Active-Prompt相比,性能持续下降。注释器的影响在我们的主要实验中,我们要求注释器不要用最少的人工工程进行试错,因为我们方法的焦点是问题选择,而不是最好的可能注释。然而,不同的注释器仍然会导致性能的变化。
在这一节中,我们将讨论不同注释器的效果。除了注释器(注释器A),我们还直接使用来自GSM8K数据集的人工注释的基本原理(注释器B)。结果见表2。标注器A和B的结果始终比基线模型好,证明了我们提出的选择方法的健壮性。令人惊讶的是,我们发现直接应用GSM8K提供的解决方案优于我们注释的基本原理,这表明GSM8K的现有注释是高质量的。此外,我们注意到人类提示工程有两个互补的组成部分:问题选择和提示模板工程。本文提出的方法很好地解决了第一个问题。还可以将这种技术与人工优化的提示模板相结合,以进一步提高性能。
不确定性度量的影响在我们的主要实验中,我们采用不一致和熵作为不确定性度量。除此之外,其他可以结合不确定性度量。在本节中,我们主要讨论四个不确定性度量:不一致、熵、方差和自信。前三个指标的定义在第2.1节中说明,自信的定义可以在附录d中找到。首先,我们发现不一致不适用于搜索空间有限的数据集。例如,StrategyQA只有两个标签(是或否),预测通常与最大分歧2/2=1相关。因此,我们采用熵进行策略QA。第二,基于自信的方法表现很差,所以我们没有进行更多的实验。我们在表8中展示了一个预测的例子。我们推测,这是因为GPT-3容易过于自信,这与以前的观察结果一致(Si et al,2022)。
引入外部训练有素的鉴别器来评估置信度是一种实用的方法,我们将其留给未来的工作。最后,基于不一致、熵和方差的方法之间的比较如表2所示。结果表明,它们在ASDiv和SingleEq上表现很好,而在GSM8K上,不一致和熵优于方差。因此,我们简单地选择不一致和熵作为我们主要实验中的主要度量。
池大小的影响在不确定性估计的第一步中,我们为每个输入问题生成k个答案,以构建预测池。这里,k影响估计不确定性的性能,进一步影响下游任务的性能。为了显示预测答案数量的影响,我们根据text-davinci-003在图2中绘制了不同预测答案数量(1、5、10、15)的准确度。结果表明,随着池大小的增加,性能不断提高,并将收敛于k " 10。直觉上,小k可能会混淆选择过程,导致平局,而较大的k将导致具有更好性能的更精确的不确定性估计。
图2:不同数量的预测答案之间的比较。
表3:活动样本的可移植性分析。CD-002、TD-002、TD-003表示代码-davinci-002、文本-davinci-002和文本-davinci-003。TD-002 (CoT)、TD-002 (SC)和TD-003 (CoT)是三种没有主动提示的基线方法。TD-002-TD-002(CoT)表示通过文本-davinci-002选择样本,并通过文本-davinci-002进行推断。CD-002-TD-002(SC)表示通过代码-davinci-002选择样本,通过文本-davinci-002进行推断。CD-002-TD-003(CoT)表示通过代码-davinci-002选择样本,通过文本-davinci-003进行推断。
不确定性分析
我们提出的方法的动机是降低模型的不确定性,以帮助引出LLMs的推理能力,进一步提高少击提示性能。在本节中,我们将展示不确定性和准确性之间的关系。在附录A图3中,我们报告了GSM8K、ASDiv和SingleEq的不确定度数量和精度。我们观察到不确定性和准确性之间存在高度负相关。随着不确定性的降低,准确性增加,表明降低模型的不确定性确实有助于改善基于fewshot提示的预测。
可转移性
在解决所选样本中的不确定性在不同模型中是否一致或者它是否源于特定任务本身的问题时,进行了额外的实验。实验包括使用code-davinci-002模型选择样本,然后使用text-davinci-002和text-davinci-003模型进行推理。潜在的假设是,如果不确定性是任务固有的,那么由ActivePrompt识别的样本将表现出跨模型的可转移性。
换句话说,由一个模型识别的活动样本在转移到其他模型时将是适用的和有效的。根据表3中的结果,观察到所有三种基于选择的方法都有效地执行。所选的不确定案例与任务相关,可以转移到不同的模型中。这表明不确定性来源于任务,主动提示识别的样例具有良好的迁移性。该实验的结果提供了对模型预测中不确定性的本质及其潜在来源的洞察。
较弱模型的性能
我们的主要实验是基于强大的GPT系列模型进行的。人们可能会怀疑较弱/较小模型的性能,例如美洲驼系列模型(Touvron等人,2023a,b)。在本节中,我们研究了主动提示对Llama-2模型的有效性,结果如表4所示。据观察,我们提出的主动提示优于CoT大幅度,表明这种方法仍然是有用的弱模型。请注意,我们在所有实验中都使用了指令调整版本的Llama2-70b(即,Llama2-70b-chat ),因为它能够理解复杂的思维链提示并遵循人类指令。
和美洲驼模型之间的可移植性
我们还研究了GPT和美洲驼模型之间的可移植性。因为较小的美洲驼模型在推理任务上表现不佳,所以我们用美洲驼2-70b-chat进行了实验。我们进行了两种类型的实验:
- 通过gpt3.5-turbo选择问题并通过Llama2-70b-chat进行推断(GPT-3.5 turbo-Llama2-70b-chat)和
- 通过llama 2-70 b-chat选择问题并通过gpt-3.5-turbo进行推断(llama 2-70 b-chat-GPT-3.5-turbo)。请注意,我们使用的是0613版本的gpt-3.5-turbo。结果如表5所示。箭头前的模型表示主动选题的模型,箭头后的模型表示推理的模型。结果证明了用一个模型选择问题,然后将选择的问题应用到另一个模型的可行性。此外,选择具有较大模型的问题并将其应用于较小的模型会产生更好的性能。
相关工作
思维链提示激发大型语言模型的推理能力。Wei等人(2022b)提出的最初思想是用推理步骤来丰富少镜头的例子,这大大提高了com-上的性能复杂任务。继魏等(2022b)之后,许多研究在自我一致性(王等,2022)、最少到最多提示(周等,2022)、动态最少到最多提示(Drozdov等,2022)、自举(Zelikman等,2022)、自训练(黄等,2022)、验证器(李等,2022;徐等,2024),提示增强与选择(Shum等,2023),元启发式(潘等,2023),元图提示(潘等,2024)。这些研究极大地提高了基于CoT的复杂任务的性能,而它们只限于一组固定的样本。与它们相比,我们建议注释最重要的特定于任务的问题,以便于适应。Auto-CoT (Zhang et al,2022b)根据测试问题的多样性对其进行聚类,并使用零镜头提示来获得答案。与我们的方法不同,它需要遍历测试数据集,我们的实验显示了我们优于Auto-CoT的性能。请注意,多样性和不确定性对于选择信息最丰富的问题都是有用的,它们是互补的。我们认为多样性和不确定性的结合是未来的方向。
主动学习我们的工作也与主动学习相关(Cohn等人,1996;奥尔森,2009年;定居,2009年;罗特曼和雷查特,2022年;林等,2023),旨在通过寻找最有帮助的未标注数据,以合理的预算进行标注,提高数据标注效率。最近的研究(施罗德等人,2022年;ksal等人,2022年)展示了基于主动学习的方法在为分类任务微调大型语言模型方面的优势。接下来,我们将最大熵(Roy和McCallum,2001)和最小置信度(Culotta和McCallum,2005)算法结合到上下文学习场景中,我们验证了思维链提示的有效性,特别是对于复杂的推理任务。
结论
在本文中,我们提出了主动提示来激发大型语言模型中的推理能力。受注释推理步骤以获得有效样本的思想的启发,我们的目标是明智地而不是武断地选择最有帮助的问题进行注释。为此,我们提出了一种基于不确定性的主动选择策略来确定哪些问题是最多的从特定于任务的问题池中进行注释是重要且有帮助的。我们介绍了主动提示不确定性估计的四种不同策略:不一致、熵、方差和自信。这四种策略从不同的角度描述了不确定性,我们主要应用不一致和熵。从经验上看,主动提示在八个广泛用于算术推理、常识推理和符号推理的数据集上取得了令人满意的性能。对不同的不确定性度量、标注器、池大小、零触发学习和准确性-不确定性关系的进一步分析证明了我们方法的有效性。
局限性
我们已经证明,主动提示比以前的思维链提示方法表现出更好的性能。虽然令人兴奋,但目前的工作有几个限制,未来还有机会。更多模型的实验。在我们的实验中,我们提供了text-davinci-002和code-davinci-002的完整结果,因为code-davinci-002在最初的有限测试期是免费的。然而,由于text-davinci-002和text-davinci-003的高成本,我们只能用其中一种进行实验。此外,一个有希望的方向是实验更强大的模型,如GPT-4 (OpenAI,2023)。不幸的是,用GPT-4 API进行实验成本太高。此外,由于成本原因,我们没有进行与gpt-3.5-turbo的自洽实验。将来,一旦我们有了更多的预算,我们计划用GPT-4进行实验,用gpt-3.5-turbo进行自洽实验。
在我们的实验中,我们用代码davinci-002进行大多数实验,因为它在最初有限的测试期是免费的。代号为davinci-002的实验将于2023年3月前完成。然而,OpenAI决定关闭对代码davinci-002的访问,这使得研究人员很难重现我们的实验。然而,人们可以通过OpenAI的研究人员访问程序3访问它,尽管作者仍然无法访问它。
附录
在本节中,我们将在以下三个小节中描述数据集和评估指标、基线模型以及实施的详细信息。
A.1数据集和评价指标
遵循LLMs推理研究中的标准评价设置(魏等,2022b),我们的实验在三类数据集上进行:算术推理:GSM8K (Cobbe等,2021)、ASDiv(苗等,2020)、SVAMP (Patel等,2021)、AQuA(凌等,2017)、SingleEq (Koncel-Kedziorski等,2016)。常识推理:CSQA(塔尔莫尔等人,2019年)和StrategyQA(杰瓦等人,2021年)。
‐符号推理:最后一个字母的连接(魏等,2022b)。此任务评估模型连接名称中单词最后几个字母的能力。标准的分布设置是微不足道的,以前的方法已经达到了几乎100%的准确性(魏等人,2022b)。我们在非分布设置上进行测试,其中提示是两个字母,而测试问题是四个字母。
这些数据集的统计数据见表6。注意,在我们的实验中,我们从训练集中随机抽样1000个数据,以减少计算成本。这可能会影响不确定性估计的性能。直观上,更多的训练数据将有助于捕捉数据分布,从而导致更精确的不确定性估计。如果有更多的资金支持,我们模型的性能将继续提高。为了进行公平的比较,我们使用了与魏等人(2022b)相同的测试集。我们报告精确的匹配准确度作为评估度量。
A.2基线
在我们的实验中,以下四种方法用作主要基线:思维链(CoT) (Wei等人,2022b):标准的思维链提示,它提供由一系列中间推理步骤组成的四至八个人类书写的样本。自我一致性(SC)(王等,2022):CoT的一个改进版本。它不是贪婪解码,而是采样一组推理路径,选择最常见的答案。
自动产床(张等,2022b):一种自动的通过聚类和零镜头提示生成推理的样本构建方法(小岛康誉等人,2022)。※Random-CoT:主动提示的基线。它与ActivePrompt共享相同的注释过程。唯一的区别是,它从训练数据中随机抽取问题进行标注,而不是应用我们提出的不确定性度量。
我们的实验主要基于CodeX code-davinci-002(陈等,2021),原因有二。首先,在我们进行实验时,这是最有能力的模型,与以前研究中的观察结果一致(魏等人,2022b王等,2022;苗等,2020)。第二,在最初的有限测试期是免费的。除了code-davinci-002,我们还使用text-davinci-002和text-davinci-003进行了性能测试,以验证我们的方法在主要实验中的有效性。我们直接从OpenAI的服务4中调用API。
A.3实现超参数
在我们的实现中,该模型在推断之前只能访问训练数据D”tXtr,Ytru,并且在测试数据D”tXte,Yteu上进行评估。我们应用与Wei等人(2022b)相同数量的样本,对于GSM8K、ASDiv、SVAMP和SingleEq是8个,是7个,StrategyQA是6个,AQuA和Letter是4个(4)。鉴于一些数据集(即ASDiv、SVAMP和SingleEq)只有测试分裂,我们采用GSM8K的标注结果,并将其转移到这些数据集进行推理。转移详情如表6所示。在推断阶段,我们设定温度T”0.7,每题推断40次。然后我们取最一致的答案。
不确定性评估在这个阶段,我们从一些手工注释的样本开始,以帮助推断不确定性评估阶段的答案。这些带注释的样本直接取自魏等人(2022b)。我们称之为稳定预测的少投提示技巧。然而,我们的方法并不依赖于少数镜头提示,其他无样本的方法,如零镜头提示(小岛康誉等人,2022年)也可以应用,我们在第5.1节中证明了这一点。
对于不确定性指标,我们主要报告基于不一致(主动-提示(D))和基于熵的(主动提示(E))方法。由于已经观察到,StrategyQA通常与最大不一致为2/2 = 1相关联,所以我们也考虑主动提示(D)的频率。
注释我们的方法需要对一些选定的问题进行人工注释。注释者是合著者之一,熟悉机器学习和思维链提示。由于我们的方法的焦点是样本选择,而不是注释,注释者参考以前的注释实践(魏等,2022b),没有进行试错和进行最少的人因工程。给定一个问题,注释者将主要编写推理步骤并给出正确答案。不同注释器的效果以及选择和注释的不同效果将在5.1节中讨论。
不确定性分析图3显示了精确度和不确定性之间的关系。方差分析在我们的主要实验中,不确定性估计的步骤需要查询训练集中的每个提示k次以评估不确定性。然而,对于具有大量实例的数据集,例如包含7,473个实例的GSM8K训练集,为了节省资源,我们随机抽样1,000个实例来估计不确定性。为了揭示这一抽样过程中固有的随机性,我们重复了三次随机抽样,目的是检验其变化。如表7所示,结果表明我们的方法对抽样的随机性具有鲁棒性。事实证明,对1000个实例进行采样足以获得稳定且令人满意的结果。
d .基于自信的不确定性估计估计不确定性也可以由LLMs本身实现,即自信。
它可以通过使用手工制作的模板T查询模型来获得,例如对于问题q和预测答案a,报告关于来自选择的答案的置信度。(a)非常自信(b)自信©不自信(d)错误答案。
然后,我们通过以下方式选择最不自信的问题:其中Pθpaj |qiq是来自集合{非常有信心、有信心、没有信心、错误答案}的分类分布。
基于逻辑的不确定性估计对于提供逻辑的模型,我们可以使用模型的输出逻辑进行不确定性估计。因此,我们进行了进一步的实验来验证主动提示是否仍然有效。我们先来使用gpt-3.5-turbo-0301 API返回的logits进行实验。结果如表9所示。正如我们所看到的,使用logits,ActivePrompt方法优于传统的思维链(CoT),并且略好于基于不一致的方法。
其次,我们还使用来自美洲驼-2-70b的对数进行了实验,但我们发现美洲驼往往表现出过度自信,导致当使用其对数作为不确定性的度量时结果较差。深度神经网络逻辑中的过度自信现象在以前的工作中已经讨论过(郭等,2017;孔等,2020;陈等,2022),我们的观察结果与他们的一致。在未来,我们计划探索更多的校准方法,以便logits可以用作主动学习的不确定性度量。
问题汽车每行驶2英里,轮胎旋转725次。杰里米每月开车400英里。如果每个轮胎可以旋转10,440,000圈,那么需要多少年才能更换轮胎?预测答案每个轮胎可以承受10,440,000转。在400英里中,汽车行驶400 / 2 = 200英里。在200英里中,每个轮胎旋转200 x 725 = 145,000次。145,000 / 10,440,000 = 0.0139.答案是0.0139年。信心报告对选择答案的信心。(a)非常有信心(b)有信心(c)不有信心(d)答案错误答案是每个轮胎一个月的转数除以它能做的最大转数,即145000/10440000 = 0.0139。逻辑正确,没有计算错误。所以,选(a)。我很有信心。表8:一个基于自信的提示过程和结果的例子。
表10:与自动CoT的比较。Auto-CoT的结果直接取自原始纸张。为了公平比较,没有一个结果应用自洽方法。主动提示应用人类注释的基本原理。粗体表示每个数据集中最好的。所有结果都是用代码davinci-002获得的。
Auto-CoT (Zhang et al,2022b)提出了一种基于多样性的问题选择方法,而我们提出了一种基于不确定性的问题选择方法。
在本节中,我们将我们的方法与AutoCoT进行比较,以展示它们的有效性和差异。由于Auto-CoT仅报告了关于代码davinci-002的GSM8K、MultiArith和AddSub的结果,而没有自洽性,我们首先在相同设置下在这三个数据集上将我们的方法与它进行比较。结果如表10所示。据观察,主动提示大大优于自动CoT。我们将这种改进归功于基于不确定性的选择和人工注释。请注意,多样性和不确定性有助于选择信息最丰富的问题,它们是互补的。我们认为多样性和不确定性的结合是未来的一个重要方向。
与基于复杂性的方法的比较Complex-CoT (Fu et al,2022)是一个强大的基线,它考虑了提示的复杂性,并建议选择那些复杂的提示作为样本。我们发现ActivePrompt优于Complex-CoT,证明了我们提出的基于不确定性的方法的有效性。此外,我们可以将不确定性和复杂性结合起来以实现更好的性能,我们将这一点留给未来的工作。
与人工选择问题相比,我们提出的方法更有效。对于一个新的任务,用户需要做很多次试验和错误,这花费了大量的人力和不稳定的性能。即便如此,选出来的题还是次优。其次,如附录A.3所述,我们将候选实例的大小限制为1,000,这大大降低了成本。1000是成本和性能的良好平衡。
我们验证了超过1,000个实例时,性能会收敛。用1000个问题做10次不确定性评估是可以接受的。成本比自洽小,自洽通常需要40次推理,虽然是正交技术,可以和我们的互补。此外,受5.5节中新实验结果的启发,我们兴奋地发现,由较小模型(例如,Llama)选择的问题在较大模型(例如,gpt-3.5-turbo)中表现良好。考虑到像Llama这样的模型是开源的,不会导致API成本,人们可以使用它(与GPU一起)来取代黑盒API。
对于注释,使用人工注释成本很高。我们相信使用一些技术,比如zero-shot-CoT(小岛康誉等,2022)取代人工标注是一个很有前景的方向,未来我们将致力于探索低成本的标注方法,并将其与主动提示相结合。
I较长CoT注释的消融研究此外,我们进行了消融研究,以区分较长CoT注释对我们方法的影响。为了探索这一点,我们将原始CoT (Wei等人,2022b)注释的长度扩展到平均155个单词,与我们的平均长度160个单词相当。结果如表12所示。我们的发现表明,仅仅增加CoT注释的长度并不能提高性能,在某些情况下,甚至会降低性能。相比之下,我们的ActivePrompt方法始终表现出卓越的性能。这表明,问题的选择,而不是它们的长度,对改善结果有很大的贡献。我们的方法有效地识别和利用了注释的更多信息的例子。由主动提示生成的完整样本我们在表13、14、15、16、17、18中显示完整样本。
问:作为一名自由职业者,贝勒在自由职业市场上为客户完成的每一项工作都会获得报酬。目前,他的仪表板上有4000美元来自以前完成的工作。他目前为三个客户工作,一旦工作完成,第一个客户会付给他目前仪表盘上一半的钱。一旦贝勒完成他的工作,第二个客户将付给他比第一个客户多2/5倍的钱。一旦他完成工作,第三个客户将付给他两倍于第一个和第二个客户一起付给他的钱。在所有客户都为他的工作付钱之后,贝勒的仪表盘上会有多少钱?a:让我们一步一步来考虑。为了计算在所有客户为这项工作向Baylor付款后,他的排行榜上会有多少钱,我们需要知道每个客户的付款金额,并将它们与排行榜上的原始价值相加。第一个客户会付给贝勒1/2 * 4000美元= 2000美元。第二个客户会比第一个客户多付给贝勒2/5倍的钱,总共2/5 * 2000美元= 800美元。一旦工作完成,第二个客户将付给贝勒的总金额是2000美元+800美元= 2800美元。第一个和第二个客户在他们的工作完成后将支付给贝勒的总金额是2800美元+2000美元= 4800美元。第三个客户将付给他第一个和第二个客户加在一起的两倍的钱,总共2*$4800 = $9600。一旦Baylor完成他们的工作,这三个客户将总共付给他9600美元+4800美元= 14400美元。在他的仪表板上,贝勒将有14400美元+4000美元= 18400美元。答案是18400。问:乔希和安娜都出生于8月17日,但出生年份不同。为了巩固庆祝活动,他们还在8月17日乔希22岁时结婚。如果今天他们庆祝结婚30周年,他们的年龄总和正好是他们结婚时乔希年龄的5倍,安娜结婚时多大?a:让我们一步一步来考虑。为了计算安娜结婚时的年龄,我们必须知道他们的综合年龄,乔希30年后的年龄,以及安娜结婚30年后的年龄。由于他们的年龄总和是乔希结婚时年龄的5倍,所以他们的年龄总和是5 * 22 = 110岁。乔希肯定比他们结婚时的年龄大30岁,所以他现在22 + 30 = 52岁。所以安娜现在的年龄会是110 - 52 = 58岁。如果他们30年前结婚,安娜结婚时一定是58 - 30 = 28岁,答案是28岁。问:Mary正在尝试第一次设置Zoom。她花了10分钟下载了Mac版,结果发现她需要Windows版,而Windows版的下载时间是Mac版的三倍。在她的第一次通话中,音频故障两次,每次持续4分钟,视频故障一次,持续6分钟。她在没有小故障的情况下通话时间是有小故障时的两倍。Mary总共花了多少时间下载Zoom和交谈?a:让我们一步一步来考虑。为了计算Mary下载Zoom和通话总共花了多少时间,我们需要知道Mac版本的下载时间,Windows版本的下载时间,音频故障和视频故障的总时间,以及总的无故障时间。Windows版的下载时间是Mac版的3倍,即3 * 10 = 30分钟。音频故障和视频故障的总时间为4分钟/故障* 2音频故障+ 6分钟音频故障= 14分钟。无毛刺时间是有毛刺时间的两倍,即2 * 14 = 28分钟。玛丽下载Zoom和通话的总时间是全部加在一起,10分钟+ 30分钟+ 14分钟+ 28分钟= 82分钟。答案是82。问:瓦莱丽需要在她要寄出的信封上贴邮票。她给祖母、叔叔和婶婶每人都寄了感谢卡,感谢他们送的生日礼物。她还得分别支付水费和电费。她希望邮寄的折扣比账单多三倍,她的工作申请是邮寄折扣的两倍。如果所有东西都需要1张邮票,除了电费需要2张,她需要多少张邮票?a:让我们一步一步来考虑。为了计算Valerie需要在她将要邮寄的信封上贴多少张邮票,我们需要知道生日礼物感谢卡的数量、账单的数量、邮寄返利的数量、工作申请的数量以及要发送的邮件总数。由于要感谢三个人,所以感谢卡的数量是3张。有两张账单,一张是水费,一张是电费。邮件数比账单数多3,即3 + 2 = 5。工作申请的数量是main-in返利的两倍,也就是2 * 5 = 10个申请。要发送的邮件总数是3 + 2 + 5 + 10 = 20封要发送的邮件。每封邮件需要1张邮票,但电费需要2张邮票。所以她
表13:从GSM8K中选择并注释的完整思维链提示示例。这组样本由GSM8K、ASDiv、SVAMP和SingleEq使用。
问:约翰决定停止投递他应该投递的报纸,而是偷报纸回收现金。周一至周六的报纸每份重8盎司。星期日的报纸重两倍。他应该一天送250份报纸。他十周内不会送货。如果一吨纸回收20美元,他赚了多少?a:让我们一步一步来考虑。如果一吨纸回收20美元,为了计算约翰赚了多少钱,我们需要知道每周运送的纸的重量(磅)、10周内运送的纸的总重量以及纸的总重量(吨)。一张纸的周投递量由6天8盎司纸和一天2*8 = 16盎司纸组成,所以纸的周重量是6 * 8 + 16 = 64盎司,也就是64/16=4磅。由于约翰每天需要投递250篇论文,所以一周内投递的论文总重量为4 * 250 = 1000磅。10周的论文总重量是10 * 1000 = 10000磅。以吨为单位的纸张重量是10000/2000 = 5吨。所以他通过回收纸张赚了5 * 20 = 100美元。答案是100。问:约翰买了一把椅子。然后他买了一张3倍于椅子价格的桌子。然后,他买了一个沙发,价格是桌子的5倍。如果约翰为所有这些物品支付了380美元,那么沙发的价格是多少?a:让我们一步一步来考虑。为了计算沙发的价格,我们需要知道椅子的价格,桌子的价格,以及椅子、桌子、沙发和支付的总金额之间的关系。设x是椅子的价格,3*x是桌子的价格,5*(3*x) = 15*x是沙发的价格。椅子、桌子、沙发和支付的总价的关系是x+3 * x+15 * x = 380美元,也就是19*x = 380,x=20。沙发的价格是15*x,也就是15 * 20 = 300美元。答案是300。问:去年,一名干草农民每月从5英亩的草地上收获560包干草。今年,他又种了7英亩草。如果农民也拥有9匹马,每匹马每天消耗3包干草,如果他从9月1日开始喂马今年的干草,那么到12月底,农民还剩下多少包干草?a:让我们一步一步来考虑。如果农民从9月1日开始喂马今年的干草,为了计算到12月底他会剩下多少捆干草,我们需要知道每英亩草地可以收获的干草捆数,农民今年拥有的草地的英亩数,每月可以收获的干草捆总数, 农民今年拥有的草的英亩数,今年可以收获的干草捆总数,从9月到12月喂马的天数,他家每天吃掉的干草捆数,以及他家将要吃掉的干草捆总数。 每英亩草地每月可收获的干草捆数为560/5 = 112捆干草。这个农民今年拥有的草地面积是7 + 5 = 12英亩。这12英亩草地每月可收获的干草捆数为12 * 112 = 1344捆干草。他今年能收获的干草捆总数是1344 * 12 = 16128。9月到12月喂马的天数一共是30 + 31 + 30 + 31 = 122天。他的马每天吃的干草捆数是3 * 9 = 27。他的马在122天内消耗的干草包总数是27 * 122 = 3294。剩余的捆总数为16128-3294 = 12834。答案是12834。
表14:(续))从GSM8K中选择并注释的完整思维链提示示例。这组样本由GSM8K、ASDiv、SVAMP和SingleEq使用。
问:作为一名自行车销售人员,诺曼的固定工资为每周20美元,加上他卖出的前六辆自行车的6美元,之后卖出的六辆自行车的12美元,以及前12辆之后卖出的每辆自行车的18美元。这一周,诺曼的收入是上周的两倍多。如果他上周卖了A辆自行车,本周卖了Y辆自行车,下列哪种说法一定是正确的?I. y > 2x II。y > x三。y > 3答案选择:(A) I only (B) II only (C) I和II (D) II和III (E) I、II和III A:让我们一步步思考。这有点像做你的税,让我们总结自行车销售和工资方面的数据。0辆自行车-20美元。6辆自行车-56美元。12辆自行车-128美元。超过12辆自行车- 128 + 18*(a-12),其中x是售出的自行车总数(当a>12时)。A =上周售出的自行车。AS =上周工资。Y =本周单车鞋底。YS =本周工资。鉴于YS>2AS。让我们测试所有A=0的语句;。AS = 20。YS >40。当Y = 4时为真。满足所有的陈述,但是我们只能确定iii,因为Y只会从这里增加。所以iii一定是真的。排除A,B,c,让我们测试所有A=1的语句;。AS = 26。YS>52。当Y=6时为真。仍然满足所有的声明-没有实现。让我们测试A=6的所有语句。AS = 56。YS>112。当Y = 11时为真。这证明了陈述I是错误的,因此排除E,剩下d。答案是d。问:如果k是一个非负整数,15k是823,435的除数那么5ˇk-kˇ5 =答案选项:(A)0(B)1(C)35(D)ˇ120(E)245 A:我们来一步步思考。8+2+3+4+3+5 = 25,所以这个数不能被3整除,因而也不能被15整除。因此,k=0。5kˇ-K5ˇ= 1-0 = 1。答案是b。问:在过去的三周里,中野律纪平均每周去健身房两次。再过一周,中野律纪去健身房的平均次数增加到每周3次。最近一周,中野律纪去了几次健身房?答案选择:(A) 7 (B) 3 (C) 6 (D) 2 (E) 4 A:让我们一步步思考。三周内每周总次数= 3*2 = 6。4周内每周总次数= 4*3 = 12。最近一周的访问次数= 12-6 = 6次访问。答案是c。问:一个时钟设置在早上8点,它在24小时内快了10分钟。当时钟指向第二天下午1点时,准确时间是多少?答案选择:(A)12点过48分(B)32点过48分(C)19点过48分(D)11点过48分(E)16点过48分答:让我们一步步思考。从当天上午8点到第二天下午1点的时间= 29小时。这个时钟的24小时10分钟=正确时钟的24小时。这个时钟的小时=正确时钟的24小时。这个时钟的29小时=正确时钟的小时=正确时钟的28小时48分钟。因此,正确的时间是上午8点28分48秒,也就是12点48分。答案是a。
表15:从AQuA中选择并注释的完整思维链提示示例。
问:在哪里可以找到不怕被猎杀的树懒?答案选择:(A)森林树冠层(B)自然保护区(C)动物园(D)热带雨林(E)商业A:让我们一步步思考。要回答在哪里可以找到不怕被猎杀的树懒这个问题,我们需要知道树懒生活在哪里,树懒什么时候不怕被猎杀。树懒生活在栖息地受到良好保护的地方。树懒在它们生活的地方狩猎是非法的,它们不怕被猎杀。在上述选择中,(B)自然保护区最有意义,因为它很好地保护了树懒的栖息地,并禁止捕猎。答案是b。问:人们声称上帝给了人们什么礼物?答案选择:(A)圣经(B)无处不在(C)审判人(D)关心人(E)创造奇迹A:让我们一步步思考。要回答人们声称上帝给了人们什么礼物的问题,我们需要知道什么是上帝的礼物,没有上帝的礼物人们不能做什么。来自上帝的礼物是人们通常无法获得的能力。人们通常不能创造奇迹,除非是上帝赐予的。在上述选择中,(E)创造奇迹最有意义,因为奇迹是指除非上帝赐予,否则人们无法实现的事情。答案是e。问:什么东西可能不是用木棒做成的?答案选择:(A)扫帚(B)扫帚柜(C)旧钟(D)五金店(E)老房子A:让我们一步步来思考。要回答什么可能不是用木棒造出来的这个问题,我们需要知道什么是木棒,木棒能做什么。木棒是由各种大小的木头制成的棍子。木棒可以用作工具或家具的一部分。以上选择中,(E)老房子最有道理,因为木杆太弱,支撑不住老房子。答案是e。问:你在哪里使用避孕套?答案选择:(A)超市(B)迪克(C)卧室(D)医药箱(E)床A:让我们一步步思考。要回答你在哪里使用避孕套的问题,我们需要知道人们什么时候需要避孕套,当他们使用避孕套时,他们呆在哪里。人们做爱时使用避孕套。人们在卧室做爱并使用避孕套。在上述选择中,(C)卧室最有意义,因为人们在卧室里用避孕套做爱是最礼貌和合适的。答案是c。问:圣诞节后会发生什么?答案选择:(A)给别人买礼物(B)夏天(C)复活节(D)见工(E)万圣节A:让我们一步步思考。要回答圣诞节后不久会发生什么的问题,我们需要知道圣诞节后不久意味着什么,圣诞节后不久会发生什么。圣诞节后不久是指圣诞节后的几天。通常另一个节日发生在圣诞节后不久。在以上选择中,(C)复活节最有意义,因为复活节是一个离圣诞节最近的节日。答案是c。问:除了研究材料,查找信息还需要什么?答案选择:(A)互联网(B)提问(C)时间(D)寻找(E)逻辑A:让我们一步步思考。要回答查找信息除了研究材料还需要什么的问题,我们需要知道人们在查找信息时做什么,什么是研究材料。人们花时间有目的地查找一些东西叫做查找信息。研究材料通常是指他们正在寻找的东西和必要的工具,如互联网。在上面的选择中,(C)时间是最有意义的,因为人们肯定需要花时间去寻找信息。答案是c。问:在有人可以收养之前,父母必须对他们的后代做些什么?答案选择:(A)亲生子女(B)送人(C)出生(D)遗弃(E)孤儿A:让我们一步步思考。要回答在某人可以收养孩子之前父母必须对他们的孩子做什么的问题,我们需要知道收养的要求是什么,对他们的孩子做什么是合法的行为。通常情况下,当人们没有后代或放弃生育后代时,他们可以收养孩子。决定不要孩子是合法的,这是放弃他们的后代。在以上选择中,(B)放弃是最有意义的,因为人们必须放弃他们的后代才能被收养。答案是b。
表16:从CommonsenseQA中选择并注释的完整思维链提示示例。
问:走向超大型望远镜有可能被杀死吗?a:让我们一步一步来考虑。非常大的望远镜在阿塔卡马沙漠。阿塔卡马沙漠是世界上最干燥的炎热沙漠。因此,在阿塔卡马沙漠中行走是有可能被杀死的。答案是肯定的。问:克拉克·盖博娶的女人比理查德·伯顿多吗?a:让我们一步一步来考虑。理查德·伯顿娶了四个不同的女人。克拉克·盖博和五个不同的女人结过婚,每个女人一次。因此,克拉克·盖博娶的女人比理查德·伯顿多。答案是肯定的。问:一个人的心脏可以通过丰田Hiux从纽约市持续到北卡罗来纳州的罗利吗?a:让我们一步一步来考虑。人类的心脏在体外可以存活6个小时。从纽约到北卡罗来纳州罗利的距离是505英里。丰田Hilux的最高时速是105英里。从纽约到北卡罗来纳州罗利所需的时间是505英里/ 105英里每小时= 4.8小时。因此,从纽约到北卡罗来纳州罗利的旅行时间不到6小时。答案是肯定的。问:H最常见的两个字母配对伙伴是幸运轮有奖游戏中的赠品吗?a:让我们一步一步来考虑。h与字母T一起构成英语中最常见的两个字母对。幸运轮有奖游戏给玩家六个自由字母:R、S、T、L、N、e。因此,字母T包含在幸运轮有奖游戏中给定的六个自由字母中。答案是肯定的。问:东京有人可以打车去大都会艺术博物馆吗?a:让我们一步一步来考虑。东京位于日本。大都会艺术博物馆在美国。日本和美国被太平洋分开。出租车不能飞越太平洋。因此,在东京有人不能乘出租车去大都会艺术博物馆。答案是否定的。问:奥林匹亚·华盛顿和赫菲斯托斯的工作室同名吗?a:让我们一步一步来考虑。奥林匹亚华盛顿以奥林匹斯山命名,奥林匹斯山是华盛顿的一座山脉,以古希腊奥林匹斯山命名。赫菲斯托斯是古希腊的锻冶之神,在奥林匹斯山上有一个作坊。因此,奥林匹亚华盛顿与赫菲斯托斯的工作室同名答案是肯定的。
表17:从StrategyQA中选择并注释的完整思维链提示示例。
问:把“威利·瓦莱里娅·赞”中单词的最后几个字母连接起来。a:让我们一步一步来考虑。“威利”的最后一个字母是“e”。“Valeria”的最后一个字母是“a”。“赞”的最后一个字母是“e”。把它们串联起来就是“eae”。答案是eae。问:把《凯莉·吉尔·拉克什米》中单词的最后几个字母连接起来。a:让我们一步一步来考虑。“Kylie”的最后一个字母是“e”。“Guille”的最后一个字母是“e”。“Lakshmi”的最后一个字母是“I”。把它们串联起来就是“eei”。答案是eei。问:把“卡梅洛·雷纳尔多·萨德”中单词的最后几个字母连起来。a:让我们一步一步来考虑。“Carmelo”的最后一个字母是“o”。“雷纳尔多”的最后一个字母是“o”。“萨德”的最后一个字母是“e”。把它们串联起来就是“ooe”。答案是ooe。问:把《加布·文图拉·伍迪》中单词的最后几个字母连接起来。a:让我们一步一步来考虑。“Gabe”的最后一个字母是“e”。“文图拉”的最后一个字母是“a”。“Woody”的最后一个字母是“y”。把它们串联起来就是“eay”。答案是eay。
表18:从信(4)中选择并注释的完整思维链提示的范例。