AAAI 2024 | 用逆向思维图（ReX-GoT）进行多选对话常识推理

©PaperWeekly 原创 · 作者 | 郑理

单位 | 武汉大学硕士生

研究方向 | 自然语言处理

论文题目：

Reverse Multi-Choice Dialogue Commonsense Inference with Graph-of-Thought

论文作者：

郑理¹，费豪²，李霏¹，李波波¹，廖黎姿²，姬东鸿¹，滕冲¹

作者单位：

武汉大学¹，新加坡国立大学²，新加坡管理大学³

收录会议：

AAAI 2024

论文链接：

https://arxiv.org/abs/2312.15291

代码链接：

https://github.com/ZhengL00/ReX-GoT

本工作极简概括：由于多项选择查询的复杂性和信息密度增加，现有方法在处理多项选择问题时遇到困难。在本文中，受人类渐进排除选项的认知过程启发，我们提出了一个三步骤的“逆向排除思维图”（ReX-GoT）框架，包括选项排除、错误分析和信息组合。在基于 GPT3.5 的 ReX-GoT 框架在 F1 分数上取得了 39.44% 的显著增加。

动机介绍

1.1 任务背景

常识知识对于人类认知和自然的人机交互非常重要，它包括我们对世界的直观理解和推理能力。随着社交网络的增长，对话中的常识推理在自然语言处理（NLP）领域中引起了显著的关注，成为一个新兴的研究领域。然而，在对话中准确理解和解释说话者的问题和意图是一个重要的挑战。为此，提出了“对话常识多项选择问题回答”（DC-MCQ）任务，其定义是基于对话的历史和上下文从预设选项中选择符合逻辑的答案。

DC-MCQ 任务涉及单项选择和多项选择问题。尽管现有的工在单项选择任务中取得了有希望的结果，但在多项选择任务中的性能仍然不理想。由于多项选择任务的复杂性，当前模型面临着“选项饱和”和“线索迷宫”两个挑战。选项饱和挑战指的是选项数量的不确定性，这增加了模型推理的难度。

与此同时，“线索迷宫”挑战涉及分析不同复杂线索的组合，其中包括在问题和答案选项中编织的复杂隐藏信息，以及预测信息的不同线索，就像迷宫的复杂性一样。这要求模型具备更强的信息整合和理解能力。因此，相比单项选择问题，多项选择问题更具挑战性。

1.2 现象分析

现有的多项选择问答方法主要依赖于正向推理。通常情况下，这些方法独立评估每个选项，由于选项之间错综复杂的相互关系和不确定性，往往无法准确确定正确答案。受人类排除选项的认知模式启发，我们采用类似的策略逐步缩小潜在答案的范围。

如图所示，根据上下文，我们排除了选项 D 和 C，获得了一些线索，即 Bob 有更重要的事情要做，正确的选项也必须重要且需要花费很长时间。基于上下文和我们掌握的线索，我们继续推理，确定选项 A、B 和 E 是正确的。这种排除为中心的方法增强了推理能力，揭示了错误选项中隐藏的见解，并极大地减轻了多个答案情况下的预测挑战。

另一方面，多项选择任务中每个选项的上下文范围超出了给定对话的范围。基于直接答案选择的模型很难完全理解问题和选项之间的多维复杂关系，这可能导致模型推理过载，影响准确性。随着大型语言模型（LLM）在 NLP 任务中的广泛应用，研究人员已经发现，思维链（CoT）可以帮助 LLM 在复杂推理任务中生成中间步骤。

然而，现有的 LLM 思维链推理仅限于进行线性推理，无法以多维方式利用潜在的多线索推理来解决线索迷宫挑战。此外，现有的思维链方法只是表面上利用了上下文信息，并忽视了利用排除方法来利用选项中的隐藏信息。

逆向排除思维图框架

我们设计了一个三步骤的“逆向排除思维图”（ReX-GoT）框架，包括“选项排除”、“错误分析”和“信息整合”。

如图所示，在第一步中，模型根据上下文信息进行初步判断，排除不合理的选项，并提供排除的原因。在第二步中，利用第一步获得的见解进行错误分析和选项比较，进一步引导模型确定每个选项的合理性并证明其选择。在最后一步中，将第一步和第二步中提取的不同原因作为不同路径进行组合，并通过投票机制选择最佳路径，得出最终的多项选择答案。这种独特的逆向排除和正向推理的结合系统地排除了无关的替代方案，从而减轻了预测多个正确答案的复杂性。

第一步：选项排除

在这一步中，我们的方法涉及一个初始排除过程，以有效地缩小潜在答案的范围。

随后，我们向模型提供了关于排除某些选项的原因的关键信息。这些信息作为有价值的上下文输入，有助于后续的推理过程。

此外，我们的方法不仅仅限于排除，还为模型提供了明确的理由，解释为何某些选项被认为是不正确的。通过将这些详细的解释纳入推理过程中，我们使模型对上下文有了更全面的理解，使其能够进行更加明智和准确的推理。具体来说，我们设计了以下模板，根据给定的上下文考虑哪些选项不可信以及它们的原因。

第二步：错误分析

在这一步中，我们构建了一个思维图（GoT），根据已知信息进行错误分析和选项比较，进一步帮助模型进行推理。具体而言，我们首先创建一个中心节点，代表问题的主干。然后，我们为每个答案选项及其推理过程创建节点。对于每个选项，我们分析提供的信息，并确定它是否与问题的主干相匹配。如果匹配，我们将其标记为可能正确的选项。

如果不匹配，我们将其标记为可能不正确的选项。接下来，我们为可能正确的选项创建一组分支节点，并对每个分支节点进行更详细的分析。我们将每个选项提供的信息与现有信息进行比较，并排除任何不匹配的选项。最后，通过排除可能不正确的选项并确认剩余选项与提供的信息相匹配，我们得出正确答案。模板如下所示：

第三步：信息整合

在这一步中，我们利用前两个步骤收集到的有价值洞见，并使用思维图（GoT）进一步推进我们的推理过程。具体而言，在推理步骤 I 和步骤 II 中，我们将 LLM 解码器设置为生成多个答案，作为通过思维图的不同路径，每个路径对每个选项都给出了不同的预测。最终的多项选择答案是通过选择最佳路径来确定的，采用投票机制。

借助思维图，我们深入探究更复杂和具有挑战性的选项的微妙细节，直到对所有选项进行全面评估，确定出最终的多项选择答案。模板如下所示：

实验分析

3.1 有监督微调结果

我们首先使用 F1 分数和 EM 分数全面评估我们的 ReX-GoT 在对话常识推理中的优越性。我们将其与 SoTA 基线（CCID、MCCI、TEAM）、基于提示的方法和基于 CoT 的方法在和和数据集上进行比较。见表 X，使用 Flan-T5-11B 时，在 CICERO 上，ReX-GoT 在 F1 分数上比最佳基线 TEAM 提高了 2.9％，在 EM 分数上提高了 2.74%。

与提示和 CoT 方法相比，我们的 ReX-GoT 表现出显著提升，尤其是在具有在多个正确答案选项的数据集上，我们的模型的 EM 分数分别提高了 5.82% 和 7.79%。

3.2 Zero-shot结果

我们在零样本条件下对我们提出的 ReX-GoT 方法与 SoTA 方法、基于提示的方法和基于 CoT 的方法进行了全面比较。见表 x，GPT3-175B 在结合力 ReX-GoT 后，在数据集上提高了 34.83% 的 SoTA F1 分数，在上提高了 39.44% 的 SoTA F1 分数。

3.3 正确选项数量的影响

我们研究了正确选项数量对我们的模型在对话常识推理中性能的影响。

如图所示，我们观察到模型的性能随着正确选项数量的变化而变化。我们的 ReX-GoT 方法在有两个正确选项的问题上表现最差，其次是有四个、三个正确选项的问题，而在只有一个正确选项的问题上表现最好。

另一方面，基于提示和 CoT 方法在正确选项数量增加时性能下降。ReX-GoT 有效地利用选项信息，捕捉选项与上下文之间的关系，区分正确和错误选项。这种优势在多个正确选项的问题中尤为突出，其中选项信息起着关键作用。

相比之下，传统方法仅依赖上下文，忽视了隐藏线索的整合，并未充分利用选项中的额外信息。总体而言，ReX-GoT 在多项选择题回答中显示出潜力，特别是在有更多正确选项的情况下。

3.4 不同推理方法的影响

我们进行了实验，将我们的 ReX-GoT 方法与前向推理和后向排除进行比较。前向推理涉及在每个步骤中选择最可信的选项，直到没有正确选项为止另一方面，后向排除涉及在每个步骤中选择最不正确的选项，直到没有错误选项为止。图中的结果显示，ReX-GoT 在两个数据集上都优于这两种单一方法。

结论

在本文中，我们解决了对话常识多选题回答任务中紧迫的选项饱和和线索迷宫挑战。我们提出了 ReX-GoT，这是一个新颖的三步反向排除思维图框架，包括选项排除、错误分析和信息组合，以模拟人类推理过程。通过逐步排除不相关的选项并融入类似人类推理的过程，来构建思维图并选择其最优路径来得到最终答案。我们在和数据集上进行了大量实验，结果表明我们的方案在单选题和多选题对话常识推理中均达到了 SoTA 的性能水平。

更多阅读