AAAI 2024 | 用逆向思维图(ReX-GoT)进行多选对话常识推理

6f7859c23405df5c2ff56f8e39d0b7c2.gif

©PaperWeekly 原创 · 作者 | 郑理

单位 | 武汉大学硕士生 

研究方向 | 自然语言处理

0de78800aa4d2c8f43f200e971c5c44b.png

论文题目:

Reverse Multi-Choice Dialogue Commonsense Inference with Graph-of-Thought

论文作者:

郑理¹,费豪²,李霏¹,李波波¹,廖黎姿²,姬东鸿¹,滕冲¹

作者单位:

武汉大学¹,新加坡国立大学²,新加坡管理大学³

收录会议:

AAAI 2024

论文链接:

https://arxiv.org/abs/2312.15291

代码链接:

https://github.com/ZhengL00/ReX-GoT

本工作极简概括:由于多项选择查询的复杂性和信息密度增加,现有方法在处理多项选择问题时遇到困难。在本文中,受人类渐进排除选项的认知过程启发,我们提出了一个三步骤的“逆向排除思维图”(ReX-GoT)框架,包括选项排除、错误分析和信息组合。在基于 GPT3.5 的 ReX-GoT 框架在 F1 分数上取得了 39.44% 的显著增加。

97865e941110486b12c232acf6c5e917.png

动机介绍

1.1 任务背景

常识知识对于人类认知和自然的人机交互非常重要,它包括我们对世界的直观理解和推理能力。随着社交网络的增长,对话中的常识推理在自然语言处理(NLP)领域中引起了显著的关注,成为一个新兴的研究领域 。然而,在对话中准确理解和解释说话者的问题和意图是一个重要的挑战。为此,提出了“对话常识多项选择问题回答”(DC-MCQ)任务,其定义是基于对话的历史和上下文从预设选项中选择符合逻辑的答案。

DC-MCQ 任务涉及单项选择和多项选择问题。尽管现有的工在单项选择任务中取得了有希望的结果,但在多项选择任务中的性能仍然不理想。由于多项选择任务的复杂性,当前模型面临着“选项饱和”和“线索迷宫”两个挑战。选项饱和挑战指的是选项数量的不确定性,这增加了模型推理的难度。

与此同时,“线索迷宫”挑战涉及分析不同复杂线索的组合,其中包括在问题和答案选项中编织的复杂隐藏信息,以及预测信息的不同线索,就像迷宫的复杂性一样。这要求模型具备更强的信息整合和理解能力。因此,相比单项选择问题,多项选择问题更具挑战性。

1.2 现象分析

现有的多项选择问答方法主要依赖于正向推理。通常情况下,这些方法独立评估每个选项,由于选项之间错综复杂的相互关系和不确定性,往往无法准确确定正确答案。受人类排除选项的认知模式启发,我们采用类似的策略逐步缩小潜在答案的范围。

如图所示,根据上下文,我们排除了选项 D 和 C,获得了一些线索,即 Bob 有更重要的事情要做,正确的选项也必须重要且需要花费很长时间。基于上下文和我们掌握的线索,我们继续推理,确定选项 A、B 和 E 是正确的。这种排除为中心的方法增强了推理能力,揭示了错误选项中隐藏的见解,并极大地减轻了多个答案情况下的预测挑战。

另一方面,多项选择任务中每个选项的上下文范围超出了给定对话的范围。基于直接答案选择的模型很难完全理解问题和选项之间的多维复杂关系,这可能导致模型推理过载,影响准确性。随着大型语言模型(LLM)在 NLP 任务中的广泛应用,研究人员已经发现,思维链(CoT)可以帮助 LLM 在复杂推理任务中生成中间步骤。

然而,现有的 LLM 思维链推理仅限于进行线性推理,无法以多维方式利用潜在的多线索推理来解决线索迷宫挑战。此外,现有的思维链方法只是表面上利用了上下文信息,并忽视了利用排除方法来利用选项中的隐藏信息。

d2a1986cca81b007f7646b5e0fcfd55a.png

5fc3040ef6faefdca9e781c038010b20.png

逆向排除思维图框架

我们设计了一个三步骤的“逆向排除思维图”(ReX-GoT)框架,包括“选项排除”、“错误分析”和“信息整合”。

如图所示,在第一步中,模型根据上下文信息进行初步判断,排除不合理的选项,并提供排除的原因。在第二步中,利用第一步获得的见解进行错误分析和选项比较,进一步引导模型确定每个选项的合理性并证明其选择。在最后一步中,将第一步和第二步中提取的不同原因作为不同路径进行组合,并通过投票机制选择最佳路径,得出最终的多项选择答案。这种独特的逆向排除和正向推理的结合系统地排除了无关的替代方案,从而减轻了预测多个正确答案的复杂性。

21016e961dc35e0992ec4a3dc1fa7df6.png

第一步:选项排除

在这一步中,我们的方法涉及一个初始排除过程,以有效地缩小潜在答案的范围。

随后,我们向模型提供了关于排除某些选项的原因的关键信息。这些信息作为有价值的上下文输入,有助于后续的推理过程。

此外,我们的方法不仅仅限于排除,还为模型提供了明确的理由,解释为何某些选项被认为是不正确的。通过将这些详细的解释纳入推理过程中,我们使模型对上下文有了更全面的理解,使其能够进行更加明智和准确的推理。具体来说,我们设计了以下模板,根据给定的上下文考虑哪些选项不可信以及它们的原因。

ad7c4e7d087928ab972ebf2f2c168d7a.png

第二步:错误分析

在这一步中,我们构建了一个思维图(GoT),根据已知信息进行错误分析和选项比较,进一步帮助模型进行推理。具体而言,我们首先创建一个中心节点,代表问题的主干。然后,我们为每个答案选项及其推理过程创建节点。对于每个选项,我们分析提供的信息,并确定它是否与问题的主干相匹配。如果匹配,我们将其标记为可能正确的选项。

如果不匹配,我们将其标记为可能不正确的选项。接下来,我们为可能正确的选项创建一组分支节点,并对每个分支节点进行更详细的分析。我们将每个选项提供的信息与现有信息进行比较,并排除任何不匹配的选项。最后,通过排除可能不正确的选项并确认剩余选项与提供的信息相匹配,我们得出正确答案。模板如下所示:

09d0e15db7b71e1ac7688d2480984bdd.png

第三步:信息整合

在这一步中,我们利用前两个步骤收集到的有价值洞见,并使用思维图(GoT)进一步推进我们的推理过程。具体而言,在推理步骤 I 和步骤 II 中,我们将 LLM 解码器设置为生成多个答案,作为通过思维图的不同路径,每个路径对每个选项都给出了不同的预测。最终的多项选择答案是通过选择最佳路径来确定的,采用投票机制。

借助思维图,我们深入探究更复杂和具有挑战性的选项的微妙细节,直到对所有选项进行全面评估,确定出最终的多项选择答案。模板如下所示:

b09a9357fbdacfb788c63b41bdc7239a.png

b64ba1c91e71ff91f4976a0834a0b0e1.png

实验分析

3.1 有监督微调结果

我们首先使用 F1 分数和 EM 分数全面评估我们的 ReX-GoT 在对话常识推理中的优越性。我们将其与 SoTA 基线(CCID、MCCI、TEAM)、基于提示的方法和基于 CoT 的方法在和和数据集上进行比较。见表 X,使用 Flan-T5-11B 时,在 CICERO 上,ReX-GoT 在 F1 分数上比最佳基线 TEAM 提高了 2.9%,在 EM 分数上提高了 2.74%。

与提示和 CoT 方法相比,我们的 ReX-GoT 表现出显著提升,尤其是在具有在多个正确答案选项的数据集上,我们的模型的 EM 分数分别提高了 5.82% 和 7.79%。

f7a8c779aa0007a6ff1d841c5c1148ee.png

3.2 Zero-shot结果

我们在零样本条件下对我们提出的 ReX-GoT 方法与 SoTA 方法、基于提示的方法和基于 CoT 的方法进行了全面比较。见表 x,GPT3-175B 在结合力 ReX-GoT 后,在数据集上提高了 34.83% 的 SoTA F1 分数,在上提高了 39.44% 的 SoTA F1 分数。

d55d8159138bd61a92220e535b291ca4.png

3.3 正确选项数量的影响

我们研究了正确选项数量对我们的模型在对话常识推理中性能的影响。

如图所示,我们观察到模型的性能随着正确选项数量的变化而变化。我们的 ReX-GoT 方法在有两个正确选项的问题上表现最差,其次是有四个、三个正确选项的问题,而在只有一个正确选项的问题上表现最好。

另一方面,基于提示和 CoT 方法在正确选项数量增加时性能下降。ReX-GoT 有效地利用选项信息,捕捉选项与上下文之间的关系,区分正确和错误选项。这种优势在多个正确选项的问题中尤为突出,其中选项信息起着关键作用。

相比之下,传统方法仅依赖上下文,忽视了隐藏线索的整合,并未充分利用选项中的额外信息。总体而言,ReX-GoT 在多项选择题回答中显示出潜力,特别是在有更多正确选项的情况下。

9ee5d7697b8d475526e8c27f31e7978d.png

3.4 不同推理方法的影响

我们进行了实验,将我们的 ReX-GoT 方法与前向推理和后向排除进行比较。前向推理涉及在每个步骤中选择最可信的选项,直到没有正确选项为止另一方面,后向排除涉及在每个步骤中选择最不正确的选项,直到没有错误选项为止。图中的结果显示,ReX-GoT 在两个数据集上都优于这两种单一方法。

c151cc0e3a0238035e15ca45b8950d5f.png

167f04f23fa029c2151cedc05aeb9ccb.png

结论

在本文中,我们解决了对话常识多选题回答任务中紧迫的选项饱和和线索迷宫挑战。我们提出了 ReX-GoT,这是一个新颖的三步反向排除思维图框架,包括选项排除、错误分析和信息组合,以模拟人类推理过程。通过逐步排除不相关的选项并融入类似人类推理的过程,来构建思维图并选择其最优路径来得到最终答案。我们在和数据集上进行了大量实验,结果表明我们的方案在单选题和多选题对话常识推理中均达到了 SoTA 的性能水平。

更多阅读

8e1eef2b8b130c891f88f71eaa90c04b.png

9e3343458431c4fb356974decf105a1f.png

c17f04cbe8900da4952b52fe89a9a51b.png

bf9fff8fc4eccac6d52e308f54a6d48a.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

268c26a3a52dbc7f2173e5a2556a6b47.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

d391eb3ecb24cac256f17a3b88981230.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/587249.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

EI级 | Matlab实现TCN-BiGRU-Multihead-Attention多头注意力机制多变量时间序列预测

EI级 | Matlab实现TCN-BiGRU-Multihead-Attention多头注意力机制多变量时间序列预测 目录 EI级 | Matlab实现TCN-BiGRU-Multihead-Attention多头注意力机制多变量时间序列预测预测效果基本介绍模型描述程序设计参考资料 预测效果 基本介绍 1.【EI级】 Matlab实现TCN-BiGRU-Mult…

2023年03月09日_谷歌视觉语言模型PaLM-E的介绍

自从最近微软凭借OpenAI 和ChatGPT火了一把之后呢 老对手Google就总想着扳回一局 之前发布了硬刚ChatGPT的Bard 但是没想到翻车了 弄巧成拙 所以呢Google这一周又发了个大招 发布了史上最大的视觉语言模型PaLM-E 这个模型有多夸张呢 参数量高达5,620亿 是ChatGTP-3的三…

nextTick的原理

开发中有这么一个需求&#xff0c;回显的适合&#xff0c;el-tree的检查严格标志属性更新为true。当更新完成后&#xff0c;又要改为false。还原。 <template><div><el-tree:data"data"show-checkbox:check-strictly"checkStrictly"default…

linux安装java8

1、下载java 根据自己系统的位数下载 查看系统位数命令&#xff1a;getconf LONG_BIT 下载地址 https://www.oracle.com/java/technologies/javase/javase8u211-later-archive-downloads.html 2、解压、移动 将下载的文件上传到linux系统中并解压 tar -zxvf jdk-8u333-linux…

条件编译处理多端差异

条件编译https://uniapp.dcloud.net.cn/tutorial/platform.html#%E4%B8%BA%E4%BB%80%E4%B9%88%E9%80%89%E6%8B%A9%E6%9D%A1%E4%BB%B6%E7%BC%96%E8%AF%91%E5%A4%84%E7%90%86%E8%B7%A8%E7%AB%AF%E5%85%BC%E5%AE%B9 <template><view class"container"><…

OSPF ROUTER-ID-新版(15)

目录 整体拓扑 操作步骤 1.INT 验证Router-ID选举规则 1.1 查看路由器Router-ID 1.2 配置R1地址 1.3 查看R1接口信息 1.4 查看R1Router-ID 1.5 删除接口IP并查看Router-ID 1.6 手工配置Router-ID 2.基本配置 2.1 配置R1的IP 2.2 配置R2的IP 2.3 配置R3的IP 2.4 配…

c++ 简单实用万能异常捕获

多层捕获异常&#xff0c;逐渐严格。并打印出错信息和位置&#xff1a;哪个文件&#xff0c;哪个函数&#xff0c;具体哪一行代码。 #include <stdexcept> // 包含标准异常类的头文件try {int a 2 / 0; }catch (const std::runtime_error& e) {// 捕获 std::runt…

游戏任务系统实现思路

文章目录 一、需求介绍二、数据库设计3、代码部分实现 一、需求介绍 1、首先任务的类型不同&#xff0c;可以分为&#xff1a;日常任务、成长任务、活动任务等等。 2、当达到任务目标时&#xff0c;自动发放任务奖励。 3、任务需要后台可配置&#xff0c;例如&#xff1a;任务…

访问公网视频监控平台,看不到实时视频的问题查处

一、实时监控视频看不到了的问题出现 今天在给客户演示实时视频监控&#xff0c;通过公网平台能够正常查看各个品牌IPC的实时视频&#xff08;在浏览器页面输入“http://公网平台IP地址”&#xff0c;关于IP地址详细介绍&#xff0c;可以看以前文章&#xff09;&#xff0c;如下…

Python集成开发工具

第二章、IDE&#xff08;PyCharm&#xff09; 一、设置py文件模板 设置模版 二、格式化代码设置 三、PyCharm运行python源文件的模式 第一次按照何种模式执行测试用例&#xff0c;后续都会按照这种方式去执行 普通模式&#xff0c;unittest模式&#xff0c;pytest模式介绍 四…

记录DevEco Studio 模拟器启动失败问题

启动模拟器报错 解决步骤 1、“启用或关闭windows功能"勾选"hyper-v”、“windows虚拟机监控程序平台”、“虚拟机平台” 2、打开cpu虚拟化 打开bios&#xff0c;打开Intel Virtualization Technology 这样就可以了 在任务管理器可以看到已开启&#xff0c;编辑器…

牛客网SQL训练4—SQL进阶挑战

文章目录 一、增删改操作1. 插入记录2. 更新记录3. 删除记录 二、表与索引操作1. 表的创建、修改与删除2. 索引的创建、删除 三、聚合分组查询1. 聚合函数2. 分组查询 四、多表查询1. 嵌套子查询2. 合并查询3. 连接查询 五、窗口函数1. 专用窗口函数2. 聚合窗口函数 六、其他常…

Redis:原理速成+项目实战——Redis的Java客户端

&#x1f468;‍&#x1f393;作者简介&#xff1a;一位大四、研0学生&#xff0c;正在努力准备大四暑假的实习 &#x1f30c;上期文章&#xff1a;Redis&#xff1a;原理速成项目实战——Redis常见命令&#xff08;数据结构、常见命令总结&#xff09; &#x1f4da;订阅专栏&…

数据治理:释放数据价值的关键

随着数字化时代的到来&#xff0c;数据已成为组织和企业最重要的资产之一。然而&#xff0c;数据的快速增长和复杂性也给数据管理带来了巨大的挑战。为了确保数据的质量、安全性和合规性&#xff0c;数据治理已成为组织和企业必须面对的重要问题。数据治理是数据要素市场建设的…

机器学习(一) -- 概述

系列文章目录 机器学习&#xff08;一&#xff09; -- 概述 机器学习&#xff08;二&#xff09; -- 数据预处理 未完待续…… 目录 系列文章目录 前言 一、机器学习定义&#xff08;是什么&#xff09; 二、机器学习的应用&#xff08;能做什么&#xff09; 三、***机器…

Paste在开发过程中的效率提升

1. 引言 在开发过程中&#xff0c;剪贴板管理工具是程序员日常工作中的得力助手。Paste作为一款专为Mac用户设计的剪贴板管理工具&#xff0c;不仅可以提高复制粘贴的效率&#xff0c;还通过一系列强大的功能为开发者带来更多便利。 Paste是一款专为Mac用户设计的剪贴板管理工…

leetcode链表小练(1.反转链表2.链表的中间节点3.合并两个有序链表4.环形链表①5.环形链表②)详解 (୨୧• ᴗ •͈)◞︎ᶫᵒᵛᵉ ♡

目录 一.反转链表 思路一反转指针反向&#xff1a; 思路二头插法&#xff1a; 二.链表的中间节点&#xff1a; 三.合并两个有序数组: 思路一&#xff1a;从头开始&#xff0c;取两个链表中小的那个尾插到新链表。定义指针head,tail指向空&#xff0c;代表新链表的头结点。…

Linux:不同计算机使用NFS共享资源

一&#xff0c;安装NFS文件系统 NFS即网络文件系统(network file system)&#xff0c;它允许网络中的计算机之间通过网络共享资源。目前&#xff0c;NFS只用于在Linux和UNIX主机间共享文件系统。 #使用mount命令可以将远程主机的文件系统 安装到 本地&#xff1a; #将远程主机…

1、aigc图像相关

aigc图像相关 一、Diffusion webui 在autodl上部署一些问题二、lora和kohyass&#xff08;1&#xff09;角色模型&#xff08;2&#xff09;风格模型&#xff08;3&#xff09;dreambooth&#xff08;4&#xff09;模型合并&#xff08;5&#xff09;Lora加Adetail其他 三、sd …

模型复杂推理-思维链COT基础和进阶玩法

COT基础用法 Few-shot COT Chain of Thought Prompting Elicits Reasoning in Large Language Models 开篇自然是COT小王子的成名作&#xff0c;也是COT的开山之作&#xff0c;单看引用量已经是一骑绝尘。 论文的核心是通过Few-shot的方案&#xff0c;来引导模型生成中间推理过…