论文浅尝 | 基于对多条思维链的元推理实现智能问答

67fbea780c838704ab497ebc455db490.png

笔记整理:屠铭尘,浙江大学硕士,研究方向为知识图谱

链接:https://arxiv.org/abs/2304.13007

1. 动机

1.1 Chain of Thought的诞生

  • 尽管大语言模型在许多自然语言处理任务上表现出色,但由于其本质是token by token的类似“词语接龙”的生成方式,并不能理解词句的语义,就导致其在推理相关任务上有所限制,且有研究表明这种缺陷难以通过语言模型规模的扩大得到解决。

  • 因此,Jason Wei等人在2022年发表了Chain-of-Thought Prompting Elicits Reasoning in Large Language Models这篇论文,首次提出了用“Chain of Thought(CoT)”(推理链)这种方法来对ChatGPT等模型进行提示,结果表明此方法可以显著提升模型应对推理任务的能力,这篇论文被称为Chain of Thought的开山之作。

1.2 Chain of Thought的发展

自从Chain of Thought这种推理链提示方法被提出,不断有研究者对这种方法进行了进一步改进。

58e39068eee3ddf176240e65dc76773e.png

(1)Chain of Thought 推理链提示(Jason Wei, et.al 2022)

75301e953104b86726089102700f6a10.png

即在原先Prompting(输入首先给一个示例问题和对应答案,再给一个相似问题,如上图左)的基础上,在给出示例答案的时候同时给出得到答案的推理过程。

研究显示这种方法能提升大语言模型在推理问题上的正确率。

(2)推理链+在线信息检索 (Harsh Trivedi, et.al 2022)

8837022d27726efd0d91bc6ebb047eab.png

允许大语言模型在推理过程中加入对在线信息的检索,研究显示此方法也会提升大语言模型的正确率。

(3)Self-Ask(SA) (Harsh Trivedi, et.al 2023)

9dacb9f068db47bbefe08fdc9c6b26de.png

引导大语言模型将原问题分解成许多小问题,通过逐步解决小问题最终解决原问题。

(4)Self-Consistency(SC)

69ea19e7a663624a118cb05053d31ae7.png

让语言模型多次对同一个问题进行回答,将出现次数最多的那个答案作为最终答案。

(5)本文提出的Multiple Chains Reasoning (MCR)方法

2598f31c85e3229ae0dc56f08f743fb3.png

本篇作者认为,尽管Self-Consistency(SC)方法能显著提升大语言模型应对推理问题的能力,但仍具有以下局限性:

  • 如果某个问题的产出空间很大,那么可能不会得到占多数的答案;

  • 每一次大语言模型对问题进行推理时可能会抓住不同的关键要点,但并不是所有关键信息都会体现在答案中;

  • 答案没有很好的可解释性。

与此同时,MCR具有这些相应的优势:

  • MCR能够结合每条推理链中的重要信息,因此有望实现答案的正确率提高;

  • 答案具有更好的可解释性。

2. 方法

59d5bf3ed4d819a48b2b206e2af8db27.png

MCR方法主要由三大模块:Decomposition、Retrieval、Meta-Reason构成,其中,Decomposition和Retrieval方法类似于之前方法提出的的原问题进行分解、检索等,而本文提出方法的核心则在于第三个模块,也就是元推理模块。

如何实现元推理模块?本文引入了另一个LLM,预先对其进行few-shot prompting。即将多条链的上下文和原始问题给LLM,训练其从多条链上下文中获取有价值信息、产生最终答案的能力。

a6b949435352901470715b7ff20541a9.png

3. 实验

3.1 Setting

(1)数据集

258cf85753691979f663c2f78b23cd6d.png

注:此实验将推理类型分为implicit和explicit两种类型

48950c2a69c39e03c7b3151fce7b8895.png

(2)语言模型

main: GPT-3, code-davinci-002

also: Vicuna-13B

(3)元推理模块 Meta-Reasoner

  • MCR

966bb613ee0f87f779987fd51a601893.png

  • SCR

8519850fe179efcd13a59310b8db9ff5.png

(4)基线Baselines

41b353263cf569f39b46ff65f9d690eb.png

(5)检索器 Retrieval

Google-WIKIPEDIA

3.2 Results

f2b5ad75a78c9cf9d7f5095610ccc155.png

607ff32bcf7ab40438a6d0b10e7e4754.png

3.3 Analysis

(1)MCR在什么情况下胜过SCR?

bc7f05cbe8aa572473837ea5f7537ace.png

当MCR用到了除了greedy链之外的其他链提供的信息时。

(2)是否真的结合了多条链信息

判断产出的句子中是否有一句来自于某一条链,而另一句来自于另一条链(这可以证明元推理模块至少用到了两条链的信息)结果显示,结合链之间的信息可能至少平均对2%-2.5%的例子起到了积极作用。

(3)答案可解释性的质量

通过人工衡量explanation和答案是否相关,以及如果只给问题和语言模型的explanation,看语言模型是否会生成同样答案,来判断explanation的有效性、可重复性。

(4)错误分析

d5c076a73862338b733b7164ff0f9e3c.png

对不同类型的错误进行分类,并分析语言模型面对不同数据集(不同类型推理问题)时在不同类型错误上的正确率。分析得出在面对implicit类型的问题时,语言模型在解析问题(即问题拆分)上可能表现就相对不佳。

4. 总结

(1)结论

  • introduce the MCR method for metareasoning on multiple chains-of-thought. 引入MCR模型对多条链进行元推理。

  • show that MCR outperforms all baselines, including self-consistency, on all 7 multi-hop open-domain QA benchmarks. 证实MCR在所有多跳开放问题标准测试上,表现得比包括SC在内的所有基线方法都要好。

  • analyze MCR for its explanation quality and its multi-chain reasoning capabilities.对MCR的解释能力和多链推理能力进行了分析。

(2)不足

  • opt for a prompted LLM as our meta-reasoner, we do not experiment with a fine-tuned meta-reasoning model. 没有用微调的元推理模型,而只是进行了prompting。

  • For the meta-reasoner context, we experiment with variants which include either generated QA pairs of retrieved evidence sentences. We leave further improvements to the meta-reasoner context as future work.只是给元推理模块QA pairs,未来或许有更好的信息组织形式。

  • extend the open-source model results to include additional datasets besides STRATEGYQA and HOTPOTQA.以后的实验应在更多测试集上进行。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

db93a56c0e856b774638895d23da7b29.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/137646.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用easyui前端框架快速构建一个crud应用

本篇文章将会详细介绍jquery easyui前端框架的使用,通过创建一个crud应用来带大家快速掌握easyui的使用。 easyui是博主最喜欢的前端框架,没有之一,因为它提供了多种主题,而且有圆润的各种组件。 目录 一、快速开始 二、准备工作…

小程序如何设置下单提示语句

下单提示会展示在购物车和提交订单页面,它可以帮助商家告知客户事项,提高用户体验和减少错误操作。例如提示:商品是否包邮、某些区域是否发货、商品送达时间等等。 在小程序管理员后台->配送设置处,填写下单提示。在设置下单提…

Java自学第8课:电商项目(3) - 重新搭建环境

由于之前用的jdk和eclipse,以及mysql并不是视频教程所采用的,在后面运行源码和使用作者提供源码时,总是报错,怀疑: 1 数据库有问题 2 jdk和引入的jar包不匹配 3 其他什么未知的错误? 所以决定卸载jdk e…

SQL入门语句

MySQL和SQL的区别是什么?之间是什么关系? SQL(Structured Query Language)是用于管理和操作关系型数据库(RDBMS)的标准语言。SQL还可以用于这些RDBMS:MySQL、Oracle、Microsoft SQL Server、Pos…

Kafka中遇到的错误:

1、原因:kafka是一个去中心化结果的,所以在启动Kafka的时候,每一个节点上都需要启动。 启动的命令:kafka-server-start.sh -daemon /usr/local/soft/kafka_2.11-1.0.0/config/server.properties

AMESim 2021安装教程

主要是AMESim的安装 写在前面,由于项目需要,需要自学AMESim,因此需要安装这个软件,目前仅仅安装使用,还不涉及到与MATLAB的联合仿真,老板说用 RT LAB半实物仿真平台,但是简单搜了一下&#xff0…

Flutter笔记:绘图示例 - 一个简单的(Canvas )时钟应用

Flutter笔记 绘图示例 - 一个简单的(Canvas )时钟应用 作者:李俊才 (jcLee95):https://blog.csdn.net/qq_28550263 邮箱 :291148484163.com 本文地址:https://blog.csdn.net/qq_2855…

如何记录血压的波动情况

import pandas as pd from plotnine import * import matplotlib.pyplot as plt plt.rcParams[font.sans-serif] [Microsoft YaHei] 记录时间(time)、收缩压(SBP)、舒张压(DBP): df pd.DataFrame({ time: [2023-11-01 08:30, 2023-11-02 21:00, 2023-11-0…

前端-第一部分-HTML

一.初识HTML 1.1 HTML 简介 HTML 全称为 HyperText Mark-up Language,翻译为超文本标签语言,标签也称作标记或者元素。HTML 是目前网络上应用最为广泛的技术之一,也是构成网页文档的主要基石之一。HTML文本是由 HTML 标签组成的描述性文本&a…

力扣最热一百题——每日温度

Python后面的文章,内容都比较多,但是同时我又想保持每天更新的速度,所以Python的文章我继续打磨打磨,先更新一篇算法的文章。 一身正气报国家,旁无乱境不恋她 ヾ(◍∇◍)ノ゙ 力扣题号&#xff1a…

css呼吸效果实现

实现一个图片有规律的大小变化,呈现呼吸效果,怎么用CSS实现这个呼吸效果呢 一.实现 CSS实现动态效果可以使用动画( animation)来属性实现,放大缩小效果可以用transform: scale来实现,在这基础上有了动画,就可以设置一个…

ps人像怎么做渐隐的效果?

photoshop怎么制作人像渐隐的图片效果?渐隐效果需要使用渐变来实现,下面我们就来看看详细的教程。 首先,我们打开Photoshop,点击屏幕框选的【打开】,打开一张背景图片。 下面,我们点击左上角【文件】——【…

Exploration by random network distillation论文笔记

Exploration by Random Network Distillation (2018) 随机网络蒸馏探索 0、问题 这篇文章提出的随机网络蒸馏方法与Curiosity-driven Exploration by Self-supervised Prediction中提出的好奇心机制的区别? 猜想:本文是基于随机网络蒸馏提出的intrin…

楼宇天台视频AI智能监管方案,时刻保障居民安全

一、背景需求分析 我们经常能看到这样的新闻报道,小孩登上小区的天台玩耍,因为家长和物业人员发现得晚,没有及时制止,结果导致意外事故的发生。此前,在某小区就有居民拍下多名儿童在小区高层住宅的楼顶玩耍跳跃&#…

Pytorch R-CNN目标检测-汽车car

概述 目标检测(Object Detection)就是一种基于目标几何和统计特征的图像分割,它将目标的分割和识别合二为一,通俗点说就是给定一张图片要精确的定位到物体所在位置,并完成对物体类别的识别。其准确性和实时性是整个系统的一项重要能力。 R-CNN的全称是Region-CNN(区域卷积神经…

Nginx实现tcp代理并支持TLS加密实验

Nginx源码编译 关于nginx的搭建配置具体参考笔者之前的一篇文章:实时流媒体服务器搭建试验(nginxrtmp)_如何在线测试流媒体rtmp搭建成功了吗-CSDN博客中的前半部分;唯一变化的是编译参数(添加stream模块并添加其对应ss…

无线城市WiFi解决方案【完整Word】

wx供重浩:创享日记 获取完整无水印高清Word版 文章目录 第1章 项目背景1.1“无线城市”的定义1.2 国内外“无线城市”发展概况1.3 典型案例分析1.4 建设无线城市的必要性1.5 无线城市能为政府带来的价值 第2章 项目需求分析2.1 无线城市的现状分析2.2 无线城市的总体…

Excel中功能区的存放位置很灵活,可以根据需要隐藏或显示

在这个简短的教程中,你将找到5种快速简单的方法来恢复Excel功能区,以防丢失,并学习如何隐藏功能区,为工作表腾出更多空间。 功能区是Excel中所有操作的中心点,也是大多数可用功能和命令所在的区域。你觉得功能区占用了你太多的屏幕空间吗?没问题,只需单击鼠标,它就被隐…

Wsl2 Ubuntu在不安装Docker Desktop情况下使用Docker

目录 1. 前提条件 2.安装Distrod 3. 常见问题 3.1.docker compose 问题无法使用问题 3.1. docker-compose up报错 参考文档 1. 前提条件 win10 WSL2 Ubuntu(截止202308最新版本是20.04.xx) 有不少的博客都是建议直接安装docker desktop,这样无论在windows…

秋招进入尾声了,还有哪些公司和岗位可以投递?

24届秋招基本已经进入尾声了,接下来就是秋招补录了,最近在微信群看到一些同学再问哪些公司还在招人的。 在这里跟大家分享一份2024届秋招信息汇总表,目前已更新2000家,不仅有互联网公司,还有外企、国企、各类研究所&am…