论文浅尝 | AI回答小学科学问题达到人类水平(OpenBookQA)

转载公众号 | 南大Websoft 


AI能否像人类一样学习掌握科学知识,理解运用常识知识,最终像人类一样参加并通过学科考试?近日,南京大学万维网软件研究组(Websoft)在人工智能评测集OpenBookQA上实现了突破,研发的GenMC模型取得了92%的正确率,首次达到了人类水平。

       OpenBookQA是美国艾伦人工智能研究院(Allen Institute for AI)发布的问答技术评测集,由小学科学选择题组成,并提供了与之相关的核心科学事实作为课本。该评测集的目的是通过选择题考试,探究AI学习课本知识,以及在新的场景下利用知识的能力。除了课本知识以外,回答OpenBookQA中的问题还需要具备广泛的常识,这对AI带来了比较大的挑战。

d0fda5586fded6b81161096f945c031c.png

OpenBookQA近年来吸引了包括谷歌、斯坦福等国际顶尖研究机构参与。在目前的排行榜上,由南京大学团队提出的GenMC模型以较显著的优势取得领先,其集成版本更是首次达到了人类在该评测集上的水平。

3e22452f472ffa27b965205f7e3184da.png

在OpenBookQA等选择题问答任务中,以往研究可分为两类范式——Text-to-Text范式与Encoder-Only范式。其中,以T5、UnifiedQA为代表的Text-to-Text范式基于encoder-decoder模型,它将问题和所有选项拼接作为输入,以正确选项文本作为生成目标。这类模型的优势是将不同格式的自然语言处理任务都统一构建为文本到文本(Text-to-Text)格式进行联合训练,有利于学习到更多知识。但对于选择题这种分类任务,encoder-decoder模型所学习的生成目标仅是对于输入的拷贝,这导致预训练模型的自然语言生成能力未被充分利用。而以BERT、RoBERTa为代表的Encoder-Only范式则不考虑decoder部分的使用,将问题与每个选项拼接并独立输入encoder,仅依赖于encoder的自然语言理解能力学习和预测。

这两种范式均无法充分挖掘预训练模型decoder中蕴含的丰富知识,对于选择题这种分类任务,如何更自然地用好encoder-decoder模型是一项技术挑战。为此,南京大学团队提出了一种生成增强的选择题问答模型GenMC,更好地结合了encoder的自然语言理解与decoder的自然语言生成能力,在OpenBookQA等选择题问答任务上取得了不错的效果。

f83d4ea7d7abe7e16f5e43cedddfc3d5.png

GenMC受人类答题行为的启发而设计——先阅读题干,从自己脑海的背景知识中联想可能的解题线索,再带着线索理解和对比选项得出答案。例如问题“生产笔记本的公司所需的主要原料是什么?”,在选出正确答案“树”之前,GenMC能够通过题干生成常识线索 “纸”,作为关联题干中的“笔记本”和正确答案“树”的中间概念,从而帮助模型更好理解题目并作答。具体模型设计上,GenMC由“线索生成器”和“增强阅读器”两部分组成。模型结构如下图所示:bc026755952230c5ccf5cd45c3926ddf.png

1、线索生成器模块以问题Q作为输入,得到线索的表示HQC。该模块使用完整的encoder-decoder模型对问题Q编码,取encoder最后一层作为问题的表示HQ,并以自回归的方式由decoder生成线索并取其稠密表示HC。为了增强对线索的理解与表示,使用Transformer对HQHC做交互,得到最终的线索表示HQC

2、增强阅读器模块以问题Q和第i个选项Oi作为输入(在开卷设置中,检索文本也作为输入),对选项Oi用线索增强理解后,选择出正确答案。该模块仅用共享参数的encoder部分对问题Q和选项Oi编码,取encoder最后一层输出得到选项的上下文表示HiQO。接着采用dual-attention对HQCHiQO做信息融合,并经Pooling和MLP层得到选项Oi的得分。得分最高的选项被选为答案。

3、训练目标由生成器loss和阅读器loss两部分相加而成。其中,生成器loss以正确答案的文本作为目标,以teacher forcing的方式训练;阅读器loss则通过交叉熵极大化正确选项的概率。

7e30ec2346025dd5dbbcd51ff847d40a.png

GenMC基于四种不同的基础模型在五个数据集上进行了实验,其答题正确率均显著超越了相同配置的Text-to-Text基线模型。

ff6dcdea35d9551fd6ca6c590f5623c3.png

这项研究成果已被自然语言处理领域的重要国际会议NAACL 2022录用,更多细节可查阅论文及获取源代码:

论文标题:Clues Before Answers: Generation-Enhanced Multiple-Choice QA

论文链接:https://arxiv.org/pdf/2205.00274.pdf

源码链接:https://github.com/nju-websoft/GenMC


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

3942462577006f6fcd884f2a9b4b55a0.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477725.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 1003. 检查替换后的词是否有效(栈)

1. 题目 给定有效字符串 “abc”。 对于任何有效的字符串 V,我们可以将 V 分成两个部分 X 和 Y,使得 X Y(X 与 Y 连接)等于 V。(X 或 Y 可以为空。)那么,X “abc” Y 也同样是有效的。 例…

论文浅尝 - IJCAI2022 | 基于自适应虚词增强的小样本逆关系分类

论文作者:窦春柳,天津大学,研究方向:知识图谱论文链接:http://arxiv.org/abs/2204.12111代码地址:https://github.com/DOU123321/FAEA-FSRC摘要小样本关系分类(Few-shot Relations Classificati…

Spring Cloud Alibaba与Spring Boot、Spring Cloud之间不得不说的版本关系

这篇博文是临时增加出来的内容,主要是由于最近连载《Spring Cloud Alibaba基础教程》系列的时候,碰到读者咨询的大量问题中存在一个比较普遍的问题:版本的选择。其实这类问题,在之前写Spring Cloud基础教程的时候,就已…

这个开源数据集要在全球扩大中文NLP影响力,你也能来做贡献!

源 | 机器之心编辑部千言的升级重点聚焦大模型时代的机遇和挑战。「千言」是由百度联合中国计算机学会、中国中文信息学会共同发起的面向自然语言处理的开源数据集项目,旨在推动中文信息处理技术的进步。近日,在 2021 年 12 月 12 日的 WAVE SUMMIT2021 …

LeetCode 676. 实现一个魔法字典(哈希)

1. 题目 实现一个带有buildDict, 以及 search方法的魔法字典。 对于buildDict方法,你将被给定一串不重复的单词来构建一个字典。 对于search方法,你将被给定一个单词,并且判定能否只将这个单词中一个字母换成另一个字母,使得所…

技术动态 | 北大邹磊:图数据库中的子图匹配算法

转载公众号 | DataFunTalk分享嘉宾:邹磊 北京大学 教授编辑整理:xiaomei出品平台:DataFunTalk导读:本次讲座从图数据库中的核心查询算子——子图匹配入题,介绍了图数据库的基本概念、子图匹配的算法,以及在…

Spring Cloud Alibaba基础教程:Nacos的数据持久化

前情回顾: 《Spring Cloud Alibaba基础教程:使用Nacos实现服务注册与发现》《Spring Cloud Alibaba基础教程:支持的几种服务消费方式》《Spring Cloud Alibaba基础教程:使用Nacos作为配置中心》《Spring Cloud Alibaba基础教程&a…

盘点我跳过的科研天坑,进坑就是半年白干

文 | 白鹡鸰 and 小轶 祝大家新年快乐!去年白鹡鸰花了两个月,刷了八千篇Arxiv,结果发现很多论文存在一些比较“基本”的常见问题:研究问题和问题假设存在严重的漏洞,或者缺少充分的相关工作调研,导致所谓的…

LeetCode 553. 最优除法(数学)

1. 题目 给定一组正整数,相邻的整数之间将会进行浮点除法操作。例如, [2,3,4] -> 2 / 3 / 4 。 但是,你可以在任意位置添加任意数目的括号,来改变算数的优先级。你需要找出怎么添加括号,才能得到最大的结果&#…

论文浅尝 - ACL2022 | 子图检索增强的知识图谱问答方法

转载公众号 | 学术头条作者:张静(中国人民大学),张晓康(中国人民大学),于济凡(清华大学),唐建(魁北克人工智能研究所),唐杰…

Spring Cloud Alibaba基础教程:Nacos配置的多文件加载与共享配置

前情回顾: 《Spring Cloud Alibaba基础教程:使用Nacos实现服务注册与发现》《Spring Cloud Alibaba基础教程:支持的几种服务消费方式》《Spring Cloud Alibaba基础教程:使用Nacos作为配置中心》《Spring Cloud Alibaba基础教程&a…

2202年了,“小样本”还值得卷吗?

文 | Severus从一个应用实验引发的思考。大家好,我是Severus,一个在某厂做中文自然语言理解的老程序员。这个主题,源自于我之前在公司内做的一次技术分享。承接上一篇文章(格局打开,带你解锁 prompt 的花式用法&#x…

LeetCode 1023. 驼峰式匹配(暴力匹配)

1. 题目 如果我们可以将小写字母插入模式串 pattern 得到待查询项 query,那么待查询项与给定模式串匹配。(我们可以在任何位置插入每个字符,也可以插入 0 个字符。) 给定待查询列表 queries,和模式串 pattern&#x…

图谱实战 | 谈元鹏:电力领域知识图谱技术进展与应用实践

转载公众号 | DataFunTalk 分享嘉宾:谈元鹏 中国电力科学研究院编辑整理:monk 国家管网出品平台:DataFunTalk导读:知识图谱相关技术在开发和应用过程中,通常需要跟行业或者业务领域进行高度融合。但是在行业知识图谱构…

Spring Cloud Alibaba基础教程:Nacos配置的多环境管理

前情回顾: 《Spring Cloud Alibaba基础教程:使用Nacos实现服务注册与发现》《Spring Cloud Alibaba基础教程:支持的几种服务消费方式》《Spring Cloud Alibaba基础教程:使用Nacos作为配置中心》《Spring Cloud Alibaba基础教程&a…

LeetCode 423. 从英文中重建数字(找规律)

1. 题目 给定一个非空字符串,其中包含字母顺序打乱的英文单词表示的数字0-9。按升序输出原始的数字。 注意: 输入只包含小写英文字母。 输入保证合法并可以转换为原始的数字,这意味着像 “abc” 或 “zerone” 的输入是不允许的。 输入字符串的长度小于…

朱松纯:AI 需由“心”驱动,实现“心”与“理”的动态平衡

朱松纯北京通用人工智能研究院院长北京大学讲席教授清华大学基础科学讲席教授引言1.1 人生轨道:跃迁与升华人生一世所追求的,用世俗的语言来讲,无非三个层次:第一就是活着, 这对应于马斯洛七层需求理论(hi…

Spring Cloud Alibaba基础教程:Nacos配置的加载规则详解

前情回顾: 《Spring Cloud Alibaba基础教程:使用Nacos实现服务注册与发现》《Spring Cloud Alibaba基础教程:支持的几种服务消费方式(RestTemplate、WebClient、Feign)》《Spring Cloud Alibaba基础教程:使…

LeetCode 881. 救生艇(贪心,双指针)

1. 题目 第 i 个人的体重为 people[i],每艘船可以承载的最大重量为 limit。 每艘船最多可同时载两人,但条件是这些人的重量之和最多为 limit。 返回载到每一个人所需的最小船数。(保证每个人都能被船载)。 示例 1: 输入:peopl…

【报名开启】CCKS 2022教科书示意图问答任务

赛题背景示意图是一种高度抽象的知识表达载体,常由矩形、圆形等几何形状和箭头、折线等逻辑符号组成,广泛被应用于教科书、百科、知识博客等教育场景。在上述场景中,学习者常通过视觉问答的形式来判断对知识点的掌握情况,即&#…