AllenAI 发布万能问答系统 MACAW!各类题型样样精通,性能大幅超越 GPT-3!

df156b0af932cf10192c984f2089d58b.png

文 | python

497139f9450b2469b89f571190f3a0a2.png前言ed95f5cd05fc396dcb8295b7f8a28f60.png

GPT-3 等超大规模预训练语言模型,在少监督任务(few-shot tasks)上取得了令人瞩目的成绩。而这篇文章中,AllenAI的研究员提出了大规模生成式问答模型,MACAW。基于多角度预训练,MACAW可以用于包括段选取(span selection)、选择题、生成式问答在内的一切问答任务,以及包括问题生成、选项生成、解释生成等在内的多种问答相关任务。MACAW在ARC、ARC-DA等多个问答基准上取得了业界最好的成绩,并且只用了GPT-3 十六分之一的参数规模,就在无监督问答数据集 Challenge300 上,相较GPT-3取得了10%的绝对提升

论文题目
General-Purpose Question-Answering with MACAW

论文链接
https://arxiv.org/abs/2109.02593

项目地址
https://github.com/allenai/macaw

e7f7750f4f9e9a73cca81ff046a1d3fb.png概览b29da17329376e274e32ddb130b80001.png

MACAW(Multi-Angle q(C)uestion-AnsWering),字面含义指一种多角度问答模型。在这篇文章中,作者扩展了之前自己在UnifiedQA[1] 中提出了统一问答框架,将不同的问答任务形式进一步扩展到不同的问答相关任务,从而实现一种多角度的预训练的方式,提升模型的通用性的同时,也提升模型的鲁棒性。

编者按:这篇文章也可以称为Unified-UnifiedQA。一方面,这篇文章两个作者是均为UnifiedQA文章的作者;另一方面,在UnifiedQA中,作者利用预训练语言模型,将所有生成、抽取、选择式的问答任务形式统一,而这篇文章中进一步统一了如问题生成、选项生成,回答解释生成等问答相关任务。

具体而言,MACAW基于预训练的T5模型[2],并通过两阶段精调得到。在第一阶段中,采用包括BoolQ、 NarrativeQA、RACE在内的7个问答数据集,并通过问题生成、答案生成、选项生成、选项加答案生成等6种不同的任务范式,让模型充分地学到问答相关的一切技巧。而在第二阶段中,采用了两个标注有答案解释的数据集,ARC和ARC-DA,进一步引入了8种和解释相关的任务范式,让模型知其然的同时,也能知其所以然。

MACAW具有以下三点优势:

  • 面向领域外的样本,MACAW具备出色的无监督迁移学习能力。在 Challenge300  数据集上,相较GPT-3取得10%的绝对提升。

  • MACAW具有“多角度问答能力”,无论是问题生成,还是回答生成,亦或是选项生成,MACAW都能胜任。

  • MACAW还能生成回答的解释,体现出知其然亦知其所以然的能力。

9460091cdfba65167d5611f005795886.pngMACAW 模型1848532fe25e7e2ff922feb977f7fee7.png

精调阶段1:会出题的问答模型,才是个好模型

在第一个精调阶段中,作者在7个问答数据集上,以6种不同的任务形式精调T5。这里选用的数据集有答案段选取形式的SQuAD 2.0,有是否类问题BoolQ,有描述类生成式回答的NarrativeQA,有多项选择题的RACE等等。

为了统一不同的任务形式,作者以slot的方式约定了任务的输入输出。例如下图展示的是一个给定问题(questions)和候选选项(mcoptions),让模型对答案(answer)做出预测的任务形式:

50fdd8fd349a12371d962e2ffde0f7c9.png

在7个数据集上,作者根据数据集特点,设计了6种任务作为第一阶段的训练目标。如下表所示。其中的符号,Q指问题、C指上下文(即阅读理解读的文本),A指答案,M指候选选项(选择题里才有)。例如QC→A指答案生成,AC→Q指问题生成,QAC→M指给定文章问题和答案的选项生成。可以看到,这里面除了在原本UnifiedQA中就包含的答案生成任务外,还引入了大量问题生成、选项生成等任务。 让模型在学会解题的同时,也学会出题。

1e887f3cfefafcb7d125a5b3042c98c4.png

这里有两个有意思的点。一方面,任务模式中可以有多种输出,而考虑到生成模型自回归解码,多种输出之间的顺序关系是有意义的。比如AC→QM,是先根据文章和答案,生成问题,再根据生成的问题,生成候选选项。另一方面,这里的任务设计考虑了数据特点,比如虽然QA→C,即给定问答对,生成阅读文章,理论上可行。但实际中,因为问答对中包含的信息过少,文章C中含有大量无关信息,导致这种任务没有太多实际意义。因此,这里也没有涉及这种没有意义的任务。

在实际训练过程中,所有数据集与所有任务范式混合在一起进行训练。以8的批处理大小,迭代训练了120k步。不同的数据集之间进行等概率采样。不同的任务之间也先验性的赋给了一个采样的权重。毕竟相对来说,答案生成比问题生成更重要一点,而这两者又都明显比选项生成等任务更重要。

第一阶段精调的模型,在精调任务上的表现如下表所示。其中,NarrativeQA以ROUGE-L作评价,SQuAD2.0以F1作评价,其余任务均以精度为评价指标。可以看到,引入多种不同的任务范式之后,模型在问答任务上的表现与单一问答任务的结果比是相当的,但具有了解决更多不同类型任务的能力。

82c51599a598f614f9ab2fc5aa29ac4f.png

编者按:实际上,由于训练时采用多任务混合训练,测试时使用单一任务测试,这一差异肯定会带来表现下降。个人感觉,如果在这一阶段训练后再引入单一问答任务的精调,或使用课程学习的方式,将这一阶段预训练逐渐转化为纯问答形式,在问答任务上的表现会更好。不过,这里作者主要是做一个初步的预训练,而非为了刷问答任务的指标,因此没有做这些尝试。

精调阶段2:成熟的问答模型,还能自我解释

作者进一步引入了解释类任务,让模型知其然的同时还能够知其所以然,使无监督问答任务上的回答更合理。作者使用了 WorldTree V2 explanation bank[3]中的几十标注,覆盖65% 的 ARC 数据集和 50% 的 ARC-DA 数据集。

这里的“无监督”,其实也可以理解成是领域外数据,即没有和测试集同分布的训练数据,但有大量形式类似的相关任务可以用于训练。

3f2f82bf8dd67697c5c2e595b77c863e.png

任务形式如上图所示,其中E代表解释(explanation)。除了部分在第一阶段也采用的任务外,作者引入了8个和解释相关的任务,例如QM→AE,即给定问题和选项,生成答案后再生成解释,AQC→E,即给定文本、问题和答案,生成解释,E→QA,给定解释,生成问题并作出回答。第二阶段精调中,作者采用和第一阶段类似的训练策略,在第一阶段的结果上进一步训练了6k步。部分示例如下图所示。

9db5e54943e8bce6f7e38c832f6f260f.png

b9049ad2e6e0758e8205971630651878.png实验分析db6b459bb1929f89b8458cd05b91dff0.png

ARC数据集

作者在ARC数据集上检测了MACAW的表现,如下表所示。MACAW在ARC、ARC-Easy和ARC- DA 上均达到了业界最优的表现[4]。不过,但监督学习范式下,在生成答案之后引入解释的生成(即QM→AE),并没有让模型表现有明显的提升。作者分析表示,引入解释生成后,答案生成时条件依赖于生成的解释,会使得生成答案的确定性更高。而不够完美的解释可能会反而强化错误答案的概率。

e4c6cd1a52f2f42b3619b6b0ce08c8d7.png

Challenge300数据集

Challenge300 是一个手工构建的问答评价数据集,由300道问题组成,涵盖了22类不同的考察方面。在这里作为一个无监督(领域外)的评价基准。因这个数据集答案较为灵活,规模较小,评价时以人工评价为准。作者对比了MACAW与GPT-3等主流无监督问答模型,实验结果如下表所示。可以看到,和GPT-3相比,MACAW也可以取得10%的绝对提升,即使MACAW的11B的参数规模知识GPT-3 的175B的参数规模的十六分之一。

20d0fc2f4ed9d0c06a3d867241350013.png32c40919ddc971a0cfd0e68c7ee62120.png

在不同类型的问题上的表现对比如上图所示。可以看出,MACAW在很多问题类型上均表现出了明显的优势。例如:

  • 实体替换类问题(Entity Substitution):挖掘实体关键属性并找出可替代实体。

d8727ad56001b5043ed3d898d579a1cf.png
  • 在条件假设下进行推理(Hypotheticals):

065be1225b1a23b06c792da4bc43d5eb.png
  • 一些属性相关的暗指(Meta-reasoning)

0d32bdb06718df6a7f662e202f1d67b4.png

不过,MACAW也在某些问题上表现不佳,比如:

  • 数学题(Non-trivial Arithmetic):其实在“5+7=?”这种简单的数学题上,MACAW的表现还是不错的。但数大一些之后就不行了。

7c7dd918a094cc286e70da6a0da46357.png
  • 物体追踪(Entity Tracking and State Changes):这类问题在之前的bAbI数据集上比较常见。

822533f17409a7b54eaede1728539364.png
  • 空间推理(Spatial Reasoning):

541ea9f2f230c0bc5961238cc4ad122a.png

a45c5fb5d834d13ca4eac4d9daae3291.png总结49e606be910183d34e777fb770a3bb46.png

这篇文章提出的MACAW,在预训练模型T5的基础上,整合了包括段选取(span selection)、选择题、生成式问答在内的一切问答范式,以及包括问题生成、选项生成、解释生成等在内的多种问答相关任务做联合精调。MACAW在多个问答基准上取得了业界最好的成绩,并只用了GPT-3 十六分之一的参数规模,就在无监督问答数据集 Challenge300 上,相较GPT-3取得了10%的绝对提升,展现了强大的无监督学习的能力。

多数据集多任务整合一直是问答任务的一大研究趋势。2016年SQuAD提出以来,大量的问答数据集涌现,为多数据集整合提供了有力的数据支撑。受到Dual learning的启发,MSRA的段楠老师等人在2017年EMNLP上提出联合问题生成与问答任务[5],展现出多任务整合有利于问答表现。而2018年提出的BERT,因其适用于多种任务多种形式的包容性,给这一趋势提供了无限可能。近期的工作包括:MultiQA (ACL 2019) [6]整合6种大规模段选取(span selection)任务,并探讨了对小规模任务的迁移能力;UnifiedQA (EMNLP Findings 2020),整合了多种不同的问答任务形式;以及这篇工作,进一步整合了问答任务及问题生成、选项生成、解释生成等更多的问答相关任务形式。问答数据集本身可能才是限制问答任务难以走向实际应用的一大难题,毕竟在业务场景中用户的问题千奇百怪,很难有足够的同分布数据用以训练。借助大规模预训练语言模型强大的通用性,与prompt方法的灵活性,更多数据、知识与任务形式可以整合在一起,有助于打破问答任务应用的壁垒。

40bfcd89bbe2128ebc5b76835e8c7727.png后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

5248a76129aa0d511625751e484696ce.gif 2b3d9da932c42e8ce9e831ed0bb5a54e.png

[1] Khashabi, Daniel, et al. "UnifiedQA: Crossing Format Boundaries With a Single QA System." Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings. 2020.

[2] Raffel, Colin, et al. "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer." Journal of Machine Learning Research 21.140 (2020): 1-67.

[3] Jansen, Peter, et al. "WorldTree: A Corpus of Explanation Graphs for Elementary Science Questions supporting Multi-hop Inference." Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). 2018.

[4] 数据集leaderboard:https://leaderboard.allenai.org/arc/submissions/public ,https://leaderboard.allenai.org/arceasy/submissions/public,https://leaderboard.allenai.org/genie-arcda/submissions/publicarcda/submissions/public

[5] Duan, Nan, et al. "Question generation for question answering." Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017.

[6] Talmor, Alon, and Jonathan Berant. "MultiQA: An Empirical Investigation of Generalization and Transfer in Reading Comprehension." Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477967.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文浅尝 | SMBOP: Semi-autoregressive Bottom-up Semantic Parsing

笔记整理:陈永锐,东南大学博士来源:NAACL 2021概述近年来语义解析的事实上的标准解码方法是使用自顶向下的深度优先遍历对目标程序的抽象语法树进行自回归解码。该工作提出了一种替代方法:半自回归自底向上解析器(SMBO…

美团酒店Node全栈开发实践

前后端分离的背景 “前后端分离”显然已不是什么新鲜的话题,Zakas在2013年10月份就曾发表过一篇博客《Node.js and the new web front-end》讨论Node背景下新时代的前端。毫无疑问,Node的出现给JavaScript语言带来了新的生机,也使得前端开发者…

统计学习方法总结

统计学习方法总结 阅读目录(Content)0. 相关知识点0x1: 监督学习1. 模型假设空间2. 生成模型与判别模型的联系与区别 3. 学习策略4. 分类问题与回归问题5. 利用模型进行预测和分析0x2:模型评估与模型选择1. 训练误差与测试误差2. 过拟合与模型选择0x3:正…

LeetCode 997. 找到小镇的法官(图的出度和入度)

1. 题目 在一个小镇里,按从 1 到 N 标记了 N 个人。传言称,这些人中有一个是小镇上的秘密法官。 如果小镇的法官真的存在,那么: 小镇的法官不相信任何人。每个人(除了小镇法官外)都信任小镇的法官。只有…

哈工大|NLP数据增强方法?我有15种

文 | rumor源 | 李rumor卷友们好,我是rumor。十一假期过的太快了,不知道你们缓过来没有,没有的话今天我们就来一起读一篇综述缓缓,弥补假期没学习的遗憾。这篇40多页的综述出自哈工大车万翔老师的团队,一共总结了15种N…

论文浅尝 | Wordly Wise(WoW) - 用于语音视觉知识问答的跨语言知识融合模型

笔记整理: 谭亦鸣,东南大学博士生来源:NAACL’21链接:https://aclanthology.org/2021.naacl-main.153.pdf论文提出了一种新的知识图谱问答数据集命名为FVSQA,这是一种语音视觉知识问答类型的任务,即问题形式为音频&…

美团Android DEX自动拆包及动态加载简介

概述 作为一个android开发者,在开发应用时,随着业务规模发展到一定程度,不断地加入新功能、添加新的类库,代码在急剧的膨胀,相应的apk包的大小也急剧增加, 那么终有一天,你会不幸遇到这个错误&a…

LeetCode 83. 删除排序链表中的重复元素(链表)

1. 题目 给定一个排序链表,删除所有重复的元素,使得每个元素只出现一次。 示例 1: 输入: 1->1->2 输出: 1->2示例 2: 输入: 1->1->2->3->3 输出: 1->2->3来源:力扣(LeetCode) 链接&#…

用多模态信息做 prompt,解锁 GPT 新玩法

文 | 子龙编 | 小轶自多模态大火以来,井喷式地出现了许多工作,通过改造预训练语言模型,用图像信息来增强语义信息,但主要集中在几个 NLU 任务上,在 NLG 上的研究比较少。今天要介绍的这篇 paper Multimodal Conditiona…

论文浅尝 | 基于时序知识图谱的问答

笔记整理:姚云志,浙江大学在读博士,研究方向为自然语言处理。链接:https://arxiv.org/pdf/2106.01515.pdf时序知识图谱是一种多关系的知识图谱,相较于常规的知识图谱,时序知识图谱中的关系中会与时间段相关…

Logistic Regression 模型简介

逻辑回归(Logistic Regression)是机器学习中的一种分类模型,由于算法的简单和高效,在实际中应用非常广泛。本文作为美团机器学习InAction系列中的一篇,主要关注逻辑回归算法的数学模型和参数求解方法,最后也…

开源开放 | 中国近代历史人物知识图谱

OpenKG地址:http://openkg.cn/dataset/zgjdlsrw项目地址:http://www.zjuwtx.work/project/kg开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:浙江大学(王天笑)1、引言中国近代历史…

LeetCode 1071. 字符串的最大公因子(字符串的最大公约数)

1. 题目 对于字符串 S 和 T,只有在 S T … T(T 与自身连接 1 次或多次)时,我们才认定 “T 能除尽 S”。 返回字符串 X,要求满足 X 能除尽 str1 且 X 能除尽 str2。 示例 1: 输入:str1 &q…

大模型炼丹无从下手?谷歌、OpenAI烧了几百万刀,总结出这些方法论…

文 | Yimin_饭煲都1202年了,不会真有深度学习炼丹侠还没有训练/推理过大模型吧“没吃过猪肉,还没见过猪跑吗?”在深度学习算力高度增长的今天,不论是学术界还是工业界的从业者,即使尚未达到从头预训练一个百亿级别参数…

Linux资源管理之cgroups简介

引子 cgroups 是Linux内核提供的一种可以限制单个进程或者多个进程所使用资源的机制,可以对 cpu,内存等资源实现精细化的控制,目前越来越火的轻量级容器 Docker 就使用了 cgroups 提供的资源限制能力来完成cpu,内存等部分的资源控…

会议交流 | IJCKG 2021:Keynotes released!欢迎注册参会

IJCKG 2021: The 10th International Joint Conference on Knowledge GraphsDecember 6-8, 2021 Online国际知识图谱联合会议之前是国际语义技术联合会议(the Joint International Semantic Technology Conference (JIST)),JIST 会议的历史要…

LeetCode 1010. 总持续时间可被 60 整除的歌曲(哈希)

1. 题目 在歌曲列表中&#xff0c;第 i 首歌曲的持续时间为 time[i] 秒。 返回其总持续时间&#xff08;以秒为单位&#xff09;可被 60 整除的歌曲对的数量。形式上&#xff0c;我们希望索引的数字 i < j 且有 (time[i] time[j]) % 60 0。 示例 1&#xff1a; 输入&am…

深入理解Objective-C:Category

摘要 无论一个类设计的多么完美&#xff0c;在未来的需求演进中&#xff0c;都有可能会碰到一些无法预测的情况。那怎么扩展已有的类呢&#xff1f;一般而言&#xff0c;继承和组合是不错的选择。但是在Objective-C 2.0中&#xff0c;又提供了category这个语言特性&#xff0c;…

工作6年,谈谈我对“算法岗”的理解

文 | Severus编 | 小轶写在前面&#xff1a;本文完全基于我个人的工作经验&#xff0c;没有经过任何形式的行业调研&#xff0c;所以我的理解也有相当浓厚的个人印记&#xff0c;可以认作一家之言。如果能对读者朋友们起到任何帮助&#xff0c;都是我的荣幸。如果不赞同我的看法…

会议交流 | IJCKG 2021 日程表(北京时间)

IJCKG 2021 Program(All times Beijing Time)December 6thOpening (19:00–19:15)Chair: Oscar CorchoKeynote I (19:15–20:15)Chair: Oscar CorchoKnowledge Graphs: Theory, Applications and ChallengesIan Horrocks, Professor, University of OxfordBreak (20:15–20:30)…