论文浅尝 - ICLR2020 | Abductive Commonsense Reasoning

论文笔记整理:毕祯,浙江大学硕士,研究方向:知识图谱、自然语言处理。


  链接:https://arxiv.org/pdf/1908.05739.pdf

动机

尽管长期以来人们一直认为归因是人们在自然语言界线之间进行解释和阅读的核心,但很少有研究支持归因自然语言推理和产生。这篇文章提出了第一个研究基于语言的归纳推理可行性的研究,引入了一个数据集ART,该数据集包含超过20k的常识性叙述上下文和200k的解释。并且基于此数据集将两个新任务概念化:(i)归因法NLI:问答的任务,用于选择更可能的解释;(ii)归因法NLG:用于自然地解释给定观测值的条件生成任务语言。在Abductive NLI上,模型最佳可达到68.9%的准确度,低于91.4%的人工性能。在Abductive NLG上,当前最好的语言生成器同样不尽人意,因为它们缺乏对人类来说微不足道的推理能力。尽管它们在涉及NLI的相关任务但定义更窄的任务上表现出色,文章的分析为深入的预训练语言模型无法执行的推理类型提供了新的见解。

 

任务定义

归纳(归因)自然语言推理:将αNLI公式化为由一对观察结果和一对假设选择组成的多项选择问题。ART中的每个实例定义如下:

• O1$:在时间 t1的观测现象;

• O2:在时间 t2>t1 处的观测现象;

• h+:一个合理的假设,解释了两个观测值O1和O2。

• h-:观测值和的不可信(不合理)的假设。

给定观察结果和一对假设,αNLI的任务是选择最合理的解释(假设)。

 

归纳(归因)自然语言生成:αNLG是在给出两个观测值 O1 和 O2 的情况下生成有效假设 h^+ 的任务,形式上该任务需要最大化 P(h+ |  O1, O2 )。

 

             

图 1 归因推理的例子

 

常识归因推理模型架构

归纳(归因)自然语言推理:αNLI任务的一个特征是需要共同考虑所有可用的观测值及其常识,以识别正确的假设。形式上αNLI任务是选择给定观测值最可能的假设(公式1)。

             

使用以O1为条件的贝叶斯规则重写目标函数,得到(公式2):

             

论文为αNLI制定了一套概率模型,这些模型对上述的公式进行了各种独立性假设,从一个完全忽略观测值的简单基线开始,然后建立一个完全联合的模型。这些模型在图2中被描述为贝叶斯网络。从理论上讲,“完全连接”模型可以将来自两个可用观测值的信息进行组合。

 

             

 

  图2 概率框架中描述的图形模型的图示。

 

Hypothesis Only:最简单的模型做出了一个强有力的假设,即假设完全独立于两个观察值,即 (H ⊥ O1, O2),在这种情况下,目标只是最大化 P(H)

仅第一次(或第二次)观察:接下来的两个模型做出了较弱的假设:该假设仅取决于第一次O1或第二次O2观察中的一个。

线性链:下一个模型同时使用两个观察值,但会独立考虑每个观察值对假设的影响,即它不会合并各个观察值的信息。形式上该模型假设三个变量<O1,H,O2>形成线性马尔可夫链,其中第二个观测值在给定假设下(即 (O1 ⊥ O2|H))有条件地独立于第一个观测值。在这种假设下,目标是使公式2稍微简单些(公式3):

             

全联接性:最后最复杂的模型按照公式2共同对所有三个随机变量进行建模,并且原则上可以合并两个观测值的信息以选择正确的假设。

             

图3 αNLG 任务

 

为了说明线性链模型和完全连接模型如何同时考虑这两种观察结果之间的细微区别,作者举了一个示例。观察现象 O1:“卡尔拼命去商店寻找面粉玉米饼作为食谱。”和O2:“卡尔非常沮丧地离开了商店。”然后考虑两个不同的假设,一个不正确的h1:“收银员很粗鲁”,一个正确的h2:“商店有玉米饼,但没有面粉。”对于此示例,线性链模型可能会得出错误的答案,因为它会分别对观察结果进行解释——将O1单独分离,h1和h2似乎都可能是下一个事件,尽管每个事件都是先验的。对于分离的O2,即在没有O1的情况下,对于随机抽取的购物者而言,H1的粗鲁收银员解释似乎比卡尔的玉米饼选择细节更有说服力。结合这两个单独的因素,线性链会选择h1作为更合理的解释。就像完全连接模型中那样,只有通过对卡尔在O1中的目标以及他对O2的沮丧进行推理,我们才能得出正确的答案h2作为更合理的解释。

实验中,在性能最佳的神经网络模型中编码不同的独立性假设。对于仅假设和单一观察模型,可以通过简单地将模型的输入限制为仅相关变量来强制执行独立性。另一方面,线性链模型将所有三个变量作为输入,但是该模型限制了模型的形式以强制条件独立。具体来说是学习了一个判别式分类器:

             

其中φ和φ'是产生标量值的神经网络。

 

归纳(归因)自然语言生成:给定              ,              ,              作为token序列。αNLG任务可以以              来构建。

该模型还可以以背景知识K为条件。参数化的模型可以最大程度减少ART中实例的负面对数可能性为目标进行训练:

             

数据集准备

ART是第一个用于研究叙事文本中的归纳推理的大规模基准数据集。它由约20K的叙述情境(成对的观测值⟨O1,O2⟩)和超过200K的解释假设组成。附录中的表6总结了ART数据集的语料库级统计。图4显示了ART的一些示例。

             

图4 ART数据示例

 

实验结果及分析

在ART数据集以及αNLI和αNLG的其他几个baseline上,对经过微调的的预训练语言模型进行评估。由于αNLI被构造为二进制分类问题,因此选择准确性作为主要指标。对于αNLG,报告了BLEU、CIDEr、METEOR(等自动化指标的性能,并报告了人类评估结果

             

表1 基线和微调LM方法在ART测试集上的性能。

 

尽管在其他几个NLP的基准数据集上表现出色,但基于BERT的最佳基准模型在ART上的准确度仅为68.9%,而人类表现为91.4%。人与最佳系统之间的巨大差距为开发更复杂的归纳推理模型提供了广阔的空间。实验表明,在完全连接的模型上引入之前描述的其他独立性假设通常会降低系统性能(参见表1)。

 

             

表2 生成模型在ART测试集上的性能。除GPT2-Fixed外,所有型号均在ART上进行了微调。

 

表2报告了有关αNLG任务的结果。在自动指标中,报告了BLEU-4、METEOR、ROUGE、CIDEr和BERT-Score((使用基于bert的无案例模型)。其中通过在AMT上进行众包来建立人的结果。向人群工作人员显示了成对的观察结果和生成的假设,并要求其标记假设是否解释了给定的观察结果。最后一栏报告人类评估得分。最后一行报告坚持的人类假设的得分,并作为模型性能的上限。发现人工编写的假设对96%的实例是正确的,而即使通过背景常识知识进行了改进,最好的生成模型也只能达到45%,这表明αNLG生成任务对于当前的状态尤其具有挑战性最好的文本生成器。

 

结论

本文提出了第一个基于语言的归纳推理的可行性的研究,概念化并介绍了归纳自然语言推理(αNLI)。这是一项新颖的任务,专注于叙事上下文中的归纳推理。该任务被表述为多项选择的回答问题。文章还介绍了归纳自然语言生成(αNLG)–这是一项新颖的任务,需要机器为给定的观察结果生成合理的假设。为了支持这些任务,作者创建并引入了一个新的挑战数据集ART,该数据集由20,000个常识性叙述以及200,000多个解释性假设组成。在实验中,基于最新的NLI和语言模型在此新任务上建立了全面的基线性能,导致了68.9%的准确度,与人类表现之间存在相当大的差距(91.4%)。αNLG的任务要艰巨得多,尽管人类可以96%地写出有效的解释,但是最好的生成器模型只能达到45%。文章的分析为深入的预训练语言模型无法执行的推理类型提供了新的见解,尽管它们在涉及NLI的紧密相关但又不同的任务中表现出色,最后指出了未来研究的有趣途径。作者们希望ART将成为未来基于语言的归纳推理研究的具有挑战性的baseline基准,并且αNLI和αNLG任务将鼓励在AI系统中实现复杂推理能力的表示学习。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479057.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【基本功】深入剖析Swift性能优化

简介 2014年&#xff0c;苹果公司在WWDC上发布Swift这一新的编程语言。经过几年的发展&#xff0c;Swift已经成为iOS开发语言的“中流砥柱”&#xff0c;Swift提供了非常灵活的高级别特性&#xff0c;例如协议、闭包、泛型等&#xff0c;并且Swift还进一步开发了强大的SIL&…

新年立个小目标!代码写得更规范!

知乎作者叶小飞:作为Oppo Reno2 超级夜景核心开发人员和奔驰San Jos Pilot落地工程师之一&#xff0c;我写代码基本尽可能地遵循Google Style. 在这里写几个自己的习惯Google Style里面几个常用的要点。自己的习惯动手写代码前尽量做到胸中有丘壑。现在这世界讲究格局&#xff…

手把手教你用Keras实现英文到中文机器翻译 seq2seq+LSTM

原文链接&#xff1a;https://blog.csdn.net/qq_44635691/article/details/106919244 该模型实现的是英文到中文的翻译&#xff0c;下图为了更好展示模型架构借用大佬的图(这里没有用到Embeddings)&#xff1a; 本文完整代码:Github 目录 一、处理文本数据 1.获得翻译前后的句子…

LeetCode 45. 跳跃游戏 II(贪心/BFS,难)

文章目录1. 题目2. 解题2.1 贪心2.2 BFS1. 题目 给定一个非负整数数组&#xff0c;你最初位于数组的第一个位置。 数组中的每个元素代表你在该位置可以跳跃的最大长度。 你的目标是使用最少的跳跃次数到达数组的最后一个位置。 示例:输入: [2,3,1,1,4] 输出: 2 解释: 跳到最…

深度剖析开源分布式监控CAT

CAT&#xff08;Central Application Tracking&#xff09;是一个实时和接近全量的监控系统&#xff0c;它侧重于对Java应用的监控&#xff0c;基本接入了美团上海侧所有核心应用。目前在中间件&#xff08;MVC、RPC、数据库、缓存等&#xff09;框架中得到广泛应用&#xff0c…

论文浅尝 | ​ADRL:一个基于注意力机制的知识图谱深度强化学习框架

论文笔记整理&#xff1a;谭亦鸣&#xff0c;东南大学博士。来源&#xff1a;Knowledge-Based Systems 197 (2020) 105910链接&#xff1a;https://www.sciencedirect.com/science/article/abs/pii/S0957417419306839概要与动机知识图谱推理是图谱构建的关键技术之一&#xff0…

新年第二弹|卖萌屋私藏书单大公开

夕本尊 &夕小瑶 推荐作为一个互联网人&#xff0c;不仅要懂技术&#xff0c;还应该了解行业的基本运作原理。这其中一个重要的问题是&#xff1a;为什么互联网产品&#xff08;基本&#xff09;都是免费的&#xff0c;甚至纷纷给用户送钱&#xff0c;它们却能有这么强的盈利…

LeetCode 437. 路径总和 III(双重递归)

1. 题目 给定一个二叉树&#xff0c;它的每个结点都存放着一个整数值。 找出路径和等于给定数值的路径总数。 路径不需要从根节点开始&#xff0c;也不需要在叶子节点结束&#xff0c;但是路径方向必须是向下的&#xff08;只能从父节点到子节点&#xff09;。 二叉树不超过…

论文浅尝 - ESWA | 知识图谱的自动扩充方法

论文笔记整理&#xff1a;谭亦鸣&#xff0c;东南大学博士。来源&#xff1a;ESWA141(2020)链接&#xff1a;https://www.sciencedirect.com/science/article/abs/pii/S0957417419306839为了使计算机理解人类语言&#xff0c;并且实现推理&#xff0c;人类知识需要被表示并储存…

美团大脑:知识图谱的建模方法及其应用

作为人工智能时代最重要的知识表示方式之一&#xff0c;知识图谱能够打破不同场景下的数据隔离&#xff0c;为搜索、推荐、问答、解释与决策等应用提供基础支撑。美团大脑围绕吃喝玩乐等多种场景&#xff0c;构建了生活娱乐领域超大规模的知识图谱&#xff0c;为用户和商家建立…

全栈深度学习第2期: 开发套件与工具篇

一起追剧鸭简介Berkeley全栈深度学习追剧计划是由夕小瑶的卖萌屋发起的优质公开课打卡项目&#xff0c;通过微信群为同期追剧的小伙伴提供交流平台。关于该计划的详请见这里。1. Berkeley深度学习追剧群目前已有1000小伙伴加入&#xff0c;公众号后台回复口令 深度学习追剧 入群…

LeetCode 700. 二叉搜索树中的搜索

1. 题目 给定二叉搜索树&#xff08;BST&#xff09;的根节点和一个值。 你需要在BST中找到节点值等于给定值的节点。 返回以该节点为根的子树。 如果节点不存在&#xff0c;则返回 NULL。 2. 解题 class Solution {//递归写法TreeNode *ans NULL; public:TreeNode* searchB…

iOS系统中导航栏的转场解决方案与最佳实践

背景 目前&#xff0c;开源社区和业界内已经存在一些 iOS 导航栏转场的解决方案&#xff0c;但对于历史包袱沉重的美团 App 而言&#xff0c;这些解决方案并不完美。有的方案不能满足复杂的页面跳转场景&#xff0c;有的方案迁移成本较大&#xff0c;为此我们提出了一套解决方案…

论文浅尝 - WSDM20 | 基于弱监督及逐步推理的多关系知识图谱问答

论文笔记整理&#xff1a;刘晓臻&#xff0c;东南大学计算机科学与工程学院本科生。来源&#xff1a;WSDM ’20链接&#xff1a;https://dl.acm.org/doi/abs/10.1145/3336191.3371812动机知识图谱问答(KG-QA)系统大多包含两个步骤&#xff1a;链接问题中的topic entity到KG&…

算法工程师的落地能力具体指的是什么?

文 | 桔了个仔知乎本文已获作者授权&#xff0c;禁止二次转载大家好&#xff0c;这里是桔了个仔&#xff0c;目前是一名Data Scientist(不太想翻译成数据科学家&#xff0c;毕竟感觉自己就是个工程师&#xff09;&#xff0c;过去几年在做基于机器学习的风控与合规系统&#xf…

Android官方开发文档Training系列课程中文版:网络操作之网络管理

原文地址&#xff1a;http://android.xsoftlab.net/training/basics/network-ops/managing.html 这节课将会学习如何对网络资源的使用情况拥有更细粒度的控制力。如果应用程序经常执行大量的网络操作&#xff0c;那么程序应当提供一项设置&#xff0c;以便用户可以控制应用的数…

LeetCode 728. 自除数

1. 题目 自除数 是指可以被它包含的每一位数除尽的数。 例如&#xff0c;128 是一个自除数&#xff0c;因为 128 % 1 0&#xff0c;128 % 2 0&#xff0c;128 % 8 0。 还有&#xff0c;自除数不允许包含 0 。 给定上边界和下边界数字&#xff0c;输出一个列表&#xff0…

论文浅尝 - AAAI2020 | 通过句子级语义匹配和答案位置推断改善问题生成

论文笔记整理&#xff1a;王春培&#xff0c;天津大学硕士。链接&#xff1a;https://arxiv.org/pdf/1912.00879.pdf动机本文主要聚焦问答系统&#xff08;Q&A&#xff09;的反问题---问题生成&#xff08;Question Generation&#xff0c;Q&G&#xff09;。问题生成的…

美团深度学习系统的工程实践

背景 深度学习作为AI时代的核心技术&#xff0c;已经被应用于多个场景。在系统设计层面&#xff0c;由于其具有计算密集型的特性&#xff0c;所以与传统的机器学习算法在工程实践过程中存在诸多的不同。本文将介绍美团平台在应用深度学习技术的过程中&#xff0c;相关系统设计的…

一个程序员的理财观

文 | 王喆你好&#xff0c;我叫王喆&#xff0c;看过我技术文章的朋友知道&#xff0c;我是一个搞推荐系统的机器学习工程师&#xff0c;不熟悉的同学也没关系&#xff0c;就当我是一名普普通通的程序员就好。但今天我们不谈技术&#xff0c;也不谈996这些烦人的话题&#xff0…