论文小综 | Neuro-Symbolic Reasoning in NLP

本文作者:邓淑敏,浙江大学在读博士,研究方向为低资源条件下知识图谱自动化构建关键技术研究。

深度学习的高速发展使得模型的表达能力逐步完善,在一些感知任务(例如动作识别和事件检测)上取得了显著成果。但是,如果要开发真正的智能系统,需要弥合感知与认知之间的鸿沟。高度认知的任务,例如抽象,推理和解释,与符号系统紧密相关,但是通常无法适应复杂的高维空间。神经符号计算将深度模型的优势与符号方法相结合,从而显著了减少符号方法的搜索空间。基于此,本文主要介绍一些神经符号推理在自然语言处理中的应用及方法,主要涉及的任务是复杂问题问答,即给定问题(一般是复杂问题),从context中推理答案,context是文本(textQA)或者图片(VQA)。这里引入VQA,是由于目前神经符号推理在纯文本问答中的应用工作有限,但本质上这两种问答任务中的符号推理过程差不多。下面给出复杂问题问答的例子。

图1. 复杂问题问答的示例

如图1所示,这里的问题可以拆成几个子问题,且必须通过推理才能得到答案。这就非常适合用神经符号推理的方法来解决。解决这类问题需要:理解问题在蕴含答案的文本/图片中做信息抽取符号推理。

接下来我将结合4篇论文简述神经符号推理的方法。

Neural Module Networks for Reasoning over Text

发表会议:ICLR 2020

论文链接:https://openreview.net/pdf?id=SygWvAVFPr

这篇文章提出用神经模块网络(NMN)去解决复杂问题问答的任务。先将问题解析成logical form,用强监督的方式将问题转换成结构化的功能模块,然后在蕴含答案的文本中运行这些模块。这里的模块可看成用于推理的可学习的函数,每个模块都是定制的,从离散的定制神经模块集合中可以组成特定于问题的神经网络。

总体来看,复杂问题问答包含的推理可分为两大类:自然语言推理和符号推理。自然语言推理可以看成是文本信息抽取的过程,符号推理就是基于抽取出的结构化知识进行推理判断。这两大类推理中定义的模块如图2所示。

图2. NMN中定义的模块

下面看一个用神经模块网络解复杂问题问答的例子。

第一步:将问题解析成logical form。

图3. NMN将问题解析成logical form

第二步:在蕴含答案的文本中执行模块。

(1)NMN执行第一个模块:find(),找出得分(touchdown pass)这个实体

(2)NMN执行第二个模块:find-num(),找出得分的数值

(3)NMN执行第三个模块:max-num(),找出最大的得分值

(4)NMN执行第四个模块:extract-argument(),找出得到最大得分的人(这个模块类似于事件抽取中的argument extraction)

由此,NMN模块运行得到最终结果。

那接下来的问题就在于,如何得到这些模块的组合序列,以及如何学习出这些模块。组合这些模块目前主要用一些seq-to-seq的模型,至于学习这些模块,则是用基于attention的方法,模块的输出是权重的分布。

以学习find()模块为例。问题的嵌入用Q表示,蕴含答案的文本嵌入用P表示,find(Q)->P,输入问句的tokens,输出蕴含答案的文本中和输入tokens相同或相似的token分布,如图4所示。

图4. NMN find(Q)->P示例

Compositional Attention Networks for Machine Reasoning

发表会议:ICLR 2018

论文链接:https://openreview.net/pdf?id=S1Euwz-Rb

这篇文章提出了MACnet模型去解决VQA任务。MAC,即Memory,Attention,Composition。MACnet是MAC cell的soft-attention序列。一个Mac cell由控制单元、读单元、写单元构成,如图5所示。

图5. MAC cell内部结构

控制单元负责计算出一个控制状态,通过在问题上实施注意力机制抽取出一个指令。

图6. MAC cell中的控制单元

给定当前的控制状态和当前的记忆信息,读单元负责从图片(KB)中检索信息。

图7. MAC cell中的读单元

写单元负责更新记忆状态,整合新旧信息。

图8. MAC cell中的写单元

与NMN模型中的模块相比,MAC cell更为通用且功能更为齐全,因为MAC cell可以重复使用。所有cell共享架构和参数,而且可以和蕴含答案的文本/图片适配,完全端到端的设计而且可微,cell之间通过一个基于注意力的架构相联系。

NMN中的模块是离散的而且是任务定制的,每个模块拥有特有的离散参数甚至是特有的架构。

Learning by Abstraction: The Neural State Machine

发表会议: NeurIPS 2019

论文链接:https://papers.nips.cc/paper/8825-learning-by-abstraction-the-neural-state-machine.pdf

这篇文章提出神经状态机(Neural State Machine,NSM)去解决VQA任务。NSM是一种结合符号主义和连接主义的模型,旨在抹平符号主义和连接主义之间的鸿沟,并对二者进行优势互补,从而更好地完成视觉推理任务。

NSM将问题文本中的词和蕴含答案的图片全部映射为相同语言的嵌入概念,这些概念可以是对象,属性,关系。针对蕴含答案的图片,NSM通过有监督(预训练)的方式,基于图片中的概念构造一个概率图。针对问题文本,NSM会通过基于注意力机制的encoder-decoder模型,将文本翻译成一系列的指令,这些指令也被定义为概念。

然后,NSM对概率图进行时序推理,并迭代遍历其节点,以回答给定问题或者推理得出新结论。这里的推理也是基于注意力机制的,有点类似MACnet,不同的是,表示方式是scene graph(基于图片翻译出的图,如图9中间部分)上的概率分布。

图9. NSM模型运行示例

相较于大多数神经架构中感知数据密切交互, NSM 模型在一个抽象的隐空间中运行,将视觉和语言模态转化为基于概念的表征,所以增强了模型的透明性和模块性。而且,NSM模型在多任务场景下具有强大的泛化能力,包括概念的全新组合、答案分布的变化和之前未观察到的语言结构。

The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences From Natural Supervision

发表会议:ICLR 2019

论文链接:https://openreview.net/pdf?id=rJgMlhRctm

这篇文章提出神经符号概念学习器(NS-CL)去解决VQA任务。通过从配对的图片、问题、答案三元组中联合学习,在“视觉概念”和“对应的文本语义”之间建立起关联。从而学习出(1)对图片的视觉感知,(2)对视觉概念(如颜色、形状、材质)的表示,(3)对问题的语义分析。

图10. NS-CL的模型框架

NS-CL的学习准则:1、使用神经符号推理明确显示概念的视觉基础。2、通过发展的课程联合学习概念和语言。模型主要分为三部分:

视觉感知模块,负责从图片场景中提取对象的表示。使用预训练的 Mask R-CNN 和 ResNet-34 来为场景中的每一个Object获取一个表示。由于需要获取到Object在场景中的位置信息,在表示单个Object的时候,同样需要将整个场景作为Context编码进去。由此,场景中的每一个对象都被编码成了一个固定维度的向量。

语义分析模块,负责将自然语言问题翻译成一个程序,程序是由领域特定语言(Domain Specific Language, DSL)中的操作来定义。进行视觉推理需要获取每个对象的属性(例如颜色、形状等),而每个属性类别(Attribute,例如:形状)可以有多个视觉概念(Concept,例如:红色、绿色)的取值。NS-CL将每个属性实现为一个神经网络操作(neural operator)。该操作接收Object的表示向量,将其映射到另一个特定于属性的向量空间中的向量,并且与视觉概念的向量进行相似度匹配,这些视觉概念的向量表示也是联合训练的。

程序执行模块,负责执行语义分析模块给出的程序,得到答案。这里采用了课程学习(Curriculum Learning)的训练方法,先让模型学习简单的例子,然后慢慢扩展到复杂的场景。而且程序执行模块对于视觉感知模块是完全可导的,两者均采用了基于概率的表示方法。

NS-CL可以从没有注释的语言中学习出视觉概念,而且这些概念是可学习的并且可以迁移到其他视觉任务中,此外,NS-CL很高效,且在少量数据上就可以达到不错的效果。

总而言之,这四种神经符号推理的方法各有千秋。在实际应用中,可以根据不同方法的优劣选择合适的神经符号推理模型。当然,神经符号推理的方法也不仅限于这4种,欢迎大家补充,和我们交流。


   

浙江大学知识引擎实验室


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478803.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

实时数据产品实践——美团大交通战场沙盘

背景 大数据时代,数据的重要性不言而喻,尤其对于互联网公司,随着业务的快速变化,商业模式的不断创新、用户体验个性化、实时化需求日益突出,海量数据实时处理在商业方面的需求越来越大。如何通过数据快速分析出用户的行…

谁才是Transformer家族中的最强王者?谷歌告诉你答案

文 | Sherry自从17年Attention is all you need发出,继而18年BERT刷新各大榜单,大型预训练Transformer似乎已经成为自然语言处理的标准基准模型,甚至进一步渗透到图像领域。各路大神基于Transformer提出了海量改进方法。这些改变是否对大多数…

LeetCode 652. 寻找重复的子树(DFS)

1. 题目 给定一棵二叉树,返回所有重复的子树。对于同一类的重复子树,你只需要返回其中任意一棵的根结点即可。 两棵树重复是指它们具有相同的结构以及相同的结点值。 示例 1:1/ \2 3/ / \4 2 4/4 下面是两个重复的子树&#xff1a…

论文浅尝 - CIKM2020 | Relation Reflection Entity Alignment

论文笔记整理:谭亦鸣,东南大学博士生。来源:CIKM 2020链接:https://arxiv.org/pdf/2008.07962.pdf研究背景与任务描述:实体对齐旨在基于已有对齐实体标注的情况下,确定不同KG中未知的对等实体,其本质是mult…

SQL解析在美团的应用

数据库作为核心的基础组件,是需要重点保护的对象。任何一个线上的不慎操作,都有可能给数据库带来严重的故障,从而给业务造成巨大的损失。为了避免这种损失,一般会在管理上下功夫。比如为研发人员制定数据库开发规范;新…

无内鬼,来点ICML/ACL审稿人笑话

文 | Sheryc_王苏最近,如果你的小伙伴突然没时间陪你出来玩了,请不要担心,ta可能正在与ICML/IJCAI/ACL的审稿人斗智斗勇。过去的一周里,机器学习顶会ICML、人工智能顶会IJCAI和NLP顶会ACL扎堆放出审稿人意见,有人欢喜有…

Docx:docx.opc.exceptions.PackageNotFoundError: Package not found at

Docx:docx.opc.exceptions.PackageNotFoundError: Package not found at:https://blog.csdn.net/python__reported/article/details/106318330 Docx:docx.opc.exceptions.PackageNotFoundError: Package not found at 一、报错内容二、解决方法 一、报错内容 报错&a…

LeetCode 148. 排序链表(归并排序、快速排序)

文章目录1. 题目2. 解题2.1 归并排序2.2 快速排序1. 题目 在 O(n log n) 时间复杂度和常数级空间复杂度下,对链表进行排序。 示例 1:输入: 4->2->1->3 输出: 1->2->3->4 示例 2:输入: -1->5->3->4->0 输出: -1->0->3->4-&…

论文浅尝 | 基于对抗学习的弱监督知识图谱对齐

论文笔记整理:郭凌冰,浙江大学研究助理,研究方向为知识图谱的表示学习。绝大部分现有的知识图谱对齐方法都要求足够的已对齐三元组作为监督数据,但在现实世界中,获取大量的对齐三元组的代价十分高昂。本文提出一种同时…

美团数据平台Kerberos优化实战

背景 Kerberos 是一种网络认证协议,其设计目标是通过密钥系统为客户端、服务器端的应用程序提供强大的认证服务。 作为一种可信任的第三方认证服务,Kerberos是通过传统的密码技术(如:共享密钥)执行认证服务的&#xff…

Android官方开发文档Training系列课程中文版:如何避免ANR?

原文地址:http://android.xsoftlab.net/training/articles/perf-anr.html#anr 尽管你写代码可能通过了世界上所有的性能测试,但是它还是可能会让人感觉到卡顿。当应用卡的不成样子时,系统会给你弹一个”Application Not Responding”的对话框…

预训练语言模型真的是世界模型?

文 | 子龙自GPT、BERT问世以来,预训练语言模型在NLP领域大放异彩,刷新了无数榜单,成为当前学界业界的心头爱,其主体结构——Transformer——也在逐步的运用于其他领域的任务中,常见的如与CV的跨界,也有相对…

monk js_对象检测-使用Monk AI进行文档布局分析

原文链接:https://blog.csdn.net/weixin_26752075/article/details/108494230 monk js 计算机视觉 (Computer Vision) 介绍 (Introduction) This is an article on how Object Detection can help us in predicting various regions of a document. It can be usefu…

LeetCode 2019 力扣杯全国秋季编程大赛

文章目录1. 比赛结果2. 题目解析2.1 猜数字 Easy2.2 分式化简 Esay2.3 机器人大冒险 Medium2.4 覆盖 Hard2.5 发 LeetCoin Hard1. 比赛结果 2019.9.24晚,第一次参加线上比赛 比赛排名结果:582/1541,做出了2道题。。。 我证明了:…

美团广告实时索引的设计与实现

背景 在线广告是互联网行业常见的商业变现方式。从工程角度看,广告索引的结构和实现方式直接决定了整个系统的服务性能。本文以美团的搜索广告系统为蓝本,与读者一起探讨广告系统的工程奥秘。 领域问题 广告索引需具备以下基本特性: 层次化的…

论文浅尝 - AAAI2020 | 多通道反向词典模型

论文笔记整理:朱珈徵,天津大学硕士,自然语言处理方向。链接:https://arxiv.org/pdf/1912.08441.pdf动机反向词典将一段描述作为输入,并一起输出与该描述匹配的其他词,具有重要实用价值和自然语言处理研究价…

拒绝暴力调参!推荐一个模型Debug神器!

近些年深度学习在视觉、自然语言处理、语音等各个技术方向都诞生了不少创新应用,如智能识别医疗图像中的病灶,辅助医生做病情诊断;智能判别生产线上有质量问题的产品,减轻人工质检压力;对政务、金融等流程中的证件票据…

论文浅尝 - IJCAI2020 | Mucko:基于事实的多层跨模态知识推理视觉问答

论文笔记整理:陈卓,浙江大学计算机科学与技术系,博士研究生。论文链接:https://arxiv.org/pdf/2006.09073代码:https://github.com/astro-zihao/mucko发表会议:IJCAI 2020任务定义及背景VQA(视觉…

LeetCode 40. 组合总和 II(排列组合 回溯)

1. 题目 给定一个数组 candidates 和一个目标数 target ,找出 candidates 中所有可以使数字和为 target 的组合。 candidates 中的每个数字在每个组合中只能使用一次。 说明: 所有数字(包括目标数)都是正整数。 解集不能包含重…

质量运营在智能支付业务测试中的初步实践

背景 毋庸置疑,质量是决定产品能否成功、企业能否持续发展的关键因素之一。对于“质量时代”下的互联网企业,如何在快速迭代的节奏中兼顾质量,真正落地“人人重视质量、人人创造质量、人人享受质量”,这是对QA的要求,也…