论文浅尝 | 基于神经网络的知识推理

本文转载自公众号:PaperWeekly


论文笔记来自 PaperWeekly 社区用户 @britin本文对基于 RNN 的从大规模知识库中进行推理进行了精度和可操作性的改善,提出的模型使用单个 RNN 就可以在多种 relation types 之间进行推理。

如果你对本文工作感兴趣,点击底部的阅读原文即可查看原论文。

关于作者:Britin,中科院物理学硕士,研究方向为自然语言处理和计算机视觉。


■ 论文 | Chains of Reasoning over Entities, Relations, and Text using Recurrent Neural Networks

■ 链接 | https://www.paperweekly.site/papers/1521

■ 源码 | https://rajarshd.github.io/ChainsofReasoning


论文动机


使用神经网络进行更为复杂的推理以增加 KB 中的条目正在引起广泛关注,这么做的一个重要原因是为了同时支持 look-up 类型的问答系统以及从 entity 和 relation 中间接推理到答案的问答系统


KB 通常是非常不完整的,推理可以完善那些缺失的信息。见下图:



已有的方法大多是基于 symbolic 和 logical 的推理系统,比如 Universal Schema,它学习 relation type 的向量表示,包括结构化 KB 中的以及自然语言文本中的关系表示,其中的 matrix completion 机制可以进行简单的推理,但只能对单条 evidence 进行操作,比如从 microsoft-located-in-seattle 推理出 microsoft-HQ-in-seattle。


更高级的推理是从从句中得到包含三个或更多实体的 multi-hop 的知识库图路径。比如可以从 Melinda–spouse–Bill–chairman–Microsoft–HQ-in–Seattle 得到 Melinda–lives-in–Seattle。


这种推理通常用 path ranking algorithm 进行。RNN 沿着任意长度的路径组成了每条边关系的 embeddings,输出一个表示路径两端实体之间关系的向量表示。但是这些方法只能用于小型或人造数据库上,并且对于许多情况下来说还是不准确不实际。 


本文提出的方法则可以对大型的多语义 KB 进行推理,本文对基于 RNN 的从大规模 KB 中进行推理进行了精度和可操作性的改善:


  • 之前的工作只推理了 relation,没有推理组成路径上节点的 entities,本文对关系类型,实体和实体类型进行了联合学习和推理。


  • 本文使用了 neural attention 机制对多条路径进行推理。


  • 之前的方法最大的问题是要为每一个需要预测的 relation-type 单独训练模型。而本文只训练一个 RNN 来预测所有的 relation type。另外,由于训练的 multi-task 特性,共享了 RNN 参数,精度也显著提高了。


模型介绍

本文首先介绍了基本的 Path-RNN 的架构,本文的一切改进都是基于该模型的

Path-RNN 的输入是两个实体之间的路径,输出推理出的二者之间的新关系。通过将关系之间的连接用 RNN 表示来进行推理。路径的表示是在处理完路径中所有的关系之后由 RNN 的最后的隐状态给出的。 

架构如图所示,对每一条可能的路径用一个 RNN 来表示,将改路径每一个节点上的 entity 和连接的 relation 进行向量化后输入一个 RNN 单元,整条路径的最终向量表示就是 RNN 最后一个单元输出的 Hidden state,将改路径的向量表示和要预测的关系的向量表示求相似度,相似度最高的就是目标路径。

这个模型的缺点是每一个 relation type 都要训练一个新的模型,变量无法共享,数量巨大。另外只选择相似度最高的那一个路径可能会忽略掉其他路径所隐含的信息,还造成了计算浪费。

本文对这个模型做出的改进有:

  • 本文共享了 relation type 的表示以及 RNN 的 composition matrices,这样同样的训练数据变量就大大减少了。训练模型的损失函数用的是 negative log-likelihood。

  • 分别用 Top-k,average 和 LogSumExp 方法为每一条路径的相似度评分加上权重,这样就考虑了每一条路径包含的信息,而不仅仅是评分最高的那条。

实验结果


本文在一个大型的 freebase 实体和关系数据集以及 clueweb 文本数据集上做了验证。


和先前最好的结果相比,本文在 MAP 上提高了 25%。另外本文还单独设计了一个验证来验证在同一个 RNN 中共享 strength 的效果,结果证明在训练过程中一些出现频率较小的关系也提高了 54% 的精度。


本文还在另一个数据集上做了验证:chains of resoning in WordNet。和目前最好的结果相比,在平均分位数上的错误率减少了 84%。




文章评价


本文提出的模型使用单个 RNN 就可以在多种 relation types 之间进行推理。并且利用了多条可能路径以及路径间所有实体和关系的综合信息,这些信息在之前的方法中都是忽略的,极大程度的提高了精度。但是由于数据的稀疏性,在处理较长的文本特征时性能就会减弱。


-End-


关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。


▽ 点击 | 阅读原文 | 查看原论文




OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480826.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

手把手教你成为年薪60万的架构师

“ 这篇文章是帮助你成为架构师系列文章其中一篇,偏向0-5年工作的IT程序员员、架构师同学。 如果你能掌握这个系列提到的内容的70%左右,去阿里拿个P7问题不大,阿里的P7基本能拿到60W左右的年薪。 提醒一点,不要小看和不重视基础&a…

图解强化学习

小夕寄语 最近五年,是强化学习(Reinforcement Learning, RL)爆发的时期。RL是机器学习大家族中的一大类, 使用强化学习能够让机器学着如何在环境中拿到高分, 表现出优秀的成绩. 而这些成绩背后却是他所付出的辛苦劳动, 不断的试错, 不断地尝试…

领域应用 | 知识图谱数据构建的“硬骨头”,阿里工程师如何拿下?

本文转载自公众号:阿里技术。 阿里妹导读:搜索“西红柿”,你不但能知道它的营养功效、热量,还能顺带学会煲个牛腩、炒个鸡蛋!搜索引擎何时变成“暖男”了?原来背后…

阿里P8架构师谈:开源搜索引擎Lucene、Solr、Sphinx等优劣势比较

开源搜索引擎分类 1.Lucene系搜索引擎,java开发,包括: Lucene Solr Elasticsearch Katta、Compass等都是基于Lucene封装。 你可以想象Lucene系有多强大。 2.Sphinx搜素引擎,c开发,简单高性能。 以下重点介绍最常用的开源搜素引擎&#…

知识图谱(KG)中的同义词挖掘

前言 在语义搜索推荐、智能问答等场景中,随着通过各类方法挖掘得到知识数据越来越多,我们需要考虑一个新问题——新老知识合并加以整合?比如 “拉肚子” 与 “腹泻” 实则同一意义,但是因为在字面上差距较大,在各抽取任…

注册第一次练习

注册 使用微信注册练习使用Markdown编辑器 Markdown编辑器功能与语法支持 全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;增加了 图片拖拽 功能&…

SQL 菜鸟教程

第一节:SQL 语法 数据库表 一个数据库通常包含一个或多个表。每个表有一个名字标识(例如:"Websites"),表包含带有数据的记录(行)。 在本教程中,我们在 MySQL 的 RUNOOB 数据库中创建了 Websit…

领域应用 | 深度学习在知识图谱构建中的应用

本文转载自公众号:阿里技术。深度学习模型介绍DeepDive系统在数据处理阶段很大程度上依赖于NLP工具,如果NLP的过程中存在错误,这些错误将会在后续的标注和学习步骤中被不断传播放大,影响最终的关系抽取效果。为了避免这种传播和影…

阿里P8架构师谈:Quartz调度框架详解、运用场景、与集群部署实践

以下将分别从Quartz架构简介、集群部署实践、Quartz监控、集群原理分析详解Quartz任务调度框架。 Quartz简介 Quartz是Java领域最著名的开源任务调度工具,是一个任务调度框架,通过触发器设置作业的定时运行规则,来执行定时任务。其中quartz集…

Bert在CV领域的应用

一只小狐狸带你解锁NLP/ML/DL秘籍老板老板,听说BERT是个瞎子此话怎讲?它能理解语言,但是理解不了小夕的自拍!video-BERT了解一下喵喵喵?AI的三大核心板块(CV/Speech/NLP)近几年都相继取得了非常…

CRISP-DM:数据挖掘标准流程

CRISP-DM:数据挖掘标准流程 框架 相关信息 https://blog.csdn.net/qq_36387683/article/details/82932680 https://blog.csdn.net/hadoopdevelop/article/details/79282832

训练大型神经网络方法总结

一只小狐狸带你解锁 炼丹术&NLP 秘籍前阵子微软开源了DeepSpeed训练框架,从测试效果来看有10倍的速度提升,而且对内存进行了各种优化,最大可以训练100B(illion)参数的模型。同时发布了这个框架训练出的17B模型 Turing-NLG,处于…

从Java程序员进阶架构师,必看的书单推荐!

算法与数据结构: 数据结构(严蔚敏) java数据结构和算法(美:拉佛) 算法导论 大话数据结构 剑指Offer 程序员面试金典 编程珠玑 编程之美 程序员笔试面试最优解 数据结构与算法经典问题解析&#xf…

论文浅尝 | 基于Freebase的问答研究

本文转载自公众号:PaperWeekly。 本期的论文笔记来自 PaperWeekly 社区用户 britin。本文给出了一种 end-to-end 的系统来自动将 NL 问题转换成 SPARQL 查询语言。作者综合了实体识别以及距离监督和 learning-to-rank 技术,使得 QA 系统的精度提高了不少…

机器学习中的特征建模(特征工程)和算法选型建模 - 以暴力破解识别为例

catalogue 1. 特征工程是什么?有什么作用? 2. 特征获取方案 - 如何获取这些特征? 3. 特征观察 - 运用各种统计工具、图标等工具帮助我们从直观和精确层面认识特征中的概率分布 4. 特征处理 - 特征清洗 5. 特征护理 - 特征预处理 6. 特征处理 …

NLP数据增强方法总结:EDA、BT、MixMatch、UDA

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

史上最全java架构师技能图谱(上)

java架构师最全技能图谱上篇,包含:数结构算法、java进阶、web开发、框架与工具四大技能图谱。 下篇将包含大数据以及性能、设计模式、UML、中间件、分布式集群、负载均衡、通讯协议、架构设计等技术图谱等章节 本文作者,陈睿 优知学院创始人…

王仲远 | 基于概念知识图谱的短文本理解

本文转载自公众号:大数据创新学习中心。3月10日,美团点评AI Lab NLP负责人王仲远博士,给大家进行了题为“基于概念化的短文本理解(Conceptualization for Short Text Understanding)”的报告。王博士的这次报告主要分为…