论文浅尝 | AAAI2020 - 基于规则的知识图谱组合表征学习

论文笔记整理:康矫健,浙江大学计算机科学与技术系,硕士研究生。


            

论文链接:https://arxiv.org/pdf/1911.08935.pdf

发表会议:AAAI 2020

  • Motivation

  1. 现有的KG Embedding方法大部分仅关注每个三元组的结构化信息

  2. 有部分的工作把KG中的路径信息考虑在内而不仅仅是每次只考虑单个三元组,但是这种方法在获得路径表示的时候缺乏可解释性。

  3. 因此本文提出一种基于规则和路径的知识图谱表征学习方法,能够充分利用logic rules的可解释性和准确性。

 

  • Model

1. 挖掘规则:利用现有KG中的规则挖掘工具(如AMIE)自动从KG中抽取出规则,总共两类,包括长度为1的规则和长度为2的规则,每条规则有一个置信度              

             

2. 挖掘KG中实体之间的路径:利用PtransE自动挖掘头实体h和尾实体t之间存在的路径p,每条路径p有一个置信度                            。

3. 利用挖掘出来的规则和实体之间的路径做实体的组合表征学习。

             

如上图所示PtransE挖掘出实体David和USA之间的一条路径如下

             

AMIE挖掘出2条长度为2的规则

             

             

一条长度为1的规则

             

之后用长度为2的规则对路径做composition,其中长度为2的规则中的第一条可以将

             

组合成

             

之后长度为2的规则中的第二条可以将

             

组合成

             

之后根据长度为1的规则,我们需要让

             和              的embedding之间的距离尽可能接近。

4. 损失函数

             

总共三个score function。

其中第一个score function源于TransE,不做过多解释。

第二个score function              表示利用PtransE挖掘出来的h和t之间路径p的置信度,              中              表示组合路径p使用的所有长度为2的规则的置信度集合,              表示其中使用的第i条的置信度。              中              表示最终通过长度为2的规则组合出来的路径embeding,有两种情况,一种是最终路径只剩下一个关系,那么              就是这个关系的embedding,否则              就是路径剩下所有关系embedding相加。

第三个score function              中              和              分别是长度为1的规则中的两个关系。

最终的损失函数为

             

其中

             

分别是对对应三个score function的Margin Loss损失函数,其中第一个损失函数的负样本是随机将h、r、t替换掉;第二个损失函数及第三个是随机替换掉关系。

 

5. 模型整体框架如下

             

  • Experiment

  1. 数据集情况:总共使用4个数据集。FB15K和FB15K-237是从Freebase中抽取的,WN18从WordNet中抽取,NELL-995从NELL中抽取。其中FB15-237是不包括inverse关系的,因此FB15K和FB15K-237一般被认为是两个不一样的数据集。

             

  1. 本文做的实验包括relation prediction和entity prediction。

  2. 利用AMIE+挖掘出来的规则如下,每条规则会有一个0到1的阈值

             

  1. 评估指标

MR:the mean rank of correct entities

MRR:the mean reciprocal rank of correct entities

Hits@n :the proportion of test triples for which correct entity is ranked in the top n predictions

  1. 一个三元组的socre如下

             

  1. baseline的选择:第一种是TransE、TransR、TransH等Embedding methods;第二种是path-based的methods,如PtransE和DPTransE等。

  2. 第一个实验:rule置信度和路径长度对最终模型性能的影响

             

我们可以看到RPJE-S2的性能优于RPJE-S3说明采用长度最多为2的路径要优于采用长度最多为3的路径,这说明路径长度过长会使得在path composition的过程中引入过多噪音导致准确率下降。

RPJE-S2性能优于PTransE说明引入规则能够带来性能提升;

RPJE-S2性能优于RPJE-min说明规则的置信度需要引入到模型中,并更多关注那些置信度高的规则。

最终路径长度选择2,并过滤掉那些置信度小于0.7的规则

  1. 第二个实验:FB15K上的relation prediction和entity prediction,以及FB15K-237上的entity prediction。可以发现RPJE在所有指标上都比baseline好,说明了引入规则和路径的有效性。值得注意的是FB15-237中是没有inverse relation的,那么此时因此rules更能挖掘出关系之间的联系。

                           

             

  1. 第三个实验:在WN18和NELL-995是关系很稀疏的两个数据集,因此可以挖掘的规则和路径少,但是RPJE仍然好于baseline,只是提升的程度比FB15K上的少,这说明RPJE可以在各种类型的KG中都有很好的表现,但是更能在那些关系比较多的KG中有好的表现。

             

  1. 第四个实验:引入规则为我们提供了可解释性。

             

例如我们挖掘的规则中有上面这样一条规则,那么在测试的时候我们就知道在预测出来x和y之间有filmlanguage的时候的依据是什么。


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479109.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

26岁!年入100万,两周把 Github 项目推向全球榜首,他是怎么做的?

今天要为大家介绍一位很厉害的朋友 —— 小浩。九零后,20 年年收入近百万。 大家不需要质疑他的收入,在他没做公众号的时候,我知道收入已有五六十。而公众号,只是疫情期间他因无聊而产出的结果,那结果怎么样呢&#xf…

美团餐饮娱乐知识图谱——美团大脑揭秘

前言 “ I’m sorry. I can’t do that, Dave.” 这是经典科幻电影《2001: A Space Odyssey》里HAL 9000机器人说的一句话,浓缩了人类对终极人工智能的憧憬。让机器学会说这样简单一句话,需要机器具备情感认知、自我认识以及对世界的认识,来辅…

Android官方开发文档Training系列课程中文版:OpenGL绘图之图形定义

原文地址:http://android.xsoftlab.net/training/graphics/opengl/shapes.html 使用OpenGL绘制图形的第一步就是要定义一个图形。如果不清楚OpenGL如何绘制自定义图形的相关基础知识时,那么使用OpenGL一定要仔细。 这节课将会简单讲述OpenGl ES的坐标系…

LeetCode 765. 情侣牵手(贪心)

1. 题目 N 对情侣坐在连续排列的 2N 个座位上,想要牵到对方的手。 计算最少交换座位的次数,以便每对情侣可以并肩坐在一起。 一次交换可选择任意两人,让他们站起来交换座位。 人和座位用 0 到 2N-1 的整数表示,情侣们按顺序编号…

Python 捕获异常

Python捕获异常 一.常见异常 1.语法错误:SyntaxError:invalid syntax (1)案例: (1)解决方法: ①查看代码有没有红色波浪线 ②熟悉python基本语法 2.变量名不存在:NameError:name b is not defined (1)案例: (2)解决方法: ①检查对应的变量名是否有定义并赋值,是否写错了变量名…

论文浅尝 | WWW2020 - 知识图谱中的实体摘要:算法、评价和应用 (PPT)

本文转载自公众号:专知。知识图谱封装了实体和关系。知识图谱的简洁表示格式和图的特性使得许多新的Web应用程序得以创建,并增强了现有的应用性能。然而,在一个知识图谱中,描述一个实体的几十个或几百个事实可能会超出一个典型用户…

一条互联网广告多少钱?

文 | 申探社本文已获作者授权,禁止二次转载一. 导读互联网广告中的出价模式发展经历了许多变迁。从一开始的CPM,到CPC出价模式,随着Facebook的oCPX (如oCPM/oCPC) 成为了网红,之后的双出价,激活且付费,Face…

LeetCode 100. 相同的树(二叉树遍历)

1. 题目 给定两个二叉树,编写一个函数来检验它们是否相同。 如果两个树在结构上相同,并且节点具有相同的值,则认为它们是相同的。 2. 解题 2.1 递归 class Solution { public:bool isSameTree(TreeNode* p, TreeNode* q) {if(!p &&am…

Android官方开发文档Training系列课程中文版:OpenGL绘图之图形绘制

原文地址:http://android.xsoftlab.net/training/graphics/opengl/draw.html 如果你还不清楚如何定义图形及坐标系统,请移步:Android官方开发文档Training系列课程中文版:OpenGL绘图之图形定义。 在定义了图形之后,你…

Python之极验滑动验证码的识别(教程+案例)+识别豆瓣登录滑动验证码(附源码)

Python之极验滑动验证码的识别(教程案例) def get_tracks(distance, rate0.6, t0.2, v0):"""将distance分割成小段的距离:param distance: 总距离:param rate: 加速减速的临界比例:param a1: 加速度:param a2: 减速度:param t: 单位时间…

论文浅尝 | ICLR 2020 - 一文全览知识图谱研究

本文转载自公众号:AI科技评论 作者 | Michael Galkin编译 | 贾伟ICLR 2020 正在进行,但总结笔记却相继出炉。我们曾对 ICLR 2020 上的趋势进行介绍,本文考虑的主题为知识图谱。作者做波恩大学2018级博士生 Michael Galkin,研究方…

Android官方开发文档Training系列课程中文版:OpenGL绘图之应用投影与相机视图

原文地址:http://android.xsoftlab.net/training/graphics/opengl/projection.html##transform 在OpenGL ES环境中,投影相机View可以将所绘制的图形模拟成现实中所看到的物理性状。这种物理模拟是通过改变对象的数字坐标实现的: 投影 - 这基…

算法工程师怎样提升业务理解能力?

文 | 桔了个仔知乎本文已获作者授权,禁止二次转载我刚转做金融风控时,觉得自己写代码多年了,对金融风控的业务不上心,公司让我做什么我就用自认为及其优雅的编码方式解决,但对为什么要做这个事,做了对业务上…

强化学习在美团“猜你喜欢”的实践

1 概述 “猜你喜欢”是美团流量最大的推荐展位,位于首页最下方,产品形态为信息流,承担了帮助用户完成意图转化、发现兴趣、并向美团点评各个业务方导流的责任。经过多年迭代,目前“猜你喜欢”基线策略的排序模型是业界领先的流式更…

论文浅尝 | CoRR - 面向复杂知识问答的框架语义解析方法

论文笔记整理:谭亦鸣,东南大学博士。来源:CoRR abs/2003.13956 (2020)链接:https://arxiv.org/pdf/2003.13956.pdfKBQA任务中的语义解析目标是将自然语言问题转化为标准查询,而后用于构建知识库查询。现有的方法主要依…

全栈深度学习第1期:如何启动一个机器学习项目?

一 起 追 剧 鸭 !简介Berkeley全栈深度学习追剧计划是由夕小瑶的卖萌屋发起的优质公开课打卡项目,通过微信群为同期追剧的小伙伴提供交流平台。关于该计划的详请见这里。1. Berkeley深度学习追剧群目前已有1000小伙伴加入,公众号后台回复口令…

超详细中文注释的GPT2新闻标题生成项目

超详细中文注释的GPT2新闻标题生成项目:https://zhuanlan.zhihu.com/p/338171330 笔者开源了一个带有超详细中文注释的GPT2新闻标题生成项目。该项目参考了GPT2-Chinese、GPT2-chitchat、CDial-GPT、GPT2等多个GPT2开源项目(感谢大佬们的开源&#xff09…

构建时预渲染:网页首帧优化实践

前言 自JavaScript诞生以来,前端技术发展非常迅速。移动端白屏优化是前端界面体验的一个重要优化方向,Web 前端诞生了 SSR 、CSR、预渲染等技术。在美团支付的前端技术体系里,通过预渲染提升网页首帧优化,从而优化了白屏问题&…

论文浅尝 | 利用指针生成网络的知识图谱自然语言生成

论文笔记整理:谭亦鸣,东南大学博士,研究方向为知识图谱问答。来源:Neurocomputing 382: 174-187 (2020)链接:https://www.sciencedirect.com/science/article/abs/pii/S0925231219316820?via%3Dihub指针生成网络在自然…

学术工业界大佬联合打造:ML产品落地流程指南

文 | 白鹡鸰给小铁比了个心编 | 小轶给白鸟鸟比了个赞卖萌屋原创出品,本文禁止转载前言现在已经有了许多现成的ML开发部署工具,所以想要完成一个ML产品并不困难。但在实际开发过程中,人多手杂,免不了一顿兵荒马乱。相比之下&#…