论文浅尝 | 基于表示学习的大规模知识库规则挖掘

640?wx_fmt=png链接:www.ict.griffith.edu.au/zhe/pub/OmranWW18.pdf


动机


传统的规则挖掘算法因计算量过大等原因无法应用在大规模KG上。为了解决这个问题,本文提出了一种新的规则挖掘模型RLvLR(Rule Learning via LearningRepresentation),通过利用表示学习的embedding和一种新的子图采样方法来解决之前工作不能在大规模KGscalable的问题。


亮点


文章的亮点主要包括:

1)采样只与对应规则相关的子图,在保存了必要信息的前提下极大减少了算法的搜索空间和计算量;

2)提出了argument embedding,将规则表示为predicate sequence


概念


1.   closed-pathruleLHS记为body(r)RHS记为head(r)

640?wx_fmt=png

2.     supportdegree of r,满足 r 的实体对个数

640?wx_fmt=png

3. standard confidencehead coverage

640?wx_fmt=png

方法


640?wx_fmt=png

Sampling Method

head predicate Pt为输入,把KG看成无向图,选择到Pt的头尾实体路径长不超过len-1的实体和关系组成子图K’=(E’,F’),后面所有的计算都基于这个子图。

 

argument embedding

 对于谓词P,它的subject argument定义为所有出现在subject上实体的embedding的加权平均,object argument则为尾实体上实体的embedding的加权平均,这个主要用在后面的score function上,即本文引入了共现的信息,对于路径(P1,P2)来说,P1object argumentP2subject argument应该很相似,这里就应用到了下面说的基于argument embeddingscore function

640?wx_fmt=png

co-occurrence score function

640?wx_fmt=png

      这个 score function 就是基于上面的 argument embedding,以上图这个长为 3 rule 为例,path p=P1,P2embeddingP1*P2,之前通用的synonymy scoring function就是让 p Pt embedding 相似,再与这个本文提出的co-occurrence scorefunction,结合起来就是最后的score function,下图左边的就是利用了路径的同义信息,即 body(r) predicate embedding path 的乘积应当与 headpredicate embedding 相似。

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

Rule Evaluation

根据 score function 抽出来的 rule 还要进过筛选,具体做法是先排除掉 support degree 小于 1 rule,再过滤掉 standard confidence<minSChead coverage<minHC rule

 

实验

                                                                  

. 数据集

640?wx_fmt=png

本文的关注点是 scalable,所以选取做比较的数据集都是大规模知识库

. 实验结果

640?wx_fmt=png

作者与 AMIE+ 在三个规模较大的知识库上进行了比较,具体做法是随机选取 20 target predicate 进行挖掘,其中 R SC>0.1&HC>0.01 的规则,QCSC>0.7 的规则,结果显示了 RLvLR 在大规模 KG 上的效率和挖掘规则的能力。


总结                                                  


本文提出了一种可以在大规模 KG 上可以以较小计算量进行规则挖掘的模型,减少计算量的方式包括子图采样,argument embedding co-occurrence  score function

 

论文笔记整理:汪寒,浙江大学硕士,研究方向为知识图谱、自然语言处理。

 



OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480420.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度学习推荐系统中各类流行的Embedding方法

Embedding技术概览&#xff1a;对其它Embedding技术不熟悉&#xff0c;可以看我的上一篇文章&#xff1a;深度学习推荐系统中各类流行的Embedding方法&#xff08;上&#xff09;Graph Embedding简介Word2Vec和其衍生出的Item2Vec类模型是Embedding技术的基础性方法&#xff0c…

超强干货!7个腾讯最常用的用户研究方法

超强干货&#xff01;7个腾讯最常用的用户研究方法调查知识2017-09-19每天都有互联网产品上市&#xff0c;人们电脑上、手机上的应用在短期之内就可能增增减减换了很多波&#xff0c;最终留下的、那些最经典的产品&#xff0c;都是以好的体验设计取胜。这些产品或许看似很“简单…

算法--递归--汉诺塔问题

文章目录1. 问题分析2. 面试题1. 问题分析 游戏规则&#xff1a;一次只能挪一片&#xff1b;小的只能在大的上面&#xff1b;把所有的从A柱挪到C柱。 递推公式&#xff1a; 上部 n - 1 个 A 到 B&#xff1b;最底下 1 个 A 到 C &#xff1b;上部 n - 1 个 B 到 C&#xff1b;…

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

来源: IJCAI2018链接: https://www.ijcai.org/proceedings/2018/0556.pdf动机近年来&#xff0c;随着多语言知识图谱嵌入(Multilingual KG embedding)的研究&#xff0c;实体的潜在语义表示以及跨语言知识推理等任务均取得一定成效&#xff0c;因此也推动了许多知识驱动的跨语言…

最新阿里聚划算Java 5轮面试题,涵盖GC收集器、多线程锁等

一面 详细的介绍JVM的内存模型结构 JVM最常用的参数配置讲讲 GC垃圾收集算法、GC垃圾收集器有哪些&#xff0c;以及新生代老生代 分别用什么算法 多线程的几种加锁方式详细介绍 实现线程安全的方式&#xff1f;ThreadLocal原理&#xff1f;线程池了解吗说说看&#xff1f;自…

2004-2019十六年热点事件库HistoryHotEventBase项目

HistoryHotEventBase historyhotevent projrct ,which concentrate on the dayily hot event covers the time range from 2004 to 2019, 16 years in total&#xff0c;从2004年至2019年共16年的每日热点事件项目&#xff0c;目标包括构建起从2004年至今共16年的历时热点标题数…

OSI七层模型详解-开放系统互联参考模型详解

原文链接&#xff1a;https://blog.csdn.net/yaopeng_2005/article/details/7064869 OSI 七层模型通过七个层次化的结构模型使不同的系统不同的网络之间实现可靠的通讯&#xff0c;因此其最主要的功能就是帮助不同类型的主机实现数据传输 。 完成中继功能的节点通常称为中继系…

最新天猫Java3轮面试题目:虚拟机+并发锁+Sql防注入+Zookeeper

天猫一面 自我介绍、项目介绍 Spring拦截器、实现了哪些方法&#xff1f;底层原理 AOP如何配置&#xff0c;底层原理、2种动态代理&#xff0c;aop注解实现&#xff0c;xml定义切面 Bean的作用域&#xff0c;单例模式是否线程安全&#xff1f;恶汉模式是否线程安全&#xff…

NLP中的少样本困境问题探究

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者&#xff1a;JayLou娄杰&#xff08;NLP算法工程师&#xff0c;信息抽取方向&#xff09;前言在医疗、金融、法律等领域&#xff0c;高质量的标注数据十分稀缺、昂贵&#xff0c;我们通常面临少样本低资源问题。本文从「文本增强」和…

军事武器知识图谱构建与自动问答项目QAonMilitaryKG

QAonMilitaryKG QAonMilitaryKG&#xff0c;QaSystem based on military knowledge graph that stores in mongodb which is different from the previous one, 基于mongodb存储的军事领域知识图谱问答项目&#xff0c;包括飞行器、太空装备等8大类&#xff0c;100余小类&#…

python--从入门到实践--chapter 9 类

类的定义格式&#xff1a; class Name(Father_class):def __init__(self, para, ...):self.para xdef __init__(self, para, ...):super().__init__(para, ...) #调用父类的构造函数class Car():def __init__(self,make,model,year): #构造函数self.make makeself.model mo…

连载 | 知识图谱发展报告 2018 -- 前言

OpenKG 将开始连载《知识图谱发展报告(2018)》&#xff0c;希望该连载能够让更多的人深入了解知识图谱。欢迎各位读者留言讨论。1. 知识图谱的研究目标与意义 知识图谱&#xff08;Knowledge Graph&#xff09;以结构化的形式描述客观世界中概念、实体及其关系&#xff0c;将互…

网址(url),域名,ip地址,dns,hosts之间的关系

网址&#xff08;url&#xff09;&#xff0c;域名&#xff0c;ip地址&#xff0c;dns&#xff0c;hosts之间的关系 什么是ip&#xff1f; 我们知道&#xff0c;在Internet上有千百万台主机&#xff0c;为了区分这些主机&#xff0c;人们给每台主机都分配了一个专门的地址&…

事理图谱概念辨析及其与风险标签分类结合的应用探讨

以事件为描述核心&#xff0c;以揭示事件之间的演化逻辑关系的事理图谱自提出后&#xff0c;引起了工业界的极大兴趣&#xff0c;在积极探索事理图谱本质、事理图谱构建技术细节的同时&#xff0c;如何找到技术与应用场景之间的结合成为目前广泛讨论的问题。我们团队持续对以上…

一篇文章带你熟悉 TCP/IP 协议(网络协议篇二)

涤生_Woo2017年11月11日阅读 15544关注一篇文章带你熟悉 TCP/IP 协议&#xff08;网络协议篇二&#xff09;同样的&#xff0c;本文篇幅也比较长&#xff0c;先来一张思维导图&#xff0c;带大家过一遍。一图看完本文一、 计算机网络体系结构分层计算机网络体系结构分层计算机网…

PyTorch数据Pipeline标准化代码模板

前言PyTorch作为一款流行深度学习框架其热度大有超越TensorFlow的感觉。根据此前的统计&#xff0c;目前TensorFlow虽然仍然占据着工业界&#xff0c;但PyTorch在视觉和NLP领域的顶级会议上已呈一统之势。这篇文章笔者将和大家聚焦于PyTorch的自定义数据读取pipeline模板和相关…

2019 最全支付宝高级Java现场面试37题

支付宝现场三面面试题目,文末有福利&#xff1a;阿里经典面试88题目答案 01 支付宝一面 介绍一下自己。 项目参与的核心设计有哪些 ArrayList和LinkedList底层 HashMap及线程安全的ConcurrentHashMap&#xff0c;以及各自优劣势 Java如何实现线程安全 Synchronized和Lock…

腾讯互娱刘伟 | 知识图谱在运维中的应用

本文转载自公众号&#xff1a;InfoQ。随着业务监控建设不断完善&#xff0c;海量业务故障时产生成百上千条告警&#xff0c;如何智能定位故障根源、实时统计业务影响是现阶段运营面临的一个难题。Google 利用知识图谱优化了其搜索服务以来&#xff0c;知识图谱得到了迅速发展。…

中文人物关系图谱构建与应用项目(人物关系抽取,关系抽取评测)

ChinesePersonRelationGraph ChinesePersonRelationGraph, person relationship extraction based on nlp methods.中文人物关系知识图谱项目,内容包括中文人物关系图谱构建,基于知识库的数据回标,基于远程监督与bootstrapping方法的人物关系抽取,基于知识图谱的知识问答等应用…

2019 最新阿里中间件Java 4轮面试题!60万年薪起步~

Java中间件一面 1.技术一面考察范围&#xff1a; 重点问了Java线程锁&#xff1a;synchronized 和ReentrantLock相关的底层实现 线程池的底层实现以及常见的参数 数据结构基本都问了一遍&#xff1a;链表、队列等 Java内存模型&#xff1a;常问的JVM分代模型&#xff0c;以…