论文浅尝 | 知识图谱相关实体搜索

本文转载自公众号:南大Websoft


640?wx_fmt=png

相关搜索(Relevance Search)是信息检索中的一个经典问题,相关搜索是指给定一个查询实体,返回与其相关度最高的实体(一个类似的问题Similarity Search,一般来说指相关搜索的一个特例,即只返回与查询实体同类型的相关实体)。相关搜索面临的一个主要问题是搜索中的歧义性,即不同的用户对于“相关性”有着不同的理解和偏好。当前的一些方法已经能够通过要求用户提供例子的方式在一些schema较为简单的图谱(如DBLP, linkedMDB等)上完成对相关搜索的消歧,然而当处理一些更复杂的图谱时(如DBpedia, YAGO等),因为效率问题,这些方法很难被直接应用。本文提出了一种基于启发式搜索的算法RelSUE,能够有效地在schema-rich的知识图谱上进行搜索,实验表明RelSUE在我们构建的benchmark数据集上能够比其他state-of-art的方法取得更好的效果。

Background

知识图谱是由实体和边(实体间的二元关系)构成的高度结构化的数据,这样的数据中蕴含了大量可以被机器所“理解”的语义信息。两个实体间相关性的语义信息通常可以通过不同元路径meta path,即顶点均为type,边为property的路径)的加权组合来刻画,不同的组合即体现了不同的语义。例如下图中,

640?wx_fmt=png 

连接实体Frank Oz以及Kevin Kline的元路径包括

640?wx_fmt=png

不同的元路径组合可以体现不同的偏好,例如如果我们只以一条元路径iii)作为相关性的语义,那么上图中以Frank Oz作为查询实体,符合这种相关性的目标实体只有Kevin Kline一个。可以预见,不同的用户对于相关性都会有一定不同的理解(或者某一特定场景下的偏好),所以我们需要一种有效的方式来捕捉到不同用户(或搜索用例)的主观偏好,目前一种主流的框架是要求用户除了输入查询实体以外再提供几个预期结果的例子,然后系统根据这些例子自动地生成一种能够准确刻画例子与查询实体间相关性的加权的元路径组合。加权元路径组合通常有两步组成,第一步首先定位出一些promising的元路径,第二步基于某些统计或学习的方法自动地为这些路径赋予权重。RelSUE同样沿用了这一技术路线。

Approach

在过去的方法中,第一步元路径的定位可以简单地通过穷举或者用户指定等方式完成,然而,这些方法往往只能应用于一些仅包含几种不同type以及几种不同property的schema-simple图谱中,对于DBpedia(645 property,453 type)或者YAGO(37 property, 536,648 type)这种包含大量type即property的图谱则不再适用——人工挑选元路径或者穷举连接实体间的所有元路径都是不现实的(一方面本身元路径的数量是个问题,另一方面进一步对所有选出来的元路径分配权重也是一个问题)。所以我们需要一种更有效地方式来对元路径进行选择,RelSUE正是为了解决如何在schema-rich的图谱中准确并快速地识别出能够刻画查询实体与例子实体间相关性的元路径。

本文共提出了两种不同的算法,RelSUE及RelSUE-e。

RelSUE-e首先基于双向BFS穷举所有的连接查询实体与例子的元路径(给定直径内),然后根据我们设计的significance函数为每一个元路径进行打分排序,选出打分最高的K条元路径作为目标元路径集合。可以发现RelSUE-e仍然需要先穷举所有元路径再进行选择,虽然选择最优的K条元路径可以保证后续的权重分配能够有效进行,但是穷举所有路径的代价仍然非常巨大,且设定最大路径长度的方式也十分不灵活具有很大的局限性(例如对于YAGO,只能够做到穷举所有两步的元路径,3步的速度就已经无法接受,意味着所有3步即以上的相关性语义都会被忽视)。

为了应对以上这些缺陷,本文进一步提出了基于启发式搜索的方法RelSUE。在RelSUE的启发式搜索框架中,搜索从查询实体展开,一步步扩展至所有例子实体都被某K条元路径连接。搜索空间树结构扩展的优先级基于两点考虑,1)当前结点所处的潜在的元路径的长度(可以通过当前结点与查询实体的距离,以及当前结点与例子实体间的距离来估算,因为搜索是从查询实体出发,所以当前结点与查询实体的距离是已知的,而与例子实体的距离,我们通过distance oracle来计算),2)当前结点的度数(度数越大的点往往意味着包含的信息较少,通过度数来作为衡量信息量的指标也是一种常见的做法);此外,为了避免启发式搜索找到一些过长的路径,我们再对1)中估计的路径长度加上一个衰减因子β[0,1],即在原有打分的基础上再乘上β^L,其中L为估计的元路径长度。βL,其中L为估计的元路径长度此外,对于RelSUE即RelSUE-e,本文的搜索都做了一些针对避免选出冗余元路径的优化(如果两条元路径对应的具体路径相同,则视为冗余)。

有了这些路径以后,那么就可以进行到background中所介绍的算法的第二步了。两种不同版本的RelSUE都通过线性SVM学习各个元路径的权重(每个元路径都对应一个特征),至于为什么用SVM,没什么特别的理由,也不是本文的贡献所在。

Benchmark

为了进行对比实验,本文在两个数据集上(DBpedia, YAGO)分别人工标注了4组查询(基于对应语义的元路径数量、长度等纬度区分)。

Evaluation

实验结果表明RelSUE在两个不同数据集上都显著好于现有的方法。

640?wx_fmt=png

RelSUE的源码及用到的查询可以访问 http://ws.nju.edu.cn/relevance/relsue/.



OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480247.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

最新美团Java面试题目(共3面)

一面 线程池用过哪些,线程池有哪些参数,然后问我几个常用线程池的用法和实际场景问题。 集合框架的知识,hashmap,ArrayList,LinkedList源码相关知识,基本整个介绍了一遍,与hastable&#xff0c…

PersonGraphDataSet近十万的开放人物关系图谱项目

PersonGraphDataSet PersonGraphDataSet, nearly 10 thousand person2person relationship facts that build from extraction method, which can be applied to person kg search and inference applications。 人物图谱数据集,近十万的人物关系图谱事实数据库&am…

图Graph--寻找二度好友(BFS应用)

社交网络可以用图来表示(查阅图的概念)。 寻找二度好友,这个问题就非常适合用图的广度优先搜索BFS算法来解决,因为广度优先搜索是层层往外推进的。 首先,遍历与起始顶点最近的一层顶点,也就是用户的一度好…

技术动态 | TechKG:一个面向中文学术领域的大型知识图谱

作者:东北大学-知识图谱研究组 任飞亮TechKG 是一个面向中文、面向学术、多领域的大型知识图谱知识库,知识库由“东北大学-知识图谱研究组”开发完成。和已有知识图谱如 Freebase 或 YAGO 相比,TechKG 具有如下主要特点:1、是一个…

技术总结:图算法、开源工具及其在工业界的应用场景概述

知识图谱本质上是一种图结构,在图内部数据规模大且质量高、外部算力足够的情况下,充分利用好图算法,能够最大程度地发挥出其数据价值。实际上,图(Graph)是一个常见的数据结构,现实世界中有很多很…

SIGIR2020 | 淘宝提出结合知识图谱与大规模推荐的新框架ATBRG

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 江城编 | 夕小瑶今天分享一篇淘宝发表在 SIGIR2020 上的关于知识图谱应用于大规模推荐的论文《ATBRG: Adaptive Target-Behavior Relational Graph Network for Effective Recommendation》&#xff0c…

图Graph--农夫过河问题(BFS/DFS应用)

农夫过河问题: /*** description: 农夫过河问题(羊,白菜,狼),一次最多带一个东西过河,* 农夫不在的情况下羊会吃白菜,狼会吃羊,如何平安过河* author…

机器学习之「二分类算法」-----银行营销案例分析

原文地址&#xff1a; <di&#xff1a;https://blog.csdn.net/weixin_44696674/article/details/88231922iv id“article_content” class“article_content clearfix” data-track-view"{“mod”:“popu_307”,“con”:",https://blog.csdn.net/weixin_44696674/…

论文浅尝 | 直译优于翻译?混合语言的知识库问答方法研究

动机作者思考&#xff0c;如果一个人懂多个语言&#xff0c;那么只要他知道某一语言的某个事实&#xff0c;就能以它作为另一语言问题的答案&#xff0c;同时希望证明计算机是否也能做到这一点&#xff0c;并完成混合语言的简单问题知识问答任务&#xff08;Code-Mix Simple Qu…

2018最新Java面试78题:数据结构+网络+NoSQL+分布式架构

算法和数据结构 数组、链表、二叉树、队列、栈的各种操作&#xff08;性能&#xff0c;场景&#xff09; 二分查找和各种变种的二分查找 各类排序算法以及复杂度分析&#xff08;快排、归并、堆&#xff09; 各类算法题&#xff08;手写&#xff09; 理解并可以分析时间和空…

工程实践:基于规则模式的军事和医药领域知识图谱问答快速实现

知识结构化问答是知识图谱的一个重要的应用方向&#xff0c;虽然现在许多真实的使用体验上&#xff0c;会被评价为“鸡肋且智障”&#xff0c;并且在落地上还没有太多的付费场景&#xff0c;但也不乏有不少学生、公司、机构在尝试花时间去做这个事情。当前&#xff0c;医疗知识…

图Graph--最小生成树

文章目录1.概念2.构造最小生成树Prim算法3.构造最小生成树Kruskal算法1.概念 对图运用不同的遍历方法就可能得到图的不同遍历顺序&#xff0c;每一种遍历顺序对应于一棵生成树对于无向连通图&#xff0c;所有的生成树中必有一棵树的所有边的权的总和最小的&#xff0c;称之为最…

Longformer:超越RoBERTa,为长文档而生的预训练模型

星标/置顶小屋&#xff0c;带你解锁最萌最前沿的NLP、搜索与推荐技术文 | ChrisCao, 小轶前言今天要与大家分享的是AllenAI今年发表的最新工作&#xff0c;Longformer——一种可高效处理长文本的升级版Transformer。作者团队提供了开源代码&#xff0c;大家可快速复现&#xff…

工程实践:基于规则句法的事件关系与主谓宾三元组抽取项目实现

目前&#xff0c;知识图谱在学术界如火如荼地进行&#xff0c;但受限于知识图谱各个环节中的性能问题&#xff0c;还尚未能够在工业界大规模运用。而与知识图谱中以实体为知识节点&#xff0c;实体关系为实体关系边对知识进行组织不同&#xff0c;以事件作为节点&#xff0c;事…

论文浅尝 | LightRNN:存储和计算高效的 RNN

链接&#xff1a;https://arxiv.org/pdf/1610.09893.pdf动机在NLP任务中使用RNN已经被证明是很有用的模型方法。但是传统的RNN在NLP中的应用有一个很大的限制&#xff1a;RNN的输出输入Embedding占用的空间太大&#xff0c;比如1024维10M词表大小的Embedding矩阵就要占掉40GB&a…

阿里最全Java面试100题汇总:涵盖天猫、蚂蚁金服等面试题!含答案~

【阿里天猫、蚂蚁、钉钉面试题目】 1、微信红包怎么实现。 2、海量数据分析。 3、测试职位问的线程安全和非线程安全。 4、HTTP2.0、thrift。 5、面试电话沟通可能先让自我介绍。 6、分布式事务一致性。 7、nio的底层实现。 8、jvm基础是必问的&#xff0c;jvm GC原理&a…

ACL2020 奇葩论文标题大赏

星标/置顶小屋&#xff0c;带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 灵魂写手rumor酱编 | 不拖更的夕小瑶又是一年一度的ACL&#xff0c;之前通过卖萌屋Arxiv服务已经零零碎碎看了一些&#xff0c;还是准备刷一下论文list&#xff0c;看看哪篇能让我的模型效果一飞冲天。…

字符串匹配算法(BF RK)

文章目录1. BF&#xff08;Brute Force&#xff09;暴力匹配BF代码2. RK&#xff08;Rabin-Karp&#xff09;算法RK代码3. 思考题&#xff1a;&#xff08;二维匹配&#xff09;1. BF&#xff08;Brute Force&#xff09;暴力匹配 BF算法的思想&#xff0c;在主串中&#xff0…

用Python寻找最优投资组合

原文地址&#xff1a;https://www.jianshu.com/p/2a25dfd465e9 现代投资组合理论&#xff08;Modern Portfolio Theory&#xff0c;MPT&#xff09;告诉我们投资者应该分散投资来实现最小化风险最大化投资回报。大邓刚开始学习这方面知识&#xff0c;用了将近一天的时候才搞懂M…

技术动态 | 事理图谱,下一代知识图谱

本文转载自公众号&#xff1a;DataHorizon。 人工智能与认知智能当前人工智能时代下&#xff0c;机器与人类之间的博弈一直在进行着。如图1所示&#xff0c;从1926年达特茅斯会议的召开标志人工智能诞生到深度学习模型在…