技术动态 | 数据库研究者视角下的知识图谱研究

本文转载自公众号:图谱学苑 。


         

640?wx_fmt=png

本次讲解的是数据库领域的三大会(SIGMOD、VLDB、ICDE)近两年关于图数据的研究进展,特别是知识图谱的最新研究。知识图谱是2012年Google为改进其搜索引擎而提出的概念,其本质是一个描述事物本身以及事物之间关联关系的大规模的语义图,然而在数据库领域关于图数据的相关研究已经有了很多年,图论的相关研究甚至在计算机诞生之前就已经有了大量的研究,早在1736年瑞典数学家欧拉(Leornhard Euler)解决了著名的哥尼斯堡七桥问题,由此图论诞生,欧拉也成为图论的创始人。

640?wx_fmt=png

知识图谱作为图数据的一种,目前主要关注三个相关的研究问题,分别是知识图谱构建、知识图谱查询、知识图谱挖掘,以下将从这三个方面分别进行介绍。注意到本文不是专门介绍某一篇文章,而是对相关的研究进行梳理,旨在介绍不同的关注点上的研究进展。

640?wx_fmt=png

知识图谱的相关应用首先需要构建一个知识图谱,而构建知识图谱是一项十分重要并且极具挑战的任务。知识图谱由<主体(subject),谓词(predicate),客体(object)>组成。进行实体抽取是构建知识图谱最为基础的任务之一,近些年也得到了数据库领域研究人员的关注,其中的一种方法是基于词典的检索,假定我们预先得到一个丰富的实体词典,基于这个词典可以从输入的文本根据相似度进行筛选。传统的方法分别考虑了字(character)级和词(token)级的相似度,这两种相似度各自具有一定的优势,比如对于文本中的“Melbounre” 由于拼写错误,考虑用字级的相似度更合适;相反的,对于文本中的“MelbounreUniversity ” 和“The University of Melbourne”实际上是指同一个实体,如果考虑字级的相似度,肯能会使得两者之间的距离很大,从而导致错误的识别。因此,需要设计一种同时融合字级和词级的相似度,兼具两者的优势,ICDE 2019提出了一种解决方案,详见参考文献【10】。

构建知识图谱关键的任务之一是确定图谱的schema,由于不同产品具有的类型和相关的属性千差万别,比如手机的属性有屏幕尺寸、分辨率等,而狗粮的属性有保质期、原料等,因此构建产品知识图谱难度更大。除此之外,产品的数量十分庞大,对于产品知识图谱的构建提出了进一步的挑战。ICDE 2019提出了一种可行的方法【11】。

640?wx_fmt=png在面向文本数据构建知识图谱的过程中,一项十分重要的任务是进行三元组的规范化,即把不同三元组中实际指向同一个实体的主体(subject)或客体(object)链接到一起;类似的,对于不同三元组中的谓词或属性若是同样的意思,则也需要进行标准化。一个常用的方法是把这些三元组聚类,聚类的过程可以采用人工定义的特征,也可以基于所学到的分布式表示。然而传统的聚类大多采用的是层次聚类,时间复杂度较高,并且很多新出现的实体难以链接到已有的知识图谱中,为了解决这一问题,ICDE 2019有研究人员提出了一个解决方案【12】,作者们提出了一种同时考虑实体和关系标准化的联合策略,并且引入了领域知识。

640?wx_fmt=jpeg

VLDB 2018有研究人员提出了一种在线构建知识图谱的方法【16】,当用户给定了一个查询之后,系统检索到包含查询的自然语言文本,然后进行在线解析,生成结构化的知识图谱。作者构建了一个语义图(semantic graph),包括句子中的短语以及短语之间的依赖关系,同时还包含了短语到已有的知识图谱的(例如DBpedia)的链接关系。基于语义图进行最终的图谱抽取,同时也可以解决了知识图谱的标准化问题。

640?wx_fmt=png

知识图谱构建完成之后,需要对构建的质量进行评测,准确率可以定义为知识图谱中正确的三元组的比例,当前的质量评测通常还是通过人工的方式进行。因此,如何保证评测可信度的前提下最大限度的降低人工的成本是十分重要的任务。对于一个人同样是查验5条三元组,如果数据的呈现方式不同,最终所花费的代价也可能不同。例如,上图中左侧的三元组由于涉及到了不同实体,而右侧的三元组涉及的是同一个实体,很明显,查验右侧的数据所耗费的时间更少。VLDB 2019的文章【1】对这个问题做了深入细致的研究。

640?wx_fmt=png

由于知识图谱在构建过程中可能有引入很多的噪音数据,如果能够在知识图谱中发掘一些规则,并基于这些规则进行知识图谱的修正,对于知识图谱质量的提升具有重大的作用。规则有正负面之分,例如,正面规则(positive rules):如果两个人具有同样的父母,这这两个人是兄弟姐妹的关系;负面规则(negative rules):如果a比b晚出生,则b不可能是a的孩子。文献【15】提出了规则自动发现的算法。

640?wx_fmt=png

知识图谱/图数据构建好之后,一个重要的任务是,提供有效的查询方式,为用户浏览数据提供方便的服务。结构化的查询语言如SPARQL、Cyper有着严格的语法结构,并且需要用户对底层的知识图谱的结构有清晰的了解,否则难以写出正确的可以执行的查询语句。因此,提供更易于使用的查询方式显得尤为重要。SIGMOD 2019上有研究人员提出了一种可视化的图查询方法【3】,系统准备了一些基本图单元,用户可以从中选择并且拖拽的右侧的画图区,然后根据需要进一步进行拼接,最终形成一个完整的图查询。然而,之前的方法,这些基本图单元是系统预先设定好的,通常是基于人工的经验得到的,对于大规模的图数据、知识图谱,想要提前确定好这些基本图单元是十分困难的,为此,作者们提出了一种基于数据驱动的选择方案,具体可以参考文献【3】。

 

640?wx_fmt=jpeg

基于自然语言的方式查询知识图谱目前已经成为了十分重要的方式,然而由于自然语言本身的灵活性和歧义性导致问答的效果不理想,特别是针对复杂句的问答。VLDB 2018有研究人员提出了一种基于模板分解的方法,其基本思想是把复杂问句拆解成一组简单问句,而简单问句的回答相对容易的多。最终基于简单问句的答案,生成复杂句的答案。

640?wx_fmt=png

例如,问句“where was the wife of the USpresident born?”可以拆解成3个简单模板,并且这三个模板之间具有依赖关系。然而对于一个复杂问句,设计一个有效的拆解算法具有一定的挑战。文献【17】给出了一个高效的拆解方案。

640?wx_fmt=png

当图的规模非常大时,可能需要基于分布式的系统进行处理,而这里面有一个非常重要的问题是如何进行图的划分,划分的目的是减小网络通信的代价,并且使得各个划分的子图尽可能较为均匀,从而有助于提升并行化的程度。由于当前的数据具有高度变化的特点,也就是数据难以获得其全貌,而只能以流数据的形式进行处理,SIGMOD 2019有研究人员对这个问题进行了一个比较系统而全面的比较和分析【20】。

640?wx_fmt=png

在动态图上的研究也是近两年的热点问题之一,涉及到多个经典问题的研究,包括k-truss(最大的连通子图,其中每条边被至少k-2个三角形包含)、最短路查询 【8】、子图同构搜索【13,14】等。参考文献【7】提出了在动态图上维护k-truss的高效算法,并且证明了在删除边的情况是有界的bounded(SIGMOD 2019)。除此之外,知识图谱嵌入的研究也得到了广泛的关注【9】。

640?wx_fmt=png

知识图谱/图数据的相关研究主要关注三个方面:知识图谱的构建、知识图谱的查询、知识图谱的挖掘。本文从这三个方面粗略地介绍了近两年在数据库领域的顶级会议的相关研究,有兴趣的读者可以有针对性的进一步阅读和了解。 

References

[1] Efficient Knowledge Graph Accuracy Evaluation, VLDB 2019

[2] An Efficient Parallel Keyword Search Engine on Knowledge Graphs, ICDE 2019

[3] CATAPULT Data-driven Selection of Canned Patterns for Efficient Visual Graph Query Formulation, SIGMOD 2019

[4] Interactive Graph Search, SIGMOD 2019

[5] Answering Why-questions by Exemplars in Attributed Graphs, SIGMOD 2019

[6] Experimental Analysis of Streaming Algorithms for Graph Partitioning, SIGMOD 2019

[7] Unboundedness and Efficiency of Truss Maintenance in Evolving Graphs, SIGMOD 2019

[8] Constrained Shortest Path in a Time-Dependent Graph, VLDB 2019

[9] NSCaching: Simple and Efficient Negative Sampling for Knowledge Graph Embedding, ICDE 2019

[10] 2ED: An Efficient Entity Extraction Algorithm using Two-Level Edit-Distance, ICDE 2019

[11] Building a Broad Knowledge Graph for Products, ICDE 2019

[12] Canonicalization of Open Knowledge Bases with Side Information from the Source Text, ICDE 2019

[13] Time Constrained Continuous Subgraph Search over Streaming Graphs, ICDE 2019

[14] TurboFlux: A Fast Continuous Subgraph Matching System for Streaming Graph Data, SIGMOD 2018

[15] Robust Discovery of Positive and Negative Rules in Knowledge-Bases, ICDE 2018

[16] Query-Driven On-The-Fly Knowledge Base Construction, VLDB 2018

[17] Question Answering Over Knowledge Graphs: Question Understanding Via Template Decomposition,VLDB 2018

[18] Interactive Graph Search, SIGMOD 2019

[19] Answering Why-questions by Exemplars in Attributed Graphs, SIGMOD 2019

[20] Experimental Analysis of Streaming Algorithms for Graph Partitioning, SIGMOD 2019

 


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479528.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MultiDex

原文转自&#xff1a;http://coolpers.github.io/multidex/2015/04/13/multidex.html 1.MultiDex的产生背景 当Android系统安装一个应用的时候&#xff0c;有一步是对Dex进行优化&#xff0c;这个过程有一个专门的工具来处理&#xff0c;叫DexOpt。DexOpt的执行过程是在第一次加…

PYTHON得到pdf页数、遍历当前文件夹

#第一步安装PyPDF2 pip install PyPDF2#第二步导入相应的模块 from PyPDF2 import PdfFileReader#第三步&#xff1a;定义相对应的函数 def get_num_pages(file_path):"""获取文件总页码:param file_path: 文件路径:return:"""reader PdfFileRe…

LeetCode 814. 二叉树剪枝(递归)

文章目录1. 题目2. 递归解题1. 题目 给定二叉树根结点 root &#xff0c;此外树的每个结点的值要么是 0&#xff0c;要么是 1。 返回移除了所有不包含 1 的子树的原二叉树。 把只包含0的子树删除&#xff08;断开&#xff09; 来源&#xff1a;力扣&#xff08;LeetCode&…

怎样缓解灾难性遗忘?持续学习最新综述三篇

本文转载自公众号“夕小瑶的卖萌屋”&#xff0c;专业带逛互联网算法圈的神操作 -----》我是传送门 关注后&#xff0c;回复以下口令&#xff1a; 回复【789】 &#xff1a;领取深度学习全栈手册&#xff08;含NLP、CV海量综述、必刷论文解读&#xff09; 回复【入群】&#xf…

美团点评技术年货:900+页电子书,覆盖前端、后台、大数据、算法……

新年将至&#xff0c;年味渐浓。 美团点评技术年货如期而至。 从2013年12月4日发布第一篇文章&#xff0c;一直到今天&#xff0c;美团技术团队官方博客已经走过了6个春秋。 截止目前&#xff0c;我们共发布376篇技术文章&#xff0c;微信公众号&#xff08;meituantech&#x…

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

本文转载自公众号&#xff1a;图谱学苑。今天介绍的工作是An Interactive Mechanism to Improve Question Answering Systems via Feedback&#xff0c;作者&#xff1a;张欣勃&#xff0c;邹磊&#xff0c;胡森&#xff0c;被CIKM2019接收。本文是一篇与知识库自然语言问答系统…

Android控件默认风格解析之SeekBar

在我们开发的时候常常需要更改原生控件的默认效果&#xff0c;有时候某些控件改起来挺费劲的&#xff0c;比如SeekBar的背景与其ProgressBar的进度粗细或者thumb居中现实与否如果弄错&#xff0c;都是个大麻烦&#xff0c;我曾经就为thumb的居中显示问题浪费了很多很多的时间&a…

基于模板的文字识别结果结构化处理技术

原文链接&#xff1a;https://cloud.tencent.com/developer/article/1425800 嘉宾 | 向宇波编辑 | suiling来源 | AI科技大本营在线公开课出品 | AI科技大本营&#xff08;ID&#xff1a;rgznai100&#xff09;随着行业的发展和技术的成熟&#xff0c;文字识别&#xff08;OCR&…

LeetCode 1008. 先序遍历构造二叉树(已知先序,求二叉搜索树)

文章目录1. 题目2. 解题1. 题目 返回与给定先序遍历 preorder 相匹配的二叉搜索树&#xff08;binary search tree&#xff09;的根结点。 示例&#xff1a;输入&#xff1a;[8,5,1,7,10,12]&#xff0c;已知二叉搜索树的先序&#xff08;根左右&#xff09; 输出&#xff1a…

美团开源 Logan Web:前端日志在 Web 端的实现

1.前言 Logan 是美团点评推出的大前端日志系统&#xff0c;支持多端环境运行&#xff0c;可为客户端、Web、小程序等用户端环境提供前端日志的存储、收集、上报及分析能力&#xff0c;能够帮助开发人员快速定位并解决端上问题&#xff0c;便于及时响应用户反馈与排除异常。 201…

推荐一个快速定位深度学习代码bug的炼丹神器!

文 | McGL源 | 知乎写深度学习网络代码&#xff0c;最大的挑战之一&#xff0c;尤其对新手来说&#xff0c;就是把所有的张量维度正确对齐。如果以前就有TensorSensor这个工具&#xff0c;相信我的头发一定比现在更浓密茂盛&#xff01;TensorSensor&#xff0c;码痴教授 Teren…

研讨会 | 知识图谱引领认知智能+

本文转载自公众号&#xff1a;中国计算机学会。本论坛将于 CNCC2019 中国计算机大会第一天&#xff08;10月17日&#xff09;在苏州金鸡湖国际会议中心 A102 会议室举行&#xff0c;共邀微软、阿里巴巴、华为、小米、浙江大学、苏州大学等机构的专家与你探讨。知识图谱是一种用…

LeetCode 617. 合并二叉树

文章目录1. 题目2. 递归解题1. 题目 给定两个二叉树&#xff0c;想象当你将它们中的一个覆盖到另一个上时&#xff0c;两个二叉树的一些节点便会重叠。 你需要将他们合并为一个新的二叉树。合并的规则是如果两个节点重叠&#xff0c;那么将他们的值相加作为节点合并后的新值&…

BIO,NIO,AIO

BIO,NIO,AIO 介绍一、背景1.1 说明1.2 通信技术整体解决的问题二、Java的I/O演进之路2.1 I/O 模型基本说明2.2 I/O模型Java BIOJava NIOJava AIO2.3 BIO、NIO、AIO 适用场景分析三、BIO,NIO,AIO总结一、背景 1.1 说明 ​ 在Java的软件设计开发中&#xff0c;通信架构是不可避…

学PyTorch还是TensorFlow?

在机器学习领域&#xff0c;面对各类复杂多变的业务问题&#xff0c;构建灵活易调整的模型是高阶机器学习工程师必备的工作能力。然而&#xff0c;许多工程师还是有一个想法上的误区&#xff0c;以为只要掌握了一种深度学习的框架就能走遍天下了。事实上&#xff0c;在机器学习…

Bifrost微前端框架及其在美团闪购中的实践

Bifrost&#xff08;英 [‘bi:frɔst]&#xff09;原意彩虹桥&#xff0c;北欧神话中是连通天地的一条通道。而在漫威电影《雷神》中&#xff0c;Bifrost是神域——阿斯加德&#xff08;Asgard&#xff09;的出入口&#xff0c;神域的人通过它自由穿梭于“九界”&#xff08;指…

设计模式之观察者模式在Listview中的应用

有时候我们会有这么一个需求&#xff0c;在Listview的某个Item上有个按钮&#xff0c;点击这个按钮之后呢&#xff0c;需要对其它的item做一些操作&#xff0c;就像下面这个&#xff1a; 采纳按钮点击之前&#xff1a;采纳按钮点击之后&#xff1a; 简单介绍一下这两张图的意…

新书速递 | 《知识图谱:方法、实践与应用》

本文转载自公众号&#xff1a;博文视点Broadview 。互联网促成了大数据的集聚&#xff0c;大数据进而促进了人工智能算法的进步。近年来知识图谱作为AI领域底层技术被越来越多的人谈起。知识图谱的升温得益于新数据和新算法为规模化知识图谱构建提供了新的技术基础和发展条件&a…

Github Star过万的阿里学长独家干货分享

浅梦是我认识的一位浙大计算机系的学长&#xff0c;目前在阿里从事算法相关的工作。无论在学校还是工作中&#xff0c;他都保持着对新知识的学习和分享。他的github star 1w&#xff0c;世界排名700&#xff0c;参与开发的项目下载量接近30w次。主要涉及「推荐系统」&#xff0…

React Native在美团外卖客户端的实践

MRN简介 MRN&#xff08;Meituan React Native&#xff09; 是基于开源的React Native框架改造并完善而成的一套动态化方案&#xff0c;在开发体验上基本能与原生RN保持一致&#xff0c;同时从业务需求的角度满足从开发、构建、测试、部署、运维的工程化需要。解决了一系列痛点…