论文浅尝 | 虚拟知识图谱:软件系统和应用案例综述

本文转载自公众号:DI数据智能


Virtual Knowledge Graphs: An Overview of Systems and Use Cases

作者:Guohui Xiao, Linfang Ding, Benjamin Cogrel & Diego Calvanese

供稿:Guohui Xiao

编者按:Data Intelligence 发表意大利博尔扎诺自由大学人工智能领域国际知名学者Diego Calvanese 教授组对近十年内虚拟知识图谱领域研究成果总结:Virtual Knowledge Graphs: An Overview of Systems and Use Cases(虚拟知识图谱:软件系统和应用案例综述)。虚拟知识图谱技术,也称“基于本体的数据访问技术”(ontology-based data access,OBDA),可将现有的数据库虚拟化为知识图谱。虚拟化的知识图谱通过提供一种高层次的查询接口,使最终用户不需关心底层的数据存储和组织,特别适用于数据集成领域。本文第一作者意大利博尔扎诺自由大学计算机学院Guohui Xiao (肖国辉) 博士,专攻VKG/OBDA理论和技术,是当今最先进的VKG/OBDA系统 Ontop 研究团队的负责人,主持Ontop的研究、开发和应用。肖国辉博士也是Ontopic初创公司的联合创始人和首席科学家,公司致力于将虚拟知识图谱技术引入工业界。请点击文后“原文链接”阅读原文。


文章总结:


    数据驱动对于公司和组织机构保持竞争力至关重要。然而大中型企业和组织经常面临处理大量复杂数据集的挑战。尤其是这些企业和组织中的架构和职能划分造成了数据孤岛,常有冗余和不一致的信息。实际中有很强的需求将这些数据孤岛集成,以用来支持数据分析和决策。

   数据集成通常是耗时,昂贵但又必不可少的活动。从技术角度来看,数据集成工具的主要供应商大多使用标准关系模型集成数据,这种方式缺乏灵活性,导致了可扩展性问题、以及低效率和高成本。由于当前主流技术的局限性,只有一小部分有价值的企业数据得到了适当的整合。因此,许多业务分析师仍然经常需要以低效临时方式集成所需数据,并且需要花费80%到95%的时间来准备这些数据。

    为克服传统的基于关系模型的数据集成方法的困难,我们在此提出了一种基于虚拟知识图谱(Virtual Knowledge Graph, VKG)的方法。此方法不是简单把数据看成一系列的表格,而是将其构建为统一的虚拟知识图谱。虚拟知识图谱VKG方法结合了三个想法:

  数据虚拟化(Virtualization)避免了向最终用户暴露原始数据源。集成后的数据相当于原始数据上的一个视图,通常不需要固化,而是可以保持虚拟化。这样避免了固化视图数据的时间和额外的存储空间。由于可以即时测试和修改这些视图,VKG大大简化了数据集成的设计和维护。

  集成后数据以图(Graph)的形式建模。图中节点表示实体、数据值或者类,边表示节点之间的关系。图的结构提供了比传统关系表更多的灵活性,这在数据集成中尤为重要。给定两个或多个图,通过简单的合并相同的节点,即可以完成数据融合,并且融合的结果仍然是图。

  领域知识(Knowledge)可以进一步丰富图的数据,例如领域知识可以表示概念和属性层次结构、关系的定义域和值域。这些知识允许人们对数据和知识进行推理,从而从明确声明的知识中获得衍生知识。

  在文献中,VKG方法也被称为基于本体的数据访问(Ontology-basedData Access, OBDA)。近十年来,VKG/OBDA的理论和技术发展迅猛。VKG的核心技术是查询推理引擎,通常通过查询重写的方式来将用户在虚拟知识图谱上的查询转换为原始数据源的查询。VKG技术在学术界和工业界都有广泛的应用。本文详细总结了VKG技术的软件生态圈和应用案例。


作者简介:


640?wx_fmt=png

Guohui Xiao (肖国辉)是意大利博尔扎诺自由大学KRDB知识与数据研究中心助理教授。他分别于2007年和2010年获得北京大学的学士和硕士学位,并于2014年获得奥地利维也纳技术大学计算机科学博士学位。他的主要研究兴趣包括知识表示、描述逻辑、语义网、数据库理论和虚拟知识图谱。他是Ontopic初创公司的联合创始人,公司致力于将虚拟知识图谱技术引入工业界。

640?wx_fmt=png

Linfang Ding (丁林芳) 是意大利博尔扎诺自由大学KRDB知识与数据研究中心博士后研究员。她分别于2007年和2010年获得北京大学的学士和硕士学位,并于2016年获得德国慕尼黑工业大学的博士学位。她的研究兴趣包括地理信息科学、地图学、地理本体、虚拟知识图谱和地理可视化分析。

640?wx_fmt=png

Benjamin Cogrel是意大利博尔扎诺自由大学KRDB知识与数据研究中心博士后研究员。他于2013年在东巴黎大学 (University of Paris-Est) 获得博士学位。他的研究兴趣包括虚拟知识图谱、数据集成和语义网。他是Ontopic初创公司的联合创始人,公司致力于将虚拟知识图谱技术引入工业界。

640?wx_fmt=png

Diego Calvanese 是意大利博尔扎诺自由大学KRDB知识与数据研究中心教授。他的研究兴趣包括知识表示和形式化推理、虚拟知识图谱、本体语言、描述逻辑、概念数据建模和数据集成。 他是“描述逻辑手册”的编辑之一。他自2015年起为欧洲人工智能协会(EurAI)成员。他是Ontopic初创公司的联合创始人,公司致力于将虚拟知识图谱技术引入工业界。



OpenKG


开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479944.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 169. 求众数(摩尔投票)

文章目录1. 题目信息2. 解题思路3. 代码3.1 排序3.2 map计数3.3 摩尔投票1. 题目信息 给定一个大小为 n 的数组,找到其中的众数。众数是指在数组中出现次数大于 ⌊ n/2 ⌋ 的元素。 你可以假设数组是非空的,并且给定的数组总是存在众数。 示例 1:输入…

阿里P8架构师谈:JVM的内存分配、运行原理、回收算法机制

不管是BAT面试,还是工作实践中的JVM调优以及参数设置,或者内存溢出检测等,都需要涉及到Java虚拟机的内存模型、内存分配,以及回收算法机制等,这些都是必考、必会技能。 JVM内存模型 JVM内存模型可以分为两个部分&…

我的BERT!改改字典,让BERT安全提速不掉分(已开源)

文 | 苏剑林编 | 小轶背景当前,大部分中文预训练模型都是以字为基本单位的,也就是说中文语句会被拆分为一个个字。中文也有一些多粒度的语言模型,比如创新工场的ZEN和字节跳动的AMBERT,但这类模型的基本单位还是字,只不…

2020年考证时间表汇总!这些证书值得拥有!

原文地址: https://zhuanlan.zhihu.com/p/100824416 2020年考证时间表汇总!这些证书值得拥有!已认证的官方帐号154 人赞同了该文章昨日之日不可留,2019年已然过去,2020年的我们不能再一成不变!快根据自身情…

征稿 | 2019年全国知识图谱与语义计算大会(CCKS2019)第二轮征稿启事

2019年全国知识图谱与语义计算大会China Conference on Knowledge Graph and Semantic Computing (CCKS 2019)2019年8月24日-27日,杭州征稿截止: 2019年5月18日全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Comp…

直通BAT必考题系列:JVM的4种垃圾回收算法、垃圾回收机制与总结

BAT必考JVM系列专题 直通BAT必考题系列:深入详解JVM内存模型与JVM参数详细配置 垃圾回收算法 1.标记清除 标记-清除算法将垃圾回收分为两个阶段:标记阶段和清除阶段。 在标记阶段首先通过根节点(GC Roots),标记所…

遗传算法及其应用实现

使用遗传算法求解函数具有最大值的点X """ Visualize Genetic Algorithm to find a maximum point in a function. """ import numpy as np import matplotlib.pyplot as pltDNA_SIZE 10 # DNA length POP_SIZE 100 # population size CROSS…

论文浅尝 | 一种嵌入效率极高的 node embedding 方式

论文笔记整理:叶群,浙江大学计算机学院,知识图谱、NLP方向。会议:WSDM 2019链接:https://dl.acm.org/citation.cfm?id3290961Motivation基于spring-electrical的模型在网络可视化中取得了非常成功的应用,一…

重要的,是那些训练中被多次遗忘的样本

文 | kid丶源 | 知乎编 | 兔子酱今天跟大家分享一篇很有意思的文章,是一篇探讨深度学习模型记忆&遗忘机制的文章,是一篇角度很新颖的题材,同时又有一定启发作用。这篇文章发表在深度学习顶会ICLR19,标题是《An empirical stud…

直通BAT必考题系列:7种JVM垃圾收集器特点,优劣势、及使用场景

直通BAT之JVM系列 直通BAT必考题系列:JVM的4种垃圾回收算法、垃圾回收机制与总结 直通BAT必考题系列:深入详解JVM内存模型与JVM参数详细配置 今天继续JVM的垃圾回收器详解,如果说垃圾收集算法是JVM内存回收的方法论,那么垃圾收集…

模拟嫁接技术

模拟嫁接技术:定义嫁接算子及策略剪接算子及策略GPOGA算法总结定义 收益和代价 对一棵生成树 T1,若将某结点的一条分枝移至另一结点作为其一条分枝后产生的生成树为 T2,考察分枝移动前后生成树的边长和的变化,则定义收益(gain)和…

HuggingFace又出炼丹神器!稀疏矩阵运算进入平民化时代!

文 | rumor酱编 | YY一提到模型加速,大家首先想到的就是蒸馏、(结构性)剪枝、量化(FP16),然而稀疏矩阵(sparse matrix)运算一直不被大家青睐。原因也很简单,一是手边没有…

章乐焱 | 用“科技”监管“科技”,知识图谱能做什么?

本文转载自公众号:恒生技术之眼。人工智能、大数据等前沿科技的爆发,推动金融科技进入了一个崭新的时代,也成为监管科技发展的重要推动力。在这个Fintech的黄金时代,前沿科技正在如何赋能监管?这方面,恒生公…

LeetCode 23. 合并K个排序链表(优先队列)

文章目录1. 题目信息2. 思路3. 代码1. 题目信息 合并 k 个排序链表,返回合并后的排序链表。请分析和描述算法的复杂度。 示例:输入: [1->4->5,1->3->4,2->6 ] 输出: 1->1->2->3->4->4->5->6来源:力扣(…

直通BAT必考题系列:JVM性能调优的6大步骤,及关键调优参数详解

JVM系列 直通BAT必考题系列:7种JVM垃圾收集器特点,优劣势、及使用场景 直通BAT必考题系列:JVM的4种垃圾回收算法、垃圾回收机制与总结 直通BAT必考题系列:深入详解JVM内存模型与JVM参数详细配置 JVM内存调优 对JVM内存的系统级…

论文浅尝 | 知识图谱三元组置信度的度量

论文笔记整理:叶橄强,浙江大学计算机学院,知识图谱和知识推理方向。https://arxiv.org/pdf/1809.09414.pdf动机在构建知识图谱的过程中,不可避免地会产生噪声和冲突。基于知识图谱的任务或应用一般默认假定知识图谱中的知识是完全…

跟小伙伴们做了个高效刷论文的小站

好久木有在知乎冒泡了,不知道还能不能出现在大家的timeline上哇QAQ正文开始之前还是先习惯性的碎碎念一下。前段时间换了研究方向,重新pick了问答和检索,为了追上相关问题的最新进展,就顾不上写文的刷了一堆paper,加上…

模拟进化与遗传算法

遗传算法是目前研究得最为广泛的一类模拟进化算法。 假定考虑全局优化问题(P)。遗传算法基于以下两条基本策略求解问题: 对于给定的目标函数F,它使用F的任一适应性函数(换言之,一个值域非负、…

消息中间件系列(六):什么是流量削峰?如何解决秒杀业务的削峰场景

流量削峰的由来 主要是还是来自于互联网的业务场景,例如,马上即将开始的春节火车票抢购,大量的用户需要同一时间去抢购;以及大家熟知的阿里双11秒杀, 短时间上亿的用户涌入,瞬间流量巨大(高并发…

论文浅尝 | 基于深度序列模型的知识图谱补全

本文转载自公众号:DI数据智能。 Learning to Complete Knowledge Graphs with Deep Sequential Models作者:郭凌冰、张清恒、胡伟、孙泽群、瞿裕忠单位:南京大学供稿:胡伟引用L. Guo, Q. Zhang, W. Hu, Z. Sun, & Y. Qu. …