论文浅尝 | 虚拟知识图谱：软件系统和应用案例综述

本文转载自公众号：DI数据智能。

Virtual Knowledge Graphs: An Overview of Systems and Use Cases
作者：Guohui Xiao, Linfang Ding, Benjamin Cogrel & Diego Calvanese
供稿：Guohui Xiao

编者按：Data Intelligence 发表意大利博尔扎诺自由大学人工智能领域国际知名学者Diego Calvanese 教授组对近十年内虚拟知识图谱领域研究成果总结：Virtual Knowledge Graphs: An Overview of Systems and Use Cases（虚拟知识图谱：软件系统和应用案例综述）。虚拟知识图谱技术，也称“基于本体的数据访问技术”(ontology-based data access，OBDA)，可将现有的数据库虚拟化为知识图谱。虚拟化的知识图谱通过提供一种高层次的查询接口，使最终用户不需关心底层的数据存储和组织，特别适用于数据集成领域。本文第一作者意大利博尔扎诺自由大学计算机学院Guohui Xiao (肖国辉) 博士，专攻VKG/OBDA理论和技术，是当今最先进的VKG/OBDA系统 Ontop 研究团队的负责人，主持Ontop的研究、开发和应用。肖国辉博士也是Ontopic初创公司的联合创始人和首席科学家，公司致力于将虚拟知识图谱技术引入工业界。请点击文后“原文链接”阅读原文。

文章总结:

数据驱动对于公司和组织机构保持竞争力至关重要。然而大中型企业和组织经常面临处理大量复杂数据集的挑战。尤其是这些企业和组织中的架构和职能划分造成了数据孤岛，常有冗余和不一致的信息。实际中有很强的需求将这些数据孤岛集成，以用来支持数据分析和决策。

数据集成通常是耗时，昂贵但又必不可少的活动。从技术角度来看，数据集成工具的主要供应商大多使用标准关系模型集成数据，这种方式缺乏灵活性，导致了可扩展性问题、以及低效率和高成本。由于当前主流技术的局限性，只有一小部分有价值的企业数据得到了适当的整合。因此，许多业务分析师仍然经常需要以低效临时方式集成所需数据，并且需要花费80％到95％的时间来准备这些数据。

为克服传统的基于关系模型的数据集成方法的困难，我们在此提出了一种基于虚拟知识图谱(Virtual Knowledge Graph, VKG)的方法。此方法不是简单把数据看成一系列的表格，而是将其构建为统一的虚拟知识图谱。虚拟知识图谱VKG方法结合了三个想法：

• 数据虚拟化（Virtualization）避免了向最终用户暴露原始数据源。集成后的数据相当于原始数据上的一个视图，通常不需要固化，而是可以保持虚拟化。这样避免了固化视图数据的时间和额外的存储空间。由于可以即时测试和修改这些视图，VKG大大简化了数据集成的设计和维护。

• 集成后数据以图（Graph）的形式建模。图中节点表示实体、数据值或者类，边表示节点之间的关系。图的结构提供了比传统关系表更多的灵活性，这在数据集成中尤为重要。给定两个或多个图，通过简单的合并相同的节点，即可以完成数据融合，并且融合的结果仍然是图。

• 领域知识（Knowledge）可以进一步丰富图的数据，例如领域知识可以表示概念和属性层次结构、关系的定义域和值域。这些知识允许人们对数据和知识进行推理，从而从明确声明的知识中获得衍生知识。

在文献中，VKG方法也被称为基于本体的数据访问（Ontology-basedData Access, OBDA）。近十年来，VKG/OBDA的理论和技术发展迅猛。VKG的核心技术是查询推理引擎，通常通过查询重写的方式来将用户在虚拟知识图谱上的查询转换为原始数据源的查询。VKG技术在学术界和工业界都有广泛的应用。本文详细总结了VKG技术的软件生态圈和应用案例。

作者简介:

Guohui Xiao (肖国辉)是意大利博尔扎诺自由大学KRDB知识与数据研究中心助理教授。他分别于2007年和2010年获得北京大学的学士和硕士学位，并于2014年获得奥地利维也纳技术大学计算机科学博士学位。他的主要研究兴趣包括知识表示、描述逻辑、语义网、数据库理论和虚拟知识图谱。他是Ontopic初创公司的联合创始人，公司致力于将虚拟知识图谱技术引入工业界。

Linfang Ding (丁林芳) 是意大利博尔扎诺自由大学KRDB知识与数据研究中心博士后研究员。她分别于2007年和2010年获得北京大学的学士和硕士学位，并于2016年获得德国慕尼黑工业大学的博士学位。她的研究兴趣包括地理信息科学、地图学、地理本体、虚拟知识图谱和地理可视化分析。

Benjamin Cogrel是意大利博尔扎诺自由大学KRDB知识与数据研究中心博士后研究员。他于2013年在东巴黎大学 (University of Paris-Est) 获得博士学位。他的研究兴趣包括虚拟知识图谱、数据集成和语义网。他是Ontopic初创公司的联合创始人，公司致力于将虚拟知识图谱技术引入工业界。

Diego Calvanese 是意大利博尔扎诺自由大学KRDB知识与数据研究中心教授。他的研究兴趣包括知识表示和形式化推理、虚拟知识图谱、本体语言、描述逻辑、概念数据建模和数据集成。他是“描述逻辑手册”的编辑之一。他自2015年起为欧洲人工智能协会（EurAI）成员。他是Ontopic初创公司的联合创始人，公司致力于将虚拟知识图谱技术引入工业界。

OpenKG

开放知识图谱（简称 OpenKG）旨在促进中文知识图谱数据的开放与互联，促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg