链接:ranger.uta.edu/~cli/pubs/2016/tabview-sigmod16-yan.pdf
动机
对于结构化数据和关系数据,通常使用Schema图为数据库的使用者提供基本信息。因此,作者提出了生成预览表格(preview table)的方法,为实体图中呈现重要的实体类型和关系。预览表格可以帮助用户快速粗略地预览数据。它们可以在有限的显示空间内给用户提供实体图的摘要信息,帮助用户决定是否需要花费大量时间获取并研究完整数据集。
实例
下图为FreeBase种部分实体及实体间关系构成的一个实体图。
下面两个表格是一种可能的预览表格。一个表格对应电影类,另一个表格对应演员类。
相关工作
一种解决方案是显示对应于知识库的Schema图。虽然模式图比相应的实体图小得多,但它依旧包含大量的类型和关系,不易于演示和快速预览。
另一种解决方案是通过Schema摘要技术提供Schema图的摘要。然而,现有的一些方法只适用于关系数据和半结构数据,而不适合图数据。虽然这些方法部分用在实体图上是合理的,但有几个原因会使它们失效。首先,Schema图的摘要仍然可能非常大。其次,Schema摘要的目的是为了方便用户编写查询,而我们目标是让用户明白实体图的用途
概念
⒈ Preview Table
论文作者提出了预览表(preview table)的实体图摘要方法,预览表格由多个表格构成,每个表格的列头包含主键属性(keyattribute,对应一种类型)和非主键属性(no-keyattribute,对应一种关系),表格的行头对应不同的实体。
⒉ Concise, Tightand Diverse Preview
针对不同的目标,文章提出了三种不同的优化目标,简洁预览(包含k个主键属性),紧凑预览(主键属性区别较小),多样性预览(主键属性区别较大)。
方法
表格生成方法,包括2个主要步骤:
⒈ Preview Scoring
对预览表格的打分通过主键属性和非主键属性来计算
对于主键属性基于覆盖的打分方式考虑该属性所能覆盖的实体数量。
而基于随机游走的打分方式,给定各边的权重并计算出转移矩阵,以稳定分布的概率作为打分。
对于非主键属性,可以基于覆盖和熵来进行打分。
⒉ Preview Discovery
根据不同的目标,文章提出了三种算法。
a) 蛮力算法,穷举所有大小满足要求的属性选区,比较最终得分。
b) 动态规划算法,使用动态转移方程计算出最优的简洁预览。
c) Apriori风格算法,使用类似频繁项集的算法穷举可能的组合,求出最优的紧凑预览和多样性预览。
实验
⑴. 数据集:FreeBase上的五大类实体。
⑵. 实验结果
论文作者在FreeBase数据集上进行了三组实验分别验证了预览评分的精度,预览生成算法的效率和总体质量。针对预览评分的精度,文章对于主键属性和非主键属性分别进行了实验并与标准结果进行了比较,不同的打分方法均取得了较好的精度。在性能实验中动态规划算法和Apriori算法较蛮力算法有很大提升。在总体质量实验中,采用用户打分的方式和其他方法进行了比较,结果用户认为预览表格更方便。
论文笔记整理:黄佳程,南京大学硕士,研究方向为知识图谱、实体消解。
OpenKG.CN
中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 博客。