论文浅尝 | 实体图的预览表格生成

640?wx_fmt=png

链接:ranger.uta.edu/~cli/pubs/2016/tabview-sigmod16-yan.pdf


动机

对于结构化数据和关系数据,通常使用Schema图为数据库的使用者提供基本信息。因此,作者提出了生成预览表格(preview table)的方法,为实体图中呈现重要的实体类型和关系。预览表格可以帮助用户快速粗略地预览数据。它们可以在有限的显示空间内给用户提供实体图的摘要信息,帮助用户决定是否需要花费大量时间获取并研究完整数据集。


实例

下图为FreeBase种部分实体及实体间关系构成的一个实体图。

640?wx_fmt=png

下面两个表格是一种可能的预览表格。一个表格对应电影类,另一个表格对应演员类。

640?wx_fmt=png


相关工作

一种解决方案是显示对应于知识库的Schema。虽然模式图比相应的实体图小得多,但它依旧包含大量的类型和关系,不易于演示和快速预览。

另一种解决方案是通过Schema摘要技术提供Schema图的摘要。然而,现有的一些方法只适用于关系数据和半结构数据,而不适合图数据。虽然这些方法部分用在实体图上是合理的,但有几个原因会使它们失效。首先,Schema图的摘要仍然可能非常大。其次,Schema摘要的目的是为了方便用户编写查询,而我们目标是让用户明白实体图的用途


概念

Preview Table

论文作者提出了预览表(preview table)的实体图摘要方法,预览表格由多个表格构成,每个表格的列头包含主键属性(keyattribute,对应一种类型)和非主键属性(no-keyattribute,对应一种关系),表格的行头对应不同的实体。

640?wx_fmt=png

Concise, Tightand Diverse Preview

针对不同的目标,文章提出了三种不同的优化目标,简洁预览(包含k个主键属性),紧凑预览(主键属性区别较小),多样性预览(主键属性区别较大)。

640?wx_fmt=png


方法

表格生成方法,包括2个主要步骤:

Preview Scoring

对预览表格的打分通过主键属性和非主键属性来计算

640?wx_fmt=png

对于主键属性基于覆盖的打分方式考虑该属性所能覆盖的实体数量。

640?wx_fmt=png

而基于随机游走的打分方式,给定各边的权重并计算出转移矩阵,以稳定分布的概率作为打分。

对于非主键属性,可以基于覆盖和熵来进行打分。

640?wx_fmt=png

640?wx_fmt=png

Preview Discovery

根据不同的目标,文章提出了三种算法。

a)   蛮力算法,穷举所有大小满足要求的属性选区,比较最终得分。

b)   动态规划算法,使用动态转移方程计算出最优的简洁预览。

c)   Apriori风格算法,使用类似频繁项集的算法穷举可能的组合,求出最优的紧凑预览和多样性预览。


实验

. 数据集:FreeBase上的五大类实体。

. 实验结果

论文作者在FreeBase数据集上进行了三组实验分别验证了预览评分的精度,预览生成算法的效率和总体质量。针对预览评分的精度,文章对于主键属性和非主键属性分别进行了实验并与标准结果进行了比较,不同的打分方法均取得了较好的精度。在性能实验中动态规划算法和Apriori算法较蛮力算法有很大提升。在总体质量实验中,采用用户打分的方式和其他方法进行了比较,结果用户认为预览表格更方便。


论文笔记整理:黄佳程,南京大学硕士,研究方向为知识图谱、实体消解。



OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480384.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

万能的BERT连文本纠错也不放过

一只小狐狸带你解锁炼丹术&NLP秘籍作者:孙树兵学校:河北科技大学方向:QA/NLU/信息抽取编辑:小轶背景文本纠错(Spelling Error Correction)技术常用于文本的预处理阶段。在搜索引擎、输入法和 OCR 中有着…

POJ 1664 苹果放盘子(递归)

题目链接:http://poj.org/problem?id1664 m个相同的苹果放在n个相同的盘子里,有多少种不一样的方法。 例如,3个苹果放在4个盘子里有(3,0,0,0)(1,1&#xf…

蚂蚁金服4轮面经(Java研发):G1收集器+连接池+分布式架构

一面 线程池有哪些参数?分别有什么用?如果任务数超过的核心线程数,会发生什么?阻塞队列大小是多少? 数据库连接池介绍下,底层实现说下 hashset底层实现,hashmap的put操作过程 说说HaspMap底层…

算法--二分查找--求平方根(循环法/递归法)

二分查找: 数据需要是顺序表(数组)数据必须有序可以一次排序,多次查找;如果数据频繁插入,删除操作,就必须保证每次操作后有序,或者查找前继续排序,这样成本高&#xff0…

论文浅尝 | 在生成式多跳机器阅读任务中引入外部常识知识

Commonsense for Generative Multi-Hop Question Answering Tasks链接: https://arxiv.org/abs/1809.06309背景机器阅读任务按照答案类型的不同,可以大致分为:(1) 分类问题: 从所有候选实体选择一个(2) answer span: 答案是输入文本的一个片段(3) …

Overleaf v2 评测

原文链接:https://www.jianshu.com/p/1d73d4b9e880 Overleaf v2 评测 去年,两个著名的Latex在线编辑器Overleaf和Sharelatex合并了,强强联手,让我们对他们合并之后的新产品充满了期待。最近,他们的新产品发布了&#x…

蚂蚁中间件团队Java面试题:Netty+Redis+Kafka+MongoDB+分布式

蚂蚁中间件一面: 自我介绍 JVM垃圾回收算法和垃圾回收器有哪些,最新的JDK采用什么算法。 新生代和老年代的回收机制。 讲一下ArrayList和linkedlist的区别,ArrayList与HashMap的扩容方式。 Concurrenthashmap1.8后的改动。 Java中的多线…

面试必备!卖萌屋算法工程师思维导图—统计机器学习篇

卖萌屋的妹子们(划掉)作者团整理的算法工程师思维导图,求职/自我提升/查漏补缺神器。该手册一共分为数据结构与算法、数学基础、统计机器学习和深度学习四个部分。下面是第二部分统计机器学习的内容~公众号后台回复【思维导图】获取完整手册&…

【重磅】全行业事理图谱V3.0正式发布:基于实证的由因求果、由果溯因,因果路径发现

我们一直在事理图谱的探索和应用路上不断前行。。。 【中科院软件所】数据地平线的金融事理图谱Demo已经和大家见面有一段时间了(Demo地址:http://eg.zhiwenben.com/),这段时间我们收到了很多用户的建议反馈和合作邀约,大家对产品的认可和喜…

算法--二分查找--查找给定条件的值

文章目录1.数据有序且无重复,查找给定值2.数据有序且有重复,查找第1个给定的值3.查找最后一个值等于给定值的元素4.查找第一个大于等于给定值的元素5.查找最后一个小于等于给定值的元素6.查找IP归属(利用上面#5代码)7.循环有序数组…

论文浅尝 | 利用边缘标签的网络嵌入强化方法

链接:https://arxiv.org/pdf/1809.05124.pdf本文主要关注Network embedding问题,以往的network embedding方法只将是网络中的边看作二分类的边(0,1),忽略了边的标签信息,本文提出的方法能够较好的保存网络结构和边的语义信息来进行…

2018阿里集团中间件Java面试题(4面)

持续分享阿里技术面试 最新天猫3轮面试题目:虚拟机并发锁Sql防注入Zookeeper 最新阿里内推高级Java面试题 蚂蚁金服4轮面经(Java研发):G1收集器连接池分布式架构 天猫研发团队(4面全题目):并发压测Mina事…

卷积神经网络中十大令人拍案叫绝的操作

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者:Justin ho来源:https://zhuanlan.zhihu.com/p/28749411前言CNN从2012年的AlexNet发展至今,科学家们发明出各种各样的CNN模型,一个比一个深,一个比一个准确,一个…

python--从入门到实践--chapter 11 代码测试unittest

编写的代码需要测试是否有Bug 1.函数测试 city_functions.py def city_country(city, country):return str(city) , str(country)city_country_unittest.py import unittest #导入测试模块 from city_functions import city_country as cc class citytest(unittest.TestC…

刘升平 | 基于知识图谱的人机对话系统

本文转载自公众号:AI科技大本营。 分享嘉宾 | 刘升平(云知声 AI Labs 资深技术专家)来源 | AI 科技大本营在线公开课人机对话系统,或者会话交互,有望成为物联…

最强Java面试题全部合集,涵盖BAT大厂面试必考的9大技术!-强烈建议收藏

过去2年我持续分享了BAT TMD为代表的大厂最新面试题目,特别是蚂蚁金服、天猫、淘宝、头条、拼多多等Java面试题目。 过去2年,我已经成功的帮助了部分同学进入了大厂。 2020开始,我依然会为大家带来最新的大厂现场面试专场题目,希…

杨强教授新番!破解机器学习数据孤岛和数据保护难题

一只小狐狸带你解锁 炼丹术&NLP 秘籍移动互联技术这把“温柔刀”,带来巨大便利之余,也将我们的个人数据放进了橱窗,为“推动信息技术发展”而供人调取。我们都清楚网络“裸奔”的行为很混乱,但你知道到底有多乱吗?…

POJ 3122 分披萨(二分查找)

题目链接:http://poj.org/problem?id3122 题目大意: 有 n 块披萨(大小不一样), f 个人分,包含主人自己 f1 人; 每人吃的披萨必须是一块披萨上切下来的。每个人吃的披萨相等,披萨可…

没错,继事理图谱后,我们又搞事情了:数地工场自然语言处理语义开放平台正式对外发布!

2020年的钟声即将敲响,在这辞旧迎新之际,经过近几年在Fintech领域中的自然语言处理技术研发和产品迭代积累,数据地平线Datahorizon迎来重大更新,以数据、事件、逻辑的语义toolbox为愿景的数地工场开放平台V1.0正式对外发布。 数地…

论文浅尝 | Understanding Black-box Predictions via Influence Func

Cite: Koh P W, Liang P. Understanding black-box predictions via influence functions[J]. arXiv preprint arXiv:1703.04730, 2017.链接:https://arxiv.org/pdf/1703.04730GitHub项目地址:http://bit.ly/gt-influence本文使用影响函数(Influence fun…