论文浅尝 - ESWC2020 | ESBM:一个面向实体摘要的评测集

本文转载自公众号:南大Websoft。


实体摘要(Entity Summarization),是知识图谱研究与应用中的一个关键问题。南京大学Websoft团队为此制作了一个评测集,称作ESBM,是目前可以公开获取的规模最大的评测集。这项工作被知识图谱领域重要国际会议ESWC 2020(CCF-C类)授予“最佳资源论文提名奖”。以下是论文第一作者博士生刘庆霞对这项工作的介绍。

引言

RDF数据集,如知识图谱,采用大量三元组描述实体。实体摘要的任务,就是从描述给定实体的大量三元组中,选出一个满足容量限制的最优子集作为实体的摘要。研究领域对该问题提出了多种求解方法,然而这些方法之间缺乏统一的比较。原因之一在于缺乏高质量的评测集。为此,我们构建并发布了评测集ESBM,其是目前实体摘要领域公开发布的规模最大的评测集。此外,基于ESBM,我们实验评测了9个现有实体摘要方法,以及基于监督学习的实体摘要方法。

本文介绍了ESBM评测集的构造、分析和相关评测实验的主要内容,更多详细内容,欢迎阅读我们发表在ESWC 2020的研究论文:

Qingxia Liu, Gong Cheng, Kalpa Gunaratna, Yuzhong Qu: ESBM: An Entity Summarization BenchMark. ESWC 2020: 548-564

该评测集的相关数据和代码已在GitHub公开发布:https://github.com/nju-websoft/ESBM

一、研究背景

RDF数据以三元组形式描述实体相关的属性-值信息,我们将用于描述某个特定实体的三元组构成的集合称为该实体的实体描述。例如,在下图所示关于实体“Tim Berners-Lee”的实体描述中,三元组<Tim Berners Lee, alias, “TimBL”>描述了该实体的属性“alias”和值“TimBL”。

在大规模RDF数据集中,实体描述所包含的三元组数量庞大,往往超出应用场景所能提供的容量。例如,在谷歌搜索结果页面的实体卡片中,通常只提供了10行以内的空间用以呈现实体相关的属性-值内容。实体摘要的任务就是从实体描述所包含的大量三元组中,选出给定容量限制内的子集,以满足用户的信息需求。

然而,实体摘要领域的发展面临两个挑战。其一,是缺乏高质量的评测集。表1列出了实体摘要领域目前已知的评测集。可以看出,这些评测集都基于单个数据集,并且所包含的实体数量也有限。在列出的7个评测集中,其中4个已无法公开获取,而WhoKnows?Movies!面向特定领域的摘要任务,而FACES和FACES-E所构造的评测集则未包含取值为字面量或类的三元组。其二,是缺乏统一的评测实验,缺乏为后续研究和应用在技术选择上提供参考的依据。面对这两个挑战,我们提出ESBM评测集,在其设计中克服现有评测集的上述问题,同时基于ESBM对大量现有实体摘要方法进行了统一的实验比较。

二、ESBM构造过程

我们在ESBM的设计中要求其满足两个目标:首先,应当满足[18]提出的高质量评测集应当满足的7个条件; 其次,要避免上述现有评测集所存在的问题。我们构造ESBM用来评价实体摘要系统生成的摘要的质量。一个实体摘要任务,需要给定实体描述作为输入;而要评价一个摘要的质量,则通常采取与标准摘要进行比较的方式来得到。所以,我们将从两个方面来介绍ESBM的构造过程,即实体描述的数据选择,以及标准摘要的收集。

实体描述

针对现有评测数据涉及的RDF数据集单一的问题,我们考虑了两个不同类型RDF数据集:百科型数据集DBpedia,和特定领域型数据集LinkedMDB。我们从这两个数据集分别选择覆盖度最高的实体类型,从这些类型中随机选择实体作为实体,并抽取其实体描述所涉及的三元组。最终,我们从DBedia中选出了5个实体类型:Agent,Event,Location,Species,Work;从LinkedMDB中选出了2个实体类型:Film,Person。每个类型随机选择25个实体(要求实体描述中包含至少20个三元组),就得到了相应的175个实体描述。实体描述中,对取值为字面量、类型、实体的三种三元组都有涉及。

标准摘要

我们邀请了30位用户来对所选实体标注标准摘要。每个用户负责标注35个实体,而每个实体可以得到6个不同用户的标注。在每个标注任务中,用户需要对应两种不同容量限制(k=5,k=10)对实体各标注一个标准摘要,分别称为top-5摘要和top-10摘要。标注的方式,即从实体描述的所有三元组中,选出k个三元组来构成用户认为最佳的摘要。标注系统截图如下图所示。最终,我们得到175*6*2=2100个标准摘要。

数据划分

一些实体摘要方法的开发需要调参,为此,我们对ESBM数据进行了训练集、验证集和测试集的划分。为了支持以5折交叉验证的方式评测摘要方法,我们将ESBM中的175个实体划分成五等份P(0),…,P(4),交替将这些等份分别归入训练集、验证集和测试集,并使三者所含实体比例为3:1:1。具体做法为,在第i折数据中,P(i),P(i+1 mod 5),P(i+1 mod 5)作为训练集,P(i+3 mod 5)作为验证集,P(i+4 mod 5)作为测试集。最终报告的评测结果为各折测试集上结果的平均值。

三、ESBM数据分析

接下来,我们通过分析ESBM收集的数据,来对实体摘要的特点和目标有更具体的认识。

总体而言,ESBM包含175个实体,共6584个三元组。其中,37.44%的三元组被选入过top-5摘要,而58.15%的三元组被选入过top-10摘要。每个实体由6个用户标注。然而,大多数三元组仅被一个用户选入过标准摘要。20.46%三元组被至少两个用户选入过top-5摘要,而对top-10摘要该比例则为40.23%.

一个常被问到的问题是:top-5摘要是否一定是top-10摘要的子集?在标准答案的标注过程中,我们并没有对此做任何限制。我们分析ESBM的各类实体中,同一个用户构造的top-5和top-10摘要之间选入相同三元组的情况,结果平均有4.80-4.99的三元组同时出现在top-5和top-10摘要中。而在所有实体范围内,top-5和top-10摘要平均有4.91个三元组相同,非常接近top-5摘要容量为5的设定,说明top-5摘要很大程度上来源于top-10摘要的子集。

下图按实体类型呈现了ESBM中各实体集的三元组构成情况。我们分析ESBM中三类实体集:实体描述、top-5摘要、top-10摘要,分别对应柱状图中每组的左、中、右三个柱子。图(a)统计取值分别为字面量(Literal)、类型(Class)和实体(Entity)的三类三元组在各集合中的数量。 可以看出取值为字面量的三元组,虽然在实体描述中占比不高,但在标准摘要中都占有较大的比例,其在top-5和top-10摘要中分别占比30%和25%。这说明,若实体摘要方法将字面量类型的三元组排除在任务之外,将影响其摘要质量。图(b)统计的是各类三元组所占属性的个数。其中,在top-5摘要平均包含4.7个不同属性(非常接近5),说明用户倾向于从不同属性中选取三元组来构造摘要,避免出现属性的冗余。

我们再来分析实体的异质性。下图列出了不同实体类型所涉及的属性集之间的Jaccard相似度。结果表明不同类型间该相似度极低,体现了不同类型实体描述之间的较高的异质性, 也说明ESBM选择的数据有助于评价实体摘要方法的泛化能力。

下表列出了各类实体中,出现在至少一半的标准摘要中的属性。平均每个实体包含13个不同属性,而该表中的结果是仅有一两个属性是top-5标准摘要中常见的。这说明各个实体的标准摘要涉及的属性各有不同,所以通过人工为每个类型制定实体统一制定摘要的方式不太可行。

在ESBM中,每个实体被6个不同用户标注,并在每种容量限制下各得到6个标准摘要。我们计算同一个实体的这6个标准摘要之间的一致情况。下表中将ESBM上统计的平均一致程度与相关评测集在其文献中给出的结果进行了比较。结果表明ESBM的标准摘要之间存在中等程度的一致。

四、ESBM实验结果

我们采用ESBM对实体摘要方法进行评测,参与评测的方法包括:

  • 现有实体摘要方法:我们选取了9个方法,即RELIN, DIVERSUM, LinkSUM, FACES, FACES-E, CD, MPSUM, BAFREC, KAFCA,用以代表该问题当前研究水平;

  • ORACLE方法:基于标准摘要构造摘要的方法,即优先选取被标准答案选中次数最多的三元组进入摘要,该方法用以近似体现在ESBM上能达到的最佳水平;

  • 基于监督学习的实体摘要方法:不同于以往的实体摘要方法,我们尝试探索监督学习在解决实体摘要问题上的潜力,我们利用了三元组的7个特征,并分别基于6种监督学习模型构造了实体摘要方法。

总体评测结果如下表所示,从中我们可以得出以下结论:

  • 现有实体摘要方法中,BAFREC, MPSUM, CD分别在不同设定下达到优于其他方法的效果;

  • 监督学习方法的效果普遍好于现有实体摘要方法;

  • 上述两类方法的最佳效果与ORACLE相比仍有较大差距。

这同时也说明,ESBM中的实体摘要任务有一定的难度,有利于促进后续研究工作提出更为有效的摘要方法。

此外,我们还分析了现有摘要方法在不同类型实体上的表现,如下图所示。从中可以看出,在k=5时,BAFREC和MPSUM的效果在处理不同类型实体上具有较高的泛化能力,而在k=10时,MPSUM同样表现出相对较高的泛化能力。

对于监督学习方法,我们进行消融实验分析7个特征对模型效果的影响,结果如下表所示。可以看出,属性的全局频度(gf_T),属性的局部频度(lf),对模型效果有显著影响,删除这些特征将导致摘要效果显著降低;取值的全局频度(vf_T),三元组的自信息(si)仅在LinkedMDB数据集上表现出显著有效。而关于取值类别的三个布尔型特征,即取值是否为类型(isC)、是否为实体(isE)、是否为字面量(isL)则未带来摘要F1值的显著变化。



 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478937.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

美团在O2O场景下的广告营销

美团作为中国最大的在线本地生活服务平台&#xff0c;覆盖了餐饮、酒店、旅行、休闲娱乐、外卖配送等方方面面生活场景&#xff0c;连接了数亿用户和数百万商户。如何帮助本地商户开展在线营销&#xff0c;使得他们能快速有效地触达目标用户群体提升经营效率&#xff0c;是美团…

LeetCode 202. 快乐数(快慢指针)

1. 题目 2. 解题 一个数经过若干次各位数平方和后&#xff0c;会等于它自己使用类似环形链表的快慢指针法&#xff0c;最终快慢指针相遇&#xff0c;若不为1则是不快乐数 class Solution { public:int bitSquareSum(int n) {int sum 0, bit;while(n > 0){bit n % 10;su…

全栈深度学习第4期: 机器学习岗位区别与团队管理

一起追剧鸭简介Berkeley全栈深度学习追剧计划是由夕小瑶的卖萌屋发起的优质公开课打卡项目&#xff0c;通过微信群为同期追剧的小伙伴提供交流平台。关于该计划的详请见这里。Berkeley深度学习追剧群目前已有1000小伙伴加入&#xff0c;公众号后台回复口令 深度学习追剧 入群。…

会议交流 | DataFunCon 线上大会 - 知识图谱专题论坛

OpenKG开放知识图谱&#xff08;简称 OpenKG&#xff09;旨在促进中文知识图谱数据的开放与互联&#xff0c;促进知识图谱和语义技术的普及和广泛应用。点击阅读原文&#xff0c;进入 OpenKG 博客。

我国政务大数据政策的文本分析:推进逻辑与未来进路

原文地址&#xff1a;https://www.sohu.com/a/238844423_99983415 摘要&#xff1a;[目的/意义]从已颁布政策文件中找出我国推进政务大数据发展和应用的内在逻辑, 为优化未来的政策路径提供对策建议。[方法/过程]通过政府门户网站收集189条有效政策文本, 综合运用词频分析软件…

Flutter原理与实践

Flutter是Google开发的一套全新的跨平台、开源UI框架&#xff0c;支持iOS、Android系统开发&#xff0c;并且是未来新操作系统Fuchsia的默认开发套件。自从2017年5月发布第一个版本以来&#xff0c;目前Flutter已经发布了近60个版本&#xff0c;并且在2018年5月发布了第一个“R…

LeetCode 522. 最长特殊序列 II

1. 题目 给定字符串列表&#xff0c;你需要从它们中找出最长的特殊序列。 最长特殊序列定义如下&#xff1a;该序列为某字符串独有的最长子序列&#xff08;即不能是其他字符串的子序列&#xff09;。 子序列可以通过删去字符串中的某些字符实现&#xff0c;但不能改变剩余字…

论文浅尝 - 计算机工程 | 大规模企业级知识图谱实践综述

本文转载自公众号&#xff1a;计算机工程。大规模企业级知识图谱实践综述王昊奋, 丁军, 胡芳槐, 王鑫中文摘要&#xff1a;近年来&#xff0c;知识图谱及其相关技术得到快速发展&#xff0c;并被广泛应用于工业界各种认知智能场景中。在简述知识图谱相关研究的基础上&#xff0…

2021年了,对话系统凉透了吗?

文 | 兔子酱编 | 夕小瑶大家好&#xff0c;我是可盐可甜的兔子酱&#xff0c;一枚卖萌屋的资深潜水小编&#xff0c;今天终于有了自己的第一篇文章&#xff0c;希望耗时一周撰写的本文能让大家有所收获~这篇文章&#xff0c;算是对自己在头部大厂2年算法岗炼丹经历的一个经验浓…

前端可用性保障实践

本文基于已发表在Infoq的“美团收银台前端可用性保障实践”一文编辑而成。 一般可用性都是说后端服务的可用性&#xff0c;都说我们的服务可用性到了几个9&#xff0c;很少有人把可用性放到前端来。其实对于任何一个有UI交互流程的业务&#xff0c;都会有前端服务可用性&#x…

LeetCode 762. 二进制表示中质数个计算置位

1. 题目 给定两个整数 L 和 R &#xff0c;找到闭区间 [L, R] 范围内&#xff0c;计算置位位数为质数的整数个数。 &#xff08;注意&#xff0c;计算置位代表二进制表示中1的个数。例如 21 的二进制表示 10101 有 3 个计算置位。还有&#xff0c;1 不是质数。&#xff09; …

报名通道开启 | 顶会 ICLR 2021:医疗对话生成与自动诊断国际竞赛,邀你来战!...

ICLR&#xff0c;2013 年由深度学习三巨头中的Yoshua Bengio 和 Yann LeCun 牵头创办&#xff0c;已受到研究者和开发者的广泛认可&#xff0c;是当之无愧的深度学习领域顶级会议。今年&#xff0c;由中山大学、加利福尼亚大学圣迭戈分校和腾讯天衍实验室等组织联合举办的医疗对…

论文浅尝 | 图神经网络的对抗攻击和防御相关文献集

本文转载自公众号&#xff1a;专知。作者&#xff1a;Wei Jin。导读&#xff1a;本资源整理了关于图形数据或GNN(图形神经网络)上的对抗攻击和防御的论文链接。并对其进行分类。目录Survey PapersAttack PapersDefense PapersCertified Robustness Papers地址连接&#xff1a;h…

李宏毅《机器学习》作业班+带打比赛

人工智能来势汹汹&#xff0c;学习人工智能该从哪里开始呢&#xff1f;人工智能的学习路径又是怎样的&#xff1f;须知入门人工智能第一步就是机器学习。但是&#xff0c;在上千份同学的学习反馈中&#xff0c;我们发现了2个人工智能学习领域的痛难点&#xff1a;1、课程偏理论…

论文浅尝 – KDD2020 | 使用图对比编码的图神经网络预训练模型

论文笔记整理&#xff1a;陈名杨&#xff0c;浙江大学在读博士生&#xff0c;研究方向为知识图谱表示学习。图表示学习是一个当前关注度较高的领域&#xff0c;并且有许多真实的应用。然而当前的很多图表示学习方法都是对一个领域或者某一个图训练一个模型&#xff0c;也就是说…

LeetCode 575. 分糖果(set集合去重)

1. 题目 给定一个偶数长度的数组&#xff0c;其中不同的数字代表着不同种类的糖果&#xff0c;每一个数字代表一个糖果。你需要把这些糖果平均分给一个弟弟和一个妹妹。返回妹妹可以获得的最大糖果的种类数。 输入: candies [1,1,2,2,3,3] 输出: 3 解析: 一共有三种种类的糖…

Android官方开发文档Training系列课程中文版:键盘输入处理之指定输入的类型

原文地址&#xff1a;http://android.xsoftlab.net/training/keyboard-input/index.html 引言 在文本框接收到焦点时&#xff0c;Android系统会在屏幕上显示一个软键盘。为了提供良好的用户体验&#xff0c;你可以指定相关输入类型的特性&#xff0c;以及输入法应当如何展现。…

美团 R 语言数据运营实战

一、引言 近年来&#xff0c;随着分布式数据处理技术的不断革新&#xff0c;Hive、Spark、Kylin、Impala、Presto 等工具不断推陈出新&#xff0c;对大数据集合的计算和存储成为现实&#xff0c;数据仓库/商业分析部门日益成为各类企业和机构的标配。在这种背景下&#xff0c;是…

天天说常识推理,究竟常识是什么?

文 | 花小花Posy写这篇文章的时候&#xff0c;我去搜了搜常识的例子。“睁开眼睛打喷嚏是不可能的。&#xff08;还真没留意。&#xff09;““北极熊是左撇子。“”长颈鹿没办法咳嗽。”呃&#xff1f;好吧&#xff0c;我需要补一补自己的常识。那么这些所谓的“常识”真的是常…

论文笔记 | Counterfactual Samples Synthesizing for Robust VQA

论文笔记整理&#xff1a;窦春柳&#xff0c;天津大学硕士。来源&#xff1a;CVPR 2020链接&#xff1a;https://openaccess.thecvf.com/content_CVPR_2020/papers/Chen_Counterfactual_Samples_Synthesizing_for_Robust_Visual_Question_Answering_CVPR_2020_paper.pdf动机当今…