开源开放 | 多模态实体链接数据集MELBench(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/melbench

GitHub地址:https://github.com/seukgcode/MELBench

开放许可协议:CC BY-SA 4.0 (署名相似共享)

贡献者:东南大学(汪鹏、周星辰、邓臻凯、李国正、谢佳锋、吴江恒)


1. 摘要

多模态实体链接是多模态数据处理的基础任务之一,旨在将多模态数据中的实体链接到知识图谱中,在多模态数据理解、多模态知识图谱、多模态问答中具有广泛应用意义。然而,目前开源和能重现的多模态实体链接数据集还很少,一定程度上制约着相关工作的研究。

东南大学团队发布的多模态实体链接数据集MELBench包含3个任务:Weibo-MEL、Wikidata-MEL和Richpedia-MEL数据集,数据源分别包含来自社交媒体、百科知识和多模态知识图谱等领域,分别包含2.5万、1.8万和1.7万条多模态实体链接数据,每条数据均为人工标注,包含与目标实体相关的文本信息和视觉信息。该数据集能够为多模态实体链接(MEL)任务提供基准数据支持。

2. 多模态实体链接(MEL)

实体链接(EL)是将实体描述映射到知识图谱中相应实体的任务,在语义检索、推荐系统和问答系统等任务中起到重要的作用。现有的方法主要利用文本信息进行实体链接。然而,一方面,通过简短粗略的文本获取相应的实体具有很大的挑战性。另一方面,在现实世界的数据中,例如社交媒体、百科知识和多模态知识图谱等领域数据,通常同时使用文本和视觉信息描述相应实体。因此,有必要结合多模态信息解决EL问题,这一任务也被称为多模态实体链接(MEL)。

3. 数据集构建

为了构建大规模MEL数据集,促进相关研究,我们提出了一种MEL数据集构建方法,包括五个阶段,如下图所示。在多模态信息抽取阶段,我们选择不同的现实世界多模态数据源,提取文本和视觉信息;在提及抽取阶段,我们从文本信息中获取提及,并保留可能存在相应实体的提及;在实体抽取阶段,我们用上一阶段保留的提及查询知识图谱,收集相关实体列表,并保留提及相应的实体;在三元组构建阶段,我们将相应的提及和实体合并为提及-实体对,并将它们与多模态信息抽取阶段获取的文本和视觉信息合并为MEL三元组;最后,在数据集构建阶段,我们按照7:1:2的比例,将数据分为训练集,验证集和测试集。

4. 数据集详情

基于上述的MEL数据集构建方法,我们完成了三个MEL数据集构建:

  • Weibo-MEL 采用微博作为多模态数据源,并采用 CN-DBpedia 作为知识图谱。数据集包含 25,602 个样本,对应 31,516 个提及-实体对。

  • Wikidata-MEL 采用 Wikidata 和 Wikipedia 作为多模态数据源,并采用 Wikidata 作为知识图谱。数据集包含 18,880 个样本,对应 22,534 个提及-实体对。

  • Richpedia-MEL 采用 Richpedia 和 Wikipedia 作为多模态数据源,同样采用 Wikidata 作为知识图谱。数据集包含 17,806 个样本,对应 20,752 个提及-实体对。

此外,我们统计了数据集的文本长度和提及数量,如下图所示,三个数据集具有较大差异,体现了不同领域的数据特征。

5. 致谢

数据集由东南大学KGCODE实验室的周星辰、邓臻凯、李国正、谢佳锋、吴江恒等同学完成,指导老师汪鹏。

 


 

OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478168.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 1219. 黄金矿工(回溯)

文章目录1. 题目2. 回溯DFS解题1. 题目 你要开发一座金矿,地质勘测学家已经探明了这座金矿中的资源分布,并用大小为 m * n 的网格 grid 进行了标注。每个单元格中的整数就表示这一单元格中的黄金数量;如果该单元格是空的,那么就是…

发现一篇专门吐槽 NLP 内卷现状的 ACL 论文 ...

文 | Severus编 | 小轶随着大模型的发展,NLP领域的榜单可说是内卷到了无以复加,现在去浏览各大公开榜单,以至于各个比赛,随处可见BERT、RoBERTa的身影,甚至榜单中见到各大large模型的集成版也并非偶然。在发论文的时候…

大促活动前团购系统流量预算和容量评估

本文整理自美团点评技术沙龙第11期:移动端测试分享。 美团点评技术沙龙由美团点评技术团队主办,每月一期。每期沙龙邀请美团点评及其它互联网公司的技术专家分享来自一线的实践经验,覆盖各主要技术领域。 目前沙龙会分别在北京、上海和厦门等…

论文浅尝 | 融合多层次领域知识的分子图对比学习

笔记整理 | 方尹,浙江大学在读博士,研究方向:图表示学习论文地址:https://arxiv.org/pdf/2106.04509.pdf动机目前基于图的对比学习有以下几个问题:不同领域的图,(比如social network和分子图&am…

LeetCode 1028. 从先序遍历还原二叉树(栈)

文章目录1. 题目2. 栈解题1. 题目 我们从二叉树的根节点 root 开始进行深度优先搜索。 在遍历中的每个节点处,我们输出 D 条短划线(其中 D 是该节点的深度),然后输出该节点的值。(如果节点的深度为 D,则其…

python 怎么将列表中的字典安照某一个key输出到csv,python如何把字典数据存储进csv文件

示例代码 import csv fieldnames["A","B","C"]#数据列名dicts[{A: 1, B: 2, C:3},{A: 2, B: 3, C:4},{A: 3, B: 4, C:5},{A: 4, B: 5, C:6},{A: 5, B: 6, C:7},{A: 9, B: 7, C:8},]with open(test.csv, a, newline,encodingutf_8_sig) as f: wr…

基于深度学习方法的图像分割,差距不止一点点

图像分割(image segmentation)技术是计算机视觉领域的一个重要的研究方向,图像分割是计算机视觉中的一个关键过程。它包括将视觉输入分割成片段以简化图像分析。片段表示目标或目标的一部分,并由像素集或“超像素”组成。图像分割…

Java Hotspot G1 GC的一些关键技术

前言 G1 GC,全称Garbage-First Garbage Collector,通过-XX:UseG1GC参数来启用,作为体验版随着JDK 6u14版本面世,在JDK 7u4版本发行时被正式推出,相信熟悉JVM的同学们都不会对它感到陌生。在JDK 9中,G1被提议…

论文浅尝 | AutoETER: 用于知识图谱嵌入的自动实体类型表示

论文链接:https://arxiv.org/pdf/2009.12030.pdf动机传统的KGE使用附加的类型信息改善实体的表示,但是这些方法完全依赖于显式类型,或者忽略了特定于各种关系的不同类型表示,并且这些方法目前都不能同时推断出对称性、反演和组成的…

LeetCode 1029. 两地调度(贪心)

文章目录1. 题目2. 贪心1. 题目 公司计划面试 2N 人。第 i 人飞往 A 市的费用为 costs[i][0],飞往 B 市的费用为 costs[i][1]。 返回将每个人都飞到某座城市的最低费用,要求每个城市都有 N 人抵达。 示例: 输入:[[10,20],[30,2…

百面机器学习-第一章特征工程

原文链接:https://www.jianshu.com/p/355c4001ca42 前言 如果你能找到这里,真是我的幸运~这里是蓝白绛的学习笔记,本集合主要针对《百面机器学习——算法工程师带你去面试》这本书。主要记录我认为重要的知识点,希望对大家有帮助。…

推荐几个NLP出论文的好方向!!

如果你准备发NLP方向的论文,或准备从事科研工作或已在企业中担任NLP算法岗的工作。那么我真诚的向大家推荐,贪心学院《自然语言处理高阶研修班》,目前全网上应该找不到类似体系化的课程。课程精选了四大主题进行深入的剖析讲解,四…

Android热更新方案Robust

美团是中国最大的O2O交易平台,目前已拥有近6亿用户,合作各类商户达432万,订单峰值突破1150万单。美团App是平台主要的入口之一,O2O交易场景的复杂性决定了App稳定性要达到近乎苛刻的要求。用户到店消费买优惠券时死活下不了单&…

会议研讨 | TF45: 知识图谱新技术、新场景、新应用

基于“新基建”面向新产业、新业态和新模式的背景下,知识图谱作为人工智能的重要基石正在火热发展中。新的知识图谱技术在新的场景和应用中使人工智能从感知智能逐渐向认知智能过渡。知识图谱与产业的结合愈加紧密,除了在搜索与推荐、知识问答等通用领域…

LeetCode 653. 两数之和 IV - 输入 BST(二叉搜索树迭代器双指针)

文章目录1. 题目2. 解题1. 题目 给定一个二叉搜索树和一个目标结果,如果 BST 中存在两个元素且它们的和等于给定的目标结果,则返回 true。 案例 1: 输入: 5/ \3 6/ \ \ 2 4 7Target 9 输出: True案例 2: 输入: 5/ \3 6/ \ \ 2 4 7Tar…

盘点来自工业界的GPU共享方案

文 | 阎姝含源 | 极市平台进年来工业界一直孜孜不倦地寻求提升GPU利用率的方案,能被更多用户理解和使用的GPU共享走进工程师的视野中。本文将总结目前有公开PR的、来自工业界的部分GPU容器计算共享方案,看看工业界对GPU共享的定位和需求。本文将依旧着眼…

百面机器学习|第二章模型评估知识点 蓝白绛

前言 如果你能找到这里,真是我的幸运~这里是蓝白绛的学习笔记,本集合主要针对《百面机器学习——算法工程师带你去面试》这本书。主要记录我认为重要的知识点,希望对大家有帮助。 第二章 模型评估 1、评估指标的局限性 准确率(Accuracy)&…

美团外卖订单中心的演进

美团外卖从2013年9月成交第一单以来,已走过了三个年头。期间,业务飞速发展,美团外卖由日均几单发展为日均500万单(9月11日已突破600万)的大型O2O互联网外卖服务平台。平台支持的品类也由最初外卖单品拓展为全品类。 随…

论文浅尝 | 基于知识图谱的智能调研方法(DI佳作)

转载公众号 | 数据智能英文刊题目:A Knowledge Graph Based Approach to Social Science Surveys引用:Z. Pan, Z.J., et al.: A Knowledge Graph Based Approach to Social Science Surveys. Data Intelligence 3(3). doi: 10.1162/dint_a_00107文章摘要…

NYU Google: 知识蒸馏无处不在,但它真的有用吗?

文 | 小伟编 | 小轶导师: 小伟,听说你对知识蒸馏比较了解,你来给我说说知识蒸馏有什么用?我: 知识蒸馏是一种很典型的模型压缩的方法,我们可以用它来有效地从大型教师模型学习小型学生模型,并且学生模型的性能也很不错…