论文浅尝 | 基于多模态特征的视觉实体链接

转载公众号 | 数据智能英文刊


f3713bcf01e9fb740fa4828b131c74ba.gif

文章题目:Visual Entity Linking via Multi-modal Learning

作者:郑秋硕,闻浩,王萌,漆桂林

引用:Zheng, Q.S., et al.: Visual Entity Linking via Multi-modal Learning. Data Intellignece 4(1)(2022).

doi: 10.1162/dint_a_00114

    现有的视觉场景理解方法主要关注识别视觉对象及检测视觉关系,其侧重于粗粒度概念发现,而忽略了细粒度场景理解。事实上,网络上的许多数据驱动应用场景(例如新闻阅读和电子购物)需要准确地将概念提及识别为实体,并正确地链接到知识图谱。有鉴于此,本文确定了一项新的研究任务:用于细粒度场景理解的可视化实体链接。为了完成这项任务,我们首先从不同的模态中提取候选实体的特征,即视觉特征、文本特征和知识图谱特征。然后,我们设计了一种基于深度模态注意力的神经网络,利用排序学习方法,将所有特征集合起来,并将视觉提及映射到知识图谱中的实体。

197a3726a44288407f0325a24b9b2c12.png

图1.视觉场景理解与视觉实体链接

考虑以下两个场景:案例一:一个在线用户正在阅读关于篮球的体育新闻,并且想要在照片中区分姚明和特雷西·麦克格雷迪,如图[示例]所示。然而,即使是世界先进的目标检测系统也不能保证给出正确的答案。案例二:另一个用户倾向于对Tracy Mcgrady的鞋感兴趣,并想知道具体的签名运动鞋,但现有的图像搜索引擎如Bing.com只能识别白色的鞋子。为了完成用户提出的上述任务,我们需要更多详细的辅助信息来补充视觉学习。补充信息可以从综合多模态知识图谱中获得,如Richpedia和IMGpedia。如果知识图谱中的实体成功链接到图像中的对象,我们可以在案例一中使用正确的名称(即Tracy Mcgrady)回答问题,并在案例二中使用特定的鞋品牌(即阿迪达斯T-MAC4)精确地向用户推荐。

    解决办法见图2:

2a059d3ddc6bd035b8f48b1e719cccd2.png

图2.视觉实体链接概述,它由两部分独立组成,即特征提取模块和视觉实体链接模块。特征提取模块从三种模式中提取特征。

在本文中,我们提出了一个新的框架来实现视觉场景理解中的视觉实体链接。具体地说,我们首先为图像生成一个粗粒度的场景图,并利用VGG-16网络提取对象的视觉特征。然后,我们使用GRU语言方法从图像标题中提取对象的文本特征,并通过命名提及匹配发现候选KG实体。在提取候选实体的KG特征后,我们提出了一种基于深度模态注意神经网络的学习排序方法来聚合所有特征并将视觉对象映射到KG中的实体。实验结果见表1:

3cf0759817aa5a2835b1170e720a0839.png

表1.主要实验结果

    表1显示了VELD数据集上排名前1、3、5和10的候选实体列表检索精度结果。前两个实验使用视觉模态和知识图模态信息。通过实验结果证明,现有的基于静态离线训练的深度神经网络不能很好地完成视觉实体连接任务。由于训练数据集的局限性,很难建立一个包含开放域中所有实体的图像资源的数据集,因此从另一个角度证明了该模型的有效性。

    第三到第五个实验是基于文本模态和知识图模态的特征进行视觉实体链接,通过一系列后处理,目标帧的链接不受视觉特征的影响。从实验结果来看,语篇情态和我们的完整模型之间仍然存在很大的差距。

    与简单的视觉对象识别方法和使用文本和KG作为支持的文本实体链接方法相比,我们发现我们提出的方法明显优于这些基线。这是因为我们在不同的模态中联合融合了三种特征,而不是简单的基于模态的链接。另一个令人信服的观点是,通过在VELD数据集上应用类似的多模式学习模型DZMNED,结果表明,在Top-1精度度量上,它们仅达到66.46%。我们的模型达到83.16%,这表明我们的模型在视觉实体链接任务中具有很大的优势。

6a1cfb9fcc8acb60adb99b5ec1c0427d.png

郑秋硕,东南大学网络空间安全学院研究生,获得了东南大学计算机学士学位。他的主要研究兴趣是多模态学习和知识图谱的下游应用。

1fb82d5eca7c33c8b3bb3b5e11a5c188.png

闻浩,东南大学计算机科学与工程学院本科生。他的研究兴趣主要包括信息检索、实体链接和多媒体研究。

9402f44b81ccff1fac7afde5801ce3cb.png

王萌,东南大学计算机科学与工程学院助理教授,知识图谱与人工智能研究小组负责人,东南大学至善青年学者。2018年获西安交大计算机科学与技术系博士学位。2016年澳大利亚昆士兰大学访问学者,与Xue Li教授和萧芳舟教授在昆士兰大学的DKE实验室合作研究。他的研究领域是知识图谱、语义搜索、NLP和跨模态数据。

d34a8cf60d7851361721d61ec7877c94.png

漆桂林,东南大学计算机与软件工程学院教授、东南大学认知智能研究所所长、南京柯基数据科技有限公司首席科学家、OpenKG发起人之一、中国中文信息学会语言与知识计算专业委员会副主任、中国科学技术情报学会知识组织专业委员会副主任和江苏省人工智能学会知识工程与智能服务专委会副主任、国际期刊 Data Intelligence 主编、国际期刊 Journal of Web Semantics 的副主编和 Semantic Web Journal 的编委、Journal of Big Data Research的编委、世界三大出版集团之一的爱思唯尔(Elsevier)的数据管理顾问委员会顾问、情报工程期刊编委。获得“江苏省六大人才高峰”资助和“创业南京高层次人才”资助。所取得的科研成果在工业界中得到实际应用,产生了实际效益,在司法类案推送、电商数据分析、电力故障智能检测和知识推送、医药知识问答、军事决策系统和安全决策系统中落地,产业化前景广阔。

Data Intelligence 期刊介绍

Data Intelligence 是中国科学院文献情报中心主办的英文学术期刊。创刊于2019年,目前被EI、ESCI、Scopus、DOAJ、Inspec数据库收录。期刊以知识表示、处理与应用(本体、元数据及其标准、语义标注体系、知识图谱等)及结构化、语义化的数据论文、语义数据驱动的智能算法、系统、平台为刊发主体,致力于推动数据融合、数据与数据处理平台的有效共享、倡导数据追本溯源,促进知识实时构建,并为下一代精准智能语义数据分析和应用以及深度知识服务提供创新源泉。期刊官网:https://direct.mit.edu/dint 。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

5bb1be2b2ffa4e969ed7dd46a7254be6.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477891.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一训练就显存爆炸?Facebook 推出 8 比特优化器,两行代码拯救你的显存!

文 | jxyxiangyu编 | 小轶“小夕,小夕!又出来了个 SOTA 模型!赶紧 follow !”小夕看了看新模型的参数量, 然后看了看实验室服务器的几张小破卡。小夕,陷入了沉默。自从人们发现越大的模型性能越好后&#x…

论文浅尝 | 基于正交普鲁克分析的高效知识图嵌入学习

笔记整理:朱渝珊,浙江大学在读博士,研究方向为快速知识图谱的表示学习,多模态知识图谱。1.Motivation知识图谱是许多NLP任务和下游应用的核心,如问答、对话代理、搜索引擎和推荐系统。知识图中存储的事实总是以元组的形…

LeetCode 979. 在二叉树中分配硬币(DFS)

文章目录1. 题目2. DFS 解题1. 题目 给定一个有 N 个结点的二叉树的根结点 root,树中的每个结点上都对应有 node.val 枚硬币,并且总共有 N 枚硬币。 在一次移动中,我们可以选择两个相邻的结点,然后将一枚硬币从其中一个结点移动…

有福利! 好书推荐:从《实用推荐系统》学习寻找用户行为之法

大多数关于推荐系统的图书都讲述了算法及其优化方法。这些书都认为你已经有了一个大的数据集来供算法使用。数据集不会像变魔术那样凭空出现。要想收集到正确的用户偏好数据,就需要投入精力和进行思考。它会成就你的系统,或者搞砸你的系统。“垃圾进&…

灵活强大的构建系统Gradle

前言 构建,软件生命周期中重要的一环,在现代软件开发过程中,起着越来越重要的作用。过去在Java或类Java的世界里,Ant、Maven再熟悉不过了,Maven凭借其强大的依赖配置战胜Ant,基本上成为了Java构建的标准。而…

LeetCode 791. 自定义字符串排序(map)

1. 题目 字符串S和 T 只包含小写字符。在S中,所有字符只会出现一次。 S 已经根据某种规则进行了排序。我们要根据S中的字符顺序对T进行排序。更具体地说,如果S中x在y之前出现,那么返回的字符串中x也应出现在y之前。 返回任意一种符合条件的…

6万字解决算法面试中的深度学习基础问题

文 | 清卢雨源 | 对白的算法屋前言真的是千呼万唤始出来emmmm,去年春招结束写了篇面试的经验分享。在文中提到和小伙伴整理了算法岗面试时遇到的常见知识点及回答,本想着授人以渔,但没想到大家都看上了我家的 !但因本人执行力不足…

OpenKG开源系列 | 海洋鱼类百科知识图谱(浙江大学)

OpenKG地址:http://openkg.cn/dataset/ocean开放许可协议:CC BY-SA 4.0贡献者:浙江大学(徐雅静、邓鸿杰、唐坤、郑国轴)1、背景海洋是生命的摇篮,是人类文明的重要发祥地,在人类社会发展的进程中起着举足轻重的作用。海…

Presto实现原理和美团的使用实践

Facebook的数据仓库存储在少量大型Hadoop/HDFS集群。Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。在以前,Facebook的科学家和分析师一直依靠Hive来做数据分析。但Hive使用MapReduce作为底层计算框架,是专为批处理设计的。但随着数据越来越…

图谱实战 | 徐美兰:深度应用驱动的医学知识图谱构建

转载公众号 | DataFunSummit分享嘉宾:徐美兰 浙江数字医疗卫生技术研究院 数字医学知识中心主任编辑整理:李杰 京东出品平台:DataFunTalk导读:数研院这些年在知识图谱建设上取得了丰硕成果,今天我们将图谱构建过程中的…

6 年大厂面试官,谈谈我对算法岗面试的一些看法

文 | 不敢透露姓名的 Severus 和小轶面试官坐在那撇着大嘴的,“咳,给你一机会,最短的时间内让我记住你。”这个我会,我抡圆了“啪!”,扭头我就走。我刚到家,录取通知书就来了,请你务…

美团Android自动化之旅—生成渠道包

每当发新版本时,美团团购Android客户端会被分发到各个应用市场,比如豌豆荚,360手机助手等。为了统计这些市场的效果(活跃数,下单数等),需要有一种方法来唯一标识它们。 团购客户端目前通过渠道号…

开源开放 | 细粒度可循证医学文档知识融合表示和推理(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/mdo-dataset开放许可协议:GPL 3.0贡献者:武汉科技大学(高峰、龚珊珊、顾进广、徐芳芳)摘要本开放资源在医学文档知识的基础上,使用知识图谱相关技术,解决了…

图灵奖大佬 Lecun 发表对比学习新作,比 SimCLR 更好用!

文 | Rukawa_Y编 | 智商掉了一地,Sheryc_王苏比 SimCLR 更好用的 Self-Supervised Learning,一起来看看吧!Self-Supervised Learning作为深度学习中的独孤九剑,当融汇贯通灵活应用之后,也能打败声名在外的武当太极剑。…

5whys分析法在美团工程师中的实践

前言 网站的质量和稳定性对于用户和公司来说至关重要,但是在网站的快速发展过程中,由于各种原因导致事故不可避免的发生,这些大大小小的事故对公司难免会造成一些负面的影响,为了避免同类事故的再次发生,美团的工程师们…

LeetCode 382. 链表随机节点(概率)

1. 题目 给定一个单链表,随机选择链表的一个节点,并返回相应的节点值。保证每个节点被选的概率一样。 进阶: 如果链表十分大且长度未知,如何解决这个问题?你能否使用常数级空间复杂度实现? 来源:力扣&am…

图谱实战 | 斯坦福黄柯鑫:图机器学习在生物图上的应用

转载公众号 | DataFunSummit分享嘉宾:黄柯鑫 斯坦福大学 博士生编辑整理:元玉蒲 西北大学出品平台:DataFunTalk导读:大家好,我叫黄柯鑫。我现在是斯坦福大学的计算机科学博士第一年级,研究方向是机器学习在…

排得更好VS估得更准VS搜的更全「推荐、广告、搜索」算法间到底有什么区别?...

文 | 王喆源 | 王喆的机器学习笔记作为互联网的核心应用“搜广推”,三个方向基本都是互联网公司的标配。各头部公司的搜广推系统也都各自发展成了集成了多种模型、算法、策略的庞然大物,想一口气讲清楚三者的区别并不容易。不过万事总有一个头绪&#xf…

Solr Facet技术的应用与研究

问题背景 在《搜索引擎关键字智能提示的一种实现》一文中介绍过,美团的CRM系统负责管理销售人员的门店(POI)和项目(DEAL)信息,提供统一的检索功能,其索引层采用的是SolrCloud。在用户搜索时,如果能直观地给出每个品类的POI数目&am…

LeetCode 129. 求根到叶子节点数字之和(DFS)

1. 题目 给定一个二叉树,它的每个结点都存放一个 0-9 的数字,每条从根到叶子节点的路径都代表一个数字。 例如,从根到叶子节点路径 1->2->3 代表数字 123。 计算从根到叶子节点生成的所有数字之和。 说明: 叶子节点是指没有子节点的…