技术动态 | 多模态知识图谱

本文转载自漆桂林老师的知乎专栏。

原文链接:

https://zhuanlan.zhihu.com/p/163278672


     

作者:郑秋硕,漆桂林,王萌

     知识图谱技术已经被广泛用于处理结构化数据(采用本体+D2R技术)和文本数据(采用文本信息抽取技术),但是还有一类非结构化数据,即视觉数据,则相对关注度较低,而且相缺乏有效的技术手段来从这些数据中提取结构化知识。最近几年,虽然有一些多模态视觉技术提出,这些技术主要还是为了提升图像分类、图像生成、图像问答的效果,不能很好地支撑多模态知识图谱的构建。视觉数据库通常是图像或视频数据的丰富来源,并提供关于知识图谱中实体的充分视觉信息。显然,如果可以在在更大范围内进行链接预测和实体对齐,进而进行实体关系抽取,可以使现有的模型在综合考虑文本和视觉特征时获得更好的性能,这也是我们研究多模态知识图谱(multi-modal  knowledge graph)的意义所在。

    目前,已经有很多开放知识图谱(见https://lod-cloud.net/和openkg),而且不少企业也有自己的企业知识图谱。然而,这些知识图谱很少有可视化的数据资源。图1所示为多模态知识图谱的发展过程。

            图1.多模态知识图谱的发展过程

    

多模态知识图谱与传统知识图谱的主要区别是,传统知识图谱主要集中研究文本和数据库的实体和关系,而多模态知识图谱则在传统知识图谱的基础上,构建了多种模态(例如视觉模态)下的实体,以及多种模态实体间的多模态语义关系。例如在最新的一个多模态百科图谱Richpedia中(如下图2所示)[5],首先构建了图像模态伦敦眼图像与文本模态知识图谱实体(DBpedia实体:London   eye)之间的多模态语义关系(rpo:imageof),之后还构建了图像模态实体伦敦眼与图像模态实体大本钟之间的多模态语义关系(rpo:nextTo)。

             图2.Richpedia中的多模态实体与多模态语义关系

一、多模态知识图谱相关工作

    随着人工智能技术的不断发展,知识图谱作为人工智能领域的知识支柱,以其强大的知识表示和推理能力受到学术界和产业界的广泛关注。近年来,知识图谱在语义搜索、问答、知识管理等领域得到了广泛的应用。其中在描述多媒体的可用数据集中,现有的工作重点是捕获多媒体文件的高级元数据(如作者、创建日期、文件大小、清晰度、持续时间),而不是多媒体内容本身的音频或视觉特性。以下会介绍几个重要的开源多模态知识图谱:

1. DBpedia[1]

    DBpedia作为近十年来语义网研究的中心领域,其丰富的语义信息也将会成为今后多模态知识图谱的链接端点,其完整的本体结构对于构建多模态知识图谱提供了很大的便利。DBpedia项目是一个社区项目,旨在从维基百科中提取结构化信息,并使其可在网络上访问。DBpedia知识库目前描述了超过260万个实体。对于每个实体,DBpedia定义了一个唯一的全局标识符,可以将其解引用为网络上一个RDF描述的实体。DBpedia提供了30种人类可读的语言版本,与其他资源形成关系。在过去的几年里,越来越多的数据发布者开始建立数据集链接到DBpedia资源,使DBpedia成为一个新的数据web互联中心。目前,围绕DBpedia的互联网数据源网络提供了约47亿条信息,涵盖地理信息、人、公司、电影、音乐、基因、药物、图书、科技出版社等领域。

2. Wikidata[2]

    Wikidata中也存在大量的多模态资源,Wikidata是维基媒体基金会(WMF)联合策划的一个知识图谱,是维基媒体数据管理策略的核心项目。充分利用Wikidata的资源,主要挑战之一是提供可靠并且强大的数据共享查询服务,维基媒体基金会选择使用语义技术。活动的SPARQL端点、常规的RDF转储和链接的数据api是目前Wikidata的核心技术,Wikidata的目标是通过创造维基百科全球管理数据的新方法来克服数据不一致性。Wikidata的主要成就包括:Wikidata提供了一个可由所有人共享的免费协作知识库;Wikidata已经成为维基媒体最活跃的项目之一;越来越多的网站在浏览页面时都从Wikidata获取内容,以增加大数据的可见性和实用性。

3. IMGpedia[3]

    IMGpedia是一个大型的链接数据集,它从Wikimedia   Commons数据集中的图像中收集大量的可视化信息。它构建并生成了1500万个视觉内容描述符,图像之间有4.5亿个视觉相似关系,此外,在IMGpedia中单个图像与DBpedia之间还有链接。IMGpedia旨在从维基百科发布的图片中提取相关的视觉信息,从Wikimedia中收集所有术语和所有多模态数据(包括作者、日期、大小等)的图像,并为每张图像生成相应的图像描述符。链接数据很少考虑多模态数据,但多模态数据也是语义网络的重要组成部分。为了探索链接数据和多模态数据的结合,构建了IMGpedia,计算Wikipedia条目中使用的图像描述符,然后将这些图像及其描述与百科知识图谱链接起来。

    IMGpedia是一个多模态知识图谱的先例。将语义知识图谱与多模态数据相结合,面对多种任务下的挑战和机遇。IMGpedia使用四种图像描述符进行基准测试,这些描述符的引用和实现是公开的。IMGpedia提供了Wikidata的链接。由于DBpedia中的分类对一些可视化语义查询不方便,所以IMGpedia旨在提供一个更好的语义查询平台。IMGpedia在多模态方向上是一个很好的先例,但也存在一些问题,比如关系类型稀疏,关系数量少,图像分类不清晰等,也是之后需要集中解决的问题。

4. MMKG[4]

    MMKG主要用于联合不同知识图谱中的不同实体和图像执行关系推理,MMKG是一个包含所有实体的数字特征和(链接到)图像的三个知识图谱的集合,以及对知识图谱之间的实体对齐。因此,多关系链接预测和实体匹配社区可以从该资源中受益。MMKG有潜力促进知识图谱的新型多模态学习方法的发展,作者通过大量的实验验证了MMKG在同一链路预测任务中的有效性。

    MMKG选择在知识图谱补全文献中广泛使用的数据集FREEBASE-15K   (FB15K)作为创建多模态知识图谱的起点。知识图谱三元组是基于N-Triples格式的,这是一种用于编码RDF图的基于行的纯文本格式。MMKG同时也创建了基于DBpedia和YAGO的版本,称为DBpedia-15K(DB15K)和YAGO15K,通过将FB15K中的实体与其他知识图谱中的实体对齐。其中对于基于DBpedia的版本,主要构建了sameAs关系,为了创建DB15K,提取了FB15K和DBpedia实体之间的对齐,通过sameAs关系链接FB15K和DBpedia中的对齐实体;构建关系图谱,来自FB15K的很大比例的实体可以与DBpedia中的实体对齐。但是,为了使这两个知识图谱拥有大致相同数量的实体,并且拥有不能跨知识图谱对齐的实体,在DB15K中包括了额外的实体;构建图像关系,MMKG从三大搜索引擎中获取相应文本实体的图像实体,生成对应的文本-图像关系。但是,它是专门为文本知识图谱的完成而构建的,主要针对小数据集(FB15K,  DBPEDIA15K, YAGO15K)。MMKG在将图像分发给相关文本实体时也没有考虑图像的多样性。

二、基于百科多模态知识图谱Richpedia

    虽说之前的一些工作如IMGpedia和MMKG融合了多模态的知识,构建了多模态知识图谱,但其中也存在一些问题,例如在IMGpedia中关系类型稀疏,关系数量少,图像分类不清晰等,在MMKG中图像并没有作为单独的图像实体存在,而是依赖于相应的传统文本实体。这些问题对于多模态任务的发展有着较大制约,东南大学认知智能研究所基于解决如上存在的问题的动机,提出了多模态知识图谱Richpedia[5]。

Richpedia多模态知识图谱的定义如下:实体集合E包括文本知识图谱实体EKG和图像实体EIM,R表示一系列关系的集合,其中E和R利用统一资源标识符(IRIs)表示。L是文字的集合(例如:“伦敦”,“750px”),B表示为一系列的空白节点。Richpedia三元组t表示格式为<subject,  predicate,  object>,是(E∪B)×R×(E∪L∪B),Richpedia多模态知识图谱是Richpedia三元组的集合。

    在构建多模态知识图谱中,总体模型如图3所示。接下来我们会逐步介绍构建Richpedia的流程。

             图3.构建Richpedia总体流程

    与一般的文本知识图谱不同,Richpedia的出发点是构造一个多模态知识图谱,其中包含了全面的图像实体及其之间的关系。但是,如图4所示,文本知识图谱实体的图像资源有很大一部分是长尾分布。换句话说,平均每一个文本知识图谱实体在Wikipedia中只有很少的视觉信息。因此,我们考虑借助外部来源来填充Richpedia,首先我们基于现有的传统文本实体,从维基百科,谷歌,必应和雅虎四大图像搜索引擎中获取相应的图像实体,每一个图像作为知识图谱中的一个实体存储于Richpedia中。Wikidata已经为每个文本知识图谱实体定义了唯一的统一资源标识符,我们将这些统一资源标识符添加到Richpedia作为文本知识图谱实体。在目前的版本中,我们主要收集了30,638个关于城市、景点和名人的实体。对于图像实体,我们可以直观地从Wikipedia上收集图像,然后在Richpedia中创建相应的统一资源标识符。

             图4.Wikipedia中的图像分布比例

    在收集完图像实体之后,我们需要对图像实体进行预处理和筛选。因为我们的数据来自于开放资源,它们会被搜索引擎基于与查询字段的相关性评分进行排名。从多模态知识图谱的角度而言,文本知识图谱实体所包含的图像实体不仅要相关性高而且还要具有多样性,如图5所示,对于中间的图像实体,右侧的图像实体因为较高的相似性从而被系统过滤掉,保留左侧相似性较低的图像实体。因为从搜索引擎中获取的图像实体难免存在重复问题,接下来我们通过一系列的预处理操作,使得每个图像实体都与相应的传统文本实体具有较高的相关度。其中预处理操作包括去噪操作和多样性检测,去噪操作的目的是去除不相关的图像实体,多样性检测的目的是使得图像实体具有尽可能高的多样性。

             图5.Richpedia中图像实体的多样性

    因为很难基于不同图像的像素特征直接检测出这些语义关系,所以我们利用基于规则的关系抽取模板,借助Wikipedia图像描述中的超链接信息,生成图像实体间的多模态语义关系。在图6中,我们以rpo:contain和rpo:nearBy为例说明如何发现协和广场,卢克索方尖碑和航运喷泉图像实体间的语义关系。如图6所示,我们在中文维基百科中协和广场词条中获取到包含卢克索方尖碑和航运喷泉的图像实体,从语义视觉关系的角度上看,协和广场包括了卢克索方尖碑和航运喷泉,卢克索方尖碑就在航运喷泉的旁边。为了发现这些关系,我们收集这些图像的文本描述,并提出三个有效的规则来提取多模态语义关系:

    规则1.  如果在描述中有一个超链接,其指向的对应Wikipedia实体的概率很高。我们利用Stanford  CoreNLP检测描述中的关键字。然后,通过字符串映射算法发现预定义关系。例如,如果我们在两个实体之间的文本描述中得到单词‘left’,我们将得到‘nearBy’关系。

    规则2. 如果描述中有多个超链接,我们基于语法分析器和语法树检测核心知识图谱实体(即描述的主体)。然后,我们以核心知识图谱实体作为输入,将这种情况简化为规则1。

    规则3.  如果在描述中没有指向其他词条的超链接,我们使用Stanford  CoreNLP来查找描述中包含的Wikipedia知识图谱实体,并将这种情况简化为规则1和规则2。因为规则3依赖于NER结果,准确率低于相应的预标注超链接信息,所以它的优先级低于前两个规则。

             图6.Richpedia中多模态语义关系发现

三、基于Richpedia的多模态知识服务网站

Richpedia网站(http://rich.wangmengsd.com/)是为Richpedia多模态知识图谱开发的一个网站,其提供了对Richpedia数据库的介绍,查询,资源检索,使用教程以及数据下载服务。其中包括:

a)  Homepage:主要对Richpedia数据库进行了概述。

      

     图7.Homepage界面

b)  Download:提供了image文件和三元组关系N-Triples文件的下载链接。

             图8.Download界面

c)  SPARQL:实现了对Richpedia数据库中的实体和视觉关系的SPARQL查询。

             图9.SPARQL查询界面

d)  Query:提供了对地名和人物的直接查询相关图片功能。

             图10.查询界面

             图11.查询结果

e)  Tutorial:提供了网站的使用教程。

    首先,我们可以在Richpedia中查询实体信息,包括图像实体实体和文本知识图谱实体。第一步是选择查询的实体类别,然后选择要具体查询的实体。例如,如果我们要查询安卡拉城市实体的文本知识图谱实体和图像实体,可以在下拉选择器中选择对应的安卡拉城市标签。之后出现的页面中上半部分是安卡拉的文本知识图谱实体,下半部分是安卡拉的图像实体。

其次,我们可以通过Richpedia的在线访问平台查询图像实体之间的视觉语义关系。选择查询文本知识图谱实体后,点击对应的图像实体,可以查看图像实体的视觉语义关系。例如,当我们想查询一个与北京动物园图像实体具有rpo:sameAs关系的图像实体时,我们可以点击相应的北京动物园图像实体,得到相应的结果。

             图12.Tutorial界面

f)  Ontology:提供了Ontology的相关信息。

图13.Ontology界面

g)  Resource:提供了对所有图片资源的访问地址。

h) Github 链接以及页面底端:提供了friendly link,联系人邮箱,Github主页以及分享协议。

四、多模态知识图谱应用

    多模态知识图谱的应用场景十分广泛,首先一个完备的多模态知识图谱会极大地帮助现有自然语言处理和计算机视觉等领域的发展,同时对于跨领域的融合研究也会有极大的帮助,多模态结构数据虽然在底层表征上是异构的,但是相同实体的不同模态数据在高层语义上是统一的,所以多种模态数据的融合有利于推进语言表示等模型的发展,对于在语义层级构建多种模态下统一的语言表示模型提出数据支持。其次多模态知识图谱技术可以服务于各种下游领域,例如多模态实体链接技术可以融合多种模态下的相同实体,可以广泛应用于新闻阅读,时事推荐,明星同款等场景中如图14,多模态知识图谱补全技术可以通过远程监督补全多模态知识图谱,完善现有的多模态知识图谱,利用动态更新技术使其更加的完备,多模态对话系统的应用就更加的广泛,现阶段电商领域中集成图像和文本的多模态对话系统的研究蒸蒸日上,多模态对话系统对于电商推荐,商品问答领域的进步有着重大的推进作用。

             图14.多模态知识图谱在视觉实体链接中的应用

    多模态知识图谱是一个新兴领域,受益于近些年通讯技术的发展,多模态数据越来越成为人们生活中触手可及的信息,种种多模态技术也成为当下研究的热门方向。

参考文献

[1]  Auer S, Bizer C, Kobilarov G, et al. Dbpedia: A nucleus for a web of  open data[M]//The semantic web. Springer, Berlin, Heidelberg, 2007:  722-735.

[2] Vrandečić D, Krötzsch M. Wikidata: a free collaborative knowledgebase[J]. Communications of the ACM, 2014, 57(10): 78-85.

[3]  Ferrada S, Bustos B, Hogan A. IMGpedia: a linked dataset with  content-based analysis of Wikimedia images[C]//International Semantic  Web Conference. Springer, Cham, 2017: 84-93.

[4] Liu Y, Li H,  Garcia-Duran A, et al. MMKG: multi-modal knowledge graphs[C]//European  Semantic Web Conference. Springer, Cham, 2019: 459-474.

[5] Wang  M, Qi G, Wang H F, et al. Richpedia: A Comprehensive Multi-modal  Knowledge Graph[C]//Joint International Semantic Technology Conference.  Springer, Cham, 2019: 130-145.

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478896.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

美团配送系统架构演进实践

写在前面 美团配送自成立以来&#xff0c;业务经历了多次跨越式的发展。业务的飞速增长&#xff0c;对系统的整体架构和基础设施提出了越来越高的要求&#xff0c;同时也不断驱动着技术团队深刻理解业务、准确定位领域模型、高效支撑系统扩展。如何在业务高速增长、可用性越来越…

Python字符串模糊匹配库FuzzyWuzzy

Python字符串模糊匹配库FuzzyWuzzy 在计算机科学中&#xff0c;字符串模糊匹配&#xff08;fuzzy string matching&#xff09;是一种近似地&#xff08;而不是精确地&#xff09;查找与模式匹配的字符串的技术。换句话说&#xff0c;字符串模糊匹配是一种搜索&#xff0c;即使…

机器学习梗图大赏

文 | 白鹡鸰图 | 白鹡鸰 小轶大家好呀&#xff0c;我是日常遭到小轶摁头赶稿的白鹡鸰&#xff5e;最近的投稿高峰期各位都过得如何呢&#xff1f;白鹡鸰要偷偷爆料&#xff0c;最近的小轶可是超级辛苦的&#xff5e;不过白鹡鸰还很轻松&#xff0c;毕竟已经决定赶300天以后的dd…

论文浅尝 - ACL2020 | 用于关系三元组抽取的级联二进制标记框架

论文笔记整理&#xff1a;王中昊&#xff0c;天津大学。来源&#xff1a;ACL2020链接&#xff1a;https://arxiv.org/pdf/1909.03227.pdf摘要从非结构化文本中提取关系三元组是构建大规模知识图的关键。然而&#xff0c;对于同一句子中的多个关系三元组共享同一个实体的重叠三元…

美团客户端响应式框架 EasyReact 开源啦

前言 EasyReact 是一款基于响应式编程范式的客户端开发框架&#xff0c;开发者可以使用此框架轻松地解决客户端的异步问题。 目前 EasyReact 已在美团和大众点评客户端的部分业务中实践&#xff0c;并且持续迭代了一年多的时间。近日&#xff0c;我们决定开源这个项目的 iOS Ob…

LeetCode 897. 递增顺序查找树(中序遍历)

1. 题目 给定一个树&#xff0c;按中序遍历重新排列树&#xff0c;使树中最左边的结点现在是树的根&#xff0c;并且每个结点没有左子结点&#xff0c;只有一个右子结点。 示例 &#xff1a;输入&#xff1a;[5,3,6,2,4,null,8,1,null,null,null,7,9]5/ \3 6/ \ \2 4…

谈谈怎样提高炼丹手速

文 | 夕小瑶最近搞定几件焦头烂额的大事后&#xff0c;终于有了一丢丢的时间来写写文章&#xff0c;并且偶尔思考下算法工程师的核心竞争力是什么。前不久一时兴起写了篇标题党文章《惊了&#xff01;掌握了这个炼丹技巧的我开始突飞猛进》&#xff0c;简单描述了一下我的升级打…

论文浅尝 | 神经协同推理

论文笔记整理&#xff1a;叶橄强&#xff0c;浙江大学计算机学院&#xff0c;知识图谱和知识推理方向。Paper link: https://arxiv.org/abs/2005.08129Github link: https://github.com/Scagin/NeuralLogicReasoning背景&#xff1a;推荐任务推荐作为一种认知智能任务&#xff…

在服务器上安装anaconda遇到的问题总结

1 安装anaconda需要一些安装包&#xff0c;需要提前备准备好&#xff0c;比如bunzip2&#xff0c; gcc编译等软件。 cd /anacondaRElyanacondaREly文件夹下放了anaconda所依赖的安装包&#xff0c;切换到该路径 rpm -Uvh *.rpm --nodeps --force安装好anaconda 需要的依赖环境…

LeetCode 693. 交替位二进制数(位运算)

1. 题目 给定一个正整数&#xff0c;检查他是否为交替位二进制数&#xff1a;换句话说&#xff0c;就是他的二进制数相邻的两个位数永不相等。 输入: 5 输出: True 解释: 5的二进制数是: 101输入: 7 输出: False 解释: 7的二进制数是: 111输入: 11 输出: False 解释: 11的二进…

全栈深度学习第6期: 模型测试和部署

一起追剧鸭简介Berkeley全栈深度学习追剧计划是由夕小瑶的卖萌屋发起的优质公开课打卡项目&#xff0c;通过微信群为同期追剧的小伙伴提供交流平台。关于该计划的详请见这里。Berkeley深度学习追剧群目前已有1000小伙伴加入&#xff0c;公众号后台回复口令 深度学习追剧 入群。…

开源开放 | 欧若科技通过 OpenKG 开放 Nebula Graph 图数据库

开源工具名称&#xff1a;Nebula Graph贡献者&#xff1a;杭州欧若数网科技有限公司 Nebula GraphOpenKG 链接&#xff1a;http://openkg.cn/tool/nebula-graph-database 谣言盐水漱口能预防感染&#xff1f;钟南山院士团队公开辟谣&#xff1a;「盐水漱口有利于…

pkuseg-python的postag.zip在不能联网的服务器上的解决办法

关于pkuseg-python的基本介绍和使用&#xff1a; pkuseg.pkuseg&#xff08; postag True&#xff09;时&#xff0c;会触发download.py文件的下载命令&#xff0c;从github中下载&#xff0c;进而会导致服务器报错&#xff0c;如下 进而在pkuseg文件下打开download.py和__in…

数据库的方向 - 行vs列(转自: IBM i 中国开发团队)

转载地址&#xff1a;https://www.ibm.com/developerworks/community/blogs/IBMi/entry/database?langen 原文链接&#xff1a;http://ibmsystemsmag.blogs.com/you_and_i/db2/ 数据库的方向 - 行vs列 如果你是一位数据库专家的话&#xff0c;这篇博客可能帮不了你什么。 …

Android自动化页面测速在美团的实践

背景 随着移动互联网的快速发展&#xff0c;移动应用越来越注重用户体验。美团技术团队在开发过程中也非常注重提升移动应用的整体质量&#xff0c;其中很重要的一项内容就是页面的加载速度。如果发生冷启动时间过长、页面渲染时间过长、网络请求过慢等现象&#xff0c;就会直接…

NLP领域的首次Hard Label黑盒攻击!

文 | 阿毅编 | 小轶背景前段时间已经和大家分享了两篇关于NLP Privacy的文章。今天&#xff0c;我们又来给大家推送优质论文了&#xff08;公众号学习法&#xff09;。其实&#xff0c;NLP与其他方向的跨界结合这段时间层出不穷&#xff0c;且都发表到了非常好的顶会上。目前有…

论文浅尝 - ACL2020 | 利用知识库嵌入改进多跳 KGQA

论文笔记整理&#xff1a;吴畏&#xff0c;东南大学硕士研究生。来源: ACL 2020论文地址: https://www.aclweb.org/anthology/2020.acl-main.412.pdf开源代码: https://github.com/malllabiisc/EmbedKGQA动机在多跳KGQA中&#xff0c;系统需要对KG的多个边缘执行推理以推断出正…

MCI:移动持续集成在大众点评的实践

一、背景 美团是全球最大的互联网生活服务平台&#xff0c;为3.2亿活跃用户和500多万的优质商户提供一个连接线上与线下的电子商务服务。秉承“帮大家吃得更好&#xff0c;生活更好”的使命&#xff0c;我们的业务覆盖了超过200个品类和2800个城区县网络&#xff0c;在餐饮、外…

LeetCode 260. 只出现一次的数字 III(位运算)

1. 题目 给定一个整数数组 nums&#xff0c;其中恰好有两个元素只出现一次&#xff0c;其余所有元素均出现两次。 找出只出现一次的那两个元素。 示例 :输入: [1,2,1,3,2,5] 输出: [3,5]注意&#xff1a; 结果输出的顺序并不重要&#xff0c;对于上面的例子&#xff0c; [5,…

没有什么多模态任务是一层Transformer解决不了的!

文 | 子龙曾几何时&#xff0c;多模态预训练已经不是一个新的话题&#xff0c;各大顶会诸多论文仿佛搭上Visual和BERT&#xff0c;就能成功paper1&#xff0c;VisualBERT、ViLBERT层出不穷&#xff0c;傻傻分不清楚......这些年NLPer在跨界上忙活的不亦乐乎&#xff0c;提取视觉…