论文浅尝 | IRW:基于知识图谱和关系推理的视觉叙事框架

b8f298291681cccbe5b412011685c106.png

笔记整理:孙悦,天津大学 

链接:https://www.aaai.org/AAAI21Papers/AAAI-3382.XuC.pdf

动机

视觉叙事是生成一个短篇故事来描述有序图像流的任务。与视觉字幕不同,故事不仅包含事实描述,还包含未出现在图像中的想象概念。在本文中,我们提出了一种新颖的想象-推理-编写生成框架 (IRW),用于视觉叙事,其灵感来自人类编写故事时的逻辑。首先,利用多模态想象模块明确学习富有想象力的故事情节,提高生成故事的连贯性和合理性。其次,我们采用关系推理模块,通过基于故事情节的关系推理方法充分利用外部知识(常识知识库)和任务特定知识(场景图和事件图)。通过这种方式,我们可以有效地捕捉图像中对象之间信息量最大的常识和视觉关系,增强生成故事的多样性和信息量。最后,我们整合视觉信息和语义(概念)信息来生成故事。在基准数据集(即 VIST)上进行的大量实验表明,所提出的 IRW 框架在多个评估指标上大大优于最先进的方法。

亮点

IRW的亮点主要包括:

1.为视觉叙事提出了一种新颖的想象-推理-编写生成框架2.提出了一种检索增强的方法来从训练语料库构建事件图。事件图从相似图像的故事中学习高级事件,可以为故事生成提供辅助知识。3.在基准数据集上的实验表明,在多个评估指标中,IRW 的性能明显优于比较方法

概念及模型

IRW内部有两个主要模块:encoder和decoder。Encoder采用CNN和Bi-GRU模型来编码图像特征以及学习图像流的上下文信息。Decoder由三部分组成,分别是想象模块、推理模块以及写作模块,最后输出一个连贯的、信息丰富的并且具有想象力的故事。

decoder具体由三部分构成:

•Multimodal Imagining Module:生成一个富有想象力的故事情节•Relational reasoning module:充分利用外部常识 KG 和任务特定知识(场景图和事件图),并学习讲故事的互补语义特征•Story generation module:设计了具有引导单元的故事生成模块。

模型整体框架如下:

b47a6731810283ea3e913de38129fa50.png

•图像编码器

首先使用预训练的resnet-152编码器,对输入的M个图像进行编码,然后使用Bi-GRU对M个图像编码再次编码得到输出,表达式如下。

9673496ccb63d756af23e18de7135495.png

•多模态想象模块

如果只基于图像特征选出图像中主要的内容,不同图像之间很难具有连贯性。所以在该模块中,通过将每个图像内容与之前生成的句子进行融合共同推断当前图像的主要内容。如下所示:

160243d06219f49fb21d51f343127e0b.png

我们使用 GRU 通过为图像流中的每个图像生成一个想象的概念来生成一个 story line。以多模态融合向量 fm 作为输入,GRU 在时间步 m 的隐藏状态计算如下:

b3bbf2e016943c79275a461cbad6bed8.png

3ed25a92225f71ccc14a6cacf7a34320.png

•关系推理模块

该模块会在story line上充分利用常识知识图谱和任务特定的知识。我们利用常识知识图(KG)来获得与想象概念相对应的支持知识。在上一步得到每个图片的关键概念后,可以在知识图谱中进行实体提及检测,找到top-L个候选的关系,然后就可以建立一个子图

5416023b1dd7011339a370c5f6b15382.png

•场景图

生成旨在将图像自动映射为结构化的图表示,这需要检测图像中的显着对象及其关系。首次使用faster-rcnn作为目标检测器,然后计算动态树结构,将目标编码为用于预测每个对象对之间关系的视觉上下文。

010c08596ea61dc8fa75b8f0b235d16f.png

•事件图

我们开发了一种检索增强方法,通过详尽地计算查询图像和训练图像之间的余弦相似度,从训练集中为图像流中的每个图像检索前 R 个视觉相似的图像。然后,将检索到的相似图像的描述语句连接起来形成一个引导故事,并利用它来构建事件图。具体来说,我们应用斯坦福开放 IE 方法为每个句子提取一个事件。每个事件都可以表示为一个关系三元组 (e1, r, e2),其中 e1 是主体实体,e2 是客体实体,r 是 e1 和 e2 之间的关系。在获得图像 Im 的所有事件后,我们提取在事件集 D 中具有代表性的共识事件。特别是,我们首先计算 D 中每个事件 di 和另一个事件 d 之间的语义相似度:

8b62ef084ab0b689fe875f4f954f6c96.png

•图上的关系推理:

以上的三种图的推理方式都是一样的,以事件图上的推理为例。给定一个(vEm,i, eEm,ij , vEm,j )三元组,首先转换成对应的编码形式(vEm,i, eEm,ij , vEm,j ),应用GCN网络去整合邻居节点的信息,流程如下所示:

51c5fc2a5971e2a3f6f2619bd5fad691.png

使用之前产生的文本以及图像的关键内容生成注意力机制有选择的选事件图谱中的节点从而生成整体事件图向量。

e5c8867f7153539cd9ceccc1cf43b72b.png

然后把得到的向量与事件图的图像进行融合,在常识知识图谱上再进行推理。如下所示。

a91670dafdb3f01ff7e4930173956109.png

最后把三个图上推理的结果进行融合。

78f36f522e4d7fbcdc4a3147d3891e13.png

•生成故事模块 首先使用之前的隐藏层和关系推理对知识图进行注意力提取,如下图所示

4f767a970c4bcce3017e8fbc38c8f9ac.png

然后与图像的关键内容融合产生语义线索向量。

196b718160be1b5a4473278a0697bcd4.png

然后,为了基于先前生成的单词自动整合视觉线索向量 rm 和语义线索向量 um,t ,我们提出了一个引导单元(gate),通过深度整合视觉线索向量 rm 和语义向量 um 来生成故事。

32f8abf671fcdc8a21378aa15c481ca3.png

最后生成每个单词的概率

b9bc44c7ef14cb654cef4b17d645c0a5.png

实验

作者使用了一个数据集VIST进行实验

e0be63dc0e3dcc3fc41b3dfebc07da32.png

我们观察到 IRW 模型在大多数自动评估措施上的性能明显优于最先进的方法。具体来说,我们的 IRW 模型在 BLEU-4 和 CIDEr 上相对于现有最佳分数分别提高了 4.8% 和 3.7%。此外,我们的模型也大大优于 AREL、HRSL 和 ReCo-RL 方法,这些方法都采用强化学习范式来优化模型。通过部署强化学习可以进一步提高 IRW 的性能。

总结

在本文中,我们提出了一种新颖的想象-推理-编写生成框架 (IRW),用于视觉叙事,其灵感来自人类编写故事时的逻辑。我们利用想象模块来学习富有想象力的故事情节,这可以提高生成故事的连贯性和合理性。然后,我们提出了一个推理模块,通过关系推理方法充分利用外部常识知识和任务特定知识(场景图和事件图)。通过这种方式,可以大大增强所生成故事的多样性和信息量。最后,我们设计了一个引导单元来整合视觉和语义知识以生成类人故事。对基准数据集的大量实验表明,与强基线相比,IRW 取得了有竞争力的结果。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

a0ec332ec921cb0389e55961fd0cf241.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478037.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

薅羊毛 Colab使用外部数据的7种方法!

文 | Coggle源 | Coggle数据科学Colab作为非常强大且优惠的计算平台,一直广受大家喜爱。可以随时随地使用,还有免费的GPU可以薅羊毛。那么如何在Colab中使用外部数据集,来完成竞赛呢,本文将给出几种常见的方法。方法1:…

高可用性系统在大众点评的实践与经验

背景 所谓高可用性指的是系统如何保证比较高的服务可用率,在出现故障时如何应对,包括及时发现、故障转移、尽快从故障中恢复等等。本文主要以点评的交易系统的演进为主来描述如何做到高可用,并结合了一些自己的经验。需要强调的是&#xff0c…

图灵奖大佬+谷歌团队,为通用人工智能背书!CV 任务也能用 LM 建模!

文 | ZenMoore编 | 小轶图灵奖大佬 Geoffrey Hinton 的团队和 Google Brain 团队近日发布新工作 Pix2seq,将 CV 经典任务 目标检测 转换为了语言模型的下游任务。这就很有意思了朋友们!因为这是一个很一般化的范式!也就是说,不光是…

论文浅尝 | 异构图 Transformer

笔记整理:许泽众,浙江大学博士在读论文链接:https://arxiv.org/abs/2003.01332本文主要提出一种处理异构图的方法,所谓异构图(Heterogeneous graph)是指在一个图中会出现不同类型的边和节点的图。早期对于图…

LeetCode 1145. 二叉树着色游戏(计算节点个数)

1. 题目 有两位极客玩家参与了一场「二叉树着色」的游戏。游戏中,给出二叉树的根节点 root,树上总共有 n 个节点,且 n 为奇数,其中每个节点上的值从 1 到 n 各不相同。 游戏从「一号」玩家开始(「一号」玩家为红色&a…

常见的时间序列预测模型python实战汇总

最完整的时间序列分析和预测(含实例及代码):https://mp.weixin.qq.com/s/D7v7tfSGnoAqJNvfqGpTQA 1 时间序列与时间序列分析 在生产和科学研究中,对某一个或者一组变量 x(t)x(t) ARIMA 模型对时间序列的要求是平稳型。因此&#x…

简单复读机LR如何成为推荐系统精排之锋?

文 | 水哥源 | 知乎saying1. 众所周知, 人类(划掉)推荐的本质是复读机2. 精排之锋,粗排之柔,召回之厚3. 在推荐里谈“过拟合”很容易给我们造成心理上的松懈,导致我们忽略环境,氛围等多种因素的…

从0到1构建美团压测工具

背景 美团内部的RPC服务大多构建在Thrift之上,在日常开发服务的过程中,需要针对这些服务进行压力测试(以下简称压测)来发现潜在问题。常用的方法有: 使用一些脚本语言如:Python、Ruby等,读取线上…

论文浅尝 | ERNIE-ViL:从场景图中获取结构化知识来学习视觉语言联合表示

笔记整理:朱珈徵,天津大学硕士链接:https://www.aaai.org/AAAI21Papers/AAAI-6208.YuFei.pdf动机现有的视觉语言预训练方法试图通过在大的图像文本数据集上的视觉基础任务来学习联合表示,包括基于随机掩码子词的掩码语言建模、掩码…

LeetCode 222. 完全二叉树的节点个数(二分查找)

1. 题目 给出一个完全二叉树,求出该树的节点个数。 说明: 完全二叉树的定义如下:在完全二叉树中,除了最底层节点可能没填满外,其余每层节点数都达到最大值,并且最下面一层的节点都集中在该层最左边的若干…

常见的统计分析方法汇总,指标对比分析、时间序列预测

常见的八种统计分析法如下: 指标对比分析法分组分析法时间数列及动态分析法指数分析法平衡分析法综合评价分析景气分析预测分析 1 比较分析法## 一、指标对比分析法指标对比分析法,又称比较分析法,是统计分析中最常用的方法。是通过有关的指…

这三个NLP项目写进简历,网申通过率提高50%

01三大企业级项目项目一京东智能对话系统项目项目简介:智能客服机器人已经成为了客服系统的重要组成部分,帮助人工客服提升工作效率,为企业降低人工成本。作为智能客服的行业先驱,京东多年来致力打造全链路的客服机器人&#xff0…

论文浅尝 | MulDE:面向低维知识图嵌入的多教师知识蒸馏

笔记整理:朱渝珊,浙江大学在读博士,研究方向为快速知识图谱的表示学习,多模态知识图谱。Motivation为了更高的精度,现有的KGE方法都会采用较高的embedding维度,但是高维KGE需要巨大的训练成本和存储空间。现…

LeetCode 453. 最小移动次数使数组元素相等(数学)

1. 题目 给定一个长度为 n 的非空整数数组,找到让数组所有元素相等的最小移动次数。每次移动可以使 n - 1 个元素增加 1。 示例: 输入: [1,2,3]输出: 3 解释: 只需要3次移动(注意每次移动会增加两个元素的值):[1,2,3] > [2…

性能优化模式

摘要 性能优化涉及面很广。一般而言,性能优化指降低响应时间和提高系统吞吐量两个方面,但在流量高峰时候,性能问题往往会表现为服务可用性下降,所以性能优化也可以包括提高服务可用性。在某些情况下,降低响应时间、提高…

征稿 | 国际KG大会 IJCKG 2021专辑征文

国际知识图谱联合会议(International Joint Conference on Knowledge Graphs (IJCKG 2021, 与ACM/SIGAI联合办会)今年将于12月6日-8日在线召开。Data Intelligence今年被EI数据库收录后,有幸成为大会推荐期刊,大会优秀论文将推荐在…

200字带你看完一本书,GPT-3已经会给长篇小说写摘要了

文 | 博雯源 | 量子位现在,AI能帮你200字看完一段12万词的长篇小说了!比如这样一段121567词的《傲慢与偏见》原文:▲图源OpenAI官网AI分四个阶段来总结:先把原文总结成276个摘要(24796词),然后进…

LeetCode 1252. 奇数值单元格的数目

1. 题目 给你一个 n 行 m 列的矩阵,最开始的时候,每个单元格中的值都是 0。 另有一个索引数组 indices,indices[i] [ri, ci] 中的 ri 和 ci 分别表示指定的行和列(从 0 开始编号)。 你需要将每对 [ri, ci] 指定的行…

Google Research新成果,让表格理解和检索更上一层楼!

文 | 舞风小兔编 | 智商掉了一地如何更好地理解自然语言查询问题与表格信息?Google Research给出了一个改进版Transformer,一起来看看吧!表格以结构化方式存储信息,广泛地存在于web世界中。表格最为常见的一种用法就是人们查询其中…

论文浅尝 | 用于视觉推理的显式知识集成

论文笔记整理:刘克欣,天津大学硕士链接:https://openaccess.thecvf.com/content/CVPR2021/papers/Zhang_Explicit_Knowledge_Incorporation_for_Visual_Reasoning_CVPR_2021_paper.pdf动机现有的可解释的和显式的视觉推理方法仅执行基于视觉证…