论文浅尝 | 利用推理链进行视觉问题回答


论文笔记整理:吴杨,浙江大学计算机学院,知识图谱、NLP方向。



640?wx_fmt=png

http://papers.nips.cc/paper/7311-chain-of-reasoning-for-visual-question-answering.pdf


动机

   在视觉问题回答中,较为复杂的问题经常需要多步骤的推理才能够回答,比如说“What isplaced next to the bus on the right of the picture?”这样的问题,我们需要先根据(bus, on theright of, picture)这组关系找到bus on the right这个复合物体,然后继续去寻找next to [buson the right]这个物体最终来解决这个问题。而本文则提出了一个VQA的推理链(Chain of Reasoning, CoR),能够充分利用图片和问句的信息对复杂问题中的关系和复合物体的寻找,并取得了非常好的效果。本文的主要贡献在于:

  1. 提出了 VQA 推理链方法,能够动态的产生新的关系和复合物体以对问题进行推理

  2. 4 中主要的数据集上都产生了state-of-art的效果。

  3. CoR的中间过程产生的复合物体进行了可视化


方法

(1) 概述

640?wx_fmt=png

VQA 的一种通用解法是将图片和问题映射到同一个向量空间后使用element-wise 乘法或者 MLP 等等转化成分类问题。本文的过程也是这样。图片经过RCNN转化为m个初始物体的向量表示之后,我们将这些物体两两组合起来,就可以获得m*m个关系的向量表示,然后利用问题的embedding从这m*m个关系向量中,产生出新一轮的m个复合物体,这样一直循环下去最终得到问题的答案表示的那个复合物体。也就是说,本文和常规的想办法将问题解构成简单问题的思路不同,反而是将已有的可能是答案的物体进行组合,再用问题去挑选和进一步组合这些物体。

640?wx_fmt=png

(2) Data Embedding 部分:

  将问题通过GRU转化成为640?wx_fmt=png维度的向量。将图片通过RCNN转化为640?wx_fmt=png维度的向量,其中V中保存着m个初始物体的向量表示

640?wx_fmt=png

(3) CoR 部分:

  第一步:产生Attention和本轮输出: 

  将图片转成的向量V作为第一轮CoR的复合物体(橘黄色部分),将其向量映射到Ds维度,将问题向量映射到Dp维度,然后分别采用2个变换矩阵将他们映射到同一维度Df,并使用element-wise乘法乘起来产生mDf的向量(紫红色部分),上述过程重复K次,(Mutan方法)对得到的紫红色向量加到一起,经过MLP最终产生m维的attention(黑白灰3维部分)。总的来说,本步骤的目的是计算问题对复合物体的Attention。并准备产生m*m个关系embedding。最后,用这个Attention对复合物体进行操作就可以产生本轮的输出了。其中各部分的公式表示如下:

640?wx_fmt=png

 其中,PtSt表示初步把问题和复合物体转化到的embeddingFt表示将他们映射到同一维度并进行element-wise产生紫红色节点的部分。At表示获得的AttentionOt表示本轮的输出。

640?wx_fmt=png

   第二步:产生m*m个关系的embedding

   这一步中,我们首先将问题转化成为两个向量(黑白灰很长的向量),然后分别用该向量对m个复合物体进行element-wise相乘,并将第一个作为关系向量的m*1维行向量,第二个作为1*m维列向量,将这两个向量对应项相加合并成为m*m维向量作为关系向量(金黄色的部分)。涉及的公式如下:

640?wx_fmt=png

  其中Gl为第一个问题向量,Gr为第二个问题向量,Rij为最终的m*m维关系向量。             

  第三步:产生新的m个复合物体embedding

  利用第一步得到的Attention,对产生的m*m维关系向量进行操作得到新的m个复合物体(这里论文原本打算直接保留m*m个向量送到下一轮,但是这样会导致复杂度成指数级上升)涉及到的公式为:

640?wx_fmt=png

(4) 决策部分:

  对于CoR部分产生的T个输出向量Ot,我们将之连接起来成为新的长向量,再将之和问题映射到同一维度,进行Element-wise乘法,最后经过矩阵变换+softmax成为最终每个类别的概率。涉及的公式如下:

640?wx_fmt=png

 这里的O*表示长向量,H表示Element-Wise得到的向量,a表示最终的概率向量。

(4) 训练部分:

  训练的时候,主要是确定训练集的概率向量。如果对于一个Q对应一个A的训练集,显然我们取A那一维度的值为1,其它都取0即可。但VQA数据集的答案是由多个人标记的。标记的结果可能不同。因此需要平均一下:

640?wx_fmt=png

  对于最终的loss我们用K-L散度计算:

640?wx_fmt=png

实验

(1) 在各数据集上取得的成果:

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

从上表中可以看出,在几乎所有的数据集上,模型都有提升,有些问题类型的提升不是很明显,但在ColorNum这两类问题的提升较大,有将近6个百分点。

(2) 可视化:

  这一部分中,本文对CoR过程中产生的复合物体进行了可视化,可视化的方法是遍历1105904×36个方框,并对方框中图片的内容计算其与复合物体的相似度。其中红色方框和蓝色方框分别是Attention中权重最大的两个复合物体

640?wx_fmt=png

其中前三个问题都得到了很好的回答,而且复合物体寻找也是正确的,最后一个判断错误的原因可能是因为该问题太复杂,而CoR的跳数在本文中取了3跳。可能无法解决该问题。

总结

本文提出了VQA系统中利用推理链CoR解决多跳推理问题的方法,通过将图片中的物体进行多步的组合形成复杂的物体,并利用问题对这些物体进行选择和重新组合,最终取得答案需要的那些物体从而解决问题的方法。

 



OpenKG


开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479980.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿里P8架构师谈:数据库、JVM、缓存、SQL等性能调优方法和原则

编辑 性能优化基本是BAT等一线互联网公司程序员必备的技能,以下为大家完整揭晓性能完整的优化方案和方法:包含web网站调优、数据库、JVM调优、架构调优等方案。 第一:Web网站调优 1、尽可能减少HTTP请求:图片合并 (cs…

知乎招聘搜索算法实习生!邀你共建知乎搜索引擎!

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术部门介绍搜索算法团队是知乎核心算法团队之一,负责知乎搜索框背后的各项算法工作。我们团队一直非常重视新技术在搜索场景的探索和落地,包括但不限于 NLP,排序,…

论文浅尝 | 主题感知的问答生成

Citation: XingC, Wu W, Wu Y, et al. Topic aware neural response generation[C]//Thirty-FirstAAAI Conference on Artificial Intelligence. 2017.动机人机对话在 AI 和 NLP 领域是一项具有挑战性的工作。现存的对话系统包括任务导向的对话系统和非任务导向的聊天机器人。在…

.halo勒索病毒解密方法|勒索病毒解决|勒索病毒恢复|数据库修复

尊敬的读者: 网络安全是当今数字时代的一大挑战,各种勒索病毒如.halo病毒层出不穷,对用户和企业的数据安全构成了严重威胁。本文将介绍.halo勒索病毒,以及如何恢复被其加密的数据文件,同时提供预防措施。在面对被勒索…

阿里P8架构师谈:多线程、架构、异步消息、Redis等性能优化策略

常见性能优化策略分类 1.代码 之所以把代码放到第一位,是因为这一点最容易引起技术人员的忽视。很多技术人员拿到一个性能优化的需求以后,言必称缓存、异步、JVM等。实际上,第一步就应该是分析相关的代码,找出相应的瓶颈&#xf…

周志华教授专著《集成学习:基础与算法》上市,豆瓣满分森林书破解AI实践难题...

近年来,机器学习技术的快速发展推动了语音、自然语言处理、机器视觉等多个领域获得巨大进步,也带动了人工智能相关产业的蓬勃发展。回顾机器学习最近30 年的发展历程,各种学习方法推陈出新、不断演进。但是,在此历程中&#xff0c…

Redis常用数据类型的数据结构

文章目录1. Redis 数据库介绍2. 列表(list)3. 字典(hash)4. 集合(set)5. 有序集合(sortedset)6. 数据结构持久化7. 总结1. Redis 数据库介绍 Redis 是一种键值( Key-Val…

论文浅尝 | 使用循环神经网络的联合事件抽取

余博涛,南京大学计算机科学与技术系,硕士研究生论文连接:http://www.aclweb.org/anthology/N16-1034发表会议:NAACL-HLT 2016摘要事件抽取(event extraction)是信息抽取中一个特别具有挑战性的问题。针对该…

阿里P8架构师谈:Web前端、应用服务器、数据库SQL等性能优化总结

web前端性能优化 Web前端指网站业务逻辑之前的部分,包括: 1.浏览器加载 2.网站视图模型 3.图片服务 4.CDN服务等 主要优化手段有优化浏览器访问,使用反向代理,CDN等。 1.浏览器访问优化 (1)减少http…

动手做个DialoGPT:生成式多轮对话模型

文 | 苏剑林编 | 兔子酱前段时间刷Arixv的时候,发现清华大学开源了一个大规模的中文闲聊语料库LCCC,从开源的文件上来看,这可能是目前开源的数量最大、质量最好的闲聊语料库了,而且还包含了部分多轮对话聊天,总的来说可…

搜索引擎背后的数据结构和算法

文章目录1. 整体系统介绍2. 搜集2.1 待爬取网页链接文件:links.bin2.2 网页判重文件:bloom_filter.bin2.3 原始网页存储文件:doc_raw.bin2.4 网页链接及其编号的对应文件:doc_id.bin3. 分析3.1 抽取网页文本信息3.2 分词并创建临时…

论文浅尝 | DKN: 面向新闻推荐的深度知识感知网络

笔记整理:仲亮靓,东南大学硕士研究生,研究方向是基于知识图谱的推荐系统动机新闻文本的语言非常凝练,其中包含了很多实体和常识知识。但目前的新闻个性化推荐方法都没有利用这些外部知识,也没有使用新闻之间潜在的知识…

聊聊工业界做机器学习的里程碑

文 | 吴海波编 | YY阅读说明,本文的机器学习领域限制于互联网搜索、推荐、广告场景,仅限于个人观点。2017年,我和团队的几个核心去了趟北京,找了各大互联网公司一线实战的同学,交流各自在机器学习上的经验。这次交流让…

直通BAT JVM必考题:Minor GC、Major GC、Full GC的区别

Java面试过程,JVM属于必考题系列: 直通BAT必考题系列:深入详解JVM内存模型与JVM参数详细配置 直通BAT必考题系列:JVM的4种垃圾回收算法、垃圾回收机制与总结 直通BAT必考题系列:7种JVM垃圾收集器特点,优…

matplotlib绘制多张图、多子图、多例图

绘制多图 关键: fig plt.figure(1) 表示新建第几个图 import matplotlib.pyplot as pltfig plt.figure(1) plt_rec_loss [1,2,3,4,5,6] plt_rec_recall [4,3,6,5,8,9] plt.xlabel("epoch") plt.ylabel("loss") plt.plot(range(len(plt_re…

jieba分词并做分析

Github:结巴分词地址 https://github.com/fxsjy/jieba 几种分词方法的简单使用:一 . jieba安装、示例 pip install jieba,jieba分词的语料是基于人民日报。分词示例1 import jieba 2 3 str1 江州市长江大桥 4 word_object jieba.cut(s…

研讨会 | CCF TF 第 17 期:认知计算产业化落地

CCF TF 技术前线只为技术专家CCFTF第17期主题 认知计算产业化落地2019年05月11日上海斯波特酒店五楼(上海市南丹路15号,徐汇区政府对面)人类迈入人工智能时代,技术的发展使得机器可以从大数据中提取信息,串联成知识&a…

短网址系统

文章目录1. 短网址服务整体介绍2. 如何通过哈希算法生成短网址?2.1 如何让短网址更短2.2 如何解决哈希冲突?2.3 如何优化哈希算法生成短网址的性能?3. 如何通过ID生成器生成短网址?3.1 相同的原始网址可能会对应不同的短网址3.2 如…

一个神经元的价值和一个神经病的坚持

作者 | 周博磊来源 | 机器之心一个神经元能够催生多少故事?香港中文大学信息工程系助理教授周博磊近日撰文介绍了他自 2015 年开始至今对神经元的研究经历。最近,他与 David Bau、朱俊彦等人合作的神经元研究论文发表在了 PNAS 杂志上。以下是周博磊的原…

直通BAT必考题系列:深入剖析JVM之G1收集器、及回收流程、与推荐用例

金三银四马上到了,即将进入面试的高峰期。在BAT面试中,JVM基本都是必考的系列。你至少需要掌握JVM内存模型与JVM参数详细配置,JVM的4种垃圾回收算法、垃圾回收机制与总结,以及今天重点谈到的JVM垃圾回收算法的实现:JVM…