论文浅尝 | 面向视觉常识推理的层次语义增强方向图网络

fceea4ca575f64618b5ec93168d605da.png

论文笔记整理:刘克欣,天津大学硕士

链接:https://dl.acm.org/doi/abs/10.1145/3475731.3484957

动机

视觉常识推理(VCR)任务旨在促进认知水平相关推理的研究。现有的方法仅考虑了区域-词的相似性来实现视觉和语言域之间的语义对齐,忽略了视觉概念和语言词之间的隐式对应(如词-场景、区域-短语和短语-场景)。文章提出了一种层次语义增强方向图网络,设计了一个模态交互单元(MIU)模块,通过聚合层次视觉-语言关系来捕获高阶跨模态对齐。

亮点

文章的亮点主要包括:

1.提出了一种新颖的层次语义增强方向图网络(Hierarchical Semantic Enhanced Directional Graph Network, HSDGN)用于视觉常识推理任务,该网络能够捕获不同模式间的高阶相关性,并执行清晰的推理过程。;2.提出了一个HSF层,通过探索视觉概念和语言词之间的层次语义对应,更准确地捕捉跨模态语义对齐;3.设计了一个DCGR模块,该模块可以在每个推理步骤中根据实体的重要性动态选择有价值的实体,从而使推理过程更具可解释性。

概念及模型

文章提出的HSDGN包括三个部分:

•图像和文本嵌入模块:使用自上而下的注意力提取图像的区域级特征,是以哦那个预训练的BERT提取文本的单词级特征。•模态交互单元(Modality Interaction Unit, MIU)模块:包括模态内上下文建模层和层次语义融合(Hierarchical Semantic Fusion, HSF)层。通过聚合层次视觉-语言关系来捕获高阶跨模态对齐。•方向线索感知图推理(Direction Clue-aware Graph Reasoning , DCGR)模块:利用激活信号帮助执行有向图推理,然后利用异构图注意聚合演化的图表示以获得最终结果。

模型整体框架如下:

2940c146812726ee17ce7f526f360533.png

•图像和文本嵌入模块 对于每张图片,文章使用Faster-RCNN提取了N(N=36)个区域,表示为R={r_1,r_1,…,r_N},然后使用全连接层学习每个区域的特征表示:969f18ac9cfc0711e3168f23ca333b3d.png

其中W和B是参数。同时,文章为图像区域编码了位置特征:

07b61bbe672c7bfa3d34022f09029f0a.png

其中(p_i ) ̃是i区域的位置,W和B是参数,σ是激活函数。最终的视觉表示为:

c663e56412a35c7fd86b581f2b13d919.png

对于文本,文章使用预先训练的BERT来提取上下文增强的词级嵌入,表示为E={e_1,e_1,…,e_B}。然后使用全连接层学习最终的文本表示:

b170af86c5e2c15d3cb9e8acddc51f67.png

•模态交互单元 模态交互单元(MIU)由模态内上下文建模层和分层语义融合层组成。文章堆叠MIU 来捕获足够的上下文注意流,用于通道内和通道间的交互。

模态内上下文建模. 使用自注意力机制来建模模态内的上下文:

ead6b5dc79ae178baa9d5dd8fca84af4.png

层次语义融合. 层次语义融合(HSF)层旨在获取词-场景、区域-短语和短语-场景的层次语义,以实现更有区别的视觉和语言对齐。

5b1d85373ce3ca8a5f051524d9b991ae.png

首先计算每个图像区域和每个词之间的注意力分布:

512beb1d8a4294c70863905832d6f305.png

在获得每个区域-词对之间的关系后,文章在亲和矩阵上使用三种类型的卷积核并行捕获层次语义关联。具体来说,使用1×K的卷积核捕捉词和场景(K个区域)之间的关系,使用K×1的卷积核捕捉短语(K个词)和区域的关系,使用K×K的卷积核捕捉短语(K个词)和场景(K个区域)的关系。之后,再采用ReLU函数进行激活,然后在每个通道中使用1×1的卷积核。计算公式如下:

e311955ca7e67be5a8f155af9531b955.png

然后对多层级的关系进行融合:

705fef44febb62606e49b89095642f1e.png

然后,利用层次语义重构文本值矩阵,公式如下:

f92469f33e56fdab1ee867dc0243b0d8.png

其中 代表矩阵乘法。类似的,图像到文本的注意力可以更新如下:

9affe50e57f502cb595db83eac68a87a.png

C1, C2, C3分别代表区域-短语,词-区域和短语-场景的层次语义。然后,利用层次语义关系重构视觉值矩阵:

87c3e73e704b8060e043648e96e6364e.png

其中 代表矩阵乘法。

•方向线索感知图推理 方向线索感知图推理模块基于上述MIU模块输出的具有区别性的视觉与一特征进行有向图推理。主要包括三部分内容:(1)图构建,即利用视觉概念和语言词汇构建异构图。(2)激活信号与推理。激活信号赋予模型在每个推理步骤中动态选择有价值实体的能力。(3)异构图注意,用于聚合演化的图以获得最终答案。

图构建. 文章使用不包含文本上下文的区域表示构件图。给定视觉嵌入V={v_1,v_1,…,v_N}和文本嵌入T={t_1,t_1,…,t_N},上下文区域表示为:

7009bb139942d5d276bbe332d7306af6.png

然后拼接视觉嵌入和上下文区域表示作为图的节点:

3a6989ca947f9f5c757446b56a9824c1.png

其中,|| 表示拼接操作。

激活符号和推理. 推理模块动态的选择有价值的实体。具体的,利用实体的重要性来修正不同推理步骤的边权值。

f43b4545ab68ce55786bee6b907f1868.png

异构图注意力. 文章设计了一种基于文本的注意力机制,以获取图嵌入作为增强的视觉特征。

3373ec963db091d7e1213478c26fd700.png

131a69975e3eec9874b8568168a55529.png

理论分析

实验

作者在公开数据集VCR上进行了实验。首先是对比实验,模型的评价指标为准确率。

fec74a6af768d93ca0c9f896a96abb0c.png

文章所提的方法在VCR验证数据集上获得了54.4%的总体准确性,优于最先进的神经模块模型。

此外,文章进行了消融实验以验证模型各个模块的有效性。

同时,作者在VQAv2验证数据集上将所提的KI-Net与最先进的场景图生成模型GB-Net进行了比较。

f00e904826c40ccbc256ffc60b9232a4.png

实验结果验证了MIU模块,DCGR模块以及两个模块中的子部分的有效性。其中MIU模块中的ICM对整个结果的预测最为重要。

同时,文章实验了模型中参数的敏感性:

20f91b9f8b020e71776ef7b884b15734.png

总结

文章提出了一种视觉常识推理模型HSDGN。具体地说,将模态交互单元和方向线索感知图推理整合到一个统一的框架中。根据区域和词之间丰富的相关性,设计了分层语义融合层,实高阶视觉语言对齐。此外,文章引入了一个方向线索感知的图推理模块,使最终答案的推理过程具有可解释性。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

e0f3b488daba8201cba621153b1a6527.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477937.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

分类问题后处理技巧CAN,近乎零成本获取效果提升

文 | 苏剑林编 | 智商掉了一地单位 | 追一科技思想朴素却不平凡的分类问题后处理技巧,浅显易懂的讲解,拿来吧你!顾名思义,本文将会介绍一种用于分类问题的后处理技巧——CAN(Classification with Alternating Normaliz…

LeetCode 840. 矩阵中的幻方(数学)

1. 题目 3 x 3 的幻方是一个填充有从 1 到 9 的不同数字的 3 x 3 矩阵,其中每行,每列以及两条对角线上的各数之和都相等。 给定一个由整数组成的 grid,其中有多少个 3 3 的 “幻方” 子矩阵?(每个子矩阵都是连续的&…

Docker系列之一:入门介绍

Docker简介 Docker是DotCloud开源的、可以将任何应用包装在Linux container中运行的工具。2013年3月发布首个版本,当前最新版本为1.3。Docker基于Go语言开发,代码托管在Github上,目前超过10000次commit。基于Docker的沙箱环境可以实现轻型隔离…

论文浅尝 | 动态知识图谱对齐

论文笔记整理:谭亦鸣,东南大学博士生来源:AAAI‘21链接:https://ojs.aaai.org/index.php/AAAI/article/view/16585概述本文提出了一种动态图谱(KG)对齐方法,在“动态”(即图谱可能随时间更新)的…

你的 GNN,可能 99% 的参数都是冗余的

文 | iven自从图卷积神经网络(GCN)面世以来,图神经网络(GNN)的热潮一瞬间席卷 NLP。似乎在一切 NLP 任务上,引入一个图结构,引入一个 GNN,就能让模型拥有推理能力。更重要的是&#…

LeetCode 874. 模拟行走机器人(set)

1. 题目 机器人在一个无限大小的网格上行走&#xff0c;从点 (0, 0) 处开始出发&#xff0c;面向北方。该机器人可以接收以下三种类型的命令&#xff1a; -2&#xff1a;向左转 90 度-1&#xff1a;向右转 90 度1 < x < 9&#xff1a;向前移动 x 个单位长度 在网格上有…

高级语言的编译:链接及装载过程介绍

引言 随着越来越多功能强大的高级语言的出现&#xff0c;在服务器计算能力不是瓶颈的条件下&#xff0c;很多同学会选择开发效率高&#xff0c;功能强大的虚拟机支持的高级语言&#xff08;Java&#xff09;&#xff0c;或者脚本语言&#xff08;Python&#xff0c;Php&#xf…

图谱实战 | 基于半结构化百科的电影KG构建、查询与推理实践记录

转载公众号 | 老刘说NLP本文围绕基于半结构化百科的电影知识图谱构建、查询与推理实践这一主题&#xff0c;完成基于百度百科的电影元组抽取、基于protg的电影本体构建、基于D2RQ的RDF数据转换与查询、基于Apache jena的电影知识推理四个环节的实践。这是半结构化知识图谱构建和…

推荐系统精排:看阿里妈妈再试线性模型

文 | 水哥源 | 知乎saying1.科学总是要求我们有深度&#xff0c;但在实际业务中这却是一条悖论&#xff1a;越有深度的事情往往投入产出比不够高2.当我有一个方法A&#xff0c;还有一个方法B。且B的某种简单形式就是A的时候&#xff0c;我就会很快乐&#xff0c;因为这时候B获取…

LeetCode 686. 重复叠加字符串匹配

1.题目 给定两个字符串 A 和 B, 寻找重复叠加字符串A的最小次数&#xff0c;使得字符串B成为叠加后的字符串A的子串&#xff0c;如果不存在则返回 -1。 举个例子&#xff0c;A “abcd”&#xff0c;B “cdabcdab”。 答案为 3&#xff0c; 因为 A 重复叠加三遍后为 “abcd…

如何提升大规模Transformer的训练效果?Primer给出答案

文 | 舞风小兔编 | 智商掉了一地如何进一步提升大规模Transformer的训练效果&#xff1f;Primer给出了答案&#xff0c;一起来看看吧&#xff01;Transformer是深度学习界的明星模型。由于其具有高度的并行性&#xff0c;十分容易在并行计算系统中扩展至超大规模。自然语言处理…

会议交流|大模型与图学习等知识图谱相关技术实践探索

2021年&#xff0c;在疫情隔离和复杂国际形势的背景下&#xff0c;我们越发认识到重视核心基础技术&#xff0c;对保持国家独立自主发展的关键价值&#xff0c;互联网和科技行业也面临着新的挑战和变革机遇&#xff0c;新的AI技术正发挥越来越大的作用&#xff0c;AI技术本身正…

Kafka文件存储机制那些事

Kafka是什么 Kafka是最初由Linkedin公司开发&#xff0c;是一个分布式、分区的、多副本的、多订阅者&#xff0c;基于zookeeper协调的分布式日志系统(也可以当做MQ系统)&#xff0c;常见可以用于web/nginx日志、访问日志&#xff0c;消息服务等等&#xff0c;Linkedin于2010年贡…

LeetCode 392. 判断子序列(双指针二分查找)

1. 题目 给定字符串 s 和 t &#xff0c;判断 s 是否为 t 的子序列。 你可以认为 s 和 t 中仅包含英文小写字母。字符串 t 可能会很长&#xff08;长度 ~ 500,000&#xff09;&#xff0c;而 s 是个短字符串&#xff08;长度 <100&#xff09;。 字符串的一个子序列是原始…

仅仅因为方法 Too Simple 就被拒稿,合理吗?

文 | 小戏编 | 小轶如果你看到自己实验行之有效的论文被退稿&#xff0c;而收到的退稿理由仅仅是“方法太简单”&#xff0c;你会怎么想&#xff1f;这两天在推特上&#xff0c;佐治亚理工的 Riedl 教授吐槽了自己收到的 AAAI phase 1 退稿理由居然是因为“这方法似乎太简单”&…

论文浅尝 | 从具有数值边缘属性的知识图谱中学习嵌入

论文笔记整理&#xff1a;朱珈徵&#xff0c;天津大学硕士链接&#xff1a;https://www.ijcai.org/proceedings/2021/0395.pdf动机从遗传数据到社会网络&#xff0c;在越来越多的场景下与知识图谱边缘相关的数值已经被用来表示不确定性、边的重要性&#xff0c;甚至是带外知识。…

LeetCode 459. 重复的子字符串(数学)

1. 题目 给定一个非空的字符串&#xff0c;判断它是否可以由它的一个子串重复多次构成。给定的字符串只含有小写英文字母&#xff0c;并且长度不超过10000。 示例 1: 输入: "abab" 输出: True 解释: 可由子字符串 "ab" 重复两次构成。示例 2: 输入: &quo…

被放养导致申博论文难产,该不该硬gang导师?

最近一位粉丝给我发长文求助&#xff0c;说他因为申博论文的事情快崩溃了&#xff0c;让我给点建议。我把经过贴在这里跟大家探讨一下&#xff1a;985专硕一枚&#xff0c;CV方向&#xff0c;最近想申请国外博士&#xff0c;快被论文逼疯了。提交了初稿&#xff0c;隔了一个月&…

会议交流 | 第十五届全国知识图谱与语义计算大会(CCKS 2021)12月25日线上召开...

勘误&#xff1a;张伟老师为华东师范大学紫江青年学者OpenKGOpenKG&#xff08;中文开放知识图谱&#xff09;旨在推动以中文为核心的知识图谱数据的开放、互联及众包&#xff0c;并促进知识图谱算法、工具及平台的开源开放。点击阅读原文&#xff0c;进入 CCKS 2021 网站。

美团性能分析框架和性能监控平台

以下是我在 Velocity China 2014 做的题为“美团性能分析框架和性能监控平台”演讲的主要内容&#xff0c;现在以图文的形式分享给大家。 今天讲什么&#xff1f; 性能的重要性不言而喻&#xff0c;需要申明的是&#xff0c;我们今天不讲业界最佳性能实践&#xff0c;这些实践已…