论文浅尝 | 用于视觉推理的显式知识集成

4eb9d1e75aaf62d43d7cf8c0fd365a73.png

论文笔记整理:刘克欣,天津大学硕士

链接:https://openaccess.thecvf.com/content/CVPR2021/papers/Zhang_Explicit_Knowledge_Incorporation_for_Visual_Reasoning_CVPR_2021_paper.pdf

动机

现有的可解释的和显式的视觉推理方法仅执行基于视觉证据的推理,而不考虑视觉场景之外的知识。为了解决视觉推理方法和真实世界图像语义复杂性之间的知识鸿沟,文章提出了第一个显式视觉推理方法,该方法结合了外部知识并对高阶关系注意进行建模,以提高视觉推理的泛化性和可解释性。

亮点

文章的亮点主要包括:

1.首次提出利用外部知识和神经模块来实现可泛化性和可解释性的显示视觉推理模型;2.设计了一个新颖的知识集成网络(Knowledge Incorporation Network, KINet),将外部知识作为额外的节点和边显式地集成到场景图中,为推理提供丰富的语义;3.设计了一个基于场景图拓扑和语义实现高阶关系关注的图相关(Graph-Relate)模块。

概念及模型

文章提出的方法利用场景图、外部知识和神经模块这三部分实现可解释的、显式视觉推理。首先通过显式地结合外部知识来创建丰富的场景图,然后执行由问题生成的神经模块程序。

文章的方法主要包括两部分:

•知识集成网络(Knowledge Incorporation Network , KI-Net):将外部知识图中的实体和谓词显式地合并到场景图中。•图关联(Graph-Relate, G-Relate)模块:基于强化的场景图学习高阶知识。

模型整体框架如下:

84541cada2eaf1bdd8f36c960225adbc.png

•知识集成网络

a56cc92f54dbf2a97e3d9b7da86780ed.png

知识集成网络将外部知识作为节点引入场景图中:首先,基于外部知识图的拓扑,执行拓扑扩展(topological extension),以将外部关系合并到场景图中(例如,上图中,通过显式地在场景图中添加shirt和helmet节点,增加了man-wearing-shirt和man-wearing-helmet)。然后,考虑视觉和语义特征,执行语义细化(semantic refinement)以选择性地丢弃与视觉相关性低的候选实体(例如上图中的shirt)。知识集成网络产生一个增强的场景图,允许神经模块对集成的语义进行显式推理。它由使用交叉熵损失的基本真实场景图注释来监督。拓扑扩展时,首先利用场景图和知识图谱中语义相同的节点e,在两个图谱之间搭建桥梁。用d(., .)表示两个节点之间的关系,则知识图谱中与节点e相邻的节点e’和边p’如果满足下式,就会被添加到场景图中:

6ccc0aebc1d1d367e487ea92679bfe09.png

语义细化时,文章计算一个相关性矩阵M来衡量不同实体之间的特征相关性。M中的元素mij的更新方式如下:

37cdfbb2c5848b73c39384b6370fa377.png

其中,hi和hj是图谱中两个相邻节点vi和vj的特征,N(vi)表示vi的邻域。

•神经模块推理

神经推理模块引入图关联(G-Relate)模块,通过计算非相邻图节点的注意力获取高阶关系。作者设计了三种类型的神经网络:注意力(attention)、逻辑(logic)和输出(output)。注意力在推理过程中计算不同图像内容(例如,图像特征或场景图节点)的相对重要性。基于注意模块,逻辑模块(也就是,And,Or和Not)基于注意权重执行逻辑操作,输出模块(也就是,Compare,Count,Exist,Choose,Describe和Verify)根据不同的问题类型计算输出特征。特定的神经模块及其实现如下表所示。

8403549eecc1e294a0ecfd92860593bd.png

这三类神经模块组成一个程序,对丰富的场景图进行推理。

其中的G-Relate模块可以在强化的场景图上推断高阶关系,因此注意可以通过关联路径被转换以到达远距离实体。给定注意a,G-Relate模块计算转换矩阵Wh以在场景图中传播注意。通过转换矩阵,图注意的更新方式为:

b61f5b639c54db99bd86a3b8c03c8269.png

其中norm(.)表示使用softmax函数对所有实体节点的注意权重进行规范化。实体ei和实体ej之间的转换权重wij的计算方式如下:

0b171d455a105f983464e3f233777a04.png

理论分析

实验

作者采用了2个公开数据集进行实验,分别是:GQA和VQAv2。首先是有效性实验,模型的评价指标为准确率。

08f1a105dfb572388e041abacad80cb0.png

文章所提的方法在GQA测试数据集上获得了64.21%的总体准确性,在VQAv2验证数据集上获得了67.32%的总体准确性,在两个数据集上都优于最先进的神经模块模型。

此外,文章中展示了定性实例以及帮助预测的从外部知识中集成的关键关系。在多源外部知识的帮助下,文章的方法对具有域外知识的问题更具普适性,对开放性问题(见下图a)和二元性问题(见下图b-d)的回答更具体、更正确。

4107ec8b40be5d17fb6f92197e9459cf.png

同时,作者在VQAv2验证数据集上将所提的KI-Net与最先进的场景图生成模型GB-Net进行了比较。

596a492042b7e93521c2d5a6d0c24a32.png

实验显示了相关实体和谓词的显式合并允许KI-Net在所有度量上生成更好的场景图。

为了证明KI-Net在包含多个知识源以生成丰富场景图方面的能力,文章比较了WordNet、ConceptNet、Visual Genome或所有三者的组合的有效性。

e4dbb2318dd170ea032dce9c9317ad73.png

实验表明,即使只有一个外部知识库,KI-Net也能显著提高场景图的质量。

总结

文章通过引入一种强调外部知识和高阶关系注意的显式集成的可解释和显式视觉推理方法来解决视觉推理的可概括性和可解释性。它由一个知识集成网络(KI-Net)和一个图关联(G-Relate)模块组成,知识集成网络显式地集成了新的实体和谓词来丰富场景图的语义,图关联(G-Relate)模块用来推断高阶关系。文章的方法可以回答关于真实世界图像的一般性问题,同时具有普遍性和可解释性。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

d41c3875bf34f8015ddef6b992d534da.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478014.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

美团O2O排序解决方案——线下篇

背景 针对美团90%的交易发生在移动端的业务特点,我们实现了一套适用于O2O业务的搜索排序技术方案,已在许多产品和子行业中得到应用。在之前的线上篇中,我们已经介绍了服务的框架、排序算法等。本文为线下篇,主要讲述数据清洗、特征…

LeetCode 401. 二进制手表

1. 题目 二进制手表顶部有 4 个 LED 代表小时(0-11),底部的 6 个 LED 代表分钟(0-59)。 每个 LED 代表一个 0 或 1,最低位在右侧。 例如,上面的二进制手表读取 “3:25”。 给定一个非负整数 …

EMNLP'21 | 让压缩语言模型自动搜索最优结构!

文 | Cheney编 | 智商掉了一地既让模型跑得快又好,又要空间占用少,真的有这样效果爆表的操作存在吗?在当前疫情反复的情况下,大家平时出门用健康宝刷脸的频率变得越来越高。如果每次人脸识别都需要等很久的话,那也太让…

直播分享丨前沿技术讲习班:知识图谱前沿技术与应用(CIPS ATT27)

本文转载自公众号:智源社区助手。作为大数据时代重要的知识表示方式,知识图谱是人工智能领域构建和应用知识的新阶段,它能够更好地实现大规模数据的认知与推理。同时,知识图谱和深度学习相互协作,是实现具有强鲁棒性、…

美团O2O排序解决方案——线上篇

美团的愿景是连接消费者和商家,而搜索在其中起着非常重要的作用。随着业务的发展,美团的商家和团购数正在飞速增长。这一背景下,搜索排序的重要性显得更加突出:排序的优化能帮助用户更便捷地找到满足其需求的商家和团购&#xff0…

手把手教你模型选择,模型评估

数据来源是:头条新闻数据,经过处理之后的部分数据如下: 首先通过交叉验证,取选择模型: from sklearn.linear_model import LogisticRegression from sklearn.ensemble import RandomForestClassifier from sklearn.s…

LeetCode 1030. 距离顺序排列矩阵单元格(排序Lambda表达式BFS)

文章目录1. 题目2. 解题2.1 multimap2.2 Lambda 表达式排序2.3 BFS搜索1. 题目 给出 R 行 C 列的矩阵&#xff0c;其中的单元格的整数坐标为 (r, c)&#xff0c;满足 0 < r < R 且 0 < c < C。 另外&#xff0c;我们在该矩阵中给出了一个坐标为 (r0, c0) 的单元格…

干货 | 带你理解对比学习损失函数的性质以及温度系数的作用

文 | Feng源 | 对白的算法屋很多小伙伴都了解对比学习&#xff0c;但要说温度系数的作用可能就不太清楚了。卷友们好&#xff0c;我是对白。对比学习中的温度系数是一个神秘的参数&#xff0c;大部分论文都默认采用小的温度系数来进行自监督对比学习&#xff08;例如0.07&#…

论文浅尝 | Data Intelligence第4期正式上线啦

本文转载自公众号&#xff1a;数据智能英文刊各位关注DI期刊的专家学者和业界同仁&#xff1a;Data Intelligence第4期正式上线啦&#xff01;本期共出版2篇研究性论文&#xff0c;5篇数据论文&#xff0c;1篇实践类论文。点击每篇文章标题下方的二维码可直达论文全文页面。敬请…

细说ReactiveCocoa的冷信号与热信号(三):怎么处理冷信号与热信号

第一篇文章中我们介绍了冷信号与热信号的概念&#xff0c;前一篇文章我们也讨论了为什么要区分冷信号与热信号&#xff0c;下面我会先为大家揭晓热信号的本质&#xff0c;再给出冷信号转换成热信号的方法。 揭示热信号的本质 在ReactiveCocoa中&#xff0c;究竟什么才是热信号呢…

LeetCode 1260. 二维网格迁移(二维转一维)

1. 题目 给你一个 n 行 m 列的二维网格 grid 和一个整数 k。你需要将 grid 迁移 k 次。 每次「迁移」操作将会引发下述活动&#xff1a; 位于 grid[i][j] 的元素将会移动到 grid[i][j 1]。 位于 grid[i][m - 1] 的元素将会移动到 grid[i 1][0]。 位于 grid[n - 1][m - 1] …

困惑度、主题一致性,lda模型找出主题相关词

困惑度perplexity&#xff1a;句子的概率的倒数。如果句子的概率越大&#xff0c;说明这句话越符合人话的规律&#xff0c;即p&#xff08;句子&#xff09;&#xff0c;pp困惑度越小。模型对该句子就越不困惑。 通俗一点解释下就是&#xff0c;困惑度表示的对于一篇文章来说…

patch成为了ALL You Need?挑战ViT、MLP-Mixer的简单模型来了

文 | 机器之心编辑部源 | 机器之心ViT&#xff08;Vision Transformer&#xff09;等视觉模型的强大性能&#xff0c;是来自于 Transformer&#xff0c;还是被忽略的 patch&#xff1f;有研究者提出了简单 ConvMixer 模型进行证明&#xff0c;直接将 patch 作为输入&#xff0c…

OpenKG开源系列 | 轻量级知识图谱抽取开源工具OpenUE

OpenKG地址&#xff1a;http://openkg.cn/tool/openueGitHub地址&#xff1a;https://github.com/openkg-org/openueGitee地址&#xff1a;https://gitee.com/openkg/openueOpenUE网站&#xff1a;http://openue.openkg.cn论文地址&#xff1a;https://aclanthology.org/2020.e…

通俗理解kaggle比赛大杀器xgboost

原文链接 通俗理解kaggle比赛大杀器xgboost 说明&#xff1a;若出现部分图片无法正常显示而影响阅读&#xff0c;请以此处的文章为准&#xff1a;xgboost 题库版。 时间&#xff1a;二零一九年三月二十五日。 0 前言 xgboost一直在竞赛江湖里被传为神器&#xff0c;比如时不时某…

LeetCode 690. 员工的重要性(图的DFSBFS)

文章目录1. 题目2. 解题2.1 DFS2.2 BFS1. 题目 给定一个保存员工信息的数据结构&#xff0c;它包含了员工唯一的id&#xff0c;重要度 和 直系下属的id。 比如&#xff0c;员工1是员工2的领导&#xff0c;员工2是员工3的领导。他们相应的重要度为15, 10, 5。那么员工1的数据结…

论文浅尝 | LGESQL: 结合线性有向图以及普通有向图的自然语言转换SQL语句模型...

LGESQL: Line Graph Enhanced Text-to-SQL Model with Mixed Local and Non-Local Relations笔记整理&#xff1a;郭心南来源&#xff1a;ACL2021链接&#xff1a;https://arxiv.org/abs/2106.01093Github地址&#xff1a;https://github.com/rhythmcao/text2sql-lgesql概述本文…

召回粗排精排-级联漏斗(上)

文 | 水哥源 | 知乎saying1. 把点击多的item曝光提升是推荐模型的基本能力&#xff0c;也是基本要求。后验不好的曝光提高也可能是好模型&#xff0c;后验好的曝光不提高&#xff0c;可以开除推荐模型了2. 在起量阶段&#xff0c;各路item需要争宠&#xff0c;谁能最快博取精排…

美团Android资源混淆保护实践

前言 Android应用中的APK安全性一直遭人诟病&#xff0c;市面上充斥着各种被破解或者汉化的应用&#xff0c;破解者可以非常简单的通过破解工具就能对一个APK进行反编译、破解、汉化等等&#xff0c;这样就可以修改原有代码的逻辑、添加新代码、添加或修改资源、或者更有甚者植…

搞不懂,为啥现在什么公司都在考算法???

昨天在知乎上刷到一个热门问题:程序员需要达到什么水平才能顺利拿到 20k 无压力&#xff1f;其中一个最热门的回答是&#xff1a;“其实&#xff0c;无论你是前端还是后端、想进大厂还是拿高薪&#xff0c;算法都一定很重要。”为什么&#xff0c;算法会如此重要&#xff1f;不…