论文浅尝 | ERNIE-ViL:从场景图中获取结构化知识来学习视觉语言联合表示

1f9fd805455db1131e8a7b51d4019ff2.png

笔记整理:朱珈徵,天津大学硕士

链接:https://www.aaai.org/AAAI21Papers/AAAI-6208.YuFei.pdf

动机

现有的视觉语言预训练方法试图通过在大的图像文本数据集上的视觉基础任务来学习联合表示,包括基于随机掩码子词的掩码语言建模、掩码区域预测和图像/文本级别的图像-文本匹配。然而,基于随机掩蔽和预测子词,目前的模型没有区分普通词和描述详细语义的词。这些方法忽略了构建跨视觉和语言的详细语义对齐的重要性,因此训练的模型不能很好地表示真实场景所需的细粒度语义。因此,作者提出了一种知识增强的方法ERNIE-ViL,该方法结合从场景图中获取的结构化知识来学习视觉语言的联合表示。ERNIE-ViL试图跨视觉和语言构建详细的语义连接(对象、对象的属性和对象之间的关系),这对视觉-语言跨模态任务至关重要。利用视觉场景的场景图,ERNIE-ViL在预训练阶段构建场景图预测任务,即对象预测、属性预测和关系预测任务。具体来说,这些预测任务是通过预测句子解析的场景图中不同类型的节点来实现的。因此。ERNIE-ViL可学习描述视觉和语言中详细语义对齐的联合表示法。通过对大规模的图像文本对齐数据集进行预训练,验证了ERNIE-ViL算法在5个跨模态下游任务中的有效性。

亮点

ERNIE-ViL的亮点主要包括:

1.首次探索了场景图模式下,引入结构化知识来加强视觉语言预训练的工作,以获得更好的视觉语言联合表示描述跨模式的详细语义对齐;2.ERNIE-ViL在视觉-语言联合表示的预训练过程中构建场景图预测任务,重点关注跨模态的详细语义对齐。

概念及模型

ERNIE-ViL内部主要有两个主要模块:ERNIE-ViL模型架构和新的场景图预测任务。模型的目标是学习结合了两种模态的信息和模态之间的对齐的联合表示。如下图所示,根据从文本中解析出来的场景图,作者构造了相应的场景图预测任务,包括对象预测任务、属性预测任务和关系预测任务。这些任务迫使ERNIE-ViL对不同模式的详细语义之间的相关性进行建模。

ERNIE-ViL模型具体由三部分构成:

•Sentence Embedding:采用与BERT相似的句子预处理方法,将每个子词token的原始词嵌入、段嵌入和序列位置嵌入相结合,生成子词token的最终嵌入。•Image Embedding:对于图像,首先使用预训练的目标检测器从图像中检测出突出的图像区域。利用多类分类层之前的池化特征作为区域特征,并通过5维向量为区域位置和图像覆盖面积的比例编码每个区域的位置特征。然后将将位置向量投影成位置特征,再与区域视觉特征进行求和。•Vision-Language Encoder:评分预测。

方法整体框架如下:

fbd7b4fb0cadb088e884b537d9af1e49.png

场景图编码各种细粒度的语义信息。ERNIE-ViL利用从场景图中获取的结构化知识,学习跨模态的详细语义对齐。如图所示,根据从文本中解析出来的场景图,构造了相应的场景图预测任务,包括对象预测任务、属性预测任务和关系预测任务。这些任务迫使ERNIE-ViL对不同模式的详细语义之间的相关性进行建模。例如,当关系词“on top of”被掩码时,根据语言上下文,模型可能会预测缺失的词是“under”或“into”。这些词在句子中语法流畅,但与“猫在汽车顶上”的场景不一致。该模型通过训练Relationship Prediction任务,从图像中获得对应对象(“car”、“cat”)的空间关系,从而能够准确预测缺失的单词是“on top of”。通过构建场景图预测任务。ERNIE-ViL学习跨模态的详细语义对齐。

•场景图解析

给定文本句子w,我们将其解析为一个场景图。场景图通过各种关联属性和对象之间的关系更详细地描述对象。因此,集成场景图的知识有助于学习更细粒度的视觉语言联合表示。本文采用Anderson提供的场景图解析器将文本解析为场景图。为了更直观地理解,我们从下表中的文本中举例说明已解析场景图的一个具体案例。

335d9f7e26a5dcd4e41902d911eebbd8.png

•对象预测

对象是视觉场景的主导元素,在构建语义信息表示中起着重要的作用。预测对象迫使模型在对象级建立视觉语言连接。对于对象预测,ERNIE-ViL将基于他们周围的单词w和所有图像区域v,通过最小化负对数似然,恢复这些被掩码的对象标记 w_{oi}:

28ecf77d59005e0f6b32faf043f0b977.png

•属性预测

属性描述了视觉对象的特定信息,如颜色或形状。因此,对象在更细粒度的层次上代表了视觉场景中的详细信息。给定宾语词 w_o,在属性对<w_{oi}, w_{ai}>中,属性预测是为了恢复属性对的掩码符号w_{ai}。属性预测基于对象标记w_{oi}、其他周边单词w和所有图像区域v,使负对数似然最小化:

cd9339225935f1d9a03798bdadb3b058.png

•关系预测

关系预测关系描述了视觉场景中物体之间的动作(语义)或相对位置(几何),有助于区分物体相同但关系不同的场景。因此,ERNIE-ViL构建了关系预测任务来学习跨模态关系连接。具体来说,给定对象,Woi在关系三元组中,该任务恢复被掩码关系令牌,预测每个被掩码关系令牌的概率。因此,预测的上下文是给定的对象标记,从文本和所有图像区域的其他周围的单词v。这项任务的损失是:

eb9bcfd819f90e352d9c34e1f4b3d60a.png

理论分析

实验

作者首先采用了2个公开数据集进行预训练,分别是:Conceptual Captions (CC)、SBU Captions (SBU)。然后在视觉常识推理(VCR)、视觉问答(VQA)、RefCOCO+、图像检索和文本检索这五个下游任务上进行试验。

184ae1ae634d3ce480cfa7a54274fa95.png

实验将ERNIE-ViL与其他跨模态训练前模型进行比较,结果如上表所示。在同一数据集(CC和SBU)上预训练的方法上,ERNIE-ViL在所有5个下游任务中获得最佳性能。在视觉推理任务中,ERNIE-ViL-large比VLBERT-large在VCR (O→AR)任务和VQA (test-std)任务上分别提高了6.60%和1.74%。在视觉任务上,ERNIE-ViL-large在RefCOCO+任务上的testA split和testB split都比VLBERT-large提高了2.40%。在跨模式检索任务中,没有大型模型在数据集上预训练的结果。与Unicoder-VL-base相比, ERNIE-ViLbase的图像检索在R@1上提高了2.94%,文本检索在R@1上提高了0.50%。

为了验证场景图预测(SGP)任务的有效性,实验首先基于BERT初始化的文本参数进行ERNIE-ViL-base设置实验。如下表所示,在ERNIEViL中使用SGP任务进行预培训,可以显著改善所有下游任务。特别是ground refer Expressions和Retrieval任务,这些任务需要理解详细的语义对齐,SGP任务在RefCOCO+上的准确率提高了0.69%,在Flickr30K上的图像检索准确率提高了2.22%。注意,从ERNIE 2.0初始化的文本参数可以导致对所有任务的进一步改进,以及对VCR任务的相对较大的改进。作者认为通过对各种训练前任务的持续学习2.0学习了更多对VCR工作有帮助的常识知识。

308d8e62baebd17ce3c89b9ca3ca4017.png

总结

万丈提出ERNIE-ViL来学习视觉和语言的联合表征。在传统的MLM跨模态预训练的基础上,作者引入了场景图预测任务来描述跨模态的详细语义对齐。在各种下游任务上的实验结果表明,在跨模态预训练过程中,结合从场景图中获得的结构化知识的改进。在未来的工作中,从图像中提取的场景图也可以纳入到跨模态预训练中。此外,还可以考虑集成更结构化知识的图神经网络。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

05d72472e7b24eda31e5dcdbb5a27280.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478027.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 222. 完全二叉树的节点个数(二分查找)

1. 题目 给出一个完全二叉树&#xff0c;求出该树的节点个数。 说明&#xff1a; 完全二叉树的定义如下&#xff1a;在完全二叉树中&#xff0c;除了最底层节点可能没填满外&#xff0c;其余每层节点数都达到最大值&#xff0c;并且最下面一层的节点都集中在该层最左边的若干…

常见的统计分析方法汇总,指标对比分析、时间序列预测

常见的八种统计分析法如下&#xff1a; 指标对比分析法分组分析法时间数列及动态分析法指数分析法平衡分析法综合评价分析景气分析预测分析 1 比较分析法## 一、指标对比分析法指标对比分析法&#xff0c;又称比较分析法&#xff0c;是统计分析中最常用的方法。是通过有关的指…

这三个NLP项目写进简历,网申通过率提高50%

01三大企业级项目项目一京东智能对话系统项目项目简介&#xff1a;智能客服机器人已经成为了客服系统的重要组成部分&#xff0c;帮助人工客服提升工作效率&#xff0c;为企业降低人工成本。作为智能客服的行业先驱&#xff0c;京东多年来致力打造全链路的客服机器人&#xff0…

论文浅尝 | MulDE:面向低维知识图嵌入的多教师知识蒸馏

笔记整理&#xff1a;朱渝珊&#xff0c;浙江大学在读博士&#xff0c;研究方向为快速知识图谱的表示学习&#xff0c;多模态知识图谱。Motivation为了更高的精度&#xff0c;现有的KGE方法都会采用较高的embedding维度&#xff0c;但是高维KGE需要巨大的训练成本和存储空间。现…

LeetCode 453. 最小移动次数使数组元素相等(数学)

1. 题目 给定一个长度为 n 的非空整数数组&#xff0c;找到让数组所有元素相等的最小移动次数。每次移动可以使 n - 1 个元素增加 1。 示例: 输入: [1,2,3]输出: 3 解释: 只需要3次移动&#xff08;注意每次移动会增加两个元素的值&#xff09;&#xff1a;[1,2,3] > [2…

性能优化模式

摘要 性能优化涉及面很广。一般而言&#xff0c;性能优化指降低响应时间和提高系统吞吐量两个方面&#xff0c;但在流量高峰时候&#xff0c;性能问题往往会表现为服务可用性下降&#xff0c;所以性能优化也可以包括提高服务可用性。在某些情况下&#xff0c;降低响应时间、提高…

征稿 | 国际KG大会 IJCKG 2021专辑征文

国际知识图谱联合会议&#xff08;International Joint Conference on Knowledge Graphs (IJCKG 2021, 与ACM/SIGAI联合办会&#xff09;今年将于12月6日-8日在线召开。Data Intelligence今年被EI数据库收录后&#xff0c;有幸成为大会推荐期刊&#xff0c;大会优秀论文将推荐在…

200字带你看完一本书,GPT-3已经会给长篇小说写摘要了

文 | 博雯源 | 量子位现在&#xff0c;AI能帮你200字看完一段12万词的长篇小说了&#xff01;比如这样一段121567词的《傲慢与偏见》原文&#xff1a;▲图源OpenAI官网AI分四个阶段来总结&#xff1a;先把原文总结成276个摘要&#xff08;24796词&#xff09;&#xff0c;然后进…

LeetCode 1252. 奇数值单元格的数目

1. 题目 给你一个 n 行 m 列的矩阵&#xff0c;最开始的时候&#xff0c;每个单元格中的值都是 0。 另有一个索引数组 indices&#xff0c;indices[i] [ri, ci] 中的 ri 和 ci 分别表示指定的行和列&#xff08;从 0 开始编号&#xff09;。 你需要将每对 [ri, ci] 指定的行…

Google Research新成果,让表格理解和检索更上一层楼!

文 | 舞风小兔编 | 智商掉了一地如何更好地理解自然语言查询问题与表格信息&#xff1f;Google Research给出了一个改进版Transformer&#xff0c;一起来看看吧&#xff01;表格以结构化方式存储信息&#xff0c;广泛地存在于web世界中。表格最为常见的一种用法就是人们查询其中…

论文浅尝 | 用于视觉推理的显式知识集成

论文笔记整理&#xff1a;刘克欣&#xff0c;天津大学硕士链接&#xff1a;https://openaccess.thecvf.com/content/CVPR2021/papers/Zhang_Explicit_Knowledge_Incorporation_for_Visual_Reasoning_CVPR_2021_paper.pdf动机现有的可解释的和显式的视觉推理方法仅执行基于视觉证…

美团O2O排序解决方案——线下篇

背景 针对美团90%的交易发生在移动端的业务特点&#xff0c;我们实现了一套适用于O2O业务的搜索排序技术方案&#xff0c;已在许多产品和子行业中得到应用。在之前的线上篇中&#xff0c;我们已经介绍了服务的框架、排序算法等。本文为线下篇&#xff0c;主要讲述数据清洗、特征…

LeetCode 401. 二进制手表

1. 题目 二进制手表顶部有 4 个 LED 代表小时&#xff08;0-11&#xff09;&#xff0c;底部的 6 个 LED 代表分钟&#xff08;0-59&#xff09;。 每个 LED 代表一个 0 或 1&#xff0c;最低位在右侧。 例如&#xff0c;上面的二进制手表读取 “3:25”。 给定一个非负整数 …

EMNLP'21 | 让压缩语言模型自动搜索最优结构!

文 | Cheney编 | 智商掉了一地既让模型跑得快又好&#xff0c;又要空间占用少&#xff0c;真的有这样效果爆表的操作存在吗&#xff1f;在当前疫情反复的情况下&#xff0c;大家平时出门用健康宝刷脸的频率变得越来越高。如果每次人脸识别都需要等很久的话&#xff0c;那也太让…

直播分享丨前沿技术讲习班:知识图谱前沿技术与应用(CIPS ATT27)

本文转载自公众号&#xff1a;智源社区助手。作为大数据时代重要的知识表示方式&#xff0c;知识图谱是人工智能领域构建和应用知识的新阶段&#xff0c;它能够更好地实现大规模数据的认知与推理。同时&#xff0c;知识图谱和深度学习相互协作&#xff0c;是实现具有强鲁棒性、…

美团O2O排序解决方案——线上篇

美团的愿景是连接消费者和商家&#xff0c;而搜索在其中起着非常重要的作用。随着业务的发展&#xff0c;美团的商家和团购数正在飞速增长。这一背景下&#xff0c;搜索排序的重要性显得更加突出&#xff1a;排序的优化能帮助用户更便捷地找到满足其需求的商家和团购&#xff0…

手把手教你模型选择,模型评估

数据来源是&#xff1a;头条新闻数据&#xff0c;经过处理之后的部分数据如下&#xff1a; 首先通过交叉验证&#xff0c;取选择模型&#xff1a; from sklearn.linear_model import LogisticRegression from sklearn.ensemble import RandomForestClassifier from sklearn.s…

LeetCode 1030. 距离顺序排列矩阵单元格(排序Lambda表达式BFS)

文章目录1. 题目2. 解题2.1 multimap2.2 Lambda 表达式排序2.3 BFS搜索1. 题目 给出 R 行 C 列的矩阵&#xff0c;其中的单元格的整数坐标为 (r, c)&#xff0c;满足 0 < r < R 且 0 < c < C。 另外&#xff0c;我们在该矩阵中给出了一个坐标为 (r0, c0) 的单元格…

干货 | 带你理解对比学习损失函数的性质以及温度系数的作用

文 | Feng源 | 对白的算法屋很多小伙伴都了解对比学习&#xff0c;但要说温度系数的作用可能就不太清楚了。卷友们好&#xff0c;我是对白。对比学习中的温度系数是一个神秘的参数&#xff0c;大部分论文都默认采用小的温度系数来进行自监督对比学习&#xff08;例如0.07&#…

论文浅尝 | Data Intelligence第4期正式上线啦

本文转载自公众号&#xff1a;数据智能英文刊各位关注DI期刊的专家学者和业界同仁&#xff1a;Data Intelligence第4期正式上线啦&#xff01;本期共出版2篇研究性论文&#xff0c;5篇数据论文&#xff0c;1篇实践类论文。点击每篇文章标题下方的二维码可直达论文全文页面。敬请…