BERT跨模态之后:占领了视觉常识推理任务榜单TOP 2!

星标/置顶小屋,带你解锁

最萌最前沿的NLP、搜索与推荐技术

文 | 小鹿鹿lulu

编 | YY


前言

由于 BERT-like 模型在 NLP 领域上的成功,研究者们开始尝试将其应用到更为复杂的 多模态 任务上。要求模型除文本数据以外,还要接收其他模态的数据(比如图像、声音等),在理解和关联多模态数据的基础上,完成更加复杂也更贴近实际的跨模态任务。

视觉常识推理 (Visual Commonsense Reasoning,VCR)[1]就是一个非常具有挑战性的多模态任务,需要在理解文本的基础上结合图片信息,基于常识进行推理。给定一张图片、图中一系列有标签的 bounding box,VCR 实际上是两个子任务:{Q->A} 根据问题选择答案;{QA->R} 根据问题和答案进行推理,解释为什么选择该答案。

例如,图片中三个朋友聚餐,一名服务员在上菜。Q: 为什么 person 4 指着 person 1?A: 为了告诉 person 3,person 1 点了烤薄饼。R: 之所以这么认为是因为 person 3 是服务员正在上菜,基于常识,服务员通常不知道每道菜是谁点的。

而 VCR 就是由十几万这样的“图片-问答”对组成的数据集,主要考察模型对跨模态的语义理解和常识推理能力。由于该任务非常具有挑战性,所以引来了很多的学术界工业界的大佬前来刷榜参赛[2],包括百度、微软、谷歌、Facebook、UCLA、佐治亚理工学院等等。现在榜单上 TOP2 模型分别为百度 ERNIE 团队的 ERNIE-ViL-large 和微软 D365 AI 团队的 ViLLA-large。下面就来分别看看这两个模型是如何登顶榜单,利用 BERT 跨界解决多模态问题~

论文链接

  • ERNIE-ViL
    https://arxiv.org/pdf/2006.16934.pdf

  • ViLLA
    https://arxiv.org/pdf/2006.06195.pdf

Arxiv 访问慢的小伙伴也可以在【夕小瑶的卖萌屋】订阅号后台回复关键词【0831】下载论文 PDF~

结合知识的 ERNIE-ViL

ERNIE-ViL 和其他 BERT 多模态模型类似,都是在 BERT 的基础上将输入类型和预训练任务从单一模态(text)扩展到多模态(text+video/image)。

  • 输入:模型除了接收文本 token embedding 以外,还要接收 image embedding。利用训练好的目标检测工具提取图像中感兴趣的核心部分 RoI(region-of-interest),将 well-pretrained 图像分类模型送入最后一层多分类前的 pooling feature 作为该 RoI 的 region feature,并结合 location feature, ,作为 image embedding。其中, 和  分别为 RoI 左下角和右上角的坐标, 为宽度, 为高度。

  • 预训练任务:将 BERT 经典的 MLM 和 NSP 预训练任务扩展到多模态场景。

    • 随机 mask text token(sub-words)和 image token(RoIs),并结合没被 mask 的 text 和 image 预测被 mask 的 token。

    • NSP 任务不再是判断两个文本句子是否连续,而是预测 text 和 image 是否 match。

更多关于 BERT 多模态的扩展细节可以阅读历史推文VL-BERT和videoBERT。

在这个经典的架构下,ERNIE-ViL 指出随机 mask sub-words 或者 RoIs 无法学习到细粒度的文本和图像的语义信息,比如理解文本和图像中涉及的对象(objects)、对象的属性(attributes)和对象间的关系(relationships)。所以,ERNIE-ViL 利用场景图(Scene Graph)加入结构化的知识,不再随机 mask 单独的 sub-words,而是 mask 更有信息的对象、属性和关系。 这一举措将 MLM 任务分化成了对象预测、属性预测、和关系预测,分而治之。

如上图所示,输入是图像和对应的文本“A woman in a blue dress is putting her little white cat on top of a brown car in front of her house”。对文本信息,利用已有的 Scene Graph Parser 工具解析出 Scene Graph Knowledge,其中绿色方框代表示对象、蓝色方框表示对象属性、橙色方框表示对象关系,将 Scene Graph Knowledge 中的元素随机 mask,结合同样被 mask 的 RoIs,预测被 mask 的 RoIs 和对象、对象属性和对象关系。

结合知识的 ERNIE-ViL 模型,不仅登顶 VCR,超过原来的 SOTA 3.7%,还在视觉问答任务(Visual Question Answering,VQA)、图像检索(Image Retrieval)和文本检索(Text Retrieval)上都有显著的提升。

对抗训练的 ViLLA

不同于 ERNIE-ViL 在 pre-train task 上下功夫,ViLLA(Vi-and-Language Large-scale Adversarial training)则是利用对抗训练(adverseral training)优化训练方法提高模型的泛化能力和鲁棒性。

在经典的两阶段训练(pre-training and fine-tuning)中,虽然 pre-training 阶段有大量的数据,但是在下游任务的 fine-tuning 中却通常只有少量的 labeled data,强有力的 fine-tuning 往往会导致模型在下游任务上迅速过拟合。 而对抗训练则是一种通过对样本增加扰动生成更混淆的对抗样本,来提高模型鲁棒性的非常有效的方法之一。那么对抗训练是否适用于 BERT-like 多模态模型的训练呢?

由于多模态模型的特殊性,需要同时接收离散的 text 和连续的 visual 两种类型的输入。所以和其他常见的对抗训练方法在 image pixel 或者 sub-word token level 上增加扰动不同,ViLLA 尝试对图像和文本的 feature embedding 增加扰动  并且模型一次只会对其中一种模态增加扰动,假设扰动后的 label 保持不变。

ViLLA 在 pre-training 和 fine-tuning 两个阶段都加入对抗训练,损失函数由三个部分组成:

(向右滑动查看完整公式)

其中, 为在不变的 clean data 上的 cross-entropy loss, 为 label-preserving 对抗训练损失, 为对抗正则项(adversairal regularization)。

(向右滑动查看完整公式)

在 min-max 的过程中,内部的 max 是为了找到范围内最佳扰动或者最强攻击,外部的 min 则是最小化最强攻击情况下的损失。 和  定义最强攻击的标准不同, 关注于能最大程度改变预测值与真实值之间误差的扰动, 则关注于能最让预测模型的分布与真实值分布区别最大的扰动。

ViLLA 使用了"Free" AT Strategy 来学习模型参数。"Free" AT Strategy 是综合训练效率和攻击精度的一种经典的对抗训练方法,属于对抗训练范畴这里就不详细介绍啦~感兴趣的同学可以阅读论文[3]了解更多细节~

将上述对抗训练方法和当时的 SOTA 模型 UNITER[4]就得到了 ViLLA 模型。在 VCR 任务上,ViLLA 相较于 UNITER-large 从 62.8%提升到 65.7%,2.9%的充分说明了对抗训练的有效性~

写在最后

ERINE-ViL 结合场景图加入知识让模型学习到更细粒度的跨模态的语义信息;ViLLA 利用对抗训练增加模型的鲁棒性,都是 BERT 在多模态领域中非常有意思的尝试。那么,对抗训练+ERINE-ViL 是否还可以进一步提升呢?????

多模态领域的研究还是非常可期的,期待更多突破性的研究工作~ 对多模态感兴趣的同学,可以扫描下方二维码加入 卖萌屋多模态讨论群,一起交流学习更多多模态领域的知识~

若二维码失效,可在微信公众号后台回复关键词【入群】获取进群入口。

参考文献

[1] VCR:
https://arxiv.org/abs/1811.10830
[2] VCR Leaderboard:
https://visualcommonsense.com/leaderboard/
[3] Free AT:
https://arxiv.org/pdf/1904.12843.pdf
[4] UNITER:
https://arxiv.org/abs/1909.11740

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480056.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

常见的算法面试问题以及代码实现

1 时间复杂度分析 一个简单的时间测试代码如下&#xff1a; #include<iostream> #include<cmath> #include<ctime>using namespace std;int main(){for(int x1;x<9;x){int npow(10,x);clock_t startTimeclock();int sum0;for(int i0;i<n;i)sumi;clock…

阿里P8架构师谈:高并发与多线程的关系、区别、高并发的技术方案

什么是高并发&#xff1f; 高并发&#xff08;High Concurrency&#xff09;是一种系统运行过程中遇到的一种“短时间内遇到大量操作请求”的情况&#xff0c;主要发生在web系统集中大量访问收到大量请求&#xff08;例如&#xff1a;12306的抢票情况&#xff1b;天猫双十一活动…

LeetCode 1. 两数之和(哈希)

文章目录1. 题目2. 解题1. 暴力解法2. 哈希法3. python3解答1. 题目 题目链接&#xff1a;https://leetcode-cn.com/problems/two-sum/ 给定一个整数数组 nums 和一个目标值 target&#xff0c;请你在该数组中找出和为目标值的那 两个 整数&#xff0c;并返回他们的数组下标。…

论文浅尝 | TuckER:基于张量分解的知识图谱补全

笔记整理&#xff1a;孙泽群&#xff0c;南京大学计算机科学与技术系&#xff0c;博士研究生。论文链接&#xff1a;https://arxiv.org/abs/1901.09590背景知识图谱是图结构的数据库&#xff0c;以三元组(es, r, eo)的形式存储事实&#xff0c;其中es和eo分别表示主语和宾语实体…

阿里Java P系列技术要求(P5-P7)

阿里p系列薪资&#xff08;最新数据比这个高1倍左右&#xff09; 阿里P5&#xff08;高级研发工程师&#xff09; 工作要求&#xff1a; 能独立完成日常工作&#xff0c;并能够对一些方案提出自己的建议。 基本考核就是能上手独立完成工作&#xff0c;熟练掌握。 技能要求…

如何配置一台深度学习工作站?

星标/置顶小屋&#xff0c;带你解锁最萌最前沿的NLP、搜索与推荐技术这篇文章主要介绍的是家用的深度学习工作站&#xff0c;典型的配置有两种&#xff0c;分别是一个 GPU 的机器和四个 GPU的机器。如果需要更多的 GPU 可以考虑配置两台四个 GPU 的机器。如果希望一台机器同时具…

LeetCode 2. 两数相加(单链表反转)

题目链接&#xff1a;https://leetcode-cn.com/problems/add-two-numbers/ 给出两个 非空 的链表用来表示两个非负的整数。其中&#xff0c;它们各自的位数是按照 逆序 的方式存储的&#xff0c;并且它们的每个节点只能存储 一位 数字。 如果&#xff0c;我们将这两个数相加起…

报名 | 全国知识图谱与语义计算大会(CCKS 2019)评测任务发布

全国知识图谱与语义计算大会是由中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议。CCKS 2018吸引了来自学术界和工业界的超800人参加。2019 年全国知识图谱和语义计算大会(www.ccks2019.cn) 将于2019年8月24日至8月27日在杭州召开&#xff0c;CCKS 2019的主题…

UML是什么?UML常用图以及建模工具有哪些?

“ 在做项目设计方案的时候&#xff0c;理解为需求后&#xff0c;我们都会做技术设计方案&#xff0c;这个时候就需要用到UML建模&#xff0c;涉及到UML常用图形以及工具画图&#xff0c;以下我会详细介绍UML图形和我个人推荐的UML建模工具。 UML即Unified Model Language&am…

炼丹必备!推荐一个超级好用的机器学习云平台

矩池云是一个专业的国内深度学习云平台&#xff0c;拥有着良好的深度学习云端训练体验&#xff0c;和高性价比的自建GPU集群资源。高性价比矩池云拥有很高的性价比&#xff0c;其的计费方式主要分为按时租与按周/月租。按时租用采用的是分钟级的实时计费模式&#xff0c;满足了…

直通BAT必考题系列:深入详解JVM内存模型与JVM参数详细配置

JVM基本是BAT面试必考的内容&#xff0c;今天我们先从JVM内存模型开启详解整个JVM系列&#xff0c;希望看完整个系列后&#xff0c;可以轻松通过BAT关于JVM的考核。 BAT必考JVM系列专题 1.JVM内存模型 2.JVM垃圾回收算法 3.JVM垃圾回收器 4.JVM参数详解 5.JVM性能调优 JV…

论文浅尝 | 基于平行新闻的Bootstrapping关系抽取

笔记整理&#xff1a;吴锐&#xff0c;东南大学大四本科生&#xff0c;研究方向为自然语言处理。Citation&#xff1a;Michael Glass, K. B. . (2012). Bootstrapping relation extraction using parallel news articles. Retrieved from https://pdfs.semanticscholar.org/bfa…

动态规划应用--最长递增子序列 LeetCode 300

文章目录1. 问题描述2. 解题思路2.1 动态规划2.2 二分查找1. 问题描述 有一个数字序列包含n个不同的数字&#xff0c;如何求出这个序列中的最长递增子序列长度&#xff1f;比如2&#xff0c;9&#xff0c;3&#xff0c;6&#xff0c;5&#xff0c;1&#xff0c;7这样一组数字序…

论文浅尝 | 5 篇顶会论文带你了解知识图谱最新研究进展

本文转载自公众号&#xff1a;PaperWeekly。精选 5 篇来自 ICLR 2019、WSDM 2019、EMNLP 2018、CIKM 2018和IJCAI 2018 的知识图谱相关工作&#xff0c;带你快速了解知识图谱领域最新研究进展。WSDM 2019■ 论文解读 | 张文&#xff0c;浙江大学在读博士&#xff0c;研究方向为…

LeetCode 53. 最大子序和(动态规划)

文章目录1. 题目描述2. 解题2.1 暴力求解2.2 动态规划1. 题目描述 题目链接&#xff1a;https://leetcode-cn.com/problems/maximum-subarray/ 《剑指Offer》同题&#xff1a;面试题42. 连续子数组的最大和 给定一个整数数组 nums &#xff0c;找到一个具有最大和的连续子数组…

java程序员的发展之路和职业规划

在互联网做技术的朋友&#xff0c;往往没有足够的重视&#xff0c;职业规划其实一点都不虚&#xff0c;而是一件非常实在的事情&#xff0c;如果你不是每次碰墙再反思职业规划&#xff0c;而是提前3年左右作出下一步的规划&#xff0c;你早已经走出了一条属于自己的路。 以下是…

图Graph--拓扑排序(Topological Sorting)

文章目录1. 拓扑排序2. 算法实现2.1 Kahn算法2.2 DFS算法2.3 时间复杂度3. 应用4. 类似题目练习一个项目往往会包含很多代码源文件。编译器在编译整个项目时&#xff0c;需按照依赖关系&#xff0c;依次编译每个源文件。比如&#xff0c;A.cpp依赖B.cpp&#xff0c;那在编译时&…

SIGIR20最佳论文:通往公平、公正的Learning to Rank!

星标/置顶小屋&#xff0c;带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 机智的叉烧编 | 兔子酱大家好&#xff0c;我是叉烧。感谢卖萌屋再次给我机会在这里分享~SIGIR2020 的 best paper 终于出炉&#xff0c;这次获奖论文是 Controlling Fairness and Bias in Dynamic Learn…

论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法

笔记整理&#xff1a;张清恒&#xff0c;南京大学计算机科学与技术系&#xff0c;硕士研究生。论文链接&#xff1a;https://people.eng.unimelb.edu.au/jianzhongq/papers/AAAI2019_EntityAlignment.pdf发表会议&#xff1a;AAAI 2019摘要近来&#xff0c;针对跨知识图谱&…

一篇文章了解架构师能力模型

每一个技术人都有着一个架构师的梦&#xff0c;希望自己有朝一日能登上技术之巅&#xff0c;以下结合我自己13年的从业经验&#xff0c;分别从架构师进阶之路、架构师能力模型&#xff08;这里是亮点&#xff09;、架构师技能树、架构师业务技能树谈起&#xff0c;完整的剖析一…