吊打BERT、GPT、DALL·E,跨模态榜单新霸主诞生!

文 | 赵一静

最近,三个重量级榜单,视觉推理VCR、文本推理ANLI、视觉问答VQA同时被统一模态模型UNIMO霸榜。一个模型统一了视觉和文本两大主阵地,重塑了小编的认知和期望。如此全能,堪称是AI领域的外(一)星(拳)选(超)手(人)!带着兴奋与好奇,我们来解读一下这篇ACL佳作!

论文题目:
UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning

论文链接:
https://arxiv.org/pdf/2012.15409

项目地址:
https://github.com/PaddlePaddle/Research/tree/master/NLP/UNIMO

也可以在 【夕小瑶的卖萌屋】订阅号后台回复关键词 【0526】 下载论文PDF~

关于统一模态的野望,补补历史课

不谈历史无以谈模型,AI领域各自为王由来已久!NLP领域,18年Google BERT[1]横空出世,绝对实力统一文本理解,从此预训练+微调成为NLP的基本范式。19年后OpenAI接连发布GPT-2[2]/GPT-3[3],高调宣布GPT系列才是文本生成界的王者。CV领域,21年3月Swin Transformer[4]屠榜各大CV任务,有声音认为结束了卷积神经网络家族在该领域的统治。多模态领域,19年伊始ViLBERT[5]等一系列视觉-文字预训练工作大爆发,21年1月DALL.E[6]发布,文字生成图像技惊四座,搭配CLIP[7]使用炫技效果更佳...

这些模型都很伟大,但都存在一个问题,不够通用,自然也就限制了想象力!在单模文本数据上训练的模型便只能做自然语言处理,在视觉数据进行训练便只能做视觉任务,在图文数据上学习下游任务必须得是图文结合才行!显然,一个强大且通用的AI系统应该具备同时处理各种不同模态数据的能力。而目前的最优技术只能够在自身领域工作,一旦模型试图跨领域,直接不可用打脸。有同学说多模模型不可以做单模任务么?作为一个过来人,可以负责任的告诉你,君不见那效果跌的,惨不忍睹。也许,是时候重新审视这种狭义的多模态了,真正的多模态模型不应该对模态缺失这么敏感,而且应该比单模模型更强!

小编都能预感到历史的脉搏,难道AI巨头们看不到么?20年的最后一天,吴恩达邀请了顶级学者群,让大牛们对 2021 年的 AI 技术发展进行了一次展望,OpenAI 首席科学家 Ilya Sutskever就表达了类似的观点:

文本本身可以表达关于世界的大量信息,但它并不完备,因为我们也生活在视觉世界中。下一代 AI 模型将能够编辑文本输入并生成图像,我们也希望它们能够借由其见过的图像而更好地理解文本联合处理文本和图像的能力将使模型变得更聪明。人类接触的不仅是阅读到的内容,还有看到和听到的内容。如果模型可以处理类似的数据,那么它们就能以类似人类的方式学习概念。这个灵感尚未得到证实,我希望 2021 年能够看到这方面的进展。

通俗点讲,不懂视觉的文本模型不是好AI,这个概念就是广义的多模态,或者说就是统一模态吧!

深入剖析UNIMO的算法设计

其实百度的嗅觉还挺敏锐的,扒一下UNIMO在arXiv的首次曝光,是在20年12月份,当时公布了Base版本小模型在部分任务上的效果,按照时间推演,20年中就已经在布局统一模态了,早于阿里M6[8]和悟道·文澜[9],后者在21年3月份提出了类似的模型概念。由于UNIMO首次从大模型大数据的角度正面直击统一模态概念和问题,且实验相对充分,拿来做解剖再合适不过。这次ACL论文放榜,UNIMO带来了更详细的方法描述和实验结果,我们来看一下!

想让模型同时具备单模应用能力和多模应用能力,甚至实现模态能力增强,配备大规模的多源异构数据资源是必不可少的,这也符合我们的认知。UNIMO使用了大量的文本数据、图像数据以及图文匹配数据进行联合学习,同时也让我们对语音、视频、以及网络上模态弱关联的数据的使用有了一些期待。互联网上的海量自然标注数据是我们取之不尽用之不竭的宝库,是真正意义上的One Piece!(PS:但是收集清理数据可是不容易呀)

不是有了大量数据,模型就能消化的了,我们也得看他的能力不是?UNIMO的核心网络是Transformer,同时为视觉和文本输入学习统一的语义表示空间。其中图像数据在经过目标识别后被转换为视觉表示(visual token)序列,文本数据被转换为词(word token)序列,图文对儿数据被转换为视觉序列和词序列的拼接。这三种类型数据共享模型参数,经过多层注意力机制学习后得到视觉语言一体的上下文相关的语义表示。

跨模态对比学习

为了能够使得多种模态输入能够兼容和相互增强,还需要好的学习机制来保障。Hinton老爷子在图像领域卖力宣传了一整年的对比表示学习(Contrastive learning)[10]当仁不让,UNIMO将其泛化到了跨模态层面。听起来,让模型不断地从模态内和模态间的对比中学习,确是一种行之有效的统一表示的手段,也是UNIMO成功的核心。跨模态对比学习(Cross-Model Contrastive learning,CMCL)的主要思想是使得含义相同的图文pair(正例)能够在语义空间上更接近,含义不同的图文pair(负例)在语义空间上要距离更远。从对比中学习,对正负例的质量、数量、学习技巧有很高的要求,UNIMO也毫不吝啬的使用了多种策略:

(1)文本改写(Text Rewriting):为了增强图文在多个粒度上的语义对齐能力,论文将图像的文本描述从句子级、短语级和词汇级别三个粒度进行了改写。在句子级层面,基于回译(Back Translation,即一句话机器翻译模型翻译成多种其他语言,再翻译回来,利用机器翻译模型的能力在不改变句子原始意图的前提下得到相同含义的其他形式句子)的技术来获得一张图片的多个正例文本。进一步,利用自然语言离散化符号的特性,基于TF-IDF相似度检索得到更多的字面词汇重复率高,但是含义不同的句子作为一张图片的强负样本。在短语级和词汇级别,首先将文本解析成场景图,然后随机替换掉其中的物体(object)、属性(attribute)和关系(relation)以及它们的组合,获得这两个粒度的强负例。

(2)图像/文本检索(Image and Text Retrieval):为了在跨模态学习中融合更多的单模态知识,图文对儿信息会被从大规模单模态数据中检索出来的背景知识进一步增强和丰富。这部分检索的数据会分别和图文对中的另一种模态数据组成弱相关对儿加入对比学习。妙就妙在这部分弱相关数据是由纯文本和纯图像数据源贡献的,我们知道单模数据在网络上是无穷尽、易收集的,这可以打开一新扇窗户。

正式地,对于图文对儿,对比学习损失为:

其中,, 分别代表强正例集合,图像检索的弱相关集合,文本检索的弱相关集合。, 表示对应的负例集合。

一个很有意思的事情是,学术界对于建模图文对儿该走单流还是双流一直都有争论。单流模型派认为图像端和文本端共享单塔结构就可以,不需要独立建模,这样便于信息传递,这方面的代表工作有微软的UNITER等。双流模型派任务需要分开建模,这样在实际使用有优势,对于弱相关也能够处理的更好,这方面的代表工作有悟道·文澜等。而UNIMO图文模态是共享参数的,看似是单流模型,但是它进行弱相关数据对比的时候两种模态是分开建模的,走的却是双塔结构,同时发挥了这两种结构的优势,让人服气!

视觉和文本学习

单模态语料除了有一部分进入检索系统进行弱相关对比学习外,大量的会单独进行文本和视觉学习,这样的好处是可以避免遗忘问题,同时也可以迫使网络同时适应两种数据源,并间接注入另一种模态的原始记忆,提高泛化性能。另一方面,图文对数据也会充分利用模态上下文相关的特性设计辅助任务。

(1)视觉学习(Visual Learning):这个部分设计了和BERT的掩码语言模型类似的方法,从多个视觉区域中以一定概率随机选择一部分区域并进行掩盖(MASK),目标是利用剩下的区域信息还原重建这部分区域的原始特征。正式地,对于给定的图像,被掩盖的区域为,剩下的区域为,则目标是最小化损失

类似地,对于图文对,目标是利用文本信息和剩下的视觉区域来来重建被mask的区域

(2)文本学习(Language Learning):与视觉学习方法类似,仍然采用类似的掩码模型策略,以一定概率随机选择一部分连续token掩盖掉,目标是从剩下的上下文还原这部分内容。同时为了让模型能同时支持生成和理解两类目标,UNIMO设计了双向预测(Bidirectional prediction)和 序列生成(Seq2Seq Generation)两种损失:

最终,整个模型的优化目标是最小化所有损失的和

总体上,图像、文本、图文对三种数据是充分混合训练的,也就是说在一个大batch内会同时出现三种数据。论文公布的数据配比是1:1:5,小编猜想在训练阶段特别是在warmup时期对于技巧和手法应该有很高的要求。

实验

UNIMO的下游任务非常丰富。在文本生成任务上,选择了生成式对话问答数据集CoQA,问题生成数据集SQuAD-1.1,摘要数据集CNNDM和句子压缩数据集Gigaword。在文本理解任务上,选择了情感分类数据集SST-2,自然语言推断数据集MNLI,语言可接受度分类数据集CoLA和语义相关性数据集STS-B。多模理解任务上,选择了非常经典的视觉问答数据集VQA-2.0,视觉蕴含SNLI-VE和图文检索数据集Flickr30K。多模生成任务则选择了MS-COCO图像描述生成。

话不多说,直接上图。在多模任务上的结果非常亮眼,各大任务都是SOTA,特别是在检索任务上优势很大。从论文给出的Case Show来看,UNIMO着实在精准理解和捕捉细节方面表现更好。

值得一提的是,UNIMO在视觉推理(VCR)榜单上目前榜首,但是还没有在论文中公开对比结果。做过VCR任务的同学也许有了解,通用预训练在这个任务上没有太大作用,基本大家都靠领域二次pretrain刷分,由于UNINO融入了大量的单模语料,小编反而期待UNIMO能在通用能力上的效果对比。

最值得关注的还是在单模任务上的表现。w/o single-model这一行无情的揭开了目前多模态模型们的伤疤,管你在多模任务上表现多么厉害,给你基础的文本任务都做不好。CoLA效果直接跌掉50个点,简直对AI的通用能力要绝望了。没有对比就没有伤害,UNIMO的表现一如既往的稳定,这应该就是统一模态的优势吧。

一些期待

我们说一个好的模型应该能经的起Challenge,这里小编也提出几点希望。

(1)变得更强。其实UNIMO的整体设计非常通用,由于它的训练过程中包括生成式辅助任务,所以应该可以直接支持文生图和DALL.E[6]掰手腕。其次,纯视觉任务的表现也可以拉出来溜溜。扩展到视频和语音也是必要的。

(2)长的更大。模型越大越好已经成为一种共识,UNIMO目前的参数只有Large的体量,显然这远远不够,只有长的更大才能让人见识到真的威力吧。

(3)吃的更多。其实论文全篇都在讲一件事,互联网上的所有数据都可以是UNIMO的食物。但是网络上更多的是弱相关的跨模态数据和单模数据,希望UNIMO能吃的下!

时代在呼唤一个统一的大模型,好在论文的Future Work已经提到了这方面的计划,期待的搓搓手吧。

结语

有人说,凡是个坑,都不好挖,能挖一坑,便能雄霸一方,挖多挖大,方能一统江湖。不得不说,UNIMO挖了一个新的大坑,也是一个好坑!

最后的最后,做一个预测,围绕统一模态的一系列工作, 今年将是井喷的一年,各位想毕业的Phd们,Paper拼手速啊。燃烧吧,GPU!

萌屋作者:赵一静

巴黎理工学院在读Phd,特长幽默,爱好自由,二次元宅,始终在减肥的路上!

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

 

[1].BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding https://arxiv.org/abs/1810.04805

[2].Language Models are Unsupervised Multitask Learners https://github.com/openai/gpt-2

[3].Language Models are Few-Shot Learners https://arxiv.org/abs/2005.14165

[4].Swin Transformer: Hierarchical Vision Transformer using Shifted Windows https://arxiv.org/abs/2103.14030

[5].ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks https://arxiv.org/abs/1908.02265

[6].Zero-Shot Text-to-Image Generation https://arxiv.org/abs/2102.12092

[7].Learning Transferable Visual Models From Natural Language Supervision https://arxiv.org/abs/2103.00020

[8].M6: A Chinese Multimodal Pretrainer https://arxiv.org/abs/2103.00823

[9].WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training https://arxiv.org/abs/2103.06561

[10].A Simple Framework for Contrastive Learning of Visual Representations https://arxiv.org/abs/2002.05709

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478513.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Data REST 远程代码执行漏洞(CVE-2017-8046)分析与复现

前言 2009年9月Spring 3.0 RC1发布后,Spring就引入了SpEL(Spring Expression Language)。对于开发者而言,引入新的工具显然是令人兴奋的,但是对于运维人员,也许是噩耗的开始。类比Struts 2框架,…

体验paddle2.0rc版本API-Model--实现Mnist数据集模型训练

原文链接:体验paddle2.0rc版本API-Model–实现Mnist数据集模型训练:https://blog.csdn.net/weixin_44604887/article/details/109566281 尝试Mnist训练 导入需要的包导入Mnist数据集组网搭建网络查看模型参数查看模型网络(自动命名&#xff0…

LeetCode 648. 单词替换(Trie树)

1. 题目 在英语中,我们有一个叫做 词根(root)的概念,它可以跟着其他一些词组成另一个较长的单词——我们称这个词为 继承词(successor)。例如,词根an,跟随着单词 other(其他),可以形成新的单词 another(另一个)。 现…

99%算法工程师不知道的if/else优化技巧

文 | IT技术控知乎、灵剑知乎观点一(IT技术控)前期迭代懒得优化,来一个需求,加一个if,久而久之,就串成了一座金字塔。当代码已经复杂到难以维护的程度之后,只能狠下心重构优化。那,有…

人工智能在线特征系统中的生产调度

在上篇博客《人工智能在线特征系统中的数据存取技术》中,我们围绕着在线特征系统存储与读取这两方面话题,针对具体场景介绍了一些通用技术,此外特征系统还有另一个重要话题:特征生产调度。本文将以美团点评酒旅在线特征系统为原型…

LeetCode 211. 添加与搜索单词 - 数据结构设计(Trie树)

1. 题目 设计一个支持以下两种操作的数据结构: void addWord(word) bool search(word) search(word) 可以搜索文字或正则表达式字符串,字符串只包含字母 . 或 a-z 。 . 可以表示任何一个字母。 示例: addWord("bad") addWord("dad&quo…

研究综述 - TKDE2020 | 基于知识图谱的推荐系统

作者 | 郭庆宇转载公众号 | 读芯术TKDE 2020综述:基于知识图谱的推荐系统A Survey on Knowledge Graph-Based Recommender Systems中科院计算所、百度、港科大、中科大、微软原文Qingyu Guo, Fuzhen Zhuang, Chuan Qin, Hengshu Zhu, Xing Xie, Hui Xiong, Qing He…

谢撩,人在斯坦福打SoTA

文 | Jazon编 | 小戏小编注:不知道大家还记不记得卖萌屋之前人在斯坦福,刚上CS224n的Jazon小哥发来的关于斯坦福神课CS224n上半学期的报道?今天,Jazon又在斯坦福前线发来了关于他在CS224n下半学期的经历,那么现在让我们…

前端感官性能的衡量和优化实践

本文已发表在2017年8月《程序员》杂志。 我们为什么需要关注站点的性能,性能为什么如此重要呢?如今任何互联网产品首先重要的都是流量,流量最终会转换为商业价值。所以在互联网产品中,流量、转化率和留存率基本上是产品经理或者业…

LeetCode 421. 数组中两个数的最大异或值(Trie树)

1. 题目 给定一个非空数组&#xff0c;数组中元素为 a0, a1, a2, … , an-1&#xff0c;其中 0 ≤ ai < 231 。 找到 ai 和aj 最大的异或 (XOR) 运算结果&#xff0c;其中0 ≤ i, j < n 。 你能在O(n)的时间解决这个问题吗&#xff1f; 示例:输入: [3, 10, 5, 25, 2,…

论文浅尝 - EMNLP2020 | 基于知识库的多跳关系推理

笔记整理 | 谢辛&#xff0c;浙江大学硕士研究方向 | 自然语言处理&#xff0c;知识图谱Feng Y, Chen X, Lin B Y, et al. Scalable multi-hop relational reasoning for knowledge-aware question answering[J]. 2020.emnlp-main.99链接&#xff1a;https://arxiv.org/pdf/200…

智能工单处理,达观数据助力运营商实现业务流程智能化改造

智能工单处理&#xff0c;达观数据助力运营商实现业务流程智能化改造 https://m.sohu.com/a/466386308_383123 智能工单处理&#xff0c;达观数据助力运营商实现业务流程智能化改造 达观数据 05-14 14:04 订阅 运营商一线业务运营亟待智能化改造 近几年&#xff0c;运营商领域…

CV和NLP中的无监督预训练(生成式BERT/iGPT和判别式SimCLR/SimCSE)

文 | Smarter在之前的文章中讲过unsupervised learning主要分为生成式和判别式&#xff0c;那么unsupervised pretrain自然也分为生成式和判别式。目前CV和NLP都出现了非常强大的无监督预训练&#xff0c;并且在生成式和判别式都各有造诣&#xff0c;本文主要想归纳一下CV和NLP…

Android Binder漏洞挖掘技术与案例分享

本文由作者根据其在KCon 2016黑客大会上的演讲内容整理而成。演讲稿链接&#xff1a;Binder fuzzing based on drozer。 文章开始&#xff0c;先来看几个我在工作生活中发现的Android漏洞。其中包括Android系统锁屏密码绕过&#xff08;影响了所有安全补丁在2016年10月份以前的…

Transformer太深不行?NUS字节发现注意力坍缩,提出重注意机制!

文 | 陈萍、杜伟源 | 机器之心CNN 通过堆叠更多的卷积层来提高性能&#xff0c;而 transformer 在层次更深时会很快进入饱和。基于此&#xff0c;来自新加坡国立大学和字节跳动 AI Lab 的研究者引入了 Re-attention 机制&#xff0c;以很小的计算代价重新生成注意力图以增强各层…

LeetCode 212. 单词搜索 II(Trie树+DFS)

1. 题目 给定一个二维网格 board 和一个字典中的单词列表 words&#xff0c;找出所有同时在二维网格和字典中出现的单词。 单词必须按照字母顺序&#xff0c;通过相邻的单元格内的字母构成&#xff0c;其中“相邻”单元格是那些水平相邻或垂直相邻的单元格。同一个单元格内的…

研究综述 | 多关系知识图谱表示学习综述

作者 | CHEONG转载自公众号 | 机器学习与自然语言处理本文分享一篇多关系知识图谱表示学习汇报ppt&#xff0c;介绍近几年及2020新出的共七篇处理异质图的模型。先列出该汇报ppt中将要介绍的七篇论文&#xff1a;Motivation异质知识图谱研究的对象便是如何处理多关系知识图谱&a…

PaddleHub教程合集

原文链接&#xff1a;https://aistudio.baidu.com/aistudio/projectdetail/2168053 PaddleHub教程合集 PaddleHub是基于PaddlePaddle生态下的预训练模型管理和迁移学习工具&#xff0c;可以结合预训练模型更便捷地开展迁移学习工作。通过PaddleHub&#xff0c;您可以&#xff1…

人物志 | KDD Cup 2017双料冠军燕鹏

2017年数据挖掘领域最有影响力的赛事KDD Cup近日揭晓&#xff0c;Convolution队从全球70个国家的3582支队伍里脱颖而出&#xff0c;包揽两项任务的冠军。这支双料冠军队成员名单里&#xff0c;有一个我们熟悉的名字——美团点评高级技术专家燕鹏。 说燕鹏可能大家并不一定知道&…

论文浅尝 - IJCAI2020 | KGNN:基于知识图谱的图神经网络预测药物与药物相互作用...

转载公众号 | AI TIME 论道药物间相互作用&#xff08;DDI&#xff09;预测是药理学和临床应用中一个具有挑战性的问题&#xff0c;在临床试验期间&#xff0c;有效识别潜在的DDI对患者和社会至关重要。现有的大多数方法采用基于AI的计算模型&#xff0c;通常倾向于集成多个数…