多模态为什么比单模态好?第一份严谨证明来了!

文 | 橙橙子

面试官: 听说你对多模态感兴趣,请问为什么多模态学习要比单模态学习效果好?
候选人: 直观地,多模态学习可以聚合多源数据的信息,使得模型学习到的表示更加完备。以视频分类为例,同时使用字幕标题等文本信息、音频信息和视觉信息的多模态模型要显著好于只使用任意一种信息的单模态模型,这已经被多篇文章实验验证过。
面试官: 直觉+实验是老生常谈了,我听过很多次了,有没有更严谨一些的证明?
候选人内心语:面试官这是要找茬呀,还好有萌屋救我...)
候选人:刚好最近看了一篇多模态学习理论分析的文章,从数学角度证明了潜表征空间质量直接决定了多模态学习模型的效果。而在充足的训练数据下,模态的种类越丰富,表征空间的估计越精确,容我细细道来...

论文标题
What Makes Multimodal Learning Better than Single (Provably)

论文链接
https://arxiv.org/pdf/2106.04538.pdf

背景

尽管在实际应用中,使用多模态学习构建识别或检测系统经常可以有更好的表现。但是从理论角度讲,我们对多模态学习的认识却极其有限。基础的问题悬而未决:多模态学习能证明比单模态学习效果好么

在这篇文章中,作者从两个角度回答了这个问题:

  1. (When)在何种条件下,多模态学习比单模态学习好

  2. (Why)是什么造成了其效果的提升

公式化定义

本文基于一种经典的多模态学习框架,即无缝进行潜空间学习(Latent Space Learning)与任务层学习(Task-specific Learning)。具体地,首先将异构数据编码到一个统一潜空间,对应的映射函数族为,要寻找的最优的映射是。接着,潜空间的表示再经过任务层的映射被用于指定任务中,映射的函数族为,其中最优映射为

具体地,我们假设共包含有个模态,其中训练数据定义为,其中表示第个模态的信息。输入空间为,目标为表示从输入空间(包含所有个模态)到潜表示空间的正确映射:表示任务层的正确映射,。 数据是从未知分布中采样得到的:

这里, 代表的复合函数。

在真实世界里,我们经常会面临数据的模态信息不完整的问题,即有一些模态是缺失的。设是所有模态的子集,我们可以关注只使用种模态的学习问题,其中。定义

为只含有种模态的输入空间,其中,  代表第个模态信息没有被使用。我们可以定义从的映射为:

类似地,定义的映射函数族, 定义表示从只包括种模态的映射函数族:

给定训练数据,学习的目标是找到,使得经验风险最小化(Empirical Risk Minimization, ERM ):

正如[1][2],我们使用群体风险(Population Risk)来衡量模型的学习效果:

举个具体的例子:考虑使用多模态后期融合(Late-Fusion)模型做视频分类。在这种设定中,每一种模态,譬如RGB帧、音频、光流或者字幕等,被特定的深度神经网络编码后,得到的特征经过融合后进入分类器。假设我们使用表示某种特征融合操作,譬如self-attention。则可以表示为, 是对应的分类器

证明一:潜表示空间的质量决定了多模态模型的效果

潜表示空间被用于更好的利用各种模态之间的关联关系,所以我们很自然的会猜测它和多模态学习的效果息息相关。对于已经学习到任意潜表示,定义为它的质量(Quality),即与最优潜表示映射和任务映射对应的群体风险差距的下界:

这里,表示固定的条件下能取得的最小群体风险。因此一定程度讲,可以度量由于的差距导致的损失。

定理1:设是从数据分布独立采样得到的个样本。同时,拉德马赫复杂度(Rademacher Complexity)[3]被广泛用于衡量模型复杂度。 在上训练的模型的拉德马赫复杂度被记为的两个独立的多模态子集,在这种模态上训练分别优化经验最小风险得到了。对于所有的,至少以概率下满足:

其中,

分析: 可以发现在种模态上分别训练的模型效果差距的上限其中一部分是由潜空间的质量差距决定的。我们可以再进行一轮分析,拉德马赫复杂度的界通常是 ,其中表示函数的内在复杂度,由于定理一的都是常数,则定理一可以重新写作:

这表明:随着训练数据的增加(变大),使用多种模态训练模型的效果主要取决于它的潜表示空间的质量。

证明二:数据量达到一定规模,模态种类越完整,多模态模型的效果越好

定理一已经在潜空间质量和群体风险差别之间建立了联系,下一个目标是估计已经学到的潜空间表示和最优的准确表示之间的差距。下面的定理二表明潜空间的质量其实在训练过程中是可以被控制的。

定理2:依然假设是从数据分布独立采样得到的个样本。的两个独立的多模态子集,在这种模态上训练分别优化经验最小风险得到了。对于所有的,至少以概率下满足:

其中,

是中心经验损失。

分析: 考虑,根据拉德马赫复杂度的相关性质(参考定理1的介绍),,并且有。从而,如果我们希望更多的模态能产生更好的潜空间(更好的效果),即,那么需要满足:

这表明了两部分信息:(1)随着数据量的增大,模型的内在复杂度的影响会被降低。(2)随着数据量的增大,上式容易被满足,即使用更多的模态的学习效果优于更少模态的效果。

彩蛋:论文也证明了一个特殊的情况:即当潜空间的映射函数和任务层的映射都是线性函数时,

始终成立,即不完整的模态会伤害最优的潜表示,从而降低模型的学习效果。

实验

进入到实验环节。论文也精心设计了实验来验证理论的正确性,可谓是理论与实践结合的典范。

多模态真实数据集实验

这一部分采用了从真实世界收集的多模态情绪分析的数据集IEMOCAP(Interactive Emotional Dyadic Motion Capture),它包括三种模态:文字(Text)、视频(Video)和音频(Audio)。首先使用离线的特征抽取工具对三种模态信息提取好特征:Audio 100维,Text 100维以及Video 500维。这个数据集的分类有六种,分别是快乐、悲伤、中立、愤怒、兴奋和沮丧。使用了13200条数据做训练,3410条做测试。实验模型上,潜空间的映射使用了一层线性层+Relu,任务层使用了一层Softmax。在对比实验中,如果是单模态模型,则直接进行对应特征映射;如果是多模态模型,则首先进行多模态特征拼接,然后再进行映射。

实验一:多模态学习效果更好。这一部分实验非常直接,见下表,使用全部模态取得了最好的效果。

实验二:定理1实验验证。 为了对定理1有一个定量的分析,文章模拟了潜表示质量的产生过程,即首先未收敛状态下预先训练整个模型,然后再固定encoder 不动,寻找最优的分类器。已经获得了就可以被量化出来。有一点不同的是,数学公式里是按照经验损失来计算的,是负数。这里用分类准确率来衡量,是正值。数值越大,代表潜表示的质量越高。如下表所示,使用越多的模态,值越大。

实验三:定理2实验验证。 为了验证定理2,论文在不同量级的训练数据对比了各种模态组合的学习效果差别。如下表,可以看到在训练数据相对较少时,多模态学习并不占优势,可以理解为这时模型的内在复杂度的影响占主导地位。当数据量到达一定规模,多模态种类丰富性的作用凸显出来。越完整丰富的模态组合,取得越好的效果。

模拟构造的数据集实验

我们知道在真实数据中,模态之间的相关性随任务和数据变化而变化。譬如在知识科普类视频中,视觉信息和字幕文字信息关联程度是很高的,这也是多视角学习(MultiView Learing)经常研究的范畴。而在电视剧剪辑类视频中,视觉信息和文字信息关联程度则很微弱。那么,本文的结论是否在不同程度的模态关联数据上都适用呢

由于真实数据集很难定量的控制模态相关性程度。为了研究这个问题,论文使用机器自动生成的方式,构造了不同的模态关联数据用于验证。这里考虑三种情况:(1)模态之间完全不共享信息,即每个模态只包含模态特定的信息。(2)所有模态之间共享所有信息,没有区分。(3)介于两者之间,既共享一部分信息,也保有模态特定信息。

数据构造过程:首先使用高斯分布中采样出模态1的特征数据,其中每一个维度都是不相关的。接着我们固定一部分比例的已产生的数据,然后再继续采样生成新的模态数据。这个比例在{0.0, 0.2, 0.5, 0.8, 1.0}之间。1.0表示全部共享,0.0表示全部独立。每种模态含有100维特征,目标是回归拟合1维的label。这个过程共产生了7000条训练数据和3000条测试数据。这里使用了四种模态数据:1,2,3,4。

潜表示质量和模态相关性的关系:如下表所示,首先观察到上文的结论在不同的模态相关性设置中是通用的。另外,模态相关性越高,潜表示质量也越好,这也非常符合直觉。

结论

面试官:小伙子,你很有前途,明天来报道!

萌屋作者:橙橙子

拿过Kaggle金,水过ACM银,发过顶会Paper,捧得过多个竞赛冠军。梦想是和欣欣子存钱开店,沉迷于美食追剧和炼丹,游走于前端后端与算法,竟还有一颗想做PM的心!

作品推荐

  1. 惊呆!不用一张图片,却训出个图像识别SOTA?

  2. 视觉增强词向量:我是词向量,我开眼了!

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

 

[1] Learning from multiple partially observed views-an application to multilingual text categorization https://proceedings.neurips.cc/paper/2009/file/f79921bbae40a577928b76d2fc3edc2a-Paper.pdf

[2] On the theory of transfer learning: The importance of task diversity https://arxiv.org/pdf/2006.11650.pdf

[3] Rademacher and gaussian complexities: Risk bounds and structural results https://www.jmlr.org/papers/volume3/bartlett02a/bartlett02a.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478258.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

推荐:26种NLP练手项目(代码+数据)

1.分词 Word Segmentation chqiwang/convseg ,基于CNN做中文分词,提供数据和代码。 对应的论文Convolutional Neural Network with Word Embeddings for Chinese Word Segmentation IJCNLP2017. 2.词预测 Word Prediction Kyubyong/word_prediction &…

会议交流 | 最新NLP核心技术与前沿实践分享!

2021年7月10日,09:00-18:10,DataFunSummit:自然语言处理峰会将如约而至,本次峰会由3位主席和6位出品人精心策划而来,邀请来自业界的40余位嘉宾从NLP基础技术、语义表示与计算、多模理解与生成、信息抽取与检索、人机对…

LeetCode 504. 七进制数(进制转换)

1. 题目 给定一个整数,将其转化为7进制,并以字符串形式输出。 示例 1: 输入: 100 输出: "202"示例 2: 输入: -7 输出: "-10" 注意: 输入范围是 [-1e7, 1e7] 。来源:力扣(LeetCode) 链接&#xf…

领域应用 | 常识性概念图谱建设以及在美团场景中的应用

转载公众号 | 美团技术团队常识性概念图谱,是围绕常识性概念建立的实体以及实体之间的关系,同时侧重美团的场景构建的一类知识图谱。本文介绍了美团常识性概念图谱构建的Schema,图谱建设中遇到的挑战以及建设过程中的算法实践,最后…

美团数据库中间件DBProxy开源

随着数据量的不断增大,传统的直连数据库对数据进行访问的方式已经无法满足一般公司的需求。通过数据库中间件,可以对数据库进行水平扩展,由原来单台数据库扩展到多台数据库,数据库中间件通过路由规则将数据的访问请求路由到其中一…

不卷学术了,这次卷一波NLP实战落地经验

作为最典型的 AI 领域之一,NLP 这些年也是越来越热门,基本上是各大厂必备了。随着 OpenAI 等技术的诞生、迁移学习等技术的成功应用,使得 NLP 技术在搜索、推荐、信息流、互联网金融、社交网络等领域不断发展壮大。与此同时,NLP 工…

docker挂载文件躺过的坑

Docker 实现挂载的三种方式 docker: Error response from daemon: OCI runtime create failed: container_linux.go:348: starting container process caused “exec: “-v”: executable file not found in $PATH”: unknown. 看着启动成功了,但查日志启动失败 日…

美团团购订单系统优化记

团购订单系统简介 美团团购订单系统主要作用是支撑美团的团购业务,为上亿美团用户购买、消费提供服务保障。2015年初时,日订单量约400万~500万,同年七夕订单量达到800万。 目标 作为线上S级服务,稳定性的提升是我们不断的追求。尤…

论文浅尝 | emrKBQA: 一个面向临床医疗问答的KBQA数据集

笔记整理 | 谭亦鸣,东南大学博士生来源:BioNLP ’21 workshop, ACL ‘21链接:https://www.aclweb.org/anthology/2021.bionlp-1.7.pdf论文主要包含两个部分的核心工作:emrKBQA数据集,对应的benchmark。基于MIMIC-III …

Fine-tune之后的NLP新范式:Prompt越来越火,CMU华人博士后出了篇综述文章

文 | 刘鹏飞源 | 机器之心CMU 博士后研究员刘鹏飞:近代自然语言处理技术发展的第四范式可能是预训练语言模型加持下的 Prompt Learning。近几年,NLP 技术发展迅猛,特别是 BERT 的出现,开启了 NLP 领域新一轮的发展。从 BERT 开始&…

会议交流 | 世界人工智能大会“大数据关联”论坛举行

转载公众号 | 创邻科技2021年7月8日,由世界人工智能大会组委会与浙江创邻科技有限公司共同筹办的“大数据关联时代下的图数据库技术与应用论坛”在上海世博中心圆满落幕。论坛邀请了清华大学、北京大学、复旦大学、浙江大学、天津大学等多位学术届的思想领袖和工商银…

LeetCode 994. 腐烂的橘子(图的BFS)

1. 题目 在给定的网格中,每个单元格可以有以下三个值之一: 值 0 代表空单元格; 值 1 代表新鲜橘子; 值 2 代表腐烂的橘子。 每分钟,任何与腐烂的橘子(在 4 个正方向上)相邻的新鲜橘子都会腐烂…

美团酒店直连产品数据一致性演进

美团酒店直连项目自2013年末开始,通过业务上的不断完善和技术上的不断改进,至今已经接入200多家供应商,其中在线酒店3万以上,在线SPU30万以上。经过两年的成长,美团酒店直连平台终于在2015年末发展为国内最大的酒店直连…

直击行业痛点!端侧模型部署的成熟解决方案有了!

深度学习经过多年发展,AI已经深入人心,事实上,在图像、文本领域,AI在多个产业已经落地了诸多应用,我们熟知的自动驾驶、语音助手,背后就大量运用了AI技术。当下,飞桨PaddlePaddle、TensorFlow、…

OpenKG开源系列 | 大规模中文概念图谱OpenConcepts (浙江大学)

OpenKG地址:http://openkg.cn/dataset/openconcept官网:http://openconcepts.openkg.cn(提供Dump)开放许可协议:CC BY-SA 4.0(署名-相同共享)OpenConcepts 介绍OpenConcepts (http://openconcepts.openkg.c…

LeetCode 594. 最长和谐子序列(map)

文章目录1. 题目2. 解题2.1 map两次扫描2.2 map一次扫描1. 题目 和谐数组是指一个数组里元素的最大值和最小值之间的差别正好是1。 现在,给定一个整数数组,你需要在所有可能的子序列中找到最长的和谐子序列的长度。 示例 1: 输入: [1,3,2,2,5,2,3,7] …

MTDDL——美团点评分布式数据访问层中间件

2016年Q3季度初,在美团外卖上单2.0项目上线后,商家和商品数量急速增长,预估商品库的容量和写峰值QPS会很快遇到巨大压力。随之而来也会影响线上服务的查询性能、DB(数据库,以下统一称DB)主从延迟、表变更困…

详解预训练模型、信息抽取、文本生成、知识图谱、对话系统技术

我们正处在信息爆炸的时代、面对每天铺天盖地的网络资源和论文、很多时候我们面临的问题并不是缺资源,而是找准资源并高效学习。其次,即便网络上的资源非常多,学习是需要成本的,而且越有深度的内容越难找到好的学习资源。如果一门…

会议交流 | 欢迎注册 CCKS2021 全国知识图谱与语义计算大会!

欢迎注册 CCKS2021 全国知识图谱与语义计算大会知万物过去 谱AI未来2021年8月18日至8月21日 广州http://sigkg.cn/ccks2021主办:中国中文信息学会语言与知识计算专业委员会 承办:广东外语外贸大学注册介绍早期注册 1800元/人2021年7月28日前&…

LeetCode 1171. 从链表中删去总和值为零的连续节点(哈希表)

1. 题目 给你一个链表的头节点 head,请你编写代码,反复删去链表中由 总和 值为 0 的连续节点组成的序列,直到不存在这样的序列为止。 删除完毕后,请你返回最终结果链表的头节点。 你可以返回任何满足题目要求的答案。 &#x…