Allen AI提出MERLOT,视频理解领域新SOTA!

7fb06ede3de4560945e8cf6af8f9c0b1.png

文 | Yimin_饭煲

2021年,多模态领域大概是人工智能研究者们关注者最多的一个领域了。随着各种模态数据集的增长和算力的发展,研究者们开始不断地尝试在一个模型中融合来自各个模态的信息。

而在多模态领域的研究中,和视频相关的任务被认为是最复杂的。

一方面,高质量的视频数据集比图像数据集更加困难,因此数据集的数量和质量往往受限;另一方面,视频数据集中含有文本、图像、语音等多个模态的信息,还要考虑时间线,融合起来比单纯的图像-文本数据更加复杂。

在AI领域久负盛名的Allen研究所向这一复杂的问题发起了挑战,提出了MERLOT系列工作。

第一篇 MERLOT:Multimodal Neural Script Knowledge Models 发表于Neurips 2021, 使用了大量的视频数据进行自监督预训练,在12个视频问答任务上取得了SOTA;

而第二篇 MERLOT Reserve:Neural Script Knowledge through Vision and Language and Sound 则于今年年初刚刚发布,进一步深度融合了视频中的语音信息,在多个任务上又取得了明显提升。下面,就让我们一起来学习这两篇十分Solid的工作吧~

论文链接:
MERLOT:
https://arxiv.org/pdf/2106.02636.pdf
MERLOT Reserve:
https://arxiv.org/pdf/2201.02639.pdf

主要方法

b8b70cd07a0c1024da617d28f0e9909d.png

MERLOT这一工作使用了视觉编码器、语言编码器和联合编码器。作者们设计了三个任务来进行优化。

第一个任务是Contrastive Frame-caption matching(标题-帧匹配),作者们使用视觉编码器编码图片得到的[CLS]表示和文本编码器编码句子得到的[CLS]表示进行对比学习,使得图像编码器具备较好的表示学习性能。

第二个任务是Masked Language Modeling,对模型的语言建模能力进行优化。

第三个任务是Temporal Reordering, 在40%的情况下, 随机选择一个整数, 从视频输入中的所有帧中随机选取帧并进行打乱,将位置编码 (e.g. )替换为随机且独特的位置编码(e.g.). 这些随机的位置编码和原有的位置编码分别进行学习,可以让模型学到恢复被扰乱的帧顺序的能力。

这个任务的损失函数是针对一对视频帧拼接隐状态,使用两层MLP分类器进行二分类(和的前后关系)。

8652d7d8ccb85a8837030cc221d4d42b.png

MERLOT Reserve这一工作相比于MERLOT引入了新的模态:语音。

为了更好的融合来自三个模态的信息,作者们提出了更通用,更统一的训练任务。

对于每一个Batch的输入,只输入视频的帧和文本/语音中的一个(由于文本和语音的信息具有重复性), 并且MASK文本/语音中的一部分。作者们提出了对比区域匹配(Contrastive Span Matching)这一任务, 给定匹配的视频帧/文本/语音数据,以文本为例,最小化交叉熵损失函数:

其中为[MASK]位置的隐状态表示,为[MASK]掉的信息的隐状态表示,为Batch中其他样本(负样本)的隐状态表示。同理定义了,定义:

同样的,可以定义和。定义总体的损失函数为:

作者们还使用了一些技巧来提升得到的特征表示的质量,感兴趣的小伙伴可以去原文细读~。

数据集

对于大规模的预训练工作,除开训练方法之外另一个值得关注的部分就是使用的数据集了。

MERLOT收集的数据集为YT-Temporal-180M,从600万公开的YouTube视频中抽取得到。

作者们选取的数据集比起HowTo100M和VLOG等局限于特定领域的数据集范围更大,主题更广

后来的实验表明,如果仅使用HowTo100M这样的数据集进行训练,会降低模型在下游任务上的性能。

989bbb02858c6f5e10fc03965ae09b99.png

在MERLOT Reserve这一工作中,作者们扩充了数据集,提出了YT-Temporal-1B数据集,包含2000万Youtube视频,进一步提升了数据集的多样性,而模型强大的性能也说明了扩充数据的有效性。

结果

作者们通过大量的实验证实了MERLOT和MERLOT Reserve的有效性。对于MERLOT模型,作者们在12个视频问答数据集上开展了实验,大幅度刷新了SOTA。

b84dfe6e0f537c2b19b9bc4eb0b87309.png

MERLOT Reserve模型同样也有非常强大的表现,在视频常识推理数据集上取得了不小的性能提升,超过了许多使用了其他监督信息的模型。

e9f4a09f06367b8173fbad74dc92d7a1.png

由于MERLOT Reserve使用了大量的数据进行了自监督预训练,因此在零样本学习上有着不错的性能,在STAR数据集上相比于有监督的SOTA都有着明显的提升。

762b803d22b0717e5f5e4753e9e3d8fd.png

结语

多模态技术的发展和商业化,也许将会带来人工智能应用的新一轮爆发。以往的多模态应用面临着模型架构复杂、缺少数据、缺少算力等一系列问题,而随着Transformer结构一统天下,互联网上各模态数据的井喷式增长,计算资源越发普及,这些问题都在慢慢得到解决。

MERLOT系列工作刷新了我们认知中视频理解领域的上限,向我们展示了视频、语音、文本多模态高效融合的一种可能性。未来,让我们一起努力朝着多模态领域的"BERT"模型进发吧!

cd2050202064caa8c191b4f61353cbbe.png萌屋作者:Yimin_饭煲

在微软NLC组搬砖的联培博士生,爱好摄影和运动,希望卖萌屋早日开通视频业务,我来当摄影师!

作品推荐

  1. 学完文本知识,我就直接看懂图片了!

  2. 别再Prompt了!谷歌提出tuning新方法,强力释放GPT-3潜力

  3. 大模型炼丹无从下手?谷歌、OpenAI烧了几百万刀,总结出这些方法论…

8a699d7d14a5f7ef40f8ae0d13acf176.png后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

b2129e4a14be1b9182b8ceb8cfdac530.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477660.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于HMM的中文词性标注 POSTagging

文章目录1. 词性标注1.1 概念1.2 任务1.3 预处理1.4 初步统计预览2. 最大概率模型2.1 训练2.2 预测2.3 结果评估2.4 结果可视化3. 二元隐马尔科夫BiHMM模型3.1 训练3.2 预测3.3 结果评估3.4 结果可视化4. 结果讨论思考本文的代码是在徐老师的代码基础上,自己加了些注…

图谱实战 | 58同城周超:基于招聘场景下的知识图谱构建及应用

转载公众号 | DataFunSummit分享嘉宾:周超 58同城 NLP资深算法工程师编辑整理:吴祺尧 加州大学圣地亚哥分校出品平台:DataFunTalk导读:知识图谱作为一种富信息工程,已经深入到各行各业中,也为产业效率的提升…

2022年薪百万赛道:高性能神经网络与AI芯片应用

随着大数据的发展,计算机芯片算力的提升,人工智能近两年迎来了新一轮的爆发。而人工智能实现超级算力的核心就是AI芯片。AI芯片也被称为人工智能加速器,即专门用于处理人工智能应用中的大量计算任务的模块。2020年我国人工智能芯片市场规模约…

API网关 Zuul1.0 和 2.0 我们该如何选择?

介绍 在今年5月中,Netflix终于开源了它的支持异步调用模式的Zuul网关2.0版本,真可谓千呼万唤始出来。从Netflix的官方博文[附录1]中,我们获得的信息也比较令人振奋: The Cloud Gateway team at Netflix runs and operates more t…

LeetCode 623. 在二叉树中增加一行(BFS/DFS)

文章目录1. 题目2. 解题2.1 BFS2.2 DFS1. 题目 给定一个二叉树,根节点为第1层,深度为 1。在其第 d 层追加一行值为 v 的节点。 添加规则:给定一个深度值 d (正整数),针对深度为 d-1 层的每一非空节点 N&a…

论文浅尝 | KR-GCN: 知识感知推理的可解释推荐系统

论文作者:马婷,中国科学院信息工程研究所直博生动机抽取并利用知识图谱(KG)中的多跳关系路径可以提高推荐系统的性能,并提供可解释性。然而,现有的工作仍面临着两个主要的挑战:用户偏好的错误传播和模型的弱解释性。提…

吴恩达,确诊新冠阳性!

编 | 好困 袁榭源 | 新智元【导读】当代人工智能领域最权威的学者之一吴恩达,于2022年2月8日晨在自己推特上宣布新冠检测结果阳性,不过症状轻微。北京时间,2022年2月8日早上6点,吴恩达新冠病毒检测呈阳性。吴恩达表示,…

Spring Cloud Config采用Git存储时两种常用的配置策略

由于Spring Cloud Config默认采用了Git存储,相信很多团队在使用Spring Cloud的配置中心时也会采用这样的策略。即便大家都使用了Git存储,可能还有各种不同的配置方式,本文就来介绍一下两种常用的配置策略。 第一种:多个项目公用一…

图谱实战 | 城市大脑知识图谱构建及应用研究

转载公众号 | 专知随着城市大脑建设进程的推进,城市中积累了大量的物联网(IoT)设备和数据,利用海量设备数据对问题 进行分析和溯源,对于城市大脑建设具有重要意义。该文基于资源描述框架和智能物联网协议概念,提出一种以城市物联网本体为基础的城市大脑知识图谱建设方法,城市大…

震惊!三个万引大佬嘴仗,原来是为了他……?

文|白鹡鸰想把小轶挂到三作编|小轶已把白鹡鸰挂到三作这本应是白鹡鸰在小轶追杀下游刃有余拖稿的一天,结果小轶再次把一篇新论文喂到了我的嘴边。象征性地打开论文,草草扫过去,嗯,迁移学习,嗯&a…

LeetCode 611. 有效三角形的个数(双指针)

1. 题目 给定一个包含非负整数的数组,你的任务是统计其中可以组成三角形三条边的三元组个数。 示例 1: 输入: [2,2,3,4] 输出: 3 解释: 有效的组合是: 2,3,4 (使用第一个 2) 2,3,4 (使用第二个 2) 2,2,3注意: 数组长度不超过1000。 数组里整数的范围为 [0, 1000]…

Eureka 2.0 开源流产,真的对你影响很大吗?

最近连续发烧四天,偶尔刷两下朋友圈都能看到好几条来自不同号的关于《Eureka 2.0开源工作宣告停止,继续使用风险自负》的推文。主要内容如下: 近日,知名服务注册与服务发现工具 Eureka 的 GitHub Wiki 上显示其 2.0 版本的开源工作…

会议交流 | 知识图谱开源开放及生态——7月12日TF65

转载公众号 | 中国计算机学会本期会议邀请到来自阿里巴巴等头部企业的代表,以及来自北京大学、南京大学和浙江大学的研究人员,一起深入探讨开放知识图谱、知识图谱开源工具等所面临的机遇和挑战,并进一步了解知识图谱开放和开源工具构建的应用…

LeetCode 650. 只有两个键的键盘(DP)

1. 题目 最初在一个记事本上只有一个字符 ‘A’。你每次可以对这个记事本进行两种操作: Copy All (复制全部) : 你可以复制这个记事本中的所有字符(部分的复制是不允许的)。Paste (粘贴) : 你可以粘贴你上一次复制的字符。 给定一个数字 n 。你需要使用最少的操作…

10个开源工业检测数据集汇总

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

Hystrix降级逻辑中如何获取触发的异常

通过之前Spring Cloud系列教程中的《Spring Cloud构建微服务架构:服务容错保护(Hystrix服务降级)》一文,我们已经知道如何通过Hystrix来保护自己的服务不被外部依赖方拖垮的情况。但是实际使用过程中经常碰到开发反应“莫名”触发…

大厂生存36计

本文授权转载自公众号“算法圈的小破事”,点击以上卡片进行关注大家好,我是在互联网危险边缘疯狂试探的皮皮虾。互联网大厂就像一座围城,外面人想进去,里面的人想出去。里面的人说又累又不好混,外面的人觉得里面的人舒…

开源开放 | 多模态地球科学知识图谱GAKG

OpenKG地址:http://openkg.cn/dataset/gakg网站地址:https://gakg.acemap.info/论文地址:https://dl.acm.org/doi/10.1145/3459637.3482003开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:王新…

LeetCode 468. 验证IP地址

1. 题目 编写一个函数来验证输入的字符串是否是有效的 IPv4 或 IPv6 地址。 IPv4 地址由十进制数和点来表示,每个地址包含4个十进制数,其范围为 0 - 255, 用(".")分割。比如,172.16.254.1; 同时&#xff…

Spring Cloud Config采用数据库存储配置内容【Edgware+】

在之前的《Spring Cloud构建微服务架构:分布式配置中心》一文中,我们介绍的Spring Cloud Server配置中心采用了Git的方式进行配置信息存储。这一设计巧妙的利用Git自身机制以及其他具有丰富功能的Git服务端产品,让Spring Cloud Server在配置存…