Exploring the Limits of Masked Visual Representation Learning at Scale论文笔记

论文名称:EVA: Exploring the Limits of Masked Visual Representation Learning at Scale
发表时间:CVPR2023
作者及组织:北京人工智能研究院;华中科技大学;浙江大学;北京理工大学
GitHub:https://github.com/baaivision/EVA

问题与贡献

本文中,作者提出了一个以视觉为中心的基础模型,EVA,来探索大规模masked视觉特征学习的局限性。

EVA is a vanilla ViT pretrained to reconstruct the masked out image-text aligned vision features conditioned on visible image patches.

EVA,是一个普通的ViT模型,预训练任务的目标是重建掩码patches的CLIP特征。通过新的pretext代理任务,可以有效地扩大EVA到10亿参数量,同时在一系列下游任务中取得新的记录。EVA除了可以作为视觉编码器之外,还可以应用到多模态任务中对齐图像和文本。使用EVA初始化CLIP可以极大减少训练波动,相对于从头开始训练CLIP使用更少的样本和计算量,为扩大和加速多模态基础模型的训练提供了一个新的方向。

模型、理论和方法

vision pretext task

基于之前的视觉预训练模型研究工作,有两个主流方案:

  • 重建masked out tokenized semantic vision features;
  • 重建来自大规模预训练模型蒸馏的特征;

两者都使用了预先训练图像文本对齐的视觉特征。通过下面的一些实验,可以发现CLIP的特征标记化对于好的下游任务表现不是必须的;随着预训练时间延长,重建蒸馏特征并不能带来一致的性能增益。作者发现简单地重建以可见图像块为条件的masked图像文本对齐视觉特征,效果更好。
image.png

pre-training objective

EVA有10亿参数量,与ViT giant和BEiT-3相当。在预训练阶段,EVA没有使用相对位置编码和layer-scale。EVA对输入的patchs进行mask,掩码率为40%。其重建目标来自使用224×224像素图像训练的OpenAI CLIP-L/14视觉encoder。EVA输出特征首先归一化,然后通过线性层映射成CLIP特征相同的维度。使用negative cosine similarity作为损失函数。
image.png
EVA的训练数据集共29.6million,来自于不同的开源数据集。用于生成预测模型的CLIP使用4亿图文对数据进行训练。因此,在EVA的预训练阶段也会从这些数据中学习到知识。

pre-training设置

image.png
如上图所示,EVA使用Adam优化器进行优化,decoupled weight decay参数设置为0.05。初始学习率设置为1e-3,采用余弦衰减方案缩放学习率。设置随机深度的比例为0.1用于正则化。数据增强的方案采用RandResizeCrop(0.2,1),没有使用Color jitter
image.png
预训练过程中的细节如上图所示。作者采用的GPU平台为NVIDIA A100-SXM4-40GB。预训练代码基于BEiT代码修改得来。同样,采用DeepSpeed优化库和ZeRO stage-1优化器来节省显存。在训练过程中,使用fp16精度搭配dynamic loss缩放模型整体收敛稳定,因此使用bfloat16是没有必要的。由于EVA使用fp16精度训练,因此可以使用16×NVIDIA 24GB(32GB)GPUs带(不带)梯度检查点进行预训练。

实验结果

为了证明EVA预训练模型的效果,在不同的下游任务,如图像分类,视频动作识别,目标检测和实例分割,语义分割,以及零样本评估的对比图文预训练,进行实验。

图像分类

对于图像分类任务,EVA在ImageNet-1K 的验证集上进行评估。同时在其他6个数据集上评估模型的鲁棒性和泛化性。

image.pngimage.png

EVA首先在ImageNet-21k上训练60个epoch,然后ImageNet-1K的训练集上训练10个epoch。与其他网络的复杂结构不同,EVA简单使用一个线性层作为分类器。需要注意的是,在ImageNet-21k上进行中间微调时,相比于MIM的预训练阶段只消耗了约1/5的时间和计算资源。然后对于其他billion参数级别的视觉模型,如SwinV2-G-3B,监督训练阶段消耗的资源约为MIM预训练的1.5倍。
image.png
上图为EVA与其他模型在ImageNet-1K上的实验效果。输入大小为336×336时,EVA的top-1精度达到了89.6%。使用更大的输入分辨率 56 0 2 560^2 5602可以进一步将top-1精度提升至89.7%。需要注意的是BEiT-3将图像分类任务作为一个图文检索任务,因此BEiT-3进行图像分类任务时额外引入了十亿参数量的语言编码器,该编码器是由350万图文对和160GB文本数据预训练得到。而EVA仅仅在模型基础上添加一个线性分类层,使用ImageNet-21k图像数据用于微调。使用公开的数据,EVA在ImageNet-1K上取得了一个新的记录。
为了验证EVA模型的鲁棒性和泛化能力,EVA在6个不同ImageNet-1K的非同源数据集上进行实验。如下图所示,EVA与timm库中一些性能较好开源的模型进行比较。所有的模型首先在ImageNet-1K的训练集上进行微调,然后在不同的非同源数据集上进行评估,该过程不做任何参数调整和额外微调。
image.png
由于模型的训练数据、输入大小、模型参数量,以及框架无法对齐,因此这些结果无法直接比较。作者以其他6个数据集的平均top-1值和原始ImageNet-1K的top-1之间的差距进行比较。从gap来看,EVA不仅取得了最高的平均值,并且性能差距也是最小的,表明EVA具有优秀的鲁棒性和泛化性。

不同条件下的EVA表现

image.png
其中psz14to16表示将patch_embed的kernel_size从14×14调整为16×16.这个对于目标检测、实例分割和语义分割的性能有提升作用。

训练EVA-CLIP

使用EVA初始化CLIP的图像编码器进行训练,在ImageNet-1K下的效果如下:
image.png

使用EVA-CLIP构建重建目标

EVA-L是ViT-Larger的一个变体,以MIM方式进行预训练,EVA-CLIP的特征作为预测目标。因此,在EVA-L的预训练阶段会从更强的teacher模型中获取知识。
采用MAE风格的预训练方式,预训练设置如下:
image.png
在ImageNet-1K的测试结果如下:
image.png

视频动作识别

**数据集:**对于视频动作识别任务,分别在Kinetics-400,Kinetics-600和Kinetics-700数据集上进行实验。首先在一个合并数据集coined Kinetics-722上进行中间微调,该数据集是由K-400,K-600和K-700通过删除在训练集和验证集中重复视频得到。经过去重操作之后,K-722中包含6.3亿视频数据包含722个动作类别。
**训练和评估设置:**EVA处理视频数据仅仅简单通过spatial-temporal attention,没有其他特殊的结构调整。首先使用K-722训练集上训练EVA,然后在每个数据集上仅仅微调1或者2epochs。设置frame×crop×clip为16×3×4用于微调和评估所有数据集。每一帧的分辨率为 22 4 2 224^2 2242
**结果:**如下图所示,EVA取得更好的效果相对于一些视频分类模型或者更大的基础模型。一个参考指标,对于经过K-722微调后的模型,直接在K-400上进行评估可以取得的top-1精度为88.4%。
image.png

目标检测&实例分割

**数据集:**使用COCO和LVISv1.0来评估目标检测和实例分割效果。COCO是一个大规模应用的目标检测数据集,其包含11.8万训练集、5千验证集和2万测试集,共80个类别。LVISv1.0中包含1200个目标类别,由超过2百万高质量的实例分割掩码图像。
**评价指标:**对于COCO,使用标准的box AP A P b o x AP^{box} APbox和mask AP A P m a s k AP^{mask} APmask作为评价指标。而LVISv1.0,给出了 A P b o x , A P m a s k AP^{box},AP^{mask} APbox,APmask A P r a t e m a s k AP_{rate}^{mask} APratemask指标。
**训练和评估设置:**EVA使用Cascase Mask R-CNN 作为检测器,采用ViTDet的训练方案和框架配置。按照正常的训练方案,首先在Objects365数据集上进行中间微调,分辨率为 102 4 2 1024^2 10242,然后分别在COCO和LVISv1.0训练集上进行微调,分辨率为 128 0 2 1280^2 12802
**COCO实验结果:**与其他最先进的方法进行比较,EVA在COCO数据集上创造了一个新的记录。与ViTDet-H相比,同样采用Cascasde Mask R-CNN,EVA结果表示采用一个更大模型,更好的编码器和检测器训练方案,相同框架下模型的效果可以取得很大进步。
image.png
**LVIS实验结果:**在LVIS1.0上,EVA使用单尺度评估在所有指标上都取得最好的结果,相较于之前的方法有很大进步。
image.png
**LVIS-COCO结果差异分析:**相比于COCO数据集的80类,LVIS有1200类物体,自然而然存在一个长尾分布问题,与现实应用场景更加符合。因此,LVIS相对于COCO更难,常见的方法在LVIS上相对于COCO有一个更大的性能下降。
如下图所示,分析了COCO和LVIS在不同模型的性能差异。对于之前的模型,如ViTDet,在 A P b o x AP^{box} APbox A P m a s k AP^{mask} APmask上的性能差异分别8和5。但是,采用相同检测器和参数配置,EVA不仅在LVIS&COCO上取得了最好的效果,同时极大的缩小了两个数据集上的性能。
image.png

语义分割

**数据集:**EVA在ADE20K和COCO-Stuff-164K数据集上评估语义分割任务。ADE20K数据集中包含150个分割类别,包含2万张训练集和2千张验证集。COCO-Stuff-164K共包含16.4万张图像数据,包含172个类别。相比于ADE20K,COCO-Stuff更具有挑战性。
**实验结果:**与其他最先进的语义分割方法进行比较,EVA在ADE20K和COCO-Stuff-164K数据集上都取得了较好的结果。可以看到EVA的性能在ADE20K上略低于BEiT-3,这个可能是因为由于资源限制弱化了网络结构配置。
image.png

CLIP零样本评估

CLIP是一种多模态基础模型通过对比图像文本预训练来对齐视觉和语言。CLIP可以直接应用于任何图像分类benchmark,仅仅只需要提供数据集的类别名称即可。将EVA作为CLIP的视觉编码器,评估其在零样本图像/视频benchmark上的效果。
**训练设置:**使用预训练的EVA作为CLIP的视觉编码器,语言编码器保持OpenAI CLIP-L原样。该实现是基于Open CLIP代码。使用DeepSpeed优化库来节省显存。作者发现使用fp16精度搭配dynamic loss缩放在整个训练过程能稳定收敛。基于此,训练1.1B的CLIP模型在256× NVIDIA A100 40GB GPUs上batch size可以设置为41k。
**评估设置:**作者在12个数据集上评估每个CLIP模型的零样本图像/识别分类性能。对于零样本分类任务,选择了8个数据集。对于CLIP模型的鲁棒性评估,以这些数据集的平均性能与原始ImageNet-1K验证集的差异作为指标。对于零样本视频分类任务,选择了4个数据集,分别为UCF-101,Kinetics-400,Kinetics-600和Kinetics-700。
**实验结果:**EVA-CLIP取得了最好的平均精度,在12个数据集上有10个为最优。此外,数据集之间的性能差异也是最小的,表示模型具有很好的鲁棒性。

image.png
在下图中,展示了EVA-CLIP在零样本、线性探测和端到端微调的top-1精度。该方法相对于现有所有的自监督方法的性能都更好。
image.png
EVA-CLIP的视觉分支是从OpenAI CLIP-L中学习得到,而语言分支是用CLIP-L模型直接初始化得到。因此,从430M参数的CLIP-L出发,进一步放大得到1.1B EVA CLIP-g模型,在性能上取得了很大提升。这意味着交错的 MIM 和图像文本对比预训练可能是一种高效且可扩展的 CLIP 训练方法。 据我们所知,EVA CLIP-g 是通过公开数据和资源训练的最大的高性能 CLIP 模型。 我们希望我们在扩展和改进 CLIP 方面的实践也能够启发并转移到其他大规模多模态基础模型的研究。

思考

本文中,作者推出了 EVA,一个 10 亿参数的普通 ViT 编码器,以探索掩码视觉表示学习的局限性。 我们展示了以简单的掩码特征作为重建目标,可以在一组具有代表性和多样化的下游任务中获得优异的结果。 作者希望EVA可以缩小视觉和语言研究之间的差距,为视觉研究做出贡献。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/577850.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ARM串口通信编程实验

完成:从终端输入选项,完成点灯关灯,打开风扇关闭风扇等操作 #include "gpio.h" int main() {char a;//char buf[128];uart4_config();gpio_config();while(1){//接收一个字符数据a getchar();//发送接收的字符putchar(a);switch(…

redis复习笔记01(小滴课堂)

高并发的必备两大“核技术”队列和缓存 介绍本地缓存和分布式缓存 Nosql介绍和Reidis介绍 Linux服务器源码安装Redis6和相关依赖 在路径下上传压缩包。 上传压缩包。 版本更新了,但这是临时的。 版本更新了。 解压压缩包: 重命名: 我们可以看…

C# WPF上位机开发(MySql访问)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 前面我们学习了数据库sqlite,不过这是一种小型的数据库,作为内部使用还可以。但是,如果要与外面的其他供应商进…

蓝牙物联网在智慧医疗中的应用

物联网技术开启了万物互联的时代,并且随着智慧城市建设的加速推进及物联网技术对各行业的逐步渗透,“智慧”概念应运而生,诸如智慧能源、智慧交通、智慧医疗等“遍地开花”,可以说,物联网技术给各行业带来了产业模式上…

Arduino/Android 蓝牙通信系统设计解决方案

随着当今安全管理的发展需求以及国家对安全监控行业的支持,这几年,安全监控行业发展迅猛,各类监控系统百花齐放。传统的温度监控系统通过有线或其他方式传送温度数据,而本文提出了利用蓝牙无线传输数据的设计方案,这种…

FLStudio21中文版水果编曲软件好用吗?如何下载最新版本

FL Studio21版是一款在国内非常受欢迎的多功能音频处理软件,我们可以通过这款软件来对多种不同格式的音频文件来进行编辑处理。而且FL Studio 21版还为用户们准备了超多的音乐乐器伴奏,我们可以直接一键调取自己需要的音调。 FL Studio21版不仅拥有非常…

金和OA C6 gethomeinfo sql注入漏洞

产品介绍 金和网络是专业信息化服务商,为城市监管部门提供了互联网监管解决方案,为企事业单位提供组织协同OA系统开发平台,电子政务一体化平台,智慧电商平台等服务。 漏洞概述 金和 OA C6 gethomeinfo接口处存在SQL注入漏洞,攻击者除了可以利用 SQL 注入漏洞获取…

vue3+ts pinia存储及持久化

index.ts 需要安装pinia-plugin-persist npm i pinia-plugin-persist -Simport { createPinia} from "pinia" // 引入批量的pinia持久存储插件 import piniaPluginPersist from pinia-plugin-persist const storecreatePinia(); store.use(piniaPluginPers…

【网络安全 | 网络协议】结合Wireshark讲解TCP三次握手

TCP三次握手在Wireshark数据包中是如何体现的?在此之前,先熟悉TCP三次握手的流程。 TCP三次握手流程 TCP(传输控制协议)是一种面向连接的、可靠的传输层协议。在建立 TCP 连接时,需要进行三次握手,防止因为…

【自然语言处理】用Python从文本中删除个人信息-第二部分

自我介绍 做一个简单介绍,酒架年近48 ,有20多年IT工作经历,目前在一家500强做企业架构.因为工作需要,另外也因为兴趣涉猎比较广,为了自己学习建立了三个博客,分别是【全球IT瞭望】,【…

uni-app pages.json之globalStyle全局页面样式配置

锋哥原创的uni-app视频教程: 2023版uniapp从入门到上天视频教程(Java后端无废话版),火爆更新中..._哔哩哔哩_bilibili2023版uniapp从入门到上天视频教程(Java后端无废话版),火爆更新中...共计23条视频,包括:第1讲 uni…

STM32软硬件CRC测速对比

硬件CRC配置 以及软硬件CRC速度对比 使用CUBEMX配置默认使用的是CRC32,从库中可以看出这一点 HAL库提供了以下两个计算函数 HAL_CRC_Accumulate(CRC_HandleTypeDef *hcrc, uint32_t pBuffer[], uint32_t BufferLength); 这个函数用于在已有的CRC校验结果的基础上累积…

听GPT 讲Rust源代码--src/tools(26)

File: rust/src/tools/clippy/clippy_lints/src/methods/iter_out_of_bounds.rs 在Rust源代码中,iter_out_of_bounds.rs文件是Clippy lints库的一部分,该库用于静态代码分析,用于检测Rust代码中的潜在问题和错误。iter_out_of_bounds.rs文件中…

第三天:对ThreadLocal理解

ThreadLocal是什么? ThreadLocal,也就是线程本地变量。如果你创建了一个 ThreadLocal变量,那么访问这个变量的每个线程都会有这个变量的一个本地副本,多个线程操作这个变量的时候,实际是操作自己本地内存里面的变量&a…

5G NTN与“手机直连卫星”快速原型

5G非地面网络(5G NTN) 5G非地面网络(Non-Terrestrial Network, NTN)是一项旨在使5G用户终端(5G UE)连接到 位于卫星上的非地面基站(5G gNB)的技术NTN是3GPP R17版本的重要功能,在5G-Advanced中持续演进,已成为3GPP Release 18 工作计划中的重要组成部分…

Wi-Fi、蓝牙、ZigBee等多类型无线连接方式的安全物联网网关设计

随着物联网和云计算技术的飞速发展.物联网终端的数量越来越多,终端的连接方式也更趋多样化,比如 Wi-Fi蓝牙和 ZigBee 等。现有的物联网网关大多仅支持一种或者几种终端的接人方式。无法满足终端异构性的需求。同时,现有的物联网网关与终端设备…

php 不加后缀访问

实现不带后缀访问php文件的方法:首先在htaccess文件中加入内容“RewriteRule ^(api/token) token.php [L]”;然后通过根目录下的“token.php”来接受“api/token”;最后修改配置文件。 考虑的做法有: HTTP重写技术,让…

MySQL数据库MySQL事务与存储引擎

目录 一、MySQL事务 (一)定义 (二)ACID特性 1.原子性 2.一致性 3.隔离性 4.持久性 (三)隔离级别 1.可能出现的一致性问题 (1)脏读 (2)不可重复读 …

微短剧,会成为长视频的“救命稻草”吗?

职场社畜秒变霸道总裁,普通女孩穿越成为艳丽皇妃.......这样“狗血”的微短剧,最近不仅在国内各大视频平台上异常火爆,而且还直接火出了国外。 所谓微短剧,就是单集时长从几十秒到十几分钟的剧集,有着相对明确的主题和…

基于 OV2640 的以太网 RGMII 图像传输系统设计

文章目录 前言一、UDP 协议的特点二、图像数据编码原理三、系统总体设计四、图像编码模块介绍4.1、图像编码模块作用4.2、图像编码模块功能实现4.3、仿真五、其他涉及模块说明六、顶层模块七、下载与验证前言 本节主要讲述了一种对数据以行为单位的编码方法。该方法采用摄像头…