【论文阅读】Masked Autoencoders Are Scalable Vision Learners

Masked Autoencoders Are Scalable Vision Learners

引用: He K, Chen X, Xie S, et al. Masked autoencoders are scalable vision learners[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 16000-16009.

论文链接: [2111.06377] Masked Autoencoders Are Scalable Vision Learners

代码链接: GitHub - facebookresearch/mae: PyTorch implementation of MAE

简介

在硬件快速发展的帮助下,今天的模型可以很容易地过度拟合100万张图像,并开始需要数亿张(通常无法公开访问)标记的图像。这种对数据的需求已经在自然语言处理(NLP)中通过自我监督的预训练成功解决。这些解决方案基于GPT 中的自回归语言建模和BERT中的掩码自编码,在概念上很简单:它们删除了一部分数据并学习预测删除的内容。这些方法现在可以训练包含超过一千亿个参数的可泛化 NLP 模型。因此,掩码自动编码器的想法是自然的,也适用于计算机视觉。

在这里插入图片描述

掩码自动编码器(Masked Autoencoder,MAE)是用于计算机视觉的可扩展自监督学习器。MAE 的思路很简单:随机屏蔽输入图像的某些块并重建缺失的像素。与自然语言相反,图像是具有高度空间冗余的自然信号——例如,缺失的补丁可以从相邻的补丁中重新覆盖,而对零件、对象和场景的高级理解很少。因此,屏蔽很高比例的随机补丁在很大程度上减少了冗余,并创造了一项具有挑战性的自我监督任务。首先,MAE提出了一种非对称编码器-解码器架构,该架构的编码器仅在patches的可见子集(没有掩码的tokens)上运行,以及一个轻量级解码器,该解码器从潜在表示和掩码tokens重建原始图像。其次,屏蔽输入图像的很大一部分,例如75%,会产生一个不平凡且有意义的自我监督任务。在仅使用 ImageNet-1K 数据的方法中,普通的 ViT-Huge 模型实现了最佳的准确率 (87.8%)。下游任务中的传输性能优于监督预训练,并显示出有希望的扩展行为。

Approach

在这里插入图片描述

MAE是一种简单的自动编码方法,在给定其部分观测的情况下重建原始信号。MAE包括一个编码器,将观察到的信号映射到潜在表示,一个解码器,从潜在表示重建原始信号。与经典的自动编码器不同,MAE采用了非对称设计,允许编码器仅对部分观察到的信号进行操作(无掩码标记),并采用了轻量级解码器,该解码器根据潜在表示和掩码标记重新构建完整信号。

  • Masking:参考ViT,将图像划分为规则的非重叠补丁。然后,对补丁的子集进行采样,并屏蔽(即移除)剩余的补丁。采样策略很简单:按照均匀分布对随机补丁进行采样,而不进行替换,称之为“随机抽样”。具有高掩蔽比的随机采样(即去除的补丁的数量)在很大程度上消除了冗余,因此产生了一个无法通过从可见的相邻补丁进行外推来轻松解决的任务。均匀分布防止了潜在的中心偏移(即,在图像中心附近有更多的掩模斑块)。最后,高度稀疏的输入为设计高效编码器创造了机会。

  • MAE encoder编码器使用ViT,但仅适用于可见的、未掩码的补丁。就像在标准ViT中一样,编码器通过添加位置嵌入的线性投影嵌入补丁,然后通过一系列Transformer块处理结果集。然而,编码器只对全集的一小部分(例如,25%)进行操作。掩码的补丁被移除;不使用掩码tokens。

  • MAE decoder解码器的输入是由(i)编码的可见补丁和(ii)掩码tokens组成的全部tokens的集合。每个掩码token是一个共享的、学习的向量,指示要预测的掩码补丁的存在。将位置嵌入添加到这个完整集合中的所有标记;如果没有这一点,掩码tokens将没有关于它们在图像中的位置的信息。解码器仅在预训练期间用于执行图像重建任务(仅使用编码器生成图像表示以供识别)。因此,解码器架构可以独立于编码器设计的方式灵活设计。

  • Reconstruction targetMAE 通过预测每个掩码补丁的像素值来重建输入。解码器输出中的每个元素都是表示补丁的像素值向量。解码器的最后一层是线性投影,其输出通道数等于补丁中的像素值数。解码器的输出被重塑以形成重建的图像。损失函数计算像素空间中重建图像和原始图像之间的均方误差 (MSE)使用归一化像素作为重建目标可以提高实验中的表示质量。具体来说就是计算一个补丁中所有像素的平均值和标准差,并使用它们来规范化这个补丁。

实验

MAE 在 ImageNet-1K (IN1K) 训练集上进行自我监督预训练。然后,进行监督训练,通过(i)端到端微调或(ii)线性探测来评估表示。

在这里插入图片描述
在这里插入图片描述

75%的比率适用于线性探测和微调。这种行为与BERT形成鲜明对比,BERT的典型掩码率为15%。在计算机视觉方面,掩码率也远高于相关著作(20%至50%)。该模型推断缺失的补丁,以产生不同但合理的输出(图 4)。它使物体和场景的格式塔变得有意义,这不能简单地通过延伸线条或纹理来完成。假设这种类似推理的行为与学习有用的表征有关。
在这里插入图片描述

更长的训练计划会带来明显的改善。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/759088.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

UE4_官方动画内容示例1.3_ 运动混合空间(Locomotion BlendSpace)

如何使用运动(Locomotion)混合空间将Actor在不同方向上及不同速度的运动混合起来。(例如,展示了一个混合了以不同速度向后、前、左和右走路/跑步动作的Actor)。 一、相关知识点: 混合空间是允许根据多个输…

联想笔记本的声音键没有反应怎么办?

如果我的联想笔记本电脑上的声音按钮没有响应,该怎么办? 如果我的联想笔记本电脑上的声音按钮没有响应,该怎么办? 按下按钮后我无法控制声音。 我该怎么办? 以下是我为您整理的关于联想笔记本声音按键无反应的相关资料…

Android 10.0 app获取当前已连接wifi列表ssid和密码功能实现

1.前言 在10.0的系统定制化开发中,在一些关于wifi的定制中,有产品需求app中要求获取当前连接wifi和密码功能,在系统原生wifi中 是禁止获取wifi连接的密码的,所以就需要对wifi模块进行一部分的修改,来满足app中获取wifi的ssid和密码功能,接下来就来 实现这个功能 如图:…

金融知识分享系列之:支撑阻力

金融知识分享系列之:支撑阻力 一、支撑阻力原理二、支撑阻力作用1.识别市场资金的预期2.作为入场和平仓的重要参考 三、寻找支撑阻力四、延伸思考五、支撑阻力总结 一、支撑阻力原理 支撑阻力核心要素: 锚定效应订单驱动 支撑阻力原理: 市…

爬虫系列-CSS基础语法

🌈个人主页:会编程的果子君 💫个人格言:“成为自己未来的主人~” CSS全称层叠样式表 ,主要用来定义页面内容展示效果的一门语言,HTML:页面骨架,素颜CSS:页面效果美化&#xff1a…

01分布式搜索引擎ES

分布式搜索引擎ES 1.初识elasticsearch1.1.了解ES1.2.倒排索引1.3.es的一些概念 2.索引库操作2.1.mapping映射属性2.2.索引库的CRUD 3.文档操作3.1.新增文档3.2.查询文档3.3.删除文档3.4.修改文档3.5.总结 4.RestAPI4.0.导入Demo工程4.1.创建索引库4.2.删除索引库4.3.判断索引库…

免费PDF转换和编辑工具 PDFgear 2.1.4

PDFgear是一款功能强大的 PDF 阅读及转换软件。 它支持多种文件格式的转换和编辑,同时还提供了丰富的功能模块,如签名、表单填写等,方便用户进行多样化的操作。 该软件界面简洁美观,操作简单易懂,适合不同层次的用户…

java static

1、static概念 (1)static 关键字是静态的意思,可以修饰成员方法,成员变量 (2)static 修饰的特点 ① 被类的所有对象共享,这也是我们判断是否使用静态关键字的条件。 ② 可以通过类名调用&…

机器学习-06-回归算法

总结 本系列是机器学习课程的系列课程,主要介绍机器学习中回归算法,包括线性回归,岭回归,逻辑回归等部分。 参考 fit_transform,fit,transform区别和作用详解!!!!!&am…

ActiViz三维场景的基本要素——相机

文章目录 前言一、基本属性和方法二、相机操作三、高级功能四、 示例代码和应用五、总结前言 在ActiViz中,vtkCamera是一个非常重要的类,用于定义观察场景的视角和位置。作为三维可视化的核心组件之一,vtkCamera决定了用户在三维场景中所看到的图像内容和视角,因此它对于呈…

基于Java中的SSM框架实现在线通用旅游平台网站系统项目【项目源码+论文说明】计算机毕业设计

基于Java中的SSM框架实现在线通用旅游平台网站系统演示 摘要 近几年来,计算机网络的发展得到了飞速的提升,由此展开的一系列行业大洗牌也由此开始。早些年只是人们只是对于计算机和互联网有了些基础的认识,现在它正在悄悄的改变着我们生活的…

安装MySQL5.7.19 + 解决数据库乱码

文章目录 1.删除mysql服务 sc delete mysql2.解压到D:\mysql5.7下3.配置管理员环境变量4.D:\mysql5.7\mysql-5.7.19-winx64下创建my.ini1.创建文件2.文件内容 5.管理员打开cmd,切换到 D:\mysql5.7\mysql-5.7.19-winx64\bin6.输入 mysqld -install 安装mysql服务7.初…

网页无插件视频播放器,支持录像、截图、音视频播放,多路播放等,提供源码下载

前言 本播放器内部采用jessibuca插件接口,支持录像、截图、音视频播放等功能。播放器播放基于ws流,分屏操作支持1分屏、4分屏、6分屏、9分屏方式。 jessibuca工作原理是通过Emscripten将音视频解码库编译成Js(WebAssembly,简称was…

Java集合Collection之LinkedList

LinkeList LinkedList(双向链表)是一种常见的线性数据结构,但是并不会按线性的顺序存储数据。它由一系列节点组成,每个节点包含数据部分和一个指向下一个节点的引用。相比于数组,链表具有动态大小、插入和删除效率高的…

【电气安全】ASCP电气防火限流式保护器/末端回路线路保护

为什么要使用电气防火限流式保护器? 应急管理部消防救援局统计,在造成电气火灾事故的原因中,最为主要的当为末端线路短路,在电气火灾事故中占比高达70%以上。如何效预防末端线路短路引发的电气火灾事故? 现阶段最为常…

T470 双电池机制

ThinkPad系列电脑牛黑科技双电池管理体系技术,你知道吗? - 北京正方康特联想电脑代理商 上文的地址 在放电情况下:优先让外置电池放电,当放到一定电量后开始让内置电池放电。 在充电情况下:优先给内置电池充电,当充…

航空实时监控

1、从Kafka中读取飞机数据,并进行清洗 此步骤在前面的“使用Spark清洗统计业务数据并保存到数据库中”任务阶段应该已经完成。如果没有完成,请参考源代码自行完成。核心类主要有三个:SparkStreamingApplication类、SparkUtil类和MapManager类…

目标检测——YOLOR算法解读

论文:YOLOR-You Only Learn One Representation: Unifified Network for Multiple Tasks 作者:Chien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao 链接:https://arxiv.org/abs/2105.04206 代码:https://github.com/WongKinYiu/yolo…

CAPL如何实现TCP Packet的option字段

在TCP协议中,主机可以根据自身的需要决定TCP通信时是否携带option字段,来扩展TCP功能。option字段属于TCP首部的扩展部分,且是可选项,TCP根据首部中的offset字段值确定TCP报文是否携带option字段。 TCP首部固定的部分有20个字节,如果没有扩展部分(option字段),20个字节…

vue-生成二维码

安装 yarn add qrcodejs2 --save npm install qrcodejs2 --save 使用 <template><div><div id"qrcodeImg"></div><!-- 创建一个div&#xff0c;并设置id --></div> </template> <script> import QRCode from q…