对MAE的解析

一、背景

        Masked Autoencoders(掩膜自编码器)在NLP领域大放异彩,它是去噪自编码器[1]的一种具体实现方式,然而其在视觉领域的研究进展却有所滞后。作者指出了视觉和NLP两个领域中掩膜自编码器的差异:

  •  架构差异,这一点由于Vit的提出将差异进行了弥合。
  •  信息密度不同,自然语言的语义复杂度相比图像更高一些,比如将一个句子的部分单词删除掉,补全缺失的单词似乎是一项非常复杂的语言理解任务,而图像存在较多的信息冗余,比如天空、草地、河流,掩盖部分图像可以从相邻区域进行复原。
  •  视觉decoder还原masked块的像素,语义层次较低,NLP的decoder还原的是masked的词,后者拥有的语义信息更丰富,所以BERT中的decoder仅需一个MLP就可以搞定masked的词t复原。所以,就复原难度来说,视觉decoder的难度更大。

        综上,以掩膜自编码器的形式构建了一种视觉领域的表征学习器,架构如下,由一个encoder和一个decoder构成。

        在训练时,将75%的图片块mask掉,送入encoder模块, 所以encoder模块的计算量会比较小,送入decoder的输入是encoder的输出加上mask的图片块,图片块的位置复原为原图位置,decoder输出复原后的图像。所以,我们可以得到一个基本的结论,在训练时MAE的计算量会大幅减少,因为encoder仅需要关注未被mask掉的25%的图像块即可。

        在测试时,decoder部分被舍弃,将预训练后的encoder直接应用于完整的图片,得到的输出用于视觉任务。

二、Encoder

        Encoder部分使用的是Vit,出彩点是采用了极高的mask比例,75%!有三点好处:第一是计算效率大幅提升,第二个是会促使模型完成高难度的自监督学习任务,得到更鲁棒的图像表征;第二是可以很容易在大模型上做应用,这也是论文题目上Scale出现的原因。

三、Decoder

        由于采用了非对称结构设计,decoder可以和encoder解耦,作者采用了更浅而瘦的Vit网络,计算量是encoder部分的1/10,极大的减少了预训练时间。

四、消融实验

  •  慎用颜色增强,据作者所述,实验结果有负向作用;

五、参考文献

  1. Extracting and composing robust features with denoising autoencoders

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/4490.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【智能算法】成吉思汗鲨鱼优化算法(GKSO)原理及实现

目录 1.背景2.算法原理2.1算法思想2.2算法过程 3.结果展示4.参考文献 1.背景 2023年,G Hu等人受到成吉思汗鲨鱼(GKS)捕食和生存行为启发,提出了成吉思汗鲨鱼优化算法(Genghis Khan Shark Optimizer, GKSO)…

C# Solidworks二次开发:枚举应用实战(第九讲)

大家好,今天还是介绍我们的枚举应用实战系列。 下面是今天要介绍的枚举: (1)第一个为swsBearingLoadEndEditError_e,这个枚举值的含义为轴承载荷编辑错误,下面是官方的具体枚举值: MemberDesc…

2024.4.27——LeetCode 高频题复盘

目录 102. 二叉树的层序遍历33. 搜索旋转排序数组121. 买卖股票的最佳时机200. 岛屿数量20. 有效的括号88. 合并两个有序数组141. 环形链表46. 全排列236. 二叉树的最近公共祖先 102. 二叉树的层序遍历 题目链接 Python 方法一 # Definition for a binary tree node. # clas…

Vue开发者工具Vue.js devtools Vue开发者工具安装步骤前端开发工具免费附带教程

下载地址: 链接: https://pan.baidu.com/s/1JaGvhS4NoD8lL07n2ScE9A 密码: 9rfs 安装步骤: 以谷歌浏览器为例 第一步:打开Chrome的拓展程序 如图 第二步: 将下载好的拓展程序拖入即可,如下图 第三步:…

现代永磁同步电机控制原理pdf及全套matlab仿真模型

现代永磁同步电机控制原理pdf及matlab仿真模型。全书包含SVPWM, DTC, Lun, smo, EKF, HFI等经典控制算法。将书中10章节涉及到的模型复原搭建模型。 模型获取链接:现代永磁同步电机控制原理pdf及全套matlab仿真模型

TCP-模拟BS架构通信

简介 bs是通过浏览器进行访问的每次访问都会开启一个短期的socket用来访问服务器的资源 响应报文的格式 服务端 bs架构中的b是浏览器,不需要我们书写,我们只需要书写服务端即可 服务端 public class Server {public static void main(String[] args) {S…

【Docker】docker部署lnmp和wordpress网站

环境准备 docker:192.168.67.30 虚拟机:4核4G systemctl stop firewalld systemctl disable firewalld setenforce 0 安装docker #安装依赖包 yum -y install yum-utils device-mapper-persistent-data lvm2 #设置阿里云镜像 yum-config-manager --add…

【校招VIP】985 211求职策略

目录 一、24届基本结束,数据总结 1. 5成-7成的211-985同学没拿到大厂开发岗(用户调查来源) 2. 薪资正常在20K-25K,但是招聘量收紧 3.五大银行总行开发岗,进一步收紧 4.为什么往年秋招10底结束,去年去延…

C++各种排序算法详解及示例源码

1、排序算法 排序算法(sorting algorithm)用于对一组数据按照特定顺序进行排列。排序算法有着广泛的应用,因为有序数据通常能够被更高效地查找、分析和处理。 1.1 评价维度 运行效率:我们期望排序算法的时间复杂度尽量低&#xf…

2023年蓝桥杯大学A组第二题:有奖问答(一维动态规划解法)

题目描述 小蓝正在参与一个现场问答的节目。 活动中一共有 30 道题目,每题只有答对和答错两种情况,每答对一题得 10 分,答错一题分数归零。 小蓝可以在任意时刻结束答题并获得目前分数对应的奖项,之后不能再答任何题目。 最高奖项…

力扣数据库题库学习(4.25日)

1484. 按日期分组销售产品 问题链接 思路与分析 编写解决方案找出每个日期、销售的不同产品的数量及其名称。 每个日期的销售产品名称应按词典序排列。 返回按 sell_date 排序的结果表。我来分析一下,这里的题目要求其实就是统计不同日期下的销售产品数&#xf…

渗透作业1--思考题

1. windows登录的明文密码,存储过程是怎么样的,密文存在哪个文件下,该文件是否可以打开,并且查看到密文 Windows系统出于安全考虑,并不直接存储用户的明文密码。当用户设置密码时,系统会对密码进行哈希处理…

Matlab 使用subplot绘制多个子图,一元拟合

实现效果: clc; clear;filename sri.xlsx; % 确认文件路径data readtable(filename); datavalue data{:,2:end}; datavalue datavalue;fig figure(Position, [0, 0, 1500, 900]); indexString ["(a)","(b)","(c)","(d)&qu…

windows获取进程信息函数

#ifndef PROCESS_H #define PROCESS_H #include <windows.h> #include <vector> #include <string> #include <tlhelp32.h> #include <stdio.h>/*** 获取某个进程名称是否正在运行* brief ProcessIsRunning* param name* return*/ bool ProcessI…

<计算机网络自顶向下> Internet Protocol(未完成)

互联网中的网络层 IP数据报格式 ver: 四个比特的版本号&#xff08;IPV4 0100, IPV6 0110&#xff09; headlen&#xff1a;head的长度&#xff08;头部长度字段&#xff08;IHL&#xff09;指定了头部的长度&#xff0c;以32位字&#xff08;4字节&#xff09;为单位计算。这…

可替换XC6206P332MR的润石超低功耗LDO RS3221-3.3YF3助力智能门锁设计,精度低至1%

润石科技的RS3221&#xff0c;可满足超低功耗&#xff0c;在智能门锁设计时&#xff0c;兼容替换TOREX的XC6206P332MR&#xff0c;具体请参考图1参数对比&#xff1a; 图1&#xff1a;RS3221-3.3YF3与XC6206P332MR电性能参数对比 通过上表可知&#xff0c; 1、 RS3221-3.3YF3…

家政服务小程序:家政行业的数字化转型

随着大众生活水平的提高&#xff0c;以及老龄化的加速&#xff0c;家政服务已经成为了大众生活中不可或缺的一部分。目前&#xff0c;我国家政服务市场的规模在持续扩大&#xff0c;发展前景一片大好。在日益提升的家政需求下&#xff0c;大众对家政服务的种类也逐渐多样。 为…

【ARMv9 DSU-120 系列 4.1 -- Utility bus 详细介绍 2】

请阅读【Arm DynamIQ™ Shared Unit-120 专栏 】 文章目录 ARM DSU-120DSU-120 Utiity BusCluster and core PPUPPU寄存器的访问性PPU寄存器的作用系统组件基地址ARM DSU-120 DSU-120 Utiity Bus 在ARMv9架构中,DSU-120(Dynamic Shared Unit 120)是一个关键组件,用于管理核…

炒股自动化:券商官方,散户可用,查询订单状态API如何用?

券商官方的接口&#xff0c;个人账户可申请&#xff0c;入金门槛低&#xff0c;接入文档完善&#xff0c;技术支持好的&#xff0c;经过我们筛选后&#xff0c;只有一家符合 会编程&#xff0c;有基础&#xff0c;只是需要API接口的朋友不用看这些&#xff0c;不会写程序的朋友…

全球乙烯丙烯酸共聚物(EAA)市场现状及产业发展趋势分析2024

乙烯丙烯酸共聚物&#xff08;EAA&#xff09;是丙烯酸的乙酯。它是一种具有特殊气味的无色液体。EAA具有很好的附着力和密封性能、特殊的硬度、柔韧性。 据GIR (Global Info Research)调研&#xff0c;按收入计&#xff0c;2023年全球乙烯丙烯酸共聚物&#xff08;EAA&#xf…