对MAE的解析

对MAE的解析

bicheng/2025/12/22 7:15:19/文章来源:https://blog.csdn.net/gaoxueyi551/article/details/138269579

一、背景

Masked Autoencoders（掩膜自编码器）在NLP领域大放异彩，它是去噪自编码器[1]的一种具体实现方式，然而其在视觉领域的研究进展却有所滞后。作者指出了视觉和NLP两个领域中掩膜自编码器的差异：

架构差异，这一点由于Vit的提出将差异进行了弥合。
信息密度不同，自然语言的语义复杂度相比图像更高一些，比如将一个句子的部分单词删除掉，补全缺失的单词似乎是一项非常复杂的语言理解任务，而图像存在较多的信息冗余，比如天空、草地、河流，掩盖部分图像可以从相邻区域进行复原。
视觉decoder还原masked块的像素，语义层次较低，NLP的decoder还原的是masked的词，后者拥有的语义信息更丰富，所以BERT中的decoder仅需一个MLP就可以搞定masked的词t复原。所以，就复原难度来说，视觉decoder的难度更大。

综上，以掩膜自编码器的形式构建了一种视觉领域的表征学习器，架构如下，由一个encoder和一个decoder构成。

在训练时，将75%的图片块mask掉，送入encoder模块，所以encoder模块的计算量会比较小，送入decoder的输入是encoder的输出加上mask的图片块，图片块的位置复原为原图位置，decoder输出复原后的图像。所以，我们可以得到一个基本的结论，在训练时MAE的计算量会大幅减少，因为encoder仅需要关注未被mask掉的25%的图像块即可。

在测试时，decoder部分被舍弃，将预训练后的encoder直接应用于完整的图片，得到的输出用于视觉任务。

二、Encoder

Encoder部分使用的是Vit，出彩点是采用了极高的mask比例，75%！有三点好处：第一是计算效率大幅提升，第二个是会促使模型完成高难度的自监督学习任务，得到更鲁棒的图像表征；第二是可以很容易在大模型上做应用，这也是论文题目上Scale出现的原因。

三、Decoder

由于采用了非对称结构设计，decoder可以和encoder解耦，作者采用了更浅而瘦的Vit网络，计算量是encoder部分的1/10，极大的减少了预训练时间。

四、消融实验

慎用颜色增强，据作者所述，实验结果有负向作用；

五、参考文献

Extracting and composing robust features with denoising autoencoders

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/4490.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【智能算法】成吉思汗鲨鱼优化算法（GKSO）原理及实现

【智能算法】成吉思汗鲨鱼优化算法（GKSO）原理及实现

目录 1.背景2.算法原理2.1算法思想2.2算法过程 3.结果展示4.参考文献 1.背景 2023年，G Hu等人受到成吉思汗鲨鱼（GKS）捕食和生存行为启发，提出了成吉思汗鲨鱼优化算法（Genghis Khan Shark Optimizer, GKSO）…

阅读更多...

C# Solidworks二次开发：枚举应用实战（第九讲）

C# Solidworks二次开发：枚举应用实战（第九讲）

大家好，今天还是介绍我们的枚举应用实战系列。下面是今天要介绍的枚举： （1）第一个为swsBearingLoadEndEditError_e，这个枚举值的含义为轴承载荷编辑错误，下面是官方的具体枚举值： MemberDesc…

阅读更多...

2024.4.27——LeetCode 高频题复盘

2024.4.27——LeetCode 高频题复盘

目录 102. 二叉树的层序遍历33. 搜索旋转排序数组121. 买卖股票的最佳时机200. 岛屿数量20. 有效的括号88. 合并两个有序数组141. 环形链表46. 全排列236. 二叉树的最近公共祖先 102. 二叉树的层序遍历题目链接 Python 方法一 # Definition for a binary tree node. # clas…

阅读更多...

Vue开发者工具Vue.js devtools Vue开发者工具安装步骤前端开发工具免费附带教程

Vue开发者工具Vue.js devtools Vue开发者工具安装步骤前端开发工具免费附带教程

下载地址： 链接: https://pan.baidu.com/s/1JaGvhS4NoD8lL07n2ScE9A 密码: 9rfs 安装步骤： 以谷歌浏览器为例第一步：打开Chrome的拓展程序如图第二步： 将下载好的拓展程序拖入即可，如下图第三步：…

阅读更多...

现代永磁同步电机控制原理pdf及全套matlab仿真模型

现代永磁同步电机控制原理pdf及全套matlab仿真模型

现代永磁同步电机控制原理pdf及matlab仿真模型。全书包含SVPWM, DTC, Lun, smo, EKF, HFI等经典控制算法。将书中10章节涉及到的模型复原搭建模型。模型获取链接：现代永磁同步电机控制原理pdf及全套matlab仿真模型

阅读更多...

TCP-模拟BS架构通信

TCP-模拟BS架构通信

简介 bs是通过浏览器进行访问的每次访问都会开启一个短期的socket用来访问服务器的资源响应报文的格式服务端 bs架构中的b是浏览器，不需要我们书写，我们只需要书写服务端即可服务端 public class Server {public static void main(String[] args) {S…

阅读更多...

【Docker】docker部署lnmp和wordpress网站

【Docker】docker部署lnmp和wordpress网站

环境准备 docker：192.168.67.30 虚拟机：4核4G systemctl stop firewalld systemctl disable firewalld setenforce 0 安装docker #安装依赖包 yum -y install yum-utils device-mapper-persistent-data lvm2 #设置阿里云镜像 yum-config-manager --add…

阅读更多...

【校招VIP】985 211求职策略

【校招VIP】985 211求职策略

目录一、24届基本结束，数据总结 1. 5成-7成的211-985同学没拿到大厂开发岗（用户调查来源） 2. 薪资正常在20K-25K，但是招聘量收紧 3.五大银行总行开发岗，进一步收紧 4.为什么往年秋招10底结束，去年去延…

阅读更多...

C++各种排序算法详解及示例源码

C++各种排序算法详解及示例源码

1、排序算法排序算法（sorting algorithm）用于对一组数据按照特定顺序进行排列。排序算法有着广泛的应用，因为有序数据通常能够被更高效地查找、分析和处理。 1.1 评价维度运行效率：我们期望排序算法的时间复杂度尽量低&#xf…

阅读更多...

2023年蓝桥杯大学A组第二题：有奖问答（一维动态规划解法）

2023年蓝桥杯大学A组第二题：有奖问答（一维动态规划解法）

题目描述小蓝正在参与一个现场问答的节目。活动中一共有 30 道题目，每题只有答对和答错两种情况，每答对一题得 10 分，答错一题分数归零。小蓝可以在任意时刻结束答题并获得目前分数对应的奖项，之后不能再答任何题目。最高奖项…

阅读更多...

力扣数据库题库学习（4.25日）

力扣数据库题库学习（4.25日）

1484. 按日期分组销售产品问题链接思路与分析编写解决方案找出每个日期、销售的不同产品的数量及其名称。每个日期的销售产品名称应按词典序排列。返回按 sell_date 排序的结果表。我来分析一下，这里的题目要求其实就是统计不同日期下的销售产品数&#xf…

阅读更多...

渗透作业1--思考题

渗透作业1--思考题

1. windows登录的明文密码，存储过程是怎么样的，密文存在哪个文件下，该文件是否可以打开，并且查看到密文 Windows系统出于安全考虑，并不直接存储用户的明文密码。当用户设置密码时，系统会对密码进行哈希处理…

阅读更多...

Matlab 使用subplot绘制多个子图，一元拟合

Matlab 使用subplot绘制多个子图，一元拟合

实现效果： clc; clear;filename sri.xlsx; % 确认文件路径data readtable(filename); datavalue data{:,2:end}; datavalue datavalue;fig figure(Position, [0, 0, 1500, 900]); indexString ["(a)","(b)","(c)","(d)&qu…

阅读更多...

windows获取进程信息函数

windows获取进程信息函数

#ifndef PROCESS_H #define PROCESS_H #include <windows.h> #include <vector> #include <string> #include <tlhelp32.h> #include <stdio.h>/*** 获取某个进程名称是否正在运行* brief ProcessIsRunning* param name* return*/ bool ProcessI…

阅读更多...

＜计算机网络自顶向下＞ Internet Protocol（未完成）

＜计算机网络自顶向下＞ Internet Protocol（未完成）

互联网中的网络层 IP数据报格式 ver: 四个比特的版本号（IPV4 0100, IPV6 0110） headlen：head的长度（头部长度字段（IHL）指定了头部的长度，以32位字（4字节）为单位计算。这…

阅读更多...

可替换XC6206P332MR的润石超低功耗LDO RS3221-3.3YF3助力智能门锁设计，精度低至1%

可替换XC6206P332MR的润石超低功耗LDO RS3221-3.3YF3助力智能门锁设计，精度低至1%

润石科技的RS3221，可满足超低功耗，在智能门锁设计时，兼容替换TOREX的XC6206P332MR，具体请参考图1参数对比： 图1：RS3221-3.3YF3与XC6206P332MR电性能参数对比通过上表可知， 1、 RS3221-3.3YF3…

阅读更多...

家政服务小程序：家政行业的数字化转型

家政服务小程序：家政行业的数字化转型

随着大众生活水平的提高，以及老龄化的加速，家政服务已经成为了大众生活中不可或缺的一部分。目前，我国家政服务市场的规模在持续扩大，发展前景一片大好。在日益提升的家政需求下，大众对家政服务的种类也逐渐多样。为…

阅读更多...

【ARMv9 DSU-120 系列 4.1 -- Utility bus 详细介绍 2】

【ARMv9 DSU-120 系列 4.1 -- Utility bus 详细介绍 2】

请阅读【Arm DynamIQ™ Shared Unit-120 专栏】文章目录 ARM DSU-120DSU-120 Utiity BusCluster and core PPUPPU寄存器的访问性PPU寄存器的作用系统组件基地址ARM DSU-120 DSU-120 Utiity Bus 在ARMv9架构中，DSU-120（Dynamic Shared Unit 120）是一个关键组件，用于管理核…

阅读更多...

炒股自动化：券商官方，散户可用，查询订单状态API如何用？

炒股自动化：券商官方，散户可用，查询订单状态API如何用？

券商官方的接口，个人账户可申请，入金门槛低，接入文档完善，技术支持好的，经过我们筛选后，只有一家符合会编程，有基础，只是需要API接口的朋友不用看这些，不会写程序的朋友…

阅读更多...

全球乙烯丙烯酸共聚物（EAA）市场现状及产业发展趋势分析2024

全球乙烯丙烯酸共聚物（EAA）市场现状及产业发展趋势分析2024

乙烯丙烯酸共聚物（EAA）是丙烯酸的乙酯。它是一种具有特殊气味的无色液体。EAA具有很好的附着力和密封性能、特殊的硬度、柔韧性。据GIR (Global Info Research)调研，按收入计，2023年全球乙烯丙烯酸共聚物（EAA&#xf…

阅读更多...

最新文章