5、MAE:探索视觉预训练模型

5、MAE:探索视觉预训练模型

news/2025/7/16 4:09:42/文章来源:https://blog.csdn.net/sinat_34461199/article/details/135539994

目录

1、论文

2、背景与动机

3、回答的问题

4、创新与卖点

5、实现细节

模型框架

具体步骤

简单代码示例

6、一些资料

1、论文

Masked Autoencoders Are Scalable Vision Learnershttps://arxiv.org/pdf/2111.06377.pdf

2、背景与动机

在深度学习和计算机视觉的领域中，预训练模型已经成为了提高下游任务性能的重要手段。传统上，许多预训练模型如ResNet、VGG等都是在大规模数据集（如ImageNet）上通过监督学习训练得到的。然而，监督学习需要大量的标记数据，这在成本和可扩展性上都是一个不小的挑战。

最近，自监督学习作为一个新兴研究领域，提供了一种无需手工标注数据的解决方案。自监督学习的一个关键点是设计预测任务，通过这些任务模型可以从输入数据本身学习到有用的表示。在自然语言处理（NLP）领域，BERT通过掩码语言模型（MLM）任务表现出色，这激发了计算机视觉领域对类似方法的探索。

MAE (Masked Autoencoder) 正是从这样的背景和动机出发，它将自监督学习中的掩码预测任务引入到视觉领域，致力于从图像数据中以无监督的方式学习高效的特征表示。

3、回答的问题

论文中回答了一个问题。为什么自监督在CV领域的发展要滞后于NLP呢？论文中给了两个解释：

（1）NLP主流方法是Transformer，视觉里CNN是主流方法，结构差异让视觉很难构造类似于“masked autoencoding”的任务。但是ViT的提出解决了这个问题；

（2）语言和视觉的信息密度（information density）差异巨大，前者是强语义的，高信息密度的（highly semantic and information-dense），在NLP中即使只mask一个token，对模型来说可能都是很难的任务，因此模型可以通过学习获得复杂的语言理解能力（sophisticated language understanding），但是对视觉图像来说，信息是高度冗余的，缺失一个patch，可能并不会让模型产生多少困惑，模型可以通过周围的像素信息进行推断

所以MAE做的一件事就是mask很高比例的patches，制造高难度的学习任务，方法简单但是极其有效

4、创新与卖点

MAE 的核心创新在于其独特的自监督预训练方法。不同于之前的自监督视觉模型通常需要对比学习或复杂的数据增强，MAE 提出了一种简洁高效的方法：

Masking 策略，并且mask比例非常高：MAE 对输入图像进行随机遮蔽，只露出一小部分像素，模型的任务是预测被遮蔽部分的原始像素。这种策略减少了模型需要处理的数据量，同时迫使模型学习丰富的上下文信息来重建图像。
编码器-解码器架构：MAE 采用了一个不对称的编码器-解码器架构，其中编码器只对未被遮蔽的部分进行处理，大幅减少了计算量。解码器则负责图像的重建工作，它的结构相对简单，因为其主要任务是理解编码器提供的特征。
预训练与微调：MAE 的预训练阶段不依赖于标签，这使得模型可以在非常大的数据集上进行训练。一旦预训练完成，MAE 可以通过微调在各种下游任务上实现优异的性能，包括分类、检测和分割等。

5、实现细节

模型框架

具体步骤

数据遮掩：首先，在输入图像或序列数据中随机选择一定比例的区域进行遮掩，将其替换为特定的遮掩标记（如0或[MASK]）。

编码阶段：编码器实际上就是ViT，将input image切分为不重叠的patches之后，执行linear projection，再加上positional embeddings (the sine-cosine version) ，然后送入transformer blocks。

解码器：同样使用ViT，将mask tokens和encoded visible patches作为输入，加上位置编码 (the sine-cosine version) 。decoder的最后一层是linear projection，输出通道数量和一个patch内的pixel数量相同（方便重构），然后再reshape，重构image。损失函数使用MSE，损失函数只对masked patches计算（和BERT相同）。同时作者也尝试了normalization的方式，即计算一个patch内像素值的均值和标准差，然后对patch执行normalization，此时encoder的重构任务发生了一些变化，需要重构normalized pixel values，实验表明这种方式效果更好一点

MAE中decoder的设计并不重要，因为预训练结束之后，只保留encoder，decoder只需要完成预训练时的图像重构任务。但是作者也表示decoder决定了latent representations的语义级别

损失函数：使用L1或L2距离作为损失函数，衡量预测的像素值或词向量与原始未遮掩数据之间的差异。

预训练与微调：经过大规模无标签数据上的预训练后，可以将模型参数迁移到特定的下游任务中进行微调，进一步提升任务性能。

简单代码示例

import torch
import torch.nn as nn
import torch.nn.functional as Fclass PositionalEncoding(nn.Module):# 用于添加位置信息的模块，通常在Transformer结构中使用def __init__(self, d_model, dropout=0.1, max_len=5000):super(PositionalEncoding, self).__init__()self.dropout = nn.Dropout(p=dropout)pe = torch.zeros(max_len, d_model)position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-torch.log(torch.tensor(10000.0)) / d_model))pe[:, 0::2] = torch.sin(position * div_term)pe[:, 1::2] = torch.cos(position * div_term)pe = pe.unsqueeze(0).transpose(0, 1)self.register_buffer('pe', pe)def forward(self, x):x = x + self.pe[:x.size(0), :]return self.dropout(x)class Encoder(nn.Module):def __init__(self, embed_dim, num_layers, num_heads, mlp_ratio=4., qkv_bias=False, drop_rate=0., attn_drop_rate=0.):super(Encoder, self).__init__()self.layers = nn.ModuleList([nn.TransformerEncoderLayer(d_model=embed_dim, nhead=num_heads, dim_feedforward=int(embed_dim * mlp_ratio),dropout=drop_rate, attention_dropout=attn_drop_rate, bias_qkv=qkv_bias)for _ in range(num_layers)])def forward(self, src, mask=None):output = srcfor layer in self.layers:output = layer(output, src_key_padding_mask=mask)return outputclass MaskedAutoencoder(nn.Module):def __init__(self, image_size, patch_size, num_channels, embed_dim, num_layers, num_heads, mlp_ratio, num_classes):super(MaskedAutoencoder, self).__init__()self.patch_size = patch_sizeself.embed_dim = embed_dimself.num_patches = (image_size // patch_size) ** 2self.encoder = nn.Sequential(nn.Conv2d(num_channels, embed_dim, kernel_size=patch_size, stride=patch_size),nn.LayerNorm(embed_dim),)self.pos_embed = PositionalEncoding(embed_dim)self.transformer_encoder = Encoder(embed_dim, num_layers, num_heads, mlp_ratio)self.decoder = nn.Sequential(          # 这里做简单了，实际解码器还是用的vitnn.Linear(embed_dim, embed_dim),nn.GELU(),nn.Linear(embed_dim, num_channels * patch_size ** 2),nn.PixelShuffle(patch_size),)self.to_patch_embedding = nn.Sequential(nn.Unflatten(dim=1, unflattened_size=(num_patches, embed_dim)),nn.Dropout(p=0.1),)def forward(self, x, mask_ratio=0.75):B, C, H, W = x.shapeassert H == W, "Input image must be square"x = self.encoder(x)x = self.pos_embed(x)# 随机掩码rand_mask = torch.rand(B, self.num_patches, 1, 1, device=x.device) < mask_ratiomasked_x = x.clone()masked_x[rand_mask] = 0.# 编码encoded_patches = self.transformer_encoder(self.to_patch_embedding(masked_x))# 解码reconstructed_image = self.decoder(encoded_patches)return reconstructed_image# 初始化模型
model = MaskedAutoencoder(image_size=224, patch_size=16, num_channels=3, embed_dim=768, num_layers=12, num_heads=12, mlp_ratio=4., num_classes=0)# 假设我们有输入数据x
x = torch.randn((10, 3, 224, 224))# 计算重构后的图像
reconstruction = model(x)

6、一些资料

MAE(Masked Autoencoders) - 知乎简介MAE(Masked Autoencoders)是用于CV的自监督学习方法，优点是扩展性强的（scalable），方法简单。在MAE方法中会随机mask输入图片的部分patches，然后重构这些缺失的像素。MAE基于两个核心设计：（1）不对称的（…https://zhuanlan.zhihu.com/p/446761025

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/617190.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Centos7,Python3.7.6安装模块Crypto，pycryptodome，ibm_db，requests,requests_pkcs12

Centos7,Python3.7.6安装模块Crypto，pycryptodome，ibm_db，requests,requests_pkcs12

Centos7,Python3.7.6安装模块Crypto，pycryptodome，ibm_db，requests,requests_pkcs12 Python版本：python3.7.6 对应的各种模块前言：把python项目放到linux上运行时，提示缺少各种模块，安装命令…

阅读更多...

【NetApp数据恢复】NetApp存储中Oracle数据库数据恢复案例

【NetApp数据恢复】NetApp存储中Oracle数据库数据恢复案例

NetApp数据恢复环境： NetApp某型号存储，存储中有数十块SAS硬盘，该型号NetApp存储硬盘是扇区大小是520字节。存储中的lun都映射给小型机使用，存放Oracle数据库文件，采用ASM裸设备存储方式。 NetApp存储故障&#xff1a…

阅读更多...

Linux tail命令详解和高级用法举例

Linux tail命令详解和高级用法举例

目录一、概述二、tail命令解释 1．命令格式; 2．功能 3．选项 4．选项的基本用法 （1） 显示行号 （2）忽略指定字符数 （3） 不显示文件名三…

阅读更多...

前端面试题集合一

前端面试题集合一

Canvas是什么？怎样写Canvas？ Canvas是HTML5的一个元素，它使用JavaScript在网页上绘制图形。Canvas是一个矩形区域。它的每一个像素都可以由HTML5语言来控制。使用Canvas绘制路径、框、圆、字符和添加图像有几种方法。如果要在我们的HTML文…

阅读更多...

ASP .net core微服务实战(杨中科)

ASP .net core微服务实战(杨中科)

背景： 主要是思考下，我们为什么要用微服务？ 微服务我现在理解是：提供了我们一种模块化的手段，一个服务负责一种类型的业务，是一种面对复杂问题进行拆分的方式，但是也会引入一些中间件&#xf…

阅读更多...

【期末考试】网络综合复习宝典

【期末考试】网络综合复习宝典

相关链接网络复习思维导图（HCIP）https://www.edrawsoft.cn/viewer/public/s/038e2370897928 详述循环冗余校验CRC码https://blog.csdn.net/liht_1634/article/details/124328005?app_version6.2.6&codeapp_1562916241&csdn_share_tail%7B%22…

阅读更多...

小魔推行业玩法：生活美容怎么做短视频矩阵？

小魔推行业玩法：生活美容怎么做短视频矩阵？

如今每个实体老板都想让自己生意做的更好，那就需要有更多获取流量的方式，获得大量的同城曝光；在市场内卷的状况下，通过短视频来做门店引流无疑是绝佳的方式，让更多同城的用户知晓自己的门店，这个时候通过小…

阅读更多...

12.8-1.8

12.8-1.8

2023.12.8 redis容器 docker run -p 6379:6379 --name redis -v /mydata/redis/data:/data -v /mydata/redis/conf/redis.conf:/etc/redis/redis.conf -d redis redis-server /etc/redis/redis.conf redis.conf不存在，需先在宿主机创建该目录下文件&#xff0c…

阅读更多...

pytest框架

pytest框架

一、介绍 pytest是python的第三方单元测试框架，比自带unittest更简洁和高效支持315种以上的插件，同时兼容unittest框架在unittest框架迁移到pytest框架的时候不需要重写代码二、环境搭建首先使用pip安装pytest pip install pytest # 使用国内镜像站 pip install pytes…

阅读更多...

跳坑日志之微信小程序开发——真机调试背景颜色不显示问题和页面无法下滑问题

跳坑日志之微信小程序开发——真机调试背景颜色不显示问题和页面无法下滑问题

如果你也遇到了在真机环境下background-color属性不显示而开发者工具中这个属性显示的情况，不妨去检查一下你的app.json 文件中,renderer 属性值是不是为skyline 。如果是的话，改成webview就行了。同样的如果你的页面无法下滑，而且你在.jso…

阅读更多...

FilterQuery过滤查询

FilterQuery过滤查询

ES中的查询操作分为两种：查询和过滤。查询即是之前提到的query查询，它默认会计算每个返回文档的得分，然后根据得分排序。而过滤只会筛选出符合条件的文档，并不计算得分，并且可以缓冲记录。所以我们在大范围筛选数据时&…

阅读更多...

使用U盘作为系统的启动盘

使用U盘作为系统的启动盘

1.我们使用到的工具ventoy-1.0.96.rar 下载资源 https://download.csdn.net/download/u011442726/88735129 2.怎么使用 ventoy软件的使用非常简单，直接解压后，把u盘插到电脑，然后点击exe这个文件即可。然后点击之后，直接点击安…

阅读更多...

ROS OpenCV 图像基本处理函数

ROS OpenCV 图像基本处理函数

在ROS中结合OpenCV使用时，cv::imread() 函数并非ROS本身的API，而是来自OpenCV库的函数，用于读取本地磁盘上的图像文件。其用法如下： cv::Mat cv::imread(const string& filename, int flags IMREAD_COLOR); 参数说明&#…

阅读更多...

设计模式之享元模式【结构型模式】

设计模式之享元模式【结构型模式】

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档> 学习的最大理由是想摆脱平庸，早一天就多一份人生的精彩；迟一天就多一天平庸的困扰。各位小伙伴，如果您： 想系统/深入学习某…

阅读更多...

FridaHook（三）——AllSafe App wp

FridaHook（三）——AllSafe App wp

By ruanruan，2022/04/21 文章目录 1、不安全的日志记录2、硬编码3、pin绕过（1）反编译查看方法判断逻辑（2）hook方法A、Hook areEqual(Object,Object)B、Hook checkPin(a) （3）页面效果&#xff08…

阅读更多...

芯课堂 | 一种带WIFI的智能多电机控制系统

芯课堂 | 一种带WIFI的智能多电机控制系统

现有技术中，每台智能家电基本均需配置一台电机及一个WiFi模组，每台智能家电的电机均通过对应的WiFi模组连接家庭无线路由器进行组网，从而实现网络连接。但是，这种方式存在技术瓶颈。例如，当一个家庭中智能家电的数量…

阅读更多...

80V 72V 60V 48V 降12V 5V 3.3V 功耗低降压恒压芯片H6603

80V 72V 60V 48V 降12V 5V 3.3V 功耗低降压恒压芯片H6603

输入电压80V、72V、60V、48V：这些是电源系统中的不同电压水平，通常用于驱动各种设备。例如，电动汽车、电动自行车或工业设备中的电池系统可能以这些电压级别工作。降12V：这可能是指一种电源模块，其功能是将输入电压&…

阅读更多...

Linux 文件的压缩和解压

Linux 文件的压缩和解压

zip压缩：指定目录的文件压缩到指定目录下。可采用 zip 压缩命令： 例如：要将 /path/to/source/directory/* 目录下的所有文件压缩到 /path/to/destination 目录下的 archive.zip 文件中 zip -j /path/to/destination/archive.zip /path/to/s…

阅读更多...

MYSQL学习——聚合函数

MYSQL学习——聚合函数

目录 1. 聚合函数介绍 1) AVG和SUM函数 2) MIN和MAX函数 3) COUNT函数 2. GROUP BY 1) 基本使用 2) 使用WITH ROLLUP 3. HAVING 1) 基本使用 2) WHERE和HAVING的对比 4. SELECT的执行过程 1) 查询的结构 2) SQL的执行原理 1. 聚合函数介绍什么是聚合函数聚合函…

阅读更多...

HDFS WebHDFS 读写文件分析及HTTP Chunk Transfer Coding相关问题探究

HDFS WebHDFS 读写文件分析及HTTP Chunk Transfer Coding相关问题探究

文章目录前言需要回答的问题DataNode端基于Netty的WebHDFS Service的实现基于重定向的文件写入流程写入一个大文件时WebHDFS和Hadoop Native的块分布差异基于重定向的数据读取流程尝试读取一个小文件尝试读取一个大文件读写过程中的Chunk Transfer-Encoding支持写文件使用C…

阅读更多...

最新文章