NeurIPS 2023 | 李飞飞团队提出SiamMAE:孪生掩码自编码器,刷榜视觉自监督方法

在计算机视觉领域,想要建立图像和场景(scene)之间之间的对应关系是一项比较困难的任务,尤其是在存在遮挡、视角改变或是物体外观发生变化的情况下。

最近,斯坦福大学李飞飞团队对MAE进行扩展,提出了孪生掩码自编码器SiamMAE(Siamese Masked Autoencoders)以学习视频中的视觉对应关系。、图片

论文链接(收录NeurIPS 2023 Oral):

https://siam-mae-video.github.io/resources/paper.pdf

主页:https://siam-mae-video.github.io/

先随机采样两个视频帧,并进行非对称掩码操作;然后SiamMAE编码器网络对两个帧进行独立处理,最后使用交叉注意层组成的解码器来预测未来帧(future frame)中丢失的图像块。

通过对未来帧中的大部分(95%)图像块进行掩码,同时保持过去帧(past frame)图像不变,SiamMAE促使网络专注于物体运动,并学习以物体为中心的表征。
在这里插入图片描述

尽管整个网络的设计概念比较简单,但通过SiamMAE学习到的特征在视频物体分割、姿势关键点传播和语义部分传播任务上都优于最先进的自监督方法。

SiamMAE在不依赖于数据增强、基于手工跟踪的前置任务或其他技术来防止表征崩溃的情况下,实现了非常有竞争力的性能。

孪生掩码自编码器
研究人员的目标是开发一种自监督的方法来学习对应关系,主要是将掩码自编码器(MAE)模型扩展到视频数据中。

在这里插入图片描述
Patchify
给定具有L帧的视频剪辑,首先随机采样两个视频帧,两帧之间的距离通过从预定的potential frame gaps范围中选择一个随机值来确定。

与原始ViT模型类似,通过将每个帧转换为一系列不重叠的N×N个patch来拼接视频帧。

最后,把位置嵌入加到线性投影上,并附加一个[CLS]标记,需要注意的是没有使用时序位置嵌入。

Masking
像图像和视频这样的自然信号是高度冗余的,分别表现为空间和时空上的冗余。为了创造一个具有挑战性的预测性自监督学习任务,MAEs随机掩码了75%的图像patch,视频数据的掩码率提升到90%,并且对每帧都使用相同的掩码率。

这种设计可以使网络无法利用和学习到时间上的对应关系,避免在对应关系学习基准上达到次优性能。

研究人员认为,不对称的掩码可以创造一个更有挑战性的自监督学习任务,并且可以鼓励网络学习时间上的相关性。

所以对于采样的两个视频帧,对第一帧选择不掩码,对第二帧选择掩码95%,这样就可以将整个过去帧(entire past frame)作为输入,网络只需要将其扩散到未来中的适当位置即可,可以促进网络对物体运动进行建模并关注物体的边界。

图片

为了进一步增加任务的难度,两个视频帧之间具有更大的时间间隔,尽管可能会导致对未来的预测变得模糊,并可能产生多种合理的结果,但为第二帧提供少量的patch作为输入,可以让网络的自监督学习变得更困难。

编码器
研究人员探索了两种不同的编码器配置来处理输入帧。

联合编码器(joint encoder) 是图像MAEs在一对视频帧上的扩展,把两帧未掩码的图像patch串联起来,然后输入到标准的ViT编码器中进行处理。

孪生编码器(siamese encoder) 是用于比较实体的权重共享神经网络,是对比表征学习方法的一个重要组件,用于对应学习(corresponding learning)时通常需要一些信息瓶颈来防止网络学习的解决方案,如使用颜色通道dropout来迫使网络避免依赖颜色来匹配对应关系。

在这篇论文中,研究人员使用孪生编码器来独立处理两幅图像,使用非对称掩码作为信息瓶颈。

解码器

编码器的输出通过线性层进行投影,并加入带有位置嵌入的[MASK] token,以生成对应于输入帧的所有token

研究人员探索了三种不同的解码器配置:
联合解码器(joint decoder) 在两帧的token串联上使用原版Transformer模块,其主要缺点是对GPU内存的需求大幅增加,特别是在使用较小的patch尺寸时。

交叉自解码器(cross-self decoder) 与原版Transformer模型的编码-解码器设计类似,每个解码器块由一个交叉注意力层和一个自注意力层组成,来自第二帧的token通过交叉注意力层与第一帧的token进行注意力操作,然后通过自注意力层进行相互融合。

可以注意到,交叉注意力层在功能上类似于自监督对应学习方法中经常使用的affinity矩阵。

交叉解码器(cross decoder) 由交叉注意力层的解码器块组成,其中来自第二帧的token与来自第一帧的token进行注意力操作。

最后,解码器的输出序列被用来预测掩码图像块中的归一化像素值,在解码器的预测和真实值之间使用L2损失。

实验结果
图片

视频物体分割
在多物体分割基准数据集DAVIS 2017上,使用480p分辨率的图像对模型进行评估。
实验结果可以发现SiamMAE明显优于VideoMAE(从39.3%提升到62.0%),研究人员将其归因于VideoMAE中使用了tube掩码方案,使得模型无法学习时间上的对应关系。

图片
与DINO类似,研究人员也发现降低patch的尺寸会带来明显的性能提升。

并且文中使用的ViT-S/8(+9.4%)模型优于之前所有的对比学习和自监督的对应学习方法。

图片

还可以注意到尽管较大的MAE-ST模型(ViT-L/16,304M参数)在随机掩码的情况下比VideoMAE表现更好,但其性能仍然落后于SiamMAE相当多。

而且在视频上训练的MAE与图像MAE的表现相似,视频与图像的不同之处在于,图像是(近似)各向同性的,时间维度是特殊的,并不是所有的时空方向都是同等可能的。

因此,对称地处理空间和时间信息可能是次优的。

视频部分分割(Video Part Segmentation)
在视频实例解析(Video Instance Parsing, VIP)基准上对SiamMAE进行评估,该基准包括为20个不同的人体部位传播语义掩码。

与评估的其他数据集相比,VIP特别具有挑战性,因为包括更长的视频(最长120秒)。

与先前工作类似,使用560×560的图像和单一背景帧进行评估后,可以发现ViT-S/8模型性能大大超越了DINO (从39.5提升到45.9)。

图片

SiamMAE从更小的patch尺寸中,比DINO受益更多,实现了+8.6的mIoU评分,比DINO的+3.3 mIoU有所提高。

SiamMAE也优于之前所有的对比学习和自监督的对应关系学习方法。

姿势追踪(pose tracking)
在关键点传播的任务上对SiamMAE进行了评估,需要传播15个关键点,并且要求空间上的精确对应关系,使用320×320的图像和一个单一的背景帧,SiamMAE的性能优于所有其他模型,并且比DINO更受益于较小的patch尺寸(+14.9到+10.9 PCK@0.1)

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/98326.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Tensorflow入门之 Hello World

Tensorflow入门之 Hello World 简介 Tensorflow 是 Google 开源的深度学习框架,来自于 Google Brain 研究项目,在 Google 第一代分布式机器学习框架 DistBelief 的基础上发展起来。 Tensorflow 的官方网址 http://www.tensorflow.org Tensorflow 的 G…

基于边缘网关的智慧工地监测方案

边缘物联网技术为千行百业赋能,依托边缘计算的低延时、高效率、广适用优势,也为工程建设产业带来新的增长动力。 例如在智慧工地应用中,围绕建设施工过程中的人员、设备、环境等要素,利用边缘计算网关构建全面的数据采集、分析、联…

web3.0时代分布式网络协议的异同

Web3.0时代标志着分布式网络协议的兴起,其中IPFS(InterPlanetary File System)和NDN(Named Data Networking)是备受瞩目的项目。尽管它们都属于分布式网络协议领域,但在多个方面存在显著区别。以下是IPFS和…

电子元器件选型与实战应用—05 电容选型第2篇

文章目录 1. 铝电解电容1.1 介绍1.2 铝电解电容优缺点2. 钽电容2.1 介绍2.2 钽电容优缺点3. 三个电容之间对比3.1 温度特性对比3.2 偏压特性对比3.3 ESR-频率曲线4. 电容类型选择5. 电容封装选择前文推荐: 电子元器件选型与实战应用—04 LDO选型、特性及应用电子元器件选型与实…

WebSocket ----苍穹外卖day8

介绍 实现步骤 各个模块详解 OnOpen OnOpen:标记一个方法作为处理WebSocket连接打开的方法 当一个客户端与服务器建立 WebSocket 连接时,服务器会接收到一个连接请求。一旦服务器接受了这个连接请求,一个 WebSocket 连接就会被建立。这时,被…

SpringMVC中异常处理详解

单个控制器异常处理 // 添加ExceptionHandler,表示该方法是处理异常的方法,属性为处理的异常类ExceptionHandler({java.lang.NullPointerException.class,java.lang.ArithmeticException.class})public String exceptionHandle1(Exception ex, Model mo…

Android kotlin内联函数(inline)的详解与原理

一、介绍 在kotlin中,有一种函数叫内联函数,这种函数标识符是inline,但是好多人对这个函数的理解只停留在八股文中,内容函数的用法和普通函数没有区别,但是在编译原理上是有,对程序的性能有一定的影响。 二…

wpf中prism框架

安装prism包: 添加引用 using System; using System.Collections.Generic; using System.Configuration; using System.Data; using System.Linq; using System.Threading.Tasks; using System.Windows; using Prism.DryIoc; using Prism.Ioc;namespace PrismDemo …

【2023年11月第四版教材】第21章《项目管理科学基础》(合集篇)

第21章《项目管理科学基础》(合集篇) 1 章节内容2 工程经济学3 运筹学1 章节内容 【本章分值预测】和之前教材内容一样,有部分新增内容,预计选择题考4-5分,案例和论文本次考试预计不考;3次运筹学计算题课程和计算专题9需要认真学习一下! 2 工程经济学 财务方面三个主要…

【Amazon】基于AWS云实例(CentOS 7.9系统)使用kubeadm方式搭建部署Kubernetes集群1.25.4版本

文章目录 前言实验架构介绍K8S集群部署方式说明使用CloudFormation部署EC2实例集群环境准备修改主机名并配置域名解析(ALL节点)禁用防火墙禁用SELinux加载br_netfilter模块安装ipvs安装 ipset 软件包同步服务器时间关闭swap分区安装Containerd 初始化集群…

Flutter_Slider_SliderTheme_滑杆/滑块_渐变色

调用示例以及效果 SliderTheme(data: SliderTheme.of(context).copyWith(trackHeight: 3,// 滑杆trackShape: const GradientRectSliderTrackShape(radius: 1.5),// 滑块thumbShape: const GradientSliderComponentShape(rectWH: 14, overlayRectSpace: 4, overlayColor: Colou…

数据采集时使用HTTP代理IP效率不高怎么办?

目录 前言 一. 测试代理IP速度 二. 调整连接池大小 三. 多线程并发采集 四. 选择稳定的代理服务商 总结 前言 数据采集作为爬虫的重要环节之一,常常会遇到反爬虫的机制,封禁IP等等问题。为了规避这些问题,我们可以使用HTTP代理IP来进行…

react中预览excel表格

查了很多资料,很多插件,有很多也用不了,最后试了xlsx这个插件,可以使用。 话不多少了,直接放代码吧: 1.代码实现 fetch(API).then((res: any) > {res?.blob().then((r: any) > {const reader ne…

Haar cascade+opencv检测算法

Harr特征识别人脸 Haar cascade opencv步骤 读取包含人脸的图片使用haar模型识别人脸将识别的结果用矩形框画出来 构造haar检测器 :cv2.CascadeClassifier(具体检测模型文件) # 构造Haar检测器 # 级联分级机,cv2.CascadeClassifier():cv2的内置方法&#xff0…

HarmonyOS/OpenHarmony原生应用开发-华为Serverless云端服务支持说明(一)

云端服务的实现是HarmonyOS/OpenHarmony原生应用开发的一个重要的环节,如果用户端是鸿蒙原生应用,但是服务端即云端还是基于传统的各种WEB网络框架、数据库与云服务器,那么所谓的原生应用开发实现的数据即后端服务是和以前、现在的互联网、移…

springboot-aop-redis-lua 实现的分布式限流方案

1.自定义限流注解 Target({ElementType.METHOD, ElementType.TYPE}) Retention(RetentionPolicy.RUNTIME) Inherited Documented public interface Limit {/*** 名字*/String name() default "";/*** key*/String key() default "";/*** Key的前缀*/String…

【华为OD机考B卷 | 100分】统计监控、需要打开多少监控器(JAVA题解——也许是全网最详)

前言 本人是算法小白,甚至也没有做过Leetcode。所以,我相信【同为菜鸡的我更能理解作为菜鸡的你们的痛点】。 题干 OD,B 卷 100 分题目【OD 统一考试(B 卷)】 1. 题目描述 某长方形停车场每个车位上方都有一个监控…

nginx根据不同的客户端设备进行转发请求——筑梦之路

这里主要介绍七层负载方式实现。 环境说明: pc端 web-1 苹果ios端 web-2 安卓Android端 web-3 负载均衡 web-lb 配置示例: pc端: server {listen 9000; #监听9000server_name pc.xxx.com;charset utf-8;location / {root /…

ansible学习笔记分享

yum install ansible -y #安装,注意yum源问题 yum源: yum install epel-release -y mv /etc/yum.repos.d/epel.repo /etc/yum.repos.d/epel.repo.bak >> /dev/null yum clean all rpm -Uvh http://mirrors.ustc.edu.cn/epel/epel-releas…