Revealing the Dark Secrets of MIM

论文名称: Revealing the Dark Secrets of Masked Image Modeling
发表时间:CVPR2022
作者及组织:Zhenda Xie, Zigang Geng, Hu Han等,来自清华,中科院,微软亚洲研究院。

前言

 本文尝试探讨MIM为何有效的原因。

1、结论

 由于是篇充满可视化及对比实验的文章,因此先说结论:
 1) MIM能给模型所有层带来归纳偏置;
 2) MIM能给不同Head带来多样性;
 3) MIM在感知任务和细分类任务上优于全监督预训练。

2、对比实验条件设置

 Backbone:VIT-B
 预训练方法:全监督(DeiT),对比学习(Moco),MIM

3、可视化角度

 论文从不同角度,可视化了三种预训练方法的热图。下面将分别介绍:

3.1.Head内的平均注意力距离(AAD)

 简单说下平均注意力距离计算方法:在得到Attntion Mat后,遍历每个token与之匹配token 的相对距离,将其求和在除以token总数。因而能够定性表示Attntion Mat关注的相对位置远近的分布(引入归纳偏置)。
在这里插入图片描述

 在上图中,横坐标表示不同层,纵坐标表示AAD,每个圆圈表示一个Head。全监督和对比预训练在最后三层AAD基本一致,而MIM还保持了较大分布范围,因此便得出MIM能给不同层带来归纳偏置。

3.2.Head权重值的熵(权重值的分布)

 论文之后可视化了每个Head的熵(-p*logp)分布,能够衡量每个Head属于全局注意力Or局部注意力。
在这里插入图片描述

 从上图可以看出,全监督和对比预训练方法在最后三层的Head熵挺大的,表示Attention Mat关注的范围更广,即全局注意力;而MIM则在最后三层熵分布范围广,即保证局部注意力同时也保证了全局注意力。

3.3.不同Head之间权重分布相似性

  上述两个指标表示MIM的Head关注范围丰富,但无法确定Head与Head之间分布相似性,因此作者又衡量了不同Head之间的分布的相似性,即利用KL散度。
在这里插入图片描述

  上图中大圆圈表示当前层平均KL散度,MIM相较前两种预训练方法在后三层KL散度更大。即不同Head关注的token不一致。

3.4.特征图FM之间相似性

  作者借助CKA指标观察了不同FM的相似度。下图是12层FM之间热力图,颜色越亮表示越相似。可以发现,MIM层与层之间FM趋于相似。

在这里插入图片描述

4、实验角度

 该章节则是从对比实验角度比较三种预训练方法。
在这里插入图片描述

 在感知任务上MIM效果更好,得益于MIM引入归纳偏置和Attntion Mat多样性丰富。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/630058.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JavaScript 学习笔记(Day5)

「写在前面」 本文为 b 站黑马程序员 pink 老师 JavaScript 教程的学习笔记。本着自己学习、分享他人的态度,分享学习笔记,希望能对大家有所帮助。推荐先按顺序阅读往期内容: 1. JavaScript 学习笔记(Day1) 2. JavaSc…

数据结构奇妙旅程之二叉树初阶

꒰˃͈꒵˂͈꒱ write in front ꒰˃͈꒵˂͈꒱ ʕ̯•͡˔•̯᷅ʔ大家好,我是xiaoxie.希望你看完之后,有不足之处请多多谅解,让我们一起共同进步૮₍❀ᴗ͈ . ᴗ͈ აxiaoxieʕ̯•͡˔•̯᷅ʔ—CSDN博客 本文由xiaoxieʕ̯•͡˔•̯᷅ʔ 原创 CSDN …

IDEA无法解析jdk自带的类的解决办法

1.问题 IDEA在有些时候,会出现这个错误,就是jdk自带的java类找不到而报错。 例如下面的就是Object找不到,我们知道jdk自带的类是不用import包的,这里报错了,IDEA会提示你去导入类,其实这个提示也不是真正…

Ubuntu 22.04 基础环境搭建

这是Ubuntu软件安装系列的第一篇,我们来聊聊基础环境搭建。 这个专栏主要讲一些常见服务端软件的安装和配置,当然也包括对软件架构和作用的分析,以及使用的场景的介绍。 注意我们这里使用的Ubuntu的版本是22.04,基本上大厂的云服…

Go语言热重载和优雅地关闭程序

Go语言热重载和优雅地关闭程序 我们有时会因不同的目的去关闭服务,一种关闭服务是终止操作系统,一种关闭服务是用来更新配置。 我们希望优雅地关闭服务和通过热重载重新加载配置,而这两种方式可以通过信号包来完成。 1、代码实现 package…

产品经理与产品运营的区别和联系

一、两者的职责区别 产品经理的目的:是创造有价值的产品 产品运营的目的:是让产品能有效的发挥出它应有的价值 二、两者的工作内容区别产品经理的工作内容 产品的经理的目的是创造有价值的产品,因此产品经理的所有工作都是围绕着&#xf…

CentOS安装maxwell

CentOs安装maxwell 一、简介二、准备工作三、安装1、下载安装包2、解压3、编写配置文件4、启动maxwell5、验证6、停止maxwell 四、说明1、更新数据2、插入数据3、删除数据 五、遇到问题 一、简介 maxwell是由美国Zendesk公司开源,它通过读取mysql的binlog日志&#…

vscode mysql cmake windows 常见问题和推荐文章

1.在windows中安装mingw64和cmake(可查一下网上的安装教程),配置环境变量 2.在vscode中用CMake构建项目的时候,可能会出现这样的问题:“The C compiler identification is unknownn...”,可参考这篇博客 在windows下使用Vscode用…

面试题之ElasticSearch

面试题之ElasticSearch 1.es的基础知识2. es的集群、节点、分片、副本分片的定义?3. es为什么快?4. 倒排索引的原理是什么?5. es的segment是什么?6. es的分段存储和分段索引的概念及区别?7. 索引相关的问题&#xff1f…

uni-app基础详解(组件、弹窗、数据缓存、页面跳转)

uni-app基础详解(组件、弹窗、数据缓存、页面跳转) uni-app组件scroll-viewswipertext 文本button 按钮input 输入框radio 单选checkbox 多选picker 选择器slider 滑块textarea 文本域 弹窗提示框 uni.showLoading提示弹窗 uni.showToast确定取消框 uni.…

Flutter系列:Flutter常见问答(可用于面试)

Flutter系列 Flutter常见问答 作者:李俊才 (jcLee95):https://blog.csdn.net/qq_28550263 邮箱 :291148484163.com 本文地址:https://blog.csdn.net/qq_28550263/article/details/135604801 【简介】&#…

服务器感染了.DevicData-P-XXXXXXXX勒索病毒,如何确保数据文件完整恢复?

引言: 在当今数字化时代,勒索病毒已成为网络安全威胁的一个严峻问题。其中,.DevicData-P-XXXXXXXX 勒索病毒以其恶意加密文件的手段引起了广泛关注。本文将介绍该病毒的特点、数据恢复方法以及如何预防遭受其攻击。 如不幸感染这个勒索病毒&…

【Java数据结构】03-二叉树,树和森林

4 二叉树、树和森林 重点章节,在选择,填空,综合中都有考察到。 4.1 掌握二叉树、树和森林的定义以及它们之间的异同点 1. 二叉树(Binary Tree) 定义: 二叉树是一种特殊的树结构,其中每个节点…

入门clickhouse的坑

常规的关系数据库已经不能满足现有业务需求,于是,装了一个ck玩玩,结果,妥妥的跳坑! 安装,首页就是一行语句,curl就可以安装了,确实很简单。 写了一个小工具,把整个sqls…

Python(wordcloud):根据词频信息(xlsx、csv文件)绘制词云图

一、前言 本文将介绍如何用python根据词频信息(xlsx、csv文件)绘制词云图,除了绘制常规形状的词云图(比如长方形),还可以指定词云图的形状。 二、安装并引入相关的库 1、安装相关的库 pip install jieb…

Oracle/DM序列基本使用

序列(SEQUENCE)是序列号生成器,可以为表中的行自动生成序列号,产生一组等间隔的数值(类型为数字)。其主要的用途是生成表的主键值,可以在插入语句中引用,也可以通过查询检查当前值,或使序列增至下一个值。序列是一个计…

MinIO上传

简介 MinIO是一个开源的对象存储服务器,兼容Amazon S3 API。它提供了可扩展、高性能和高可用性的存储解决方案,适用于大规模数据存储和分发。 MinIO的设计目标是简单易用、轻量级和高度可定制。它可以在企业内部部署,也可以在公有云上使用。…

深度学习笔记(八)——构建网络的常用辅助增强方法:数据增强扩充、断点续训、可视化和部署预测

文中程序以Tensorflow-2.6.0为例 部分概念包含笔者个人理解,如有遗漏或错误,欢迎评论或私信指正。 截图和程序部分引用自北京大学机器学习公开课 要构建一个完善可用的神经网络,除了设计网络结构以外,还需要添加一些辅助代码来增强…

【Spring】—— AOP切入点表达式(*和..使用)

切入点表达式是对要进行增强的方法的描述方式。 标准格式: 动作关键字(访问修饰符 返回值 包名.类/接口名.方法名(参数)) execution(void com.spring.dao.BookDao.update()) *和..的使用 可以使用通配符描述切入点&…

【Macos系统】安装VOSviewer及使用VOSviewer教程!!以ESN网络的研究进行案例分析

【Macos系统】安装VOSviewer及使用VOSviewer教程 以ESN网络的研究进行案例分析 本文介绍如何安装和使用VOSviewer软件,并以ESN(Echo State Network)网络的研究为案例进行分析。利用VOSviewer对相关文献进行可视化分析,并深入了解…