Revealing the Dark Secrets of MIM

论文名称: Revealing the Dark Secrets of Masked Image Modeling
发表时间:CVPR2022
作者及组织:Zhenda Xie, Zigang Geng, Hu Han等,来自清华,中科院,微软亚洲研究院。

前言

 本文尝试探讨MIM为何有效的原因。

1、结论

 由于是篇充满可视化及对比实验的文章,因此先说结论:
 1) MIM能给模型所有层带来归纳偏置;
 2) MIM能给不同Head带来多样性;
 3) MIM在感知任务和细分类任务上优于全监督预训练。

2、对比实验条件设置

 Backbone:VIT-B
 预训练方法:全监督(DeiT),对比学习(Moco),MIM

3、可视化角度

 论文从不同角度,可视化了三种预训练方法的热图。下面将分别介绍:

3.1.Head内的平均注意力距离(AAD)

 简单说下平均注意力距离计算方法:在得到Attntion Mat后,遍历每个token与之匹配token 的相对距离,将其求和在除以token总数。因而能够定性表示Attntion Mat关注的相对位置远近的分布(引入归纳偏置)。
在这里插入图片描述

 在上图中,横坐标表示不同层,纵坐标表示AAD,每个圆圈表示一个Head。全监督和对比预训练在最后三层AAD基本一致,而MIM还保持了较大分布范围,因此便得出MIM能给不同层带来归纳偏置。

3.2.Head权重值的熵(权重值的分布)

 论文之后可视化了每个Head的熵(-p*logp)分布,能够衡量每个Head属于全局注意力Or局部注意力。
在这里插入图片描述

 从上图可以看出,全监督和对比预训练方法在最后三层的Head熵挺大的,表示Attention Mat关注的范围更广,即全局注意力;而MIM则在最后三层熵分布范围广,即保证局部注意力同时也保证了全局注意力。

3.3.不同Head之间权重分布相似性

  上述两个指标表示MIM的Head关注范围丰富,但无法确定Head与Head之间分布相似性,因此作者又衡量了不同Head之间的分布的相似性,即利用KL散度。
在这里插入图片描述

  上图中大圆圈表示当前层平均KL散度,MIM相较前两种预训练方法在后三层KL散度更大。即不同Head关注的token不一致。

3.4.特征图FM之间相似性

  作者借助CKA指标观察了不同FM的相似度。下图是12层FM之间热力图,颜色越亮表示越相似。可以发现,MIM层与层之间FM趋于相似。

在这里插入图片描述

4、实验角度

 该章节则是从对比实验角度比较三种预训练方法。
在这里插入图片描述

 在感知任务上MIM效果更好,得益于MIM引入归纳偏置和Attntion Mat多样性丰富。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/630058.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JavaScript 学习笔记(Day5)

「写在前面」 本文为 b 站黑马程序员 pink 老师 JavaScript 教程的学习笔记。本着自己学习、分享他人的态度,分享学习笔记,希望能对大家有所帮助。推荐先按顺序阅读往期内容: 1. JavaScript 学习笔记(Day1) 2. JavaSc…

数据结构奇妙旅程之二叉树初阶

꒰˃͈꒵˂͈꒱ write in front ꒰˃͈꒵˂͈꒱ ʕ̯•͡˔•̯᷅ʔ大家好,我是xiaoxie.希望你看完之后,有不足之处请多多谅解,让我们一起共同进步૮₍❀ᴗ͈ . ᴗ͈ აxiaoxieʕ̯•͡˔•̯᷅ʔ—CSDN博客 本文由xiaoxieʕ̯•͡˔•̯᷅ʔ 原创 CSDN …

IDEA无法解析jdk自带的类的解决办法

1.问题 IDEA在有些时候,会出现这个错误,就是jdk自带的java类找不到而报错。 例如下面的就是Object找不到,我们知道jdk自带的类是不用import包的,这里报错了,IDEA会提示你去导入类,其实这个提示也不是真正…

Ubuntu 22.04 基础环境搭建

这是Ubuntu软件安装系列的第一篇,我们来聊聊基础环境搭建。 这个专栏主要讲一些常见服务端软件的安装和配置,当然也包括对软件架构和作用的分析,以及使用的场景的介绍。 注意我们这里使用的Ubuntu的版本是22.04,基本上大厂的云服…

CentOS安装maxwell

CentOs安装maxwell 一、简介二、准备工作三、安装1、下载安装包2、解压3、编写配置文件4、启动maxwell5、验证6、停止maxwell 四、说明1、更新数据2、插入数据3、删除数据 五、遇到问题 一、简介 maxwell是由美国Zendesk公司开源,它通过读取mysql的binlog日志&#…

vscode mysql cmake windows 常见问题和推荐文章

1.在windows中安装mingw64和cmake(可查一下网上的安装教程),配置环境变量 2.在vscode中用CMake构建项目的时候,可能会出现这样的问题:“The C compiler identification is unknownn...”,可参考这篇博客 在windows下使用Vscode用…

面试题之ElasticSearch

面试题之ElasticSearch 1.es的基础知识2. es的集群、节点、分片、副本分片的定义?3. es为什么快?4. 倒排索引的原理是什么?5. es的segment是什么?6. es的分段存储和分段索引的概念及区别?7. 索引相关的问题&#xff1f…

服务器感染了.DevicData-P-XXXXXXXX勒索病毒,如何确保数据文件完整恢复?

引言: 在当今数字化时代,勒索病毒已成为网络安全威胁的一个严峻问题。其中,.DevicData-P-XXXXXXXX 勒索病毒以其恶意加密文件的手段引起了广泛关注。本文将介绍该病毒的特点、数据恢复方法以及如何预防遭受其攻击。 如不幸感染这个勒索病毒&…

【Java数据结构】03-二叉树,树和森林

4 二叉树、树和森林 重点章节,在选择,填空,综合中都有考察到。 4.1 掌握二叉树、树和森林的定义以及它们之间的异同点 1. 二叉树(Binary Tree) 定义: 二叉树是一种特殊的树结构,其中每个节点…

Python(wordcloud):根据词频信息(xlsx、csv文件)绘制词云图

一、前言 本文将介绍如何用python根据词频信息(xlsx、csv文件)绘制词云图,除了绘制常规形状的词云图(比如长方形),还可以指定词云图的形状。 二、安装并引入相关的库 1、安装相关的库 pip install jieb…

MinIO上传

简介 MinIO是一个开源的对象存储服务器,兼容Amazon S3 API。它提供了可扩展、高性能和高可用性的存储解决方案,适用于大规模数据存储和分发。 MinIO的设计目标是简单易用、轻量级和高度可定制。它可以在企业内部部署,也可以在公有云上使用。…

深度学习笔记(八)——构建网络的常用辅助增强方法:数据增强扩充、断点续训、可视化和部署预测

文中程序以Tensorflow-2.6.0为例 部分概念包含笔者个人理解,如有遗漏或错误,欢迎评论或私信指正。 截图和程序部分引用自北京大学机器学习公开课 要构建一个完善可用的神经网络,除了设计网络结构以外,还需要添加一些辅助代码来增强…

【Macos系统】安装VOSviewer及使用VOSviewer教程!!以ESN网络的研究进行案例分析

【Macos系统】安装VOSviewer及使用VOSviewer教程 以ESN网络的研究进行案例分析 本文介绍如何安装和使用VOSviewer软件,并以ESN(Echo State Network)网络的研究为案例进行分析。利用VOSviewer对相关文献进行可视化分析,并深入了解…

Linux之引导和服务篇

系统引导是操作系统运行的开始,在用户能够正常登录之前,Linux的引导过程完成了一系列的初始化任务,并加载必要的程序和命令终端,为用户登录做好准备。 一. 引导过程 开机自检--->MBR引导--->GRUB菜单--->加载Linux内核-…

商汤书生大模型一次可读 30 万汉字;2023 年 Shopee Live 超100万马来人注册;2023年中国出生人口902万人;

今日精选 • 商汤“书生・浦语”2.0 大语言模型开源:200K 上下文,一次可读 30 万汉字• 2023年中国出生人口902万人• 2023 年 Shopee Live 有超 100 万马来人注册并观看直播 投融资 • Airbnb 2 亿美元收购人工智能初创公司 Gameplanner.AI• 哥伦比…

【JavaEEj进阶】 Spring实现留言板

文章目录 🎍预期结果🍀前端代码🎄约定前后端交互接⼝🚩需求分析🚩接⼝定义 🌳实现服务器端代码🚩lombok 🌲服务器代码实现🌴运⾏测试 🎍预期结果 可以发布并…

Vcast工程创建

Vcast工程创建 1.新建项目,创建工程名称 2.创建该工程下的项目组 3.设置项目组环境的名字 4.选择需要测试的源代码文件 5.选择被测文件,点击build 6.出现报错,点击报错窗口的按钮 进入报错详细页,查看详细信息 报错内容如下 Unstubbed Enti…

使用原生input模拟器样式正常,但是真机上 input框溢出

目录 一、问题 二、解决方法 三、总结 tiips:如嫌繁琐,直接移步总结即可! 一、问题 1.使用原生input写了一个搜索框,在模拟器和pc上一切正常。但是打包放到手机上,样式就有问题:这个搜索框的布局是正常的&#xf…

广州银行IPO再添堵:原董事长被查,资产质量承压,罚单频现

撰稿|行星 来源|贝多财经 广州银行的上市之路,或因前高管涉嫌违纪再添一层阴云。 前不久,广州市纪委监委披露的信息显示,广州银行原党委书记、董事长姚建军涉嫌严重违纪违法,正在接受纪律审查和监察调查。据贝多财经了解&#…

代码随想录-刷题第五十七天

42. 接雨水 题目链接:42. 接雨水 思路:本题十分经典,使用单调栈需要理解的几个问题: 首先单调栈是按照行方向来计算雨水,如图: 使用单调栈内元素的顺序 从大到小还是从小到大呢? 从栈头&…