DINO结构中的exponential moving average (ema)和stop-gradient (sg)

DINO思路介绍

在这里插入图片描述

在 DINO 中,教师和学生网络分别预测一个一维的嵌入。为了训练学生模型,我们需要选取一个损失函数,不断地让学生的输出向教师的输出靠近。softmax 结合交叉熵损失函数是一种常用的做法,来让学生模型的输出与教师模型的输出匹配。具体地,通过 softmax 函数把教师和学生的嵌入向量尺度压缩到 0 到 1 之间,并计算两个向量的交叉熵损失。这样,在训练过程中,学生模型可以通过模仿教师模型的输出来学习更好的特征表示,从而提高模型的性能和泛化能力。当然,这也可以看作是一个分类问题,以便网络可以从局部视图中学习更有意义的全局表示。

论文对图片中DINO结构的解释如下

我们用一个简单的视角对 (x1, x2) 来说明DINO。在该模型中,输入图像经过两种不同的随机变换后分别传递给学生网络和教师网络。两个网络具有相同的架构但参数不同。教师网络的输出以批次的均值进行中心化。每个网络输出一个K 维的特征,并通过特征维度上的温度 softmax进行归一化。然后通过交叉熵损失函数来测量它们的相似性。我们在教师网络上应用一个停止梯度(stop-gradient,sg)操作,以仅通过学生网络传播梯度。教师网络的参数通过学生网络参数的指数移动平均(ema)来更新。

核心特点

无标签自蒸馏: 不需要人工标注的数据,通过模型自身的知识传递来进行训练。
双视角 (x1, x2): 输入图像经过两种不同的随机变换,生成两种视角,以增加数据的多样性和模型的鲁棒性。
学生网络和教师网络: 两个网络结构相同,但参数不同。学生网络用于训练,教师网络提供稳定的指导信号。
教师网络输出中心化: 教师网络的输出在批次内进行中心化处理,以消除偏差并稳定训练过程。
温度 Softmax 归一化: 网络输出通过温度 Softmax 进行归一化,控制特征向量的平滑度,防止梯度消失或爆炸。
相似性度量: 通过交叉熵损失函数测量学生网络和教师网络输出之间的相似性,鼓励学生网络学习到与教师网络相似的表示。
停止梯度操作(SG): 在教师网络上应用停止梯度操作,确保梯度只通过学生网络进行反向传播,避免教师网络影响梯度更新。
指数移动平均更新(EMA): 教师网络的参数通过学生网络参数的指数移动平均进行更新,确保教师网络的参数更加平滑和稳定,从而提供可靠的指导信号。

再总结一下:在两个完全一样的教师和学生网络(ViT/CNN 均可)中

  • 教师网络通过 centering 和 sharpening 正则化避免训练崩塌。
      • Centering:教师模型的输出也经过 EMA 操作,从原始激活值中减去一个平均值。
      • Sharpening:在 Softmax 中加入一个 temperature 参数,强制让概率分布更加尖锐。
    • 两个网络的输出都通过 Softmax 层归一化处理
    • 通过交叉熵损失计算损失
  • 学生网络通过 SGD 更新参数,并通过 EMA 更新教师网络参数,教师网络的参数因为sg不会自己动**。

问题一:centering中使用的EMA(Exponential Moving Average)是什么东西,指数是怎么被体现的

在 DINO 中,教师网络的参数通过学生网络参数的指数移动平均(Exponential Moving Average, EMA)进行更新。以下是 EMA 操作的详细解释:

1. 定义

EMA 是一种用于平滑时间序列数据的技术,它通过对新数据赋予较高权重,同时对旧数据赋予较低权重,从而平滑数据变化。具体来说,EMA 的计算公式为:

θ t teacher = α θ t student + ( 1 − α ) θ t − 1 teacher \theta_t^{\text{teacher}} = \alpha \theta_t^{\text{student}} + (1 - \alpha) \theta_{t-1}^{\text{teacher}} θtteacher=αθtstudent+(1α)θt1teacher

其中:

  • θ t teacher \theta_t^{\text{teacher}} θtteacher 是第 t t t 次更新后的教师网络参数。
  • θ t student \theta_t^{\text{student}} θtstudent 是第 t t t 次学生网络的参数。
  • α \alpha α 是平滑系数,介于 0 和 1 之间,通常取一个较小的值(例如 0.99 或 0.999)。
  • θ t − 1 teacher \theta_{t-1}^{\text{teacher}} θt1teacher 是第 t − 1 t-1 t1 次更新后的教师网络参数。
2. 指数的体现

EMA 操作中的“指数”体现在计算过程中旧数据的权重以指数形式递减。具体地,如果我们展开几次 EMA 的更新,可以看到:

θ t teacher = α θ t student + α ( 1 − α ) θ t − 1 student + α ( 1 − α ) 2 θ t − 2 student + ⋯ \theta_t^{\text{teacher}} = \alpha \theta_t^{\text{student}} + \alpha(1 - \alpha) \theta_{t-1}^{\text{student}} + \alpha(1 - \alpha)^2 \theta_{t-2}^{\text{student}} + \cdots θtteacher=αθtstudent+α(1α)θt1student+α(1α)2θt2student+

这表明旧数据的权重以 ( (1 - \alpha)^k ) 的形式递减,其中 ( k ) 是时间步长。因此,最近的数据对当前参数的影响最大,而更早的数据影响则逐渐减小,以指数形式衰减。

3. 核心思想

EMA 操作的核心思想是使教师网络参数逐步融合学生网络的最新知识,同时保留一部分历史信息。这使得教师网络参数更新更加平滑,避免剧烈波动,从而提供稳定的指导信号。

4. 优点
  • 稳定性:通过 EMA,教师网络参数的变化更加平滑,减小了训练过程中的不稳定性。
  • 延迟效应:EMA 赋予新数据较高权重,能够快速反映学生网络的最新学习成果,同时历史信息的保留可以防止模型过拟合于噪声数据。
  • 无梯度反传:在 DINO 中,教师网络的参数更新不需要反向传播梯度,EMA 操作直接基于学生网络参数进行更新,这简化了计算。
5. 在 DINO 中的应用

在 DINO 的训练过程中,教师网络的参数不参与反向传播,而是通过 EMA 操作根据学生网络的参数进行更新。这确保了教师网络能够稳定地指导学生网络学习,同时防止了学生网络的梯度直接影响教师网络。

途中右上角有个sg,这个停止梯度操作又是什么

停止梯度操作 (Stop-Gradient)

在 DINO 中,我们在教师网络上应用了停止梯度(stop-gradient, sg)操作,使得梯度只通过学生网络进行传播。具体来说,停止梯度操作的目的是阻止梯度在反向传播时更新教师网络的参数,而仅更新学生网络的参数。

定义

停止梯度操作是一种在反向传播过程中冻结部分网络参数的技术。通过这种操作,某些部分的网络参数不会更新,以保持其值不变。

作用与优点
  1. 保持教师网络的稳定性:通过停止梯度操作,教师网络的参数在训练过程中保持不变,这有助于提供稳定的指导信号。
  2. 防止梯度泄漏:停止梯度操作可以防止梯度从学生网络泄漏到教师网络,从而确保梯度仅用于更新学生网络的参数。
  3. 增强训练效果:这种操作确保学生网络在训练过程中受到稳定的指导信号,促进其更有效地学习。
在 DINO 中的应用

在 DINO 的训练过程中,教师网络的参数通过指数移动平均(EMA)从学生网络的参数中更新,但不参与反向传播。具体来说:

  • 我们对教师网络应用停止梯度操作,使得梯度不通过教师网络进行传播。
  • 教师网络的参数更新通过 EMA 操作,从学生网络的参数中获得。

停止梯度操作 (Stop-Gradient)

在 DINO 中,我们在教师网络上应用了停止梯度(stop-gradient, sg)操作,使得梯度只通过学生网络进行传播。具体来说,停止梯度操作的目的是阻止梯度在反向传播时更新教师网络的参数,而仅更新学生网络的参数。

定义

停止梯度操作是一种在反向传播过程中冻结部分网络参数的技术。通过这种操作,某些部分的网络参数不会更新,以保持其值不变。

作用与优点
  1. 保持教师网络的稳定性:通过停止梯度操作,教师网络的参数在训练过程中保持不变,这有助于提供稳定的指导信号。
  2. 防止梯度泄漏:停止梯度操作可以防止梯度从学生网络泄漏到教师网络,从而确保梯度仅用于更新学生网络的参数。
  3. 增强训练效果:这种操作确保学生网络在训练过程中受到稳定的指导信号,促进其更有效地学习。
在 DINO 中的应用

在 DINO 的训练过程中,教师网络的参数通过指数移动平均(EMA)从学生网络的参数中更新,但不参与反向传播。具体来说:

  • 我们对教师网络应用停止梯度操作,使得梯度不通过教师网络进行传播。
  • 教师网络的参数更新通过 EMA 操作,从学生网络的参数中获得。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/18027.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker安装Oracle11g数据库

操作系统:centOS9使用此方法检查是否安装Docker:docker --help,如果有帮助文件则证明安装成功使用此语句检查Docker是否正在运行:docker images,实际上是查看本地镜像如果发现未运行则开启Docker:systemctl…

MyCat2之安装与配置文件介绍

安装 1.新建文件夹tools mkdir tools,并进入tools 2.下载MaCat wget http://dl.mycat.org.cn/2.0/install-template/mycat2-install-template-1.21.zip wget http://dl.mycat.org.cn/2.0/1.21-release/mycat2-1.21-release-jar-with-dependencies.jar 3.解压zip u…

怎样打造一份个性化画册呢?我来教你

在这个数字化的时代,传统的照片已经不能满足我们对个性化回忆的需求。个性化画册,不仅能够承载我们的记忆,还能展现自我风格。今天,就让我来教你如何打造一份属于自己的个性化画册。 1.要制作电子杂志,首先需要选择一款适合自己的…

kafka3.6.1版本学习

kafka目录结构 bin linux系统下可执行脚本文件 bin/windows windows系统下可执行脚本文件 config 配置文件 libs 依赖类库 licenses 许可信息 site-docs 文档 logs 服务日志 启动ZooKeeper 进入Kafka解压缩文件夹的config目录,修改zookeeper.properties配置文件 #t…

【吊打面试官系列】Java高并发篇 - Java 死锁以及如何避免?

大家好,我是锋哥。今天分享关于 【Java 死锁以及如何避免?】面试题,希望对大家有帮助; Java 死锁以及如何避免? Java 中的死锁是一种编程情况,其中两个或多个线程被永久阻塞,Java 死锁情况出现至…

【每日刷题】Day50

【每日刷题】Day50 🥕个人主页:开敲🍉 🔥所属专栏:每日刷题🍍 🌼文章目录🌼 1. 654. 最大二叉树 - 力扣(LeetCode) 2. 119. 杨辉三角 II - 力扣&#xff08…

MATLAB system identification系统辨识app的使用

系统辨识 前言系统辨识第一步 选取时域数据到app第二步 分割数据第三步 设置传递函数的参数第四步 Estimate第五步 结束 前言 接上节:simulink-仿真以及PID参数整定 系统模型的辨识工作,在控制领域,一般用于开发控制器的先手工作。一般而言…

调整图片和表格尺寸的命令:resizebox

\resizebox 是 LaTeX 中的一个命令&#xff0c;用于调整插入的内容&#xff08;如图像、表格、文本等&#xff09;的大小。它的语法如下&#xff1a; \resizebox{<width>}{<height>}{<content>}其中&#xff1a; <width> 和 <height> 分别表示…

IDEA提示Untrusted Server‘s certificate

如果你用的是Intellij系列IDE&#xff08;GoLand, PHPStorm, WebStorm, IDEA&#xff09;&#xff0c;突然弹出个提示『Untrusted Servers certificate 』 莫慌&#xff0c;这是因为你用了破解版的 IDE&#xff0c;破解过程中有个hosts绑定的操作&#xff1a; 0.0.0.0 account.…

代数拓扑学

啊&#xff0c;哈喽&#xff0c;小伙伴们大家好。我是#张亿&#xff0c;今天呐&#xff0c;学的是代数拓扑学 代数拓扑学是拓扑学中主要依赖 [1]代数工具来解决问题的一个分支。同调与同伦的理论是代数拓扑学的两大支柱&#xff08;见同调论&#xff0c;同伦论&#xff09;。 …

K8s集群调度续章

目录 一、污点&#xff08;Taint&#xff09; 1、污点&#xff08;Taint&#xff09; 2、污点组成格式 3、当前taint effect支持如下三个选项&#xff1a; 4、查看node节点上的污点 5、设置污点 6、清除污点 7、示例一 查看pod状态&#xff0c;模拟驱逐node02上的pod …

消费增值的真面目!绿色积分的合理运用!

各位朋友&#xff0c;大家好&#xff01;我是吴军&#xff0c;来自一家备受瞩目的软件开发企业&#xff0c;担任产品经理一职。今天&#xff0c;我非常荣幸能有机会与大家分享一种在市场上备受瞩目的新型商业模式——消费增值模式。 随着环保和可持续发展理念日益深入人心&…

对象解构与迭代器的猫腻?

前言 变量的解构赋值是前端开发中经常用到的一个技巧&#xff0c;比如&#xff1a; // 对象解构 const obj { a: 1, b: 2 }; const { a, b } obj; console.log(a, b)数组解构 const arr [1, 2, 3]; const [a, b] arr; console.log(a, b)工作中我们最经常用的就是类似上面…

轻松拿捏C语言——自定义类型之【结构体】

&#x1f970;欢迎关注 轻松拿捏C语言系列&#xff0c;来和 小哇 一起进步&#xff01;✊ &#x1f389;创作不易&#xff0c;请多多支持&#x1f389; &#x1f308;感谢大家的阅读、点赞、收藏和关注&#x1f495; &#x1f339;如有问题&#xff0c;欢迎指正 1. 结构体类型的…

echarts-象形柱图

象形柱图 一般的柱图都是纯色柱图&#xff0c;使用象形柱图可以给柱图定义自己的样式。 样式的调节与柱图一样&#xff0c;核心在于symbol调节柱图的组成。 let options {tooltip: {},xAxis: {type: "category",data: ["d1", "d2", "d3&qu…

具有固定宽度的盒子:\makebox, \parbox

makebox \makebox 是 LaTeX 中的一个命令&#xff0c;用于创建一个具有固定宽度的盒子&#xff0c;并在该盒子内放置内容。这个命令可以用于控制文本或对象的位置和对齐。 语法如下&#xff1a; \makebox[<width>][<alignment>]{<content>}其中&#xff1…

存储+调优:存储-memcached

存储调优&#xff1a;存储-memcached 什么是memcached? 高性能的分布式内存缓存服务器。通过缓存数据库的查询结果&#xff0c;减少数据库访问次数&#xff0c;以提高动态Web应用的速度、提高可扩展性。 在memcached中存什么&#xff1f; 尽快被保存 访问频率高 1.数据保…

unity回到低版本报错解决

用高版本2022打开过后的再回到2020就报了一个错。 报错如下&#xff1a; Library\PackageCache\com.unity.ai.navigation1.1.5\Runtime\NavMeshSurface.cs 看了一下是Library&#xff0c;然后我删除了整个Library文件夹&#xff0c;重启启动生成Library&#xff0c;然后还是…

IT人的拖延——渴望成功与害怕成功的矛盾

很多人都以为&#xff0c;害怕失败是拖延的主要诱因&#xff0c;但其实“害怕成功”也是拖延的主要诱因之一。要说这个原因&#xff0c;我们不得不提起Bible中的一个人“约拿”&#xff0c;让我们先来看看他的故事带给我们什么启示。 约拿情结简介 约拿是Bible中的一名先知&a…

二十九、openlayers官网示例DeclutterGroup解析——避免矢量图层的文字重叠

官网demo地址&#xff1a; Declutter Group 这篇说的是如何设置矢量图层上多数据点文字不重叠。 主要是属性declutter &#xff0c;用于处理矢量图层上重叠的标注和符号&#xff0c;为true时启用去重叠功能。所有矢量特征的标注和符号都会被处理以避免重叠。false则与之相反。…