Knowledge Review(CVPR 2021)论文解析

paper:Distilling Knowledge via Knowledge Review

official implementation:https://github.com/dvlab-research/ReviewKD

前言 

识蒸馏将知识从教师网络转移到学生网络,可以提高学生网络的性能,作为一种“模型压缩”的方法被广泛使用。15年第一篇蒸馏方法KD对logits进行蒸馏,FitNet提出对feature进行蒸馏,后续AT、PKT、CRD等多种蒸馏方法被提出,这些蒸馏方法大都专注于改进教师与学生同一层级特征的转换和损失函数上。

本文的创新点

本文从另一个新的角度来思考蒸馏问题,即教师和学生网络之间的连接路径,之前的方法大都使用教师网络的同一层级的信息来指导学生,本文认为这是整个蒸馏框架的瓶颈所在。本文提出了一种新的蒸馏方法,关键点在于用教师网络的低层特征来监督学生网络的高层特征,从而提高蒸馏的效果。

本文提出的方法叫做knowledge review,如图1(d)所示,这种review机制用之前(浅层)的特征来指导当前的特征,这意味学生必须总是检查以前学过的东西,以更新对“旧知识”的理解和背景。这和人类的学习曲线很类似,一个小孩只能理解被教知识的一部分,在成长的过程中,过去几年学过的知识越来越多的被记住和理解。

方法介绍 

Review Mechanism

假设一张输入图片为 \(\mathbf{X}\),学生网络表示为 \(\mathcal{S} \),\(\mathbf{Y}_{s}=\mathcal{S}(\mathbf{X})\) 表示学生的输出logit。其中 \(\mathcal{S} \) 可以分成多个部分 \((\mathcal{S}_{1}, \mathcal{S}_{2},\cdot\cdot\cdot,\mathcal{S}_{n},\mathcal{S}_{c})\),其中 \(\mathcal{S}_{c}\) 表示classifier部分,\(\mathcal{S}_{1},\cdot\cdot\cdot,\mathcal{S}_{n}\) 表示不同的stage部分,那么 \(\mathbf{Y}_{s}\) 可以表示为

\(\circ \) 表示函数的嵌套,\(g\circ f(x)=g(f(x))\)。中间层的特征表示为 \((\mathbf{F}^1_{s},\cdot \cdot \cdot ,\mathbf{F}^{n}_{s} )\),第 \(i\) 层的特征计算如下

对于教师网络 \(\mathcal{T} \) 过程是类似的。单层的知识蒸馏可以表示如下

其中 \(\mathcal{M} \) 是转换函数,\(\mathcal{D}\) 是衡量教师和学生之间差异的距离函数。类似的,多层的知识蒸馏可以表示如下

其中 \(\mathbf{I}\) 存储了所有要进行蒸馏的层的特征。

本文提出的 \(review\) 机制是用之前的特征来指导当前的特征。 review机制下单层的蒸馏表示如下

 

尽管看上去和多层蒸馏很像,但实际上有本质的区别。这里学生的特征固定为 \(\mathbf{F}^{i}_{s}\),然后使用教师的前 \(i\) 层特征来指导 \(\mathbf{F}^{i}_{s}\)。当review机制和多层知识蒸馏结合时,损失函数表示如下

Residual Learning Framework

基于上述review机制得到的结构如图2(a)所示,推广到多层如图2(b)所示,但是由于不同stage之间巨大的信息差异这种策略不是最优的,并且过程复杂计算量大,比如如果一个网络有 \(n\) 个stage那么损失函数就需要计算 \(n(n+1)/2\) 对特征。为了使过程更加简洁优雅,我们可以将图2(b)的对应的式(6)重新表示如下

 其中为了简洁省去了转换函数,然后转换 \(i,j\) 两个求和的顺序,如下

当固定住 \(j\),式(9)计算的是教师特征 \(\mathbf{F}^{j}_{t}\) 和学生特征 \(\mathbf{F}^{j}_{s}-\mathbf{F}^{n}_{s}\) 之间的距离,然后我们将距离的和近似为融合特征的距离,如下

其中 \(\mathcal{U} \) 是融合特征的模块,得到的结构如图2(c)所示。然后如图2(d)所示,作者用递归的方式对融合的计算进行进一步优化,\(\mathbf{F}^{j}_{s},\cdot\cdot\cdot,\mathbf{F}^{n}_{s}\) 的融合可以看成是 \(\mathbf{F}^{j}_{s}\) 和 \(\mathcal{U}(\mathbf{F}^{j+1}_{s},\cdot\cdot\cdot,\mathbf{F}^{n}_{s})\) 的融合,其中 \(\mathcal{U} (\cdot,\cdot)\) 看作一个递归函数,\(\mathbf{F}^{j+1}_{s}\) 到 \(\mathbf{F}^{n}_{s}\) 的融合定义为 \(\mathbf{F}^{j+1,n}_{s}\),损失函数可以表示为

图2(d)的结构非常优雅并且利用残差学习的概念简化了蒸馏过程,例如,学生stage4的特征和stage3的特征结合到一起来模拟教师stage3的特征,因此学生stage4的特征学习了教师和学生stage3之间的残差,这种残差信息很有可能是教师产生更高质量结果的关因素。

ABF and HCL

受SENET的启发,作者设计了一个基于注意力的融合模块,如图3(a)所示,高层特征首先resize成和低层特征一样的shape,然后concat一起生成两个 \(H\times W\) 的特征图,然后分别与原本的两个特征图相乘最后再相加得到最终结果。

HCL如图3(b)所示,我们通常用 \(\mathcal{L}_{2}\) 距离作为两个特征图之间的损失函数,但都是用在同一level的特征之间,但本文中不同层级的特征聚集到一起然后向teacher学习,直接利用全局 \(\mathcal{L}_{2}\) 距离不足以传递不同层级之间的复合信息,受PSPNET的启发,作者提出了HCL,利用spatial pyramid pooling将知识的传递划分到不同层级的context信息中。

实验结果

在CIFAR100数据集上,无论教师和学生的网络结构是否一样,本文提出的review蒸馏方法都优于之前的方法。

在ImageNet上也取得了最优的结果

目标检测任务中,使用COCO数据集,在两阶段Faster R-CNN和单阶段RetinaNet上实验,也都取得了最优的结果。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/192847.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

np.array无法直接用matplotlib画图,因为需要借用np.squeeze先转化

文章目录 前言一、使用步骤1.没使用np.squeeze转化2.使用np.squeeze转化 前言 实际工作中,时而难免会遇见np.array无法直接用matplotlib画图的情况,这个时候,是因为在画图之前少了一个步骤,需要先借用np.squeeze先转化 一、使用步…

如何学习 Spring ?学习 Spring 前要学习什么?

整理了一下Spring的核心概念BeanDefinitionBeanDefinition表示Bean定义,BeanDefinition中存在很多属性用来描述一个Bean的特点。比如:class,表示Bean类型scope,表示Bean作用域,单例或原型等lazyInit:表示Be…

Matlab 在一个文件中调用另一个文件中的函数

文章目录 Part.I IntroductionPart.II 方法Chap.I A 文件中只有一个函数Chap.II A 文件中有多个函数 Part.I Introduction 本文介绍一下在脚本文件 B 中调用文件 A 中的函数的方法。 Part.II 方法 目的:在文件B.m调用A.m中的函数 默认两个文件在一个文件夹下&…

力扣611题 有效三角形的个数 双指针算法

611. 有效三角形的个数 给定一个包含非负整数的数组 nums ,返回其中可以组成三角形三条边的三元组个数。 示例 1: 输⼊: nums [2,2,3,4] 输出: 3 解释:有效的组合是: 2,3,4 (使⽤第⼀个 2) 2,3,4 (使⽤第⼆个 2) 2,2,3 ⽰例 2: 输⼊: nums [4,2,3,4] 输出: 4 解…

CAP概念和三种情况、Redis和分布式事务的权衡

借鉴:https://cloud.tencent.com/developer/article/1840206 https://www.cnblogs.com/huanghuanghui/p/9592016.html 一:CAP概念和三种情况 1.概念: C全称Consistency(一致性):这个表示所有节点返回的数…

轻易云AI:引领企业数智化转型提升企业AI效率

近期,轻易云AI与汤臣倍健的合作引起了业界的广泛关注。通过这一合作,轻易云AI不仅成功打造了集团小汤AI助手这一标志性的企业智能助手,更重要的是,这一合作凸显了轻易云AI作为专业AI应用集成专家的核心能力。轻易云AI已成功集成了…

Spring之RestTemplate详解

Spring之RestTemplate详解 1 RestTemplate1.1 引言1.2 环境配置1.2.1 非Spring环境下使用RestTemplate1.2.2 Spring环境下使用 RestTemplate1.2.3 Spring环境下增加线程号 1.3 API 实践1.3.1 GET请求1.3.1.1 不带参请求1.3.1.2 带参的get请求(使用占位符号传参)1.3.1.3 带参的g…

Redis7--基础篇4(Redis事务)

Redis事务是什么 可以一次执行多个命令,本质是一组命令的集合,一个事务中的所有命令都会序列化,按顺序串行,而不会被其他命令插入。 其作用就是在一个队列中,一次性、顺序、排他的执行一系列命令。 Redis事务 VS 数据…

【每日一题】拼车+【差分数组】

文章目录 Tag题目来源解题思路方法一:差分 写在最后 Tag 【差分数组】【数组】【2023-12-02】 题目来源 1094. 拼车 解题思路 本题朴素的解题思路是统计题目中提到的每一个站点的车上人数,如果某个站点的车上人数大于车上的座位数直接返回 false&…

基于 Vue、Datav、Echart 框架的 “ 数据大屏项目 “,通过 Vue 组件实现数据动态刷新渲染,内部图表可实现自由替换

最近在研究大数据分析,基于 Vue、Datav、Echart 框架的 " 数据大屏项目 ",通过 Vue 组件实现数据动态刷新渲染,内部图表可实现自由替换。部分图表使用 DataV 自带组件,可进行更改,详情请点击下方 DataV 文档…

abapgit 安装及使用

abapgit 需求 SA[ BASIS 版本 702 及以上 版本查看路径如下: 安装步骤如下: 1. 下载abapgit 独立版本 程序 链接如下:raw.githubusercontent.com/abapGit/build/main/zabapgit_standalone.prog.abap 2.安装开发版本 2.1 在线安装 前置条…

【C++】类和对象——初始化列表和static修饰成员

首先我们来谈一下初始化列表,它其实是对于我们前边构造函数体内初始化的一种补充,换一种说法,它以后才是我们构造函数的主体部分。 我们先考虑一个问题,就是一个类里面有用引用或const初始化的成员变量,比如说&#xf…

HTML_web扩展标签

1.表格标签 2.增强表头表现 4.表格属性(实际不常用) 结构标签: 合并单元格: 更多请查看主页

从零开始,探索Spring框架的魅力与实践

Spring 1,介绍1.1 为什么要学?1.2 学什么? 2,Spring相关概念2.1 初识Spring2.1.1 Spring家族2.1.2 了解Spring发展史 2.2 Spring系统架构2.2.1 系统架构图2.2.2 spring主要内容 2.3 Spring核心概念2.3.1 目前项目中的问题2.3.2 IOC、IOC容器、Bean、DI…

影刀实例五,网页表单中多下拉框填写问题

一,背景 网页表单中,经常有这样一个场景,填写籍贯.并且是以三个下拉框表示,分别代表省,市,县.并且都是非标准的,不能直接使用影刀内置命令.常规思路是:分别处理省,市&…

万能的视频格式播放器

今天博主给大家带来一款“万能”的视频播放器——VLC Media Player,支持的文件格式非常多,大家快来一起看看吧! VLC Media Player 是一款可播放大多数格式,而无需安装编解码器包的媒体播放器。可以播放 MPEG-1、MPEG-2、MPEG-4、D…

C语言-指针_02

指针-02 1. 指针的指针 概念&#xff1a;指针变量中存储的是指针的地址&#xff0c;又名 二维指针 语法&#xff1a; 数据类型 **p;示例&#xff1a; #include <stdio.h> int main(int argc, char const *argv[]) {int num 10;int *p1 &num;int **p2 &p1…

深度学习——第1章 深度学习的概念及神经网络的工作原理

1.1 序言——探索智能机器 千百年来&#xff0c;人类试图了解智能的机制&#xff0c;并将它复制到思维机器上。 人类从不满足于让机械或电子设备帮助做一些简单的任务&#xff0c;例如使用滑轮吊起沉重的岩石&#xff0c;使用计算器做算术。 人类希望计算机能够自动化执行更…

医美店会员管理系统预约小程序作用是什么

医美在美业中占据着一定地位&#xff0c;爱美使然和经济独立、悦己消费下&#xff0c;不少女性会前往医美机构做脸部整容、嫩肤补水等服务&#xff0c;如美容院一样都是具备本地外地属性的&#xff0c;因此在如今互联网盛行下&#xff0c;商家需要借势线上破解难题及增强生意效…