Distilling the Knowledge in a Neural Network学习笔记

1.主要内容是什么:

这篇论文介绍了一种有效的知识迁移方法——蒸馏,可以将大型模型中的知识转移到小型模型中,从而提高小型模型的性能。这种方法在实际应用中具有广泛的潜力,并且可以应用于各种不同的任务和领域。

论文中首先介绍了蒸馏的基本原理。大型模型通常通过softmax输出层产生类别概率,而蒸馏则通过提高softmax的温度来产生更软化的概率分布。在蒸馏过程中,使用大型模型生成的高温软目标分布来训练小型模型,以实现知识的迁移。

2.怎么实现的?

具体实现方式是,

3.硬标签和软目标?

硬标签和软目标是知识蒸馏方法中的两种不同的目标函数。

硬标签是指使用真实的标签作为目标进行训练。在传统的监督学习中,通常使用硬标签来训练模型,即将模型的输出与真实标签进行比较,通过最小化它们之间的差异来优化模型。

软目标是指使用大型模型生成的概率分布作为目标进行训练。

在知识蒸馏中,大型模型生成的概率分布被认为是一种"软"的目标,因为它们比硬标签更平滑,包含了更多的信息。小型模型通过最小化其输出与软目标之间的差异来训练。 在论文中,作者发现将硬标签和软目标结合起来训练蒸馏模型可以取得更好的效果。他们提出了一种加权平均的目标函数,其中第一个目标函数是使用软目标进行的交叉熵损失,第二个目标函数是使用硬标签进行的交叉熵损失。通过调整这两个目标函数的权重,可以在保留软目标的信息的同时,让模型更好地学习硬标签的知识。 在使用硬标签和软目标进行训练时,需要注意将软目标的梯度乘以温度的平方,以保持硬目标和软目标的相对贡献大致不变。这是因为软目标的梯度与温度的平方成反比,所以在使用硬目标和软目标时需要进行调整,以保持相对的平衡。

总的来说,硬标签和软目标是知识蒸馏方法中两种不同的目标函数,通过结合它们可以在训练蒸馏模型时获得更好的效果。

4.为什么不把软目标当做唯一loss?

软目标是大模型的输出概率分布传递给小模型来获得的,这些概率分布可能包含了大模型的对于小模型来说,额外的知识和不确定性。

而且,软目标并不是完全准确的标签,因此仅依赖软目标进行训练可能会导致模型过度拟合软目标的噪声。

所以,通常会将软目标与真实标签结合起来,使用两个不同的目标函数进行训练。

第一个目标函数是使用软目标计算的交叉熵损失

第二个目标函数是使用真实标签计算的交叉熵损失。

这样可以在保留软目标的知识的同时,确保模型也能够学习到正确的标签信息。

另外,软目标通常是通过使用较高的温度参数来生成的,这可以使概率分布更加平滑。

但在训练过程中,为了使得软目标和硬目标的相对贡献保持大致不变,需要将软目标的梯度乘以温度的平方。这样可以确保在尝试不同的温度参数时,硬目标和软目标的相对贡献保持一致。

5.软目标具体是用的大模型的哪一层呢?

软目标是使用大模型的softmax层输出的概率分布。

软目标是通过将大模型的logits(输入softmax的值)通过softmax函数计算得到的概率分布。这个概率分布可以被视为大模型对每个类别的预测概率。

6.在做蒸馏的时候,需要大模型和小模型的模型输出头保持结构一致吗

是的。大模型和小模型的模型输出头(output head)需要保持结构一致。

两个模型的输出头应该具有相同的类别数目,并且在相同的类别顺序上产生预测结果。这是因为在蒸馏过程中,我们希望小模型能够学习大模型的知识,包括类别之间的关系和概率分布。如果大模型和小模型的输出头结构不一致,那么在计算损失函数和梯度时会出现不匹配的情况,导致蒸馏效果不佳。因此,在进行蒸馏时,需要确保大模型和小模型的输出头具有相同的结构。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/127715.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度学习之基于ResNet18的神经网络水果分类系统

欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。 文章目录 一项目简介二、功能三、神经网络水果分类系统四. 总结 一项目简介 基于ResNet18神经网络的水果分类系统是一个利用深度学习技术进行水果图像分类的系统。下面是该系统…

golang工程——中间件redis,单节点集群部署

单节点redis集群部署 部署redis 6.2.7版本 没资源,就用一台机子部 解压安装包 tar zxf redis-6.2.7.tar.gzcd redis-6.2.7编译安装 mkdir -p /var/local/redis-6.2.7/{data,conf,logs,pid}data:数据目录 conf:配置文件目录 logs&#xf…

【Proteus仿真】【Arduino单片机】SG90舵机控制

文章目录 一、功能简介二、软件设计三、实验现象联系作者 一、功能简介 本项目使用Proteus8仿真Arduino单片机控制器,使用SG90舵机等。 主要功能: 系统运行后,舵机开始运行。 二、软件设计 /* 作者:嗨小易(QQ&#x…

一、React基础知识

一、环境安装 第一种:使用原生搭建(可以从国内下载配置镜像、也可以从国外下载) 指令:1.国内下载:(1:npm config set registry https://r.npm.taobao.org// (2:npm install -g create-react-app…

【调研】低代码平台合集

一、illa ILLA是一个帮助开发者快速建立企业内部应用的低代码平台,为开发者节约数据调用与页面设计的时间 官网:https://www.illacloud.com/zh-CN 私有化部署文档:https://www.illacloud.com/zh-CN/docs/illa-cli 优点: 1.本地部…

[算法前沿]--054-大语言模型的学习材料

大语言模型的学习材料 Other Papers If you’re interested in the field of LLM, you may find the above list of milestone papers helpful to explore its history and state-of-the-art. However, each direction of LLM offers a unique set of insights and contribut…

拥抱AI-ChatGPT:人类新纪元

最近大模型通用智能应用持续发酵,各大科技公司都陆续推出了基于通用大模型的智能应用产品,典型的如OpenAI的ChatGPT、微软的BingChat、百度的文心一言、360的智脑、阿里的通义千问等。当然最火的要属于ChatGPT了,从去年年底推出到现在已经有很…

数据分析实战 - 2 订单销售数据分析(pandas 进阶)

题目来源:和鲸社区的题目推荐: 刷题源链接(用于直接fork运行 https://www.heywhale.com/mw/project/6527b5560259478972ea87ed 刷题准备 请依次运行这部分的代码(下方4个代码块),完成刷题前的数据准备 …

【JMeter】插件管理工具

1. 官方下载地址 Documentation :: JMeter-Plugins.org 2.安装 将该插件的jar包移动到lib/ext下 3.重启JMeter就可以看到插件管理器 4. 安装,更新,删除插件 安装插件 删除插件 更新插件

python:将多个9波段影像tif文件转成numpy格式保存

作者:CSDN @ _养乐多_ 最近有粉丝问,如何将多个9波段的Aster影像tif文件转成numpy格式保存,然后输入网络进去训练。本文提供了两种思路和代码。 结果如下图所示, 文章目录 一、简单方法(分两步)二、端到端方法(一步到位)一、简单方法(分两步) 先将所有的多波段影像…

抖音协议算法最新版

抖音的协议算法是指用于推荐内容和个性化用户体验的算法系统。这些算法根据用户的兴趣、行为和偏好来推荐适合他们的视频内容,以提供更好的用户体验。 抖音的协议算法使用了大量的数据和机器学习技术来实现个性化推荐。以下是一些可能应用于抖音协议算法的技术和方法…

Linux:Docker-yum安装(2)

yum在线安装 我这里使用的是centos7默认仓库 如果没有了,可以去下面这个链接下载回来 KALItarro/default-yum: centos7-默认yum仓库 (github.com)https://github.com/KALItarro/default-yum wget -O /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.…

数仓删数方案

数仓删数 一、源头逻辑删除二、源头物理删除方案一:物理删除方案二:逻辑删除一、源头逻辑删除 源头有逻辑删除标志的话,数仓直接同步过来,推数的时候可限制isvalid = 1 二、源头物理删除 数仓中的数据需要与源头进行全量核对 方案一:物理删除 a、新建一张临时表 --primar…

ios原生分享

什么是 ios 系统的原生分享呢,如下图所示 具体使用系统UIActivityViewController,完整代码如下: -(void)shareAny:(NSString *)text url:(NSString *)_url imagePath:(NSString *)_imagePath {NSLog("shareAny, text:%, url:%, imagePa…

如何使用 NFTScan NFT API 在 BNB Chain 网络上开发 Web3 应用

BNB Chain 是一条以太坊虚拟机兼容的区块链,是加密资产行业顶尖项目的测试和前沿探索。通过引入权益权威证明(PoSA)共识机制,BNB Chain 创建了验证一个允许节点、代币持有者、开发者和用户都能够从区块链中获益的生态系统&#xf…

获取当前时间并格式化为str类型

import time aatime.strftime("%Y-%m-%d %H:%M:%S",time.localtime()) print(type(aa),aa)

041-第三代软件开发-QCustcomPlot波形标注

第三代软件开发-QCustcomPlot波形标注 文章目录 第三代软件开发-QCustcomPlot波形标注项目介绍QCustcomPlot波形标注效果初始化绘制 关键字: Qt、 Qml、 关键字3、 关键字4、 关键字5 项目介绍 欢迎来到我们的 QML & C 项目!这个项目结合了 QML…

Lua基础

table 基本原理: table是一种特殊的容器,可以向数组一样按照索引存取,也能按照键值对存取。 local mytable {1,2,3} --相当于数组 local mytable {[1]1,[2]2,[3]3} --和上面等价 local mytable {1,2,3,[3] 4} --隐式赋值会覆盖掉显式赋…

内衣迷你洗衣机什么牌子好?选购内衣裤洗衣机的方法

在如今的这个年代,大多数的用户由于种种原因,连洗自身的内衣裤以及袜子都不想洗。然而内衣裤洗衣机作为近来比较火的小家电,网友的评价褒贬不一,有人说“买来就是鸡肋,用起来不方便”,“也有人买了后直呼真…

力扣740. 删除并获得点数(动态规划)

题目描述: 给你一个整数数组 nums ,你可以对它进行一些操作。 每次操作中,选择任意一个 nums[i] ,删除它并获得 nums[i] 的点数。之后,你必须删除 所有 等于 nums[i] - 1 和 nums[i] 1 的元素。 开始你拥有 0 个点…