车辆重识别代码笔记12.20

1、model.named_parameters()

model.named_parameters() 返回一个生成器,生成每个参数的名称和相应的参数值。这对于查看和修改特定参数的可训练状态非常有用。

model= DarkNet([1, 2, 8, 8, 4])
for name, param in model.named_parameters():print(name, param.requires_grad)param.requires_grad = False
输出:
conv1.weight True
bn1.weight True
bn1.bias True
layer1.ds_conv.weight True
layer1.ds_bn.weight True
layer1.ds_bn.bias True
layer1.residual_0.conv1.weight True
layer1.residual_0.bn1.weight True
layer1.residual_0.bn1.bias True
layer1.residual_0.conv2.weight True
layer1.residual_0.bn2.weight True
layer1.residual_0.bn2.bias True
layer2.ds_conv.weight True
layer2.ds_bn.weight True
layer2.ds_bn.bias True
layer2.residual_0.conv1.weight True
layer2.residual_0.bn1.weight True
layer2.residual_0.bn1.bias True
....

通过这种方式,你可以查看和更改每个参数的可训练属性。

model.named_parameters() 用于获取模型参数的名称和参数本身,可以更改参数的 requires_grad 属性。

2、偏置项(bias)学习率和权重衰减

        在神经网络中,偏置项(bias)和其他权重(weights)参数的更新策略可能不同,通常偏置项会使用与权重不同的超参数,尤其是在学习率和权重衰减方面。

具体解释:

  1. 偏置项(Bias)与权重(Weights)

    • 权重(Weights) 是神经网络中连接不同神经元的参数,决定了输入信号如何影响输出信号。

    • 偏置项(Bias) 是神经元中的一个额外参数,它用于调整输出,帮助网络更好地拟合数据。在每个神经元的输出计算中,偏置项是加在加权输入之上的常数。

  2. 为什么偏置项使用不同的学习率和权重衰减?

    • 学习率:在训练神经网络时,偏置项通常会用较大的学习率进行更新,因为偏置项的优化过程往往比权重更新更简单,因此适合较大的步伐。权重通常更新得较慢,需要更小的学习率。

    • 权重衰减(Weight Decay):在训练时,权重衰减用于惩罚模型中过大的权重,防止过拟合。但对于偏置项,通常不需要这么严格的惩罚,因为它们主要用来调整输出而不是参与学习特征,因此对偏置项不应用权重衰减或应用较小的衰减。

  3. 代码中的实现

    if "bias" in key:lr = cfg.SOLVER.BASE_LR * cfg.SOLVER.BIAS_LR_FACTORweight_decay = cfg.SOLVER.WEIGHT_DECAY_BIAS
    

    这里的代码检查参数名称中是否包含 "bias",如果是偏置项,则会做以下调整:

    • 将学习率 lr 乘以一个因子 BIAS_LR_FACTOR,从而为偏置项设置一个相对较高的学习率。

    • 将权重衰减 weight_decay 设置为一个专门为偏置项定义的较小值WEIGHT_DECAY_BIAS,避免对偏置项进行过度惩罚。

总结:

偏置项和权重的更新策略不同是因为它们在神经网络中扮演的角色不同,通常会使用不同的学习率和权重衰减。偏置项需要较大的学习率来快速调整输出,而权重需要更小的学习率并且通常会应用权重衰减来避免过拟合。

3、优化器

在深度神经网络中,优化器(Optimizer) 的主要作用是通过调整网络参数(如权重和偏置),以最小化(或最大化)损失函数,从而使模型的预测更准确。优化器控制了模型的学习过程,决定了如何使用梯度来更新网络参数,确保网络逐步接近最优解。

优化器的作用

  1. 更新网络参数: 神经网络训练的核心任务是根据梯度更新网络的参数。优化器根据计算得到的梯度调整每一层的权重和偏置,以使模型的预测误差逐渐减小。

  2. 最小化损失函数: 深度学习中的训练目标通常是最小化损失函数(Loss Function),这表示模型的预测值和真实标签之间的差异。优化器使用反向传播算法来计算损失函数关于模型参数的梯度,然后通过优化算法调整参数,使得损失最小化。

  3. 加速训练过程: 优化器通过智能地调整学习率、控制更新的方向和步幅(步长),有效地加速网络训练,避免停滞或过度震荡,提高训练过程的稳定性和效率。

优化器的工作流程

优化器的工作流程可以概括为以下几个步骤:

  1. 计算梯度: 在每次迭代中,通过反向传播计算每个参数的梯度(即损失函数关于每个参数的导数)。

  2. 更新参数: 使用梯度信息来更新网络参数。参数更新的规则根据所选的优化算法(如SGD、Adam、RMSprop等)不同而有所区别。

  3. 调整学习率: 大多数优化器会有一个学习率(Learning Rate),它控制了参数更新的步长。优化器会根据学习率以及梯度来决定每次更新的幅度。

  4. 优化过程的迭代: 优化器会在每一轮训练中根据计算的梯度和学习率不断更新模型的参数,直到损失函数收敛为止。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/64887.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【机器人】机械臂轨迹和转矩控制对比

动力学控制和轨迹跟踪控制是机器人控制中的两个概念,它们在目标、方法和应用上有所不同,但也有一定关联。以下是它们的区别和联系: 1. 动力学控制 动力学控制是基于机器人动力学模型的控制方法,目标是控制机器人关节力矩或力&…

Pytorch | 从零构建ParNet/Non-Deep Networks对CIFAR10进行分类

Pytorch | 从零构建ParNet/Non-Deep Networks对CIFAR10进行分类 CIFAR10数据集ParNet架构特点优势应用 ParNet结构代码详解结构代码代码详解SSEParNetBlock 类DownsamplingBlock 类FusionBlock 类ParNet 类 训练过程和测试结果代码汇总parnet.pytrain.pytest.py 前面文章我们构…

Go1.21.0 到 Go1.23.0 的改动,向前兼容性和toolchain规则,Go1.21.0,必须升级你的Go啦

Go各版本Release Note Go1.21.0 2023-08-08 https://go.dev/doc/go1.21 内置方法 min & max:返回一个序列中的最大值最小值。 https://go.dev/ref/spec#Min_and_max clear:清空map和slice。 https://go.dev/ref/spec#Clear 标准库 log/slo…

Unity中的委托和事件(UnityAction、UnityEvent)

委托和事件 🎒什么是委托,委托的关键字是Delegate,委托是一种函数的容器,运行将函数做为变量来进行传递 通过Delegate关键字我们声明了一个无参无返回的委托,通过这个委托我们可以存储无参无返回的函数 public deleg…

uniapp v-tabs修改了几项功能,根据自己需求自己改

根据自己的需求都可以改 这里写自定义目录标题 1.数组中的名字过长,导致滑动异常2.change 事件拿不到当前点击的数据,通过index在原数组中查找得到所需要的id 各种字段麻烦3.添加指定下标下新加红点显示样式 1.数组中的名字过长,导致滑动异常…

CAD xy坐标标注(跟随鼠标位置实时移动)——C#插件实现

效果如下: (使用方法:命令行输入 “netload” 加载此dll插件,然后输入“zbbz”运行,选择文件夹即可。支持字体大小变化,输入“zbbd”可设置坐标字体变大或缩小的倍数) 部分代码如下:…

【C#】实现Json转Lua (Json2Lua)

关键词: C#、JsonToLua、Json2Lua、对象序列化Lua 前提需引入NewtonsofJson,引入方法可先在Visual Studio 2019 将Newtonsoft.Json.dll文件导入Unity的Plugins下。 Json格式字符串转Lua格式字符串,效果如下: json字符串 {"1": &q…

Redis 7.x如何安装与配置?保姆级教程

大家好,我是袁庭新。最新写了一套最新版的Redis 7.x企业级开发教程,今天先给大家介绍下Redis 7.x如何在Linux系统上安装和配置。 1 Redis下载与安装 使用非关系型数据库Redis必须先进行安装配置并开启Redis服务,然后使用对应客户端连接使用…

Redis篇--常见问题篇6--缓存一致性1(Mysql和Redis缓存一致,更新数据库删除缓存策略)

1、概述 在使用Redis作为MySQL的缓存层时,缓存一致性问题是指Redis中的缓存数据与MySQL数据库中的实际数据不一致的情况。这可能会导致读取到过期或错误的数据,从而影响系统的正确性和用户体验。 为了减轻数据库的压力,通常读操作都是先读缓…

git remote -v(--verbose)显示你的 Git 仓库配置的远程仓库的详细信息

git remote -v 是一个 Git 命令,用于显示你的 Git 仓库配置的远程仓库的详细信息。 当你执行 git remote -v 命令时,你会看到类似以下的输出: origin https://github.com/your-username/your-repo.git (fetch) origin https://github.com…

[计算机网络]唐僧的”通关文牒“NAT地址转换

1.NAT:唐僧的通关文牒 在古老的西游记中,唐僧师徒四人历经九九八十一难,终于取得了真经。然而,他们并不是一开始就获得了通关文牒,而是经过了重重考验,最终得到了国王的认可,才顺利通过了各个关…

WPF实现曲线数据展示【案例:震动数据分析】

wpf实现曲线数据展示,函数曲线展示,实例:震动数据分析为例。 如上图所示,如果你想实现上图中的效果,请详细参考我的内容,创作不易,给个赞吧。 一共有两种方式来实现,一种是使用第三…

7 家使用量子计算的公司

劳斯莱斯、Deloitte、BASF、Roche、富士通、JPMorgan和宝马是率先开展量子计算实验的部分公司。 商用量子计算的实现仍需数年时间,但这并未阻止世界上一些知名企业对其进行试验。在许多情况下,利用当下有噪声的中等规模量子(NISQ&#xff09…

jvm字节码中方法的结构

“-Xss”这一名称并没有一个特定的“为什么”来解释其命名,它更多是JVM(Java虚拟机)配置参数中的一个约定俗成的标识。在JVM中,有多个配置参数用于调整和优化Java应用程序的性能,这些参数通常以一个短横线“-”开头&am…

【服务器】MyBatis是如何在java中使用并进行分页的?

MyBatis 是一个支持普通 SQL 查询、存储过程和高级映射的持久层框架。它消除了几乎所有的 JDBC 代码和参数的手动设置以及结果集的检索。MyBatis 可以通过简单的 XML 或注解来配置和映射原始类型、接口和 Java 的 POJO(Plain Old Java Objects,普通老式 …

Phono3py hdf5文件数据读取与处理

Phono3py是一个主要用python写的声子-声子相互作用相关性质的模拟包,可以基于有限位移算法实现三阶力常数和晶格热导率的计算过程,同时输出包括声速,格林奈森常数,声子寿命和累积晶格热导率等参量。 相关介绍和安装请参考往期推荐…

centos7下docker 容器实现redis主从同步

1.下载redis 镜像 docker pull bitnami/redis2. 文件夹授权 此文件夹是 你自己映射到宿主机上的挂载目录 chmod 777 /app/rd13.创建docker网络 docker network create mynet4.运行docker 镜像 安装redis的master -e 是设置环境变量值 docker run -d -p 6379:6379 \ -v /a…

matlab绘图时设置左、右坐标轴为不同颜色

目录 一、需求描述 二、实现方法 一、需求描述 当图中存在两条曲线,需要对两条曲线进行分别描述时,应设置左、右坐标轴为不同颜色,并设置刻度线,且坐标轴颜色需要和曲线颜色相同。 二、实现方法 1.1、可以实现: 1…

【数据可视化复习方向】

1.数据可视化就是数据中信息的可视化 2.数据可视化主要从数据中寻找三个方面的信息:模式、关系和异常 3.大数据可视化分类:科学可视化、信息可视化、可视分析学 4.大数据可视化作用:记录信息、分析推理、信息传播与协同 5.可视化流程&…

「配置应用的可见性」功能使用教程

引言 对于「应用可见性」这一概念,可能很多开发者小伙伴还不是很熟悉。简单举一个很典型的场景例子,当你开发的应用需要调起第三方应用时,这里就涉及到应用可见性的问题了,如果不配置相关的应用可见性,则你的应用是无…