【深度学习中的“冻结”含义】

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、冻结操作
二、实际使用
三、案例
- 训练代码...
总结

前言

在深度学习领域，“冻结”的含义通常指的是在训练过程中保持网络模型中的某一层或多层的权重参数不变。

这样做的目的可能是为了保留预训练模型在这些层上学到的特征，或者是因为这些层的参数对于当前任务来说已经足够好，不需要再进行训练。

提示：以下是本篇文章正文内容，下面案例可供参考

一、冻结操作

对于如何执行“冻结”操作，通常可以通过设置模型层（或参数）的trainable属性为False来实现。

以下是一个简单的例子，展示了如何在PyTorch中冻结模型的一部分：

import torch  
import torch.nn as nn  # 假设我们有一个预训练的模型  
model = nn.Sequential(  nn.Conv2d(3, 64, kernel_size=3, stride=1, padding=1),  nn.ReLU(),  nn.MaxPool2d(kernel_size=2, stride=2),  # ... 其他层 ...  
)  # 我们要冻结前两层（即卷积层和ReLU层）  
for param in model[:2].parameters():  param.requires_grad = False  # 现在，只有第三层及之后的层是可训练的  
# 我们可以继续训练模型，但前两层的权重将保持不变

在这个例子中，我们创建了一个简单的卷积神经网络模型，并决定冻结前两层。

我们通过遍历这两层的参数，并将它们的requires_grad属性设置为False来实现这一点。

这意味着在反向传播过程中，这些参数的梯度将不会被计算，因此它们的权重也不会被更新。

二、实际使用

# 假设loggerp是一个已经定义好的日志记录器  
if isinstance(cfg.MODEL.NOT_TRAIN_IN_MULTI_TASK, list) and cfg.MODEL.NOT_TRAIN_IN_MULTI_TASK != []:  loggerp.info("use freeze for " + str(cfg.MODEL.NOT_TRAIN_IN_MULTI_TASK))  for k, v in model.named_parameters():  if any(x in k for x in cfg.MODEL.NOT_TRAIN_IN_MULTI_TASK):  # 使用any而不是ang，并且确保k中包含了列表中的某个元素  logger.info(f'freezing{k}')v.requires_grad = False  # 冻结这个参数，设置requires_grad为False

这段代码的作用是根据配置中指定的任务列表，在模型中冻结不需要在多任务训练中更新的参数。让我们逐行解释：

if isinstance(cfg.MODEL.NOT_TRAIN_IN_MULTI_TASK, list) and cfg.MODEL.NOT_TRAIN_IN_MULTI_TASK != []:

这是一个条件语句，用于检查配置中的 NOT_TRAIN_IN_MULTI_TASK 是否是一个非空的列表。如果是列表且不为空，则进入下一步操作。

loggerp.info("use freeze for " + str(cfg.MODEL.NOT_TRAIN_IN_MULTI_TASK))：

这行代码记录了要冻结的参数列表，以便后续查看。日志消息中包含了要冻结的参数列表。

for k, v in model.named_parameters():

这是一个遍历模型参数的循环。model.named_parameters() 返回模型中所有参数的名称及其对应的参数张量。

if any(x in k for x in cfg.MODEL.NOT_TRAIN_IN_MULTI_TASK):

这是一个条件语句，用于检查参数名称是否包含在配置指定的任务列表中的任何一个。

这里使用了 Python 的 any() 函数，它接受一个可迭代对象，并返回 True 如果可迭代对象中的任何元素为 True，否则返回 False。

v.requires_grad = False

如果参数名称包含在指定的任务列表中，则将该参数的 requires_grad 属性设置为 False，即冻结该参数，不再更新它的梯度值。

通过这段代码，你可以根据需要灵活地指定哪些参数需要在多任务训练中保持固定，以便更好地适应不同的训练需求。

三、案例

在 PyTorch 中，要冻结模型的某些层的权重，可以通过设置这些层的 requires_grad 属性为 False 来实现。这样做可以确保在训练过程中这些层的权重不会被更新。以下是一般的操作步骤：

获取模型的参数：首先，需要获取模型的参数，可以使用 model.parameters() 或 model.named_parameters() 方法来获取模型的参数。

冻结指定层的权重：对于要冻结的层，将其参数的 requires_grad 属性设置为 False。

设置优化器：如果使用了优化器，确保只为要更新的参数创建优化器。这意味着只为 requires_grad=True 的参数创建优化器。

以下是一个示例代码：

import torch
import torchvision.models as models##  加载预训练的模型
model = models.resnet18(pretrained=True)## 冻结模型的前几层
for name, param in model.named_parameters():if 'layer1' in name or 'layer2' in name:param.requires_grad = False## 只为要更新的参数创建优化器
optimizer = torch.optim.SGD(filter(lambda p: p.requires_grad, model.parameters()), lr=0.001)# filter(lambda p: p.requires_grad, model.parameters()):
# 使用了 Python 中的 filter 函数，结合了一个 lambda 函数，以过滤出那些 requires_grad 属性为 True 的模型参数。# 
# model.parameters() 返回模型的所有参数，而 filter 函数将返回一个迭代器，其中仅包含 requires_grad 属性为 True 的参数。