yolov8逐步分解(7)_模型训练初始设置之优化器Optimizer及学习率调度器Scheduler初始化

yolov8逐步分解(1)--默认参数&超参配置文件加载

yolov8逐步分解(2)_DetectionTrainer类初始化过程

yolov8逐步分解(3)_trainer训练之模型加载

YOLOV8逐步分解(4)_模型的构建过程

YOLOV8逐步分解(5)_模型训练初始设置之混合精度训练AMP

YOLOV8逐步分解(6)_模型训练初始设置之image size检测batch预设及dataloder初始化

接逐步分解（6），继续模型训练初始设置的讲解，本章将讲解优化器Optimizer及学习率调度器Scheduler的初始代码。

1.优化器Optimizer

        # Optimizerself.accumulate = max(round(self.args.nbs / self.batch_size), 1)  # accumulate loss before optimizingweight_decay = self.args.weight_decay * self.batch_size * self.accumulate / self.args.nbs  # scale weight_decayiterations = math.ceil(len(self.train_loader.dataset) / max(self.batch_size, self.args.nbs)) * self.epochsself.optimizer = self.build_optimizer(model=self.model,name=self.args.optimizer,lr=self.args.lr0,momentum=self.args.momentum,decay=weight_decay,iterations=iterations)

设置优化器相关的参数。下面介绍每一行代码的作用:

1.1 self.accumulate = max(round(self.args.nbs / self.batch_size), 1):

这一行计算梯度累积的步数。

self.args.nbs 表示每次梯度更新前需要累积的批次数(Nominal Batch Size)。

self.batch_size 是实际使用的批量大小。

这个公式确保每次梯度更新前至少会累积 1 个批次。

1.2 weight_decay = self.args.weight_decay * self.batch_size * self.accumulate / self.args.nbs:

这一行计算权重衰减(weight decay)的值。

权重衰减是一种正则化方法,用于防止模型过拟合。

这个公式将原始的权重衰减值 self.args.weight_decay 进行了缩放,使其与批量大小和梯度累积步数相关。

1.3 iterations = math.ceil(len(self.train_loader.dataset) / max(self.batch_size, self.args.nbs)) * self.epochs:

这一行计算总的训练迭代次数。

它先计算每个 epoch 中的迭代次数,然后乘以总的 epoch 数。

每个 epoch 中的迭代次数是通过将训练数据集的长度除以批量大小或 self.args.nbs 的最大值,并向上取整得到的。

1.4 self.optimizer = self.build_optimizer(model=self.model, name=self.args.optimizer, lr=self.args.lr0, momentum=self.args.momentum, decay=weight_decay, iterations=iterations):

这一行创建了优化器对象。

它调用了 self.build_optimizer() 函数,传入了以下参数:

model=self.model: 要优化的模型

name=self.args.optimizer: 优化器的名称

lr=self.args.lr0: 初始学习率

momentum=self.args.momentum: 动量参数

decay=weight_decay: 刚刚计算的权重衰减值

iterations=iterations: 总的训练迭代次数

这段代码的目的是根据一些超参数梯度累积步数,来计算出合适的权重衰减值和总的训练迭代次数,并使用这些参数创建一个优化器对象。

2. 学习率调度器Scheduler

关于学习率调度器的详细介绍可以查看文章:深度学习之学习率调度器Scheduler介绍

        # Schedulerif self.args.cos_lr:self.lf = one_cycle(1, self.args.lrf, self.epochs)  # cosine 1->hyp['lrf']else:self.lf = lambda x: (1 - x / self.epochs) * (1.0 - self.args.lrf) + self.args.lrf  # linearself.scheduler = optim.lr_scheduler.LambdaLR(self.optimizer, lr_lambda=self.lf)self.stopper, self.stop = EarlyStopping(patience=self.args.patience), Falseself.resume_training(ckpt) #恢复训练过程。ckpt 是一个检查点文件，用于加载之前保存的模型和训练状态。self.scheduler.last_epoch = self.start_epoch - 1  # do not moveself.run_callbacks('on_pretrain_routine_end') #运行预训练过程结束时的回调函数。

学习率调度器(Scheduler)的设置。下面介绍每一行代码的作用:

2.1 if self.args.cos_lr: 和 else::

这里根据 self.args.cos_lr 的值来决定使用余弦学习率衰减还是线性学习率衰减。

self.lf = one_cycle(1, self.args.lrf, self.epochs) 和 self.lf = lambda x: (1 - x / self.epochs) * (1.0 - self.args.lrf) + self.args.lrf:

这两行分别定义了两种不同的学习率调整函数 self.lf。

第一个函数是使用 "one cycle" 策略,其中学习率从 1 逐渐降到 self.args.lrf。

第二个函数是使用线性衰减,学习率从 1.0 逐渐降到 self.args.lrf。

2.2 self.scheduler = optim.lr_scheduler.LambdaLR(self.optimizer, lr_lambda=self.lf):

这一行创建了一个 PyTorch 的学习率调度器对象 self.scheduler。

它使用刚才定义的 self.lf 函数来动态调整学习率。

2.3 self.stopper, self.stop = EarlyStopping(patience=self.args.patience), False:

这一行创建了一个 "Early Stopping" 对象 self.stopper。