模型权重文件的保存与加载

一般地，在训练过程中有可能会因为某些原因导致训练过程的终止，尤其是在训练一些大型模型的时候，所以在训练过程中保存权重文件是很有必要的，要不然训练好几天的代码又要重新跑了

下面来讲一下通常权重文件中都保存一些什么内容？

checkpoint = {'epoch'：epoch                           # 当前迭代的轮次"model":model.state_dict(),  # 模型权重"optimizer":optimizer.state_dict(),      # 优化器的参数"lr":lr                                  # 学习率策略"lr_scheduler":lr_scheduler.state_dict(),"args":args}
if args.amp:   # 混合精度训练checkpoint["scaler"] = scaler.state_dict()

权重保存方式	存储大小
仅保留模型权重	169MB
包含优化器等信息	339MB

仅保留模型权重：

save_files={'model':model.state_dict(),
}

包含优化器等信息：

save_files = {'model':model.state_dict(),'optimizer':optimizer.state_dict(),'lr_scheduler':lr_scheduler.state_dict(),'epoch':epoch
}

所以保存的权重文件一般都很大，但是我们在载入预训练权重的时候只需要载入模型的参数，即只载入 model.state_dict()

如何正确载入上一次的模型权重继续进行训练？

if args.resume:checkpoint = torch.load(args.resume,map_location="cpu")model.load_state_dict(checkpoint['model'])   # 载入模型的参数optimizer.load_state_dict(checkpoint["optimizer"])  # 载入优化器的相关信息lr_scheduler.load_state_dict(checkpoint["lr_scheduler"])args.start_epoch = checkpoint["epoch"]+1if args.amp:scaler.load_state_dict(checkpoint["scaler"])

如果只加载模型权重相关信息的话，继续训练的结果其实并不能对齐

比如在优化器当中，如果使用了