deterministic training(确定性训练)是一种训练机器学习模型的方式,其主要特点是确保在相同的初始条件下,每次训练都会得到相同的结果。换句话说,确定性训练旨在消除随机性,使得模型的训练过程是可重复和可预测的。
deterministic training可以确保模型的结果可复现,从而有利于不同研究者互相对比参考实验结果。
想要实现deterministic training,首先需要知道模型随机性的来源,有如下几个方面:初始化权重、数据加载的顺序、dropout、优化器的随机性(如随机梯度下降中的随机梯度选择)、CUDA的随机性等。
想要用pytorch实现deterministic training就需要固定上面提到的随机性因素,另外,超参数也要保障每次都相同。
# 设置随机数种子
torch.manual_seed(0)
torch.cuda.manual_seed_all(0) # GPU种子也要设置
torch.backends.cudnn.deterministic = True # 设置CUDNN为deterministic
torch.backends.cudnn.benchmark = False # 关闭CUDNN的自动调优,确保每次运行都一致 data = torch.randn(100, 10)
dataset = TensorDataset(data, target)
loader = DataLoader(dataset, batch_size=10, shuffle=False) # shuffle设为False以保证数据顺序
以上就可以做到deterministic training,但是由于不同硬件带来的些微结果差距是始终无法消除的,不过一般来说也影响不大。