Batch Size 不同对evaluation performance的影响

问题描述

深度学习网络训练时，使用较小的batch size训练网络后，如果换用较大的batch size进行evaluation，网络的预测能力会显著下降。如果evaluation的batch size和train的batch size大小相同时，则不会遇到此类问题。

PyTorch Forums – Performance highly degraded when eval() is activated in the test phase

如果是bug

metric会根据batch_size的大小变化（但并不显著），metric按每个batch分别进行计算
缺失model.eval()指令：with torch.no_grad() 对dropout和batch normalization不起固定作用。
1. nn.Dropout层参数不会固定
2. nn.BatchNorm2d()
  1. PyTorch – BatchNorm2d BatchNorm2d函数中的参数track_running_stats:trainning和track_running_stats，track_running_stats=True表示跟踪整个训练过程中的batch的统计特性，得到方差和均值，而不只是仅仅依赖与当前输入的batch的统计特性。相反的，如果track_running_stats=False那么就只是计算当前输入的batch的统计特性中的均值和方差了。当在推理阶段的时候，如果track_running_stats=False，此时如果batch_size比较小，那么其统计特性就会和全局统计特性有着较大偏差，可能导致糟糕的效果。
  2. trainning=False, track_running_stats=True。这个是期望中的测试阶段的设置，此时BN会用之前训练好的模型中的（假设已经保存下了）running_mean和running_var并且不会对其进行更新。一般来说，只需要设置model.eval()其中model中含有BN层，即可实现这个功能。
Dataloader中加入了随机处理，例如RandomCrop
没有固定随机种子

batch size的设置问题

如果batch size较小，会导致上述running_mean和running_var不准确。参考文章Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift，当模型训练完成后，

$\hat{x} = \frac{x-E[x]}{\sqrt{Var[x]+\epsilon}}$