文章目录
- 一、Random Grayscale
- 二、GridMask
- 三、Adversarial Color Enhancement
- 四、Population Based Augmentation
- 五、MaxUp
- 六、SuperpixelGridCut, SuperpixelGridMean, SuperpixelGridMix
- 七、InstaBoost
- 八、Random Mix-up
- 九、Sample Redistribution
- 十、Batchboost
- 十一、CutBlur
- 十二、DiffAugment
一、Random Grayscale
随机灰度是一种图像数据增强,以概率将图像转换为灰度。
二、GridMask
GridMask 是一种数据增强方法,可随机删除输入图像的某些像素。 与其他方法不同,该算法去除的区域既不是连续区域,也不是 dropout 中的随机像素。 相反,该算法会删除具有不连续像素集的区域,如图所示。
我们将设置表示为
三、Adversarial Color Enhancement
对抗性颜色增强是一种通过梯度下降优化滤色器来生成不受限制的对抗性图像的方法。
四、Population Based Augmentation
基于群体的增强(PBA)是一种数据增强策略(PBA),它生成非平稳增强策略计划而不是固定增强策略。 在 PBA 中,我们将增强策略搜索问题视为超参数调度学习的一个特例。 它利用基于群体的训练 (PBT),这是一种超参数搜索算法,可联合优化网络参数及其超参数,以最大限度地提高性能。 PBT 的输出不是最优的超参数配置,而是经过训练的模型和超参数时间表。
在 PBA 中,我们只对学习的时间表感兴趣并丢弃子模型结果(类似于 AutoAugment)。 然后,可以使用这种学习到的增强计划来改进同一数据集上不同(即更大且训练成本更高)模型的训练。
PBT执行如下。 首先,随机初始化并并行训练固定的模型群体。 在一定的时间间隔,“利用和探索”过程应用于表现较差的群体成员,其中模型克隆表现更好的模型的权重(即,利用),然后扰乱克隆模型的超参数以进行搜索 超参数空间(即探索)。 由于模型的权重被克隆并且从未重新初始化,因此所需的总计算量是训练单个模型的计算量乘以群体大小。
五、MaxUp
MaxUp 是一种对抗性数据增强技术,用于提高机器学习模型的泛化性能。 这个想法是通过一些随机扰动或变换生成一组增强数据,并最小化增强数据的最大或最坏情况损失。 通过这样做,我们隐式地引入了针对随机扰动的平滑性或鲁棒性正则化,从而提高了生成性能。 例如,在高斯扰动的情况下,MaxUp 渐近等价于使用损失的梯度范数作为惩罚来鼓励平滑。
六、SuperpixelGridCut, SuperpixelGridMean, SuperpixelGridMix
Karim Hammoudi、Adnane Cabani、Bouthaina Slika、Halim Benhabiles、Fadi Dornaika 和 Mahmoud Melkemi。 SuperpixelGridCut、SuperpixelGridMean 和 SuperpixelGridMix 数据增强,arXiv:2204.08458,2022。https://doi.org/10.48550/arxiv.2204.08458
七、InstaBoost
InstaBoost 是一种利用现有实例掩码注释进行实例分割的数据增强技术。
八、Random Mix-up
R-Mix(随机混合)是混合系列数据增强方法。 它将随机混合与显着性引导混合相结合,产生快速且高性能的过程,同时保留显着性引导混合的良好特性,例如低预期校准误差和高弱监督对象定位精度。
九、Sample Redistribution
样本重新分配是一种用于人脸检测的数据增强技术,它根据基准数据集的统计数据通过大规模裁剪来增强训练样本。 在训练数据增强期间,从原始图像中裁剪出方形补丁,并具有随机大小原始图像的短边。 为了为步长 8 生成更多正样本,随机大小范围。 当裁剪框超出原始图像时,平均 RGB 值会填充缺失的像素。
其动机是为了在固定 VGA 分辨率(即 640×480)下进行有效的人脸检测,WIDER FACE 中的大多数人脸(78.93%)小于 32×32 像素,因此它们是通过浅层阶段进行预测的。 为了为这些浅层阶段获得更多的训练样本,使用了样本重新分配(SR)。
十、Batchboost
Batchboost 是 MixUp 的一种变体,它不是只混合两个图像,而是将许多图像混合在一起。
十一、CutBlur
CutBlur 是一种专门为低级视觉任务设计的数据增强方法。 它剪切低分辨率补丁并将其粘贴到相应的高分辨率图像区域,反之亦然。 Cutblur 的关键直觉是使模型不仅能够学习“如何”,而且能够学习“在哪里”超分辨率图像。 通过这样做,模型可以理解“多少”,而不是盲目地学习将超分辨率应用于每个给定的像素。
十二、DiffAugment
可微增强 (DiffAugment) 是一组可微图像变换,用于在 GAN 训练期间增强数据。 这些变换应用于真实图像和生成图像。 它使梯度能够通过增强传播回生成器,在不操纵目标分布的情况下正则化判别器,并保持训练动态的平衡。 作者在实验中首选三种变换选择:翻译、剪切和颜色。