一、背景
增加训练数据,肯定能解决过拟合问题,但是数据的获取往往是特别难的。故针对已有数据的数据增强应运而生。
二、数据增强
数据增强是一种生成合成数据的方法,通过调整原来样本来创建新样本,这样就可以获得大量的数据,这不仅增加了数据的大小,还提供了单个样本的多个变体,这有助于机器学习模型避免过度拟合。
三、操作方法举例
1、水平、垂直翻转(图片)
2、旋转角度(图片)
3、旋转,扭曲直线(数字)
4、增加噪点(图片-高斯噪声,音频-增加噪声)
5、擦除区域(图片)
6、颜色扰动(图片,更改颜色通道顺序)
7、调高调低(音频)
8、回译(back translation,文本处理:中文-> 日文 -> 英文 ----> 中文)
9、随机词替换(文本处理)
10、EDA(Easy data augmentation,同义词替换、随机插入、随机交换、随机阐删除)
- 同义词替换(SR):选择非停止词,随机选择同义词替换
- 随机插入(IR):选择非停止词,插入同义词,重复n次
- 随机交换(Random Swap):交换单词位置
- 随机删除(RD):以概率随机删除
四、示例
原文本:那辆车很好
SR:那辆车不错
IR:那辆不错车很好
RS:那辆不错车
RD:那车好