最近使用自定义数据集训练yolov8模型的时候突然发现一件很令人头疼的事情。那就是,数据集中图片太少了。于是想通过数据增强的方法扩大数据集。
通过查阅资料发现,大部分人都是用python中的imgaug库进行图像处理;这种方法最大的不便就是需要转换格式,例如需要将txt文件转为xml文件之后,再转为txt文件。
好在最后发现了Roboflow这个宝藏工具:roboflow官网,它是yolov5-v9官方推荐的数据集网站,不仅可以查找数据集,还可以自建数据集后进行数据增强。
这篇文章我想和大家分享一下roboflow中数据增强工具的使用。
什么是数据增强?
数据增强是指通过对原始数据进行一系列变换或处理,生成新的数据样本,从而扩充训练数据集的技术。这种技术通常用于机器学习和深度学习任务中,特别是在数据量不足或者数据不平衡的情况下,可以帮助提升模型的泛化能力和鲁棒性。
数据增强的方法可以包括但不限于:
- 旋转、缩放、平移、翻转图像;
- 对图像进行裁剪、填充或变形;
- 调整图像的亮度、对比度、色调、饱和度等参数;
- 添加噪声到图像或文本数据中;
- 对文本数据进行同义词替换、插入、删除等操作。
Roboflow数据增强使用方法
进入官网,登录
可以使用谷歌/github/邮箱账号直接登录,很方便。但是注意,最好科学上网,不然速度会很感人。
选择免费/付费版
这里因为我已经登录进去了,没有截图。这个步骤中,选择免费版之后创建项目就好。
进入工作台
设置类别标签
无论你的数据集有没有标注,这里都要进行设置。以标注好的数据集为例,如果这里没有设置标签的话,就很容易出现错误。
上传数据
上传数据集后双击即可标注,用法类似于labelImg。
Generate--Augmentation数据增强
添加一些增强方式,但是注意不要太多,一两项即可。