使用数据增强技术提升模型泛化能力

在《提高模型性能,你可以尝试这几招...》一文中,我们给出了几种提高模型性能的方法,但这篇文章是在训练数据集不变的前提下提出的优化方案。其实对于深度学习而言,数据量的多寡通常对模型性能的影响更大,所以扩充数据规模一般情况是一个非常有效的方法。

对于Google、Facebook来说,收集几百万张图片,训练超大规模的深度学习模型,自然不在话下。但是对于个人或者小型企业而言,收集现实世界的数据,特别是带标签的数据,将是一件非常费时费力的事。本文探讨一种技术,在现有数据集的基础上,进行数据增强(data augmentation),增加参与模型训练的数据量,从而提升模型的性能。

什么是数据增强

所谓数据增强,就是采用在原有数据上随机增加抖动和扰动,从而生成新的训练样本,新样本的标签和原始数据相同。这个也很好理解,对于一张标签为“狗”的图片,做一定的模糊、裁剪、变形等处理,并不会改变这张图片的类别。数据增强也不仅局限于图片分类应用,比如有如下图所示的数据,数据满足正态分布:

我们在数据集的基础上,增加一些扰动处理,数据分布如下:

数据就在原来的基础上增加了几倍,但整体上仍然满足正态分布。有人可能会说,这样的出来的模型不是没有原来精确了吗?考虑到现实世界的复杂性,我们采集到的数据很难完全满足正态分布,所以这样增加数据扰动,不仅不会降低模型的精确度,然而增强了泛化能力。

对于图片数据而言,能够做的数据增强的方法有很多,通常的方法是:

  • 平移
  • 旋转
  • 缩放
  • 裁剪
  • 切变(shearing)
  • 水平/垂直翻转
  • ...

上面几种方法,可能切变(shearing)比较难以理解,看一张图就明白了:

我们要亲自编写这些数据增强算法吗?通常不需要,比如keras就提供了批量处理图片变形的方法。

keras中的数据增强方法

keras中提供了ImageDataGenerator类,其构造方法如下:

ImageDataGenerator(featurewise_center=False,samplewise_center=False,featurewise_std_normalization = False,samplewise_std_normalization = False,zca_whitening = False,rotation_range = 0.,width_shift_range = 0.,height_shift_range = 0.,shear_range = 0.,zoom_range = 0.,channel_shift_range = 0.,fill_mode = 'nearest',cval = 0.0,horizontal_flip = False,vertical_flip = False,rescale = None,preprocessing_function = None,data_format = K.image_data_format(),
)
复制代码

参数很多,常用的参数有:

  • rotation_range: 控制随机的度数范围旋转。
  • width_shift_range和height_shift_range: 分别用于水平和垂直移位。
  • zoom_range: 根据[1 - zoom_range,1 + zoom_range]范围均匀将图像“放大”或“缩小”。
  • horizontal_flip:控制是否水平翻转。

完整的参数说明请参考keras文档。

下面一段代码将1张给定的图片扩充为10张,当然你还可以扩充更多:

image = load_img(args["image"])
image = img_to_array(image)
image = np.expand_dims(image, axis=0)aug = ImageDataGenerator(rotation_range=30, width_shift_range=0.1, height_shift_range=0.1,shear_range=0.2, zoom_range=0.2, horizontal_flip=True, fill_mode="nearest")aug.fit(image)imageGen = aug.flow(image, batch_size=1, save_to_dir=args["output"], save_prefix=args["prefix"],save_format="jpeg")total = 0
for image in imageGen:# increment out countertotal += 1if total == 10:break
复制代码

需要指出的是,上述代码的最后一个迭代是必须的,否在不会在output目录下生成图片,另外output目录必须存在,否则会出现一下错误:

Traceback (most recent call last):File "augmentation_demo.py", line 35, in <module>for image in imageGen:File "/data/ai/anaconda3/envs/keras/lib/python3.6/site-packages/keras_preprocessing/image.py", line 1526, in __next__return self.next(*args, **kwargs)File "/data/ai/anaconda3/envs/keras/lib/python3.6/site-packages/keras_preprocessing/image.py", line 1704, in nextreturn self._get_batches_of_transformed_samples(index_array)File "/data/ai/anaconda3/envs/keras/lib/python3.6/site-packages/keras_preprocessing/image.py", line 1681, in _get_batches_of_transformed_samplesimg.save(os.path.join(self.save_to_dir, fname))File "/data/ai/anaconda3/envs/keras/lib/python3.6/site-packages/PIL/Image.py", line 1947, in savefp = builtins.open(filename, "w+b")
FileNotFoundError: [Errno 2] No such file or directory: 'output/image_0_1091.jpeg'
复制代码

如下一张狗狗的图片:

经过数据增强技术处理之后,可以得到如下10张形态稍微不同的狗狗的图片,这相当于在原有数据集上增加了10倍的数据,其实我们还可以扩充得最多:

数据增强之后的比较

我们以MiniVGGNet模型为例,说明在其在17flowers数据集上进行训练的效果。17flowers是一个非常小的数据集,包含17中品类的花卉图案,每个品类包含80张图片,这对于深度学习而言,数据量实在是太小了。一般而言,要让深度学习模型有一定的精确度,每个类别的图片至少需要1000~5000张。这样的数据集可以很好的说明数据增强技术的必要性。

从网站上下载的17flowers数据,所有的图片都放在一个目录下,而我们通常训练时的目录结构为:

{类别名}/{图片文件}
复制代码

为此我写了一个organize_flowers17.py脚本。

在没有使用数据增强的情况下,在训练数据集和验证数据集上精度、损失随着训练轮次的变化曲线图:

可以看到,大约经过十几轮的训练,在训练数据集上的准确率很快就达到了接近100%,然而在验证数据集上的准确率却无法再上升,只能达到60%左右。这个图可以明显的看出模型出现了非常严重的过拟合。

如果采用数据增强技术呢?曲线图如下:

从图中可以看到,虽然在训练数据集上的准确率有所下降,但在验证数据集上的准确率有比较明显的提升,说明模型的泛化能力有所增强。

也许在我们看来,准确率从60%多增加到70%,只有10%的提升,并不是什么了不得的成绩。但要考虑到我们采用的数据集样本数量实在是太少,能够达到这样的提升已经是非常难得,在实际项目中,有时为了提升1%的准确率,都会花费不少的功夫。

总结

数据增强技术在一定程度上能够提高模型的泛化能力,减少过拟合,但在实际中,我们如果能够收集到更多真实的数据,还是要尽量使用真实数据。另外,数据增强只需应用于训练数据集,验证集上则不需要,毕竟我们希望在验证集上测试真实数据的准确。

以上实例均有完整的代码,点击阅读原文,跳转到我在github上建的示例代码。

另外,我在阅读《Deep Learning for Computer Vision with Python》这本书,在微信公众号后台回复“计算机视觉”关键字,可以免费下载这本书的电子版。

参考阅读

提高模型性能,你可以尝试这几招...

计算机视觉与深度学习,看这本书就够了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/276122.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于不同用户进入系统报错的请求

我自己搞了个系统,用超级用户进入系统正常,用普通用户进入系统就报错,Microsoft JET Database Engine (0x80040E07) 标准表达式中数据类型不匹配。 /xs/huiyuan/huiyuan_bf.asp, 第 203 行 代码如下请各位高手帮忙 <% if request.Cookies("shiwei_username")"…

React 与 Vue 框架的设计思路大 PK

大家好&#xff0c;我是若川。今天分享一篇框架设计思路的好文。关于我 大家好我是花果山的大圣&#xff0c;今天很荣幸&#xff0c;有机会跟大家分享一下很多年轻人感兴趣的话题《 Vue 和 React 设计思想 PK》,个人水平有限&#xff0c;如果有理解不到位的请倾盆&#xff0c;大…

php foreach id是否存在数组_请纠正这 5 个 PHP 编码小陋习

在做过大量的代码审查后&#xff0c;我经常看到一些重复的错误&#xff0c;以下是纠正这些错误的方法。在循环之前测试数组是否为空$items [];// ...if (count($items) > 0) {foreach ($items as $item) {// process on $item ...}}foreach以及数组函数 (array_*) 可以处理…

1161转进制(C语言)

一&#xff1a;题目 二&#xff1a;思路分析 1.首先该题目让我们使用递归求十进制转其他进制 2.其次&#xff0c;我们要知道十进制转换为其他进制怎么转换&#xff0c;以例题所给的数据为例 由此图可以看出&#xff0c;十进制转换为其他进制&#xff0c;是辗转相除法&#xf…

PHP异常处理

转载链接&#xff1a;http://www.blogdaren.com/post-2030.html 版权声明&#xff1a;除非注明&#xff0c;本文由( manon )原创&#xff0c;转载请保留文章出处 本文链接&#xff1a;PHP register_shutdown_function函数详解 脚本时常死掉,而且并不总是那么好看. 我们可不想…

应对无协议脱欧 葡萄牙机场将为英籍旅客设快速通道

中新网1月18日电 据台湾《联合报》援引英媒报道&#xff0c;英国首相特蕾莎•梅的脱欧协议遭下院否决后&#xff0c;英国无协议脱欧的可能性变大。葡萄牙总理科斯塔17日表示&#xff0c;里斯本当局正对机场开设特殊通道进行规划&#xff0c;使英国旅客无论英国最后如何脱欧&…

javascript 日期控件

http://www.my97.net/dp/index.asp转载于:https://www.cnblogs.com/Ken-Cai/archive/2010/04/08/1707080.html

6轮字节前端校招面试经验分享

大家好&#xff0c;我是若川。最近金三银四&#xff0c;今天分享一篇字节前端校招面试经验的轻松好文&#xff0c;相信看完会有所收获。也欢迎点击下方卡片关注或者星标我的公众号若川视野因为我错过了2020年的秋招&#xff08;ps: 那时候连数据结构与算法都还没学完&#xff0…

redis存opc_Redis集群的三种模式

一、主从模式通过持久化功能&#xff0c;Redis保证了即使在服务器重启的情况下也不会损失(或少量损失)数据&#xff0c;因为持久化会把内存中数据保存到硬盘上&#xff0c;重启会从硬盘上加载数据。但是由于数据是存储在一台服务器上的&#xff0c;如果这台服务器出现硬盘故障等…

斥资近1亿港元,小米二次回购

1月21日消息&#xff0c;小米集团发布公告称&#xff0c;公司于1月18日回购了984.96万股B类普通股股票&#xff0c;占已发行股份0.041%&#xff0c;平均价为每股B类股10.1527港元&#xff0c;总计斥资近1亿港元。 这也是继1月17日首次回购后&#xff0c;小米集团连续两日出手进…

MySQL日期数据类型、时间类型使用总结

转载链接&#xff1a;http://www.jb51.net/article/23966.htm MySQL 日期类型&#xff1a;日期格式、所占存储空间、日期范围 比较。 日期类型 存储空间 日期格式 日期范围 ------------ --------- --------------------- -------------------------------…

ios macos_设计师可以从iOS 14和macOS Big Sur中学到什么?

ios macos重点 (Top highlight)With the introduction of iOS 14 and macOS Big Sur, we are the witness of the next big thing in UI Design. Changes are not so revolutionary like in iOS 7 years before, but they undoubtedly present the trend UI Designers will fol…

Web开发性能优化总结 转载

1. 使用存储过程&#xff0c; &#xff08;如果在程序里用exec 存储过程 参数&#xff0c;这样执行似乎并没有快多少&#xff09; 在数据库里是预编译的&#xff0c;也不需要在字符串传输上花费大量时间。 防sql注入攻击。 2. 尽量优化数据库语句&#xff0c;使逻辑尽量…

金三银四的腾讯、阿里、​字节等大厂前端社招面经

大家好&#xff0c;我是若川。最近金三银四&#xff0c;今天分享一篇腾讯、阿里、字节等大厂的前端社招面试经验的好文&#xff0c;相信看完会有所收获。也欢迎点击下方卡片关注或者星标我的公众号若川视野作者面了将近一个月&#xff0c;目前还没挂过&#xff0c;但由于各种因…

JS中创建函数的几种方式

使用 "函数声明" 创建函数 语法&#xff1a;* function 函数名([形参1,形参2...形参N]){* 语句...* } */function fun2(){console.log("这是我的第二个函数~~~");alert("哈哈哈哈哈");document.write("~~~~…

ssm提交post_我用spring mvc做,用post方式提交,后台获取不到参数值,用get方式就可以,什么问题...

展开全部因为form表单e68a843231313335323631343130323136353331333365646330的enctype编码方式不同导致的&#xff1b;enctype 属性规定在发送到服务器之前应该如何对表单数据进行编码。默认地&#xff0c;表单数据会编码为 "application/x-www-form-urlencoded"。就…

网页设计简约_简约网页设计的主要功能

网页设计简约重点 (Top highlight)Minimalism is synonymous with simplicity. Not quite. As the name suggests, minimalism is definitely not about opulent design. But the assumption that minimalism is design-less and plain is also wrong. Minimalism is simple ye…

MySQL_数据库数据类型(data type)介绍

转载链接&#xff1a;http://www.360sdn.com/mysql/2013/0511/78.html MySQL_数据库数据类型(data type)介绍 mysql数据库的数据类型(data type)分以下几种:数值类型,字符串类型 一、数值类型 MySQL 的数值类型可以大致划分为两个类别&#xff0c;一个是整数&#xff0c;另一…

Expo 2010 Japan Pavilion

^_^转载于:https://www.cnblogs.com/mmmhhhlll/archive/2010/04/16/1713680.html

深度对比学习Vue和React两大框架

作为国内应用最广的两个框架&#xff0c;Vue 和 React 是前端必须掌握的内容&#xff0c;也是面试的重点。但大多数读者都只擅长其中一个框架&#xff0c;当面试涉及到另一个框架的内容时&#xff0c;就答不好了。比如虚拟dom&#xff0c;两个框架中都有应用&#xff0c;面试官…