训练集样本不平衡问题对CNN的影响

转载自  训练集样本不平衡问题对CNN的影响

训练集样本不平衡问题对CNN的影响

本文首发于知乎专栏“ai insight”!

卷积神经网络(CNN)可以说是目前处理图像最有力的工具了。

而在机器学习分类问题中,样本不平衡又是一个经常遇到的问题。最近在使用CNN进行图片分类时,发现CNN对训练集样本不平衡问题很敏感。

在网上搜索了一下,发现http://www.diva-portal.org/smash/get/diva2:811111/FULLTEXT01.pdf这篇文章对这个问题已经做了比较细致的探索。于是就把它简单整理了一下,相关的记录如下。

 

1、实验数据与使用的网络

所谓样本不平衡,就是指在分类问题中,每一类对应的样本的个数不同,而且差别较大。

这样的不平衡的样本往往使机器学习算法的表现变得比较差。那么在CNN中又有什么样的影响呢?作者选用了CIFAR-10作为数据源来生成不平衡的样本数据。

CIFAR-10是一个简单的图像分类数据集。共有10类(airplane,automobile,bird,cat,deer,dog, frog,horse,ship,truck),每一类含有5000张训练图片,1000张测试图片。

CIFAR-10样例如图:

训练时,选择的网络是这里的CIFAR-10训练网络和参数(来自Alex Krizhevsky)。这个网络含有3个卷积层,还有10个输出结点。

之所以不选用效果更好的CNN网络,是因为我们的目的是在实验时训练很多次进行比较,而不是获得多么好的性能。

而这个CNN网络因为比较浅,训练速度比较快,比较符合我们的要求。

 

2、类别不平衡数据的生成

直接从原始CIFAR-10采样,通过控制每一类采样的个数,就可以产生类别不平衡的训练数据。如下表所示:

这里的每一行就表示“一份”训练数据。而每个数字就表示这个类别占这“一份”训练数据的百分比。

Dist. 1:类别平衡,每一类都占用10%的数据。

Dist. 2、Dist. 3:一部分类别的数据比另一部分多。

Dist. 4、Dist 5:只有一类数据比较多。

Dist. 6、Dist 7:只有一类数据比较少。

Dist. 8: 数据个数呈线性分布。

Dist. 9:数据个数呈指数级分布。

Dist. 10、Dist. 11:交通工具对应的类别中的样本数都比动物的多

对每一份训练数据都进行训练,测试时用的测试集还是每类1000个的原始测试集,保持不变。

 

3、类别不平衡数据的训练结果

以上数据经过训练后,每一类对应的预测正确率如下:

第一列Total表示总的正确率,下面是每一类分别的正确率。

从实验结果中可以看出:

  1. 类别完全平衡时,结果最好。

  2. 类别“越不平衡”,效果越差。比如Dist. 3就比Dist. 2更不平衡,效果就更差。同样的对比还有Dist. 4和Dist. 5,Dist. 8和Dist. 9。其中Dist. 5和Dist. 9更是完全训练失败了。

 

4、过采样训练的结果

作者还实验了“过采样”(oversampling)这种平衡数据集的方法。

这里的过采样方法是:对每一份数据集中比较少的类,直接复制其中的图片增大样本数量直至所有类别平衡。

再次训练,进行测试,结果为:

可以发现过采样的效果非常好,基本与平衡时候的表现一样了。

过采样前后效果对比,可以发现过采样效果非常好:

 

5、总结

CNN确实对训练样本中类别不平衡的问题很敏感。

平衡的类别往往能获得最佳的表现,而不平衡的类别往往使模型的效果下降。如果训练样本不平衡,可以使用过采样平衡样本之后再训练。

这确实是一个“经验主义”的结论,但多少给我们平常训练CNN模型带来一些启发和帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/324759.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

银行转账案例

[1] 案例需求 用户访问登录页面,在页面中输入用户名和密码点击登录,登录成功后 进入到主页中。如果登录败,则在登录页面中提示用户用户名或密码错误。在主页面中,用户在填写银行转账信息,包括:转账账户,转账…

20级、19级 | 一天一瞬间!【日更】

点击上方蓝色关注我们!欢迎来到今天的一天一瞬间专栏今天是2020年09月08日,天气状况:炎热。19级目前还是上午上课下午补课,补课私下里和我说,班内学生表现都不错,听罢,甚是开心,不管…

一张图看懂小程序全生态

6月9日小程序发布整半年,这半年里,小程序接连经历了:受追捧——遇冷——质疑——趋于理性的过程。我们对小程序这半年来的产业发展做了全面的梳理,从中可以发现,小程序已俨然形成了自己的生态体系,这一生态…

自然语言处理中的Attention Model:是什么以及为什么[一]

转载自 自然语言处理中的Attention Model:是什么以及为什么[一] 自然语言处理中的Attention Model:是什么以及为什么[一] 1、前言 要是关注深度学习在自然语言处理方面的研究进展,我相信你一定听说过Attention Model(后文有时…

204787 ,194787 |0001 1131 0001 4226 7035 ![2480 ]

点击上方蓝色关注我们!0006 6143 0037 7139 ,2598 4192 0007 7240 0681 1331 0226 ?6849 ?0784 4104 6943 4149 2418 2345 5116 ,7119 0354 0055 3089 1835 ,5261 1783 0250 2601 0110 0171 ,6290 0138 4972 1421 0055 7820 0087 8010 0138 4104 ?1927 1927 ,076…

DDD理论学习系列(9)-- 领域事件

1. 引言 A domain event is a full-fledged part of the domain model, a representation of something that happened in the domain. Ignore irrelevant domain activity while making explicit the events that the domain experts want to track or be notified of, or whi…

ssl1127-方程的解数【HASH,dfs】

前言 我只是凑数的。 正题 输入输出(建议无视) Input 第1行包含一个整数n。第2行包含一个整数M。第3行到第n2行,每行包含两个整数,分别表示ki和pi。两个整数之间用一个空格隔开。第3行的数据对应i1,第n2行的数据对应…

自然语言处理中的Attention Model:是什么以及为什么[二]

转载自 自然语言处理中的Attention Model:是什么以及为什么[二] 自然语言处理中的Attention Model:是什么以及为什么[二] 1、Attention Model 图一见下: 图1中展示的Encoder-Decoder模型是没有体现出“注意力模型”的,所以可以…

SpringAOP之代理设计模式

[1]设计模式: 概念: 设计模式其实就是代码的一种结构的设计思路。 好处: 增加代码健壮性 易修改性 可扩展性 设计模式的种类: 三大种类: 建造类设计模式 结构类设计模式 行为类设计模式 参考网址: http://baijiahao.baidu.com/s?id1639156298714178350&wfrspider&forp…

教师节快乐!

点击上方蓝色关注我们!今天是个特殊的节日,教师节,从昨天开始就有学生给我发教师节祝福了……诺,发就发了吧,还害羞!早上一醒来,就看到同学们在群里发祝福,心理美滋滋的。还有直接改…

如何利用.NET Core搭建跨平台的控制台应用程序

尽管传统意义上来说,.NET是只面向Windows的、闭源的专有平台,然而,传统观念即将被颠覆。新的开源跨平台的.NET Core已经开启,意味着你可以在任意平台写C#或.NET,然后在Windows、Linus和macOS运行。 这个新的.NET平台正…

自然语言处理中CNN模型几种常见的Max Pooling操作

转载自 自然语言处理中CNN模型几种常见的Max Pooling操作 自然语言处理中CNN模型几种常见的Max Pooling操作 CNN是目前自然语言处理中和RNN并驾齐驱的两种最常见的深度学习模型。 图1展示了在NLP任务中使用CNN模型的典型网络结构。 一般而言,输入的字或者词用…

SpringTX

文章目录SpringTX的介绍SpringTX的使用代码示例声明式事务中属性解释SpringBoot中AOP事务配置SpringTX的介绍 问题: 在学习了Spring整合mybatis后,我们可以直接从Spring容器中获取mapper层的实例化对象完成数据库操作。而在业务层方法中很多时候因为业务…

详细整理分层开发步骤!

不点蓝字,我们哪来故事?一、创建数据库,在数据库中创建表二、创建java项目(起名要有意义,eg:petSys)三、在项目中新建包,包名为:cn.bdqn.petSys.entity四、在cn.bdqn.pet…

.NET 跨平台界面框架和为什么你首先要考虑再三

现在用 C# 来开发跨平台应用已经有很成熟的方案,即共用非界面代码,而每个操作系统搭配特定的用户界面代码。这个方案的好处是可以直接使用操作系统原生的控件和第三方控件,还能够和操作系统深度集成。 这里的深度集成主要是指一些 Windows 专…

seq2seq中的beam search算法过程

转载自 seq2seq中的beam search算法过程 首先说明在sequence2sequence模型中,beam search的方法只用在测试的情况,因为在训练过程中,每一个decoder的输出是有正确答案的,也就不需要beam search去加大输出的准确率。 假设现在我…

Spring的properties属性配置文件和Spring常用注解

Spring的properties属性配置文件 问题: 在学习了Spring的知识后,需要被Spring管理的资源都是通过配置文件的形式来告诉Spring容器对象管理谁以及如何管理。但是随着使用次数的增多,我们发现配置文件中配置的标签越来越多,每次我们创建一个新…

即日起,正式进入编程世界!

点击上方蓝色关注我们!从今天开始,正式进入编程世界。首先我们先从堪称“少儿编程”的Scratch开始,简洁的编辑窗口加上可读性较高的Chinese(大部分的编程编辑器均为英文版),使得该软件特容易上手。班内总有…

使用领域事件

1.引言 最近刚学习了下DDD中领域事件的理论知识,总的来说领域事件主要有两个作用,一是解耦,二是使用领域事件进行事务的拆分,通过引入事件存储,来实现数据的最终一致性。若想了解DDD中领域事件的概念,可参…

深入浅出讲解语言模型

转载自 深入浅出讲解语言模型 深入浅出讲解语言模型 1、什么是语言模型呢? 简单地说,语言模型就是用来计算一个句子的概率的模型,也就是判断一句话是否是人话的概率? 那么如何计算一个句子的概率呢?给定句子&…