Imbalanced data – Finding Waldo 这篇文章讲了不平衡数据的处理,都是常见的方法(简单采样,合成采样),但是文章最后讲了一个很有趣的处理方式:如果不平衡数据中某个类别的数据非常少,那么也可以把分类问题当成异常值检测的问题(anomaly detection),只需要检测出异常值就行了。
http://www.financealleycat.com/imbalanced-data-finding-waldo/
https://github.com/wepe/MachineLearningEveryday