Github|类别不平衡学习资源(上)

点击上方“算法猿的成长“,关注公众号,选择加“星标“或“置顶”

总第 138 篇文章,本文大约 5400 字,阅读大约需要 15 分钟

今天推荐的是一个 github 项目,项目地址如下,主要是类别不平衡学习的论文、代码、框架、库等资源

https://github.com/ZhiningLiu1998/awesome-imbalanced-learning

本文首发于我的知乎专栏:https://zhuanlan.zhihu.com/p/142692473,阅读会更加方便,可以直接点击链接,可以点击文章底部”阅读原文“直接跳转。

前言

类别不平衡(Class-imbalance),也被称为长尾问题(long-tail problem),指的是分类问题中数据集的类别数量并不一致,有的类别特别多,但有的类别特别少,并且这是实际应用里非常常见的问题。例如,欺诈检测,罕见药物不良反应的预测,以及基因家族预测。因为类别不平衡的原因就会导致预测不准确,降低了分类模型的性能。因此,不平衡学习(Imbalanced learning)的目标就是要解决类别不平衡问题,并从不平衡的数据中学习一个无偏模型。

目录如下所示:

  • 代码库/框架

    • Python

    • R

    • Java

    • Scalar

    • Julia

  • 论文

    • 综述

    • 深度学习

    • 数据重采样(Data resampling)

    • 成本敏感学习(Cost-sensitive Learning)

    • 集成学习(Ensemble Learning)

    • 异常检测

  • 其他

    • 不平衡数据库

    • 其他的资源

另外,带有???? 标记的是作者特别推荐的重要或者高质量的论文和框架。

(ps. 文章太长,所以分成上下两篇,更方便阅读)


代码库/框架

Python

imbalanced-learn

官网:https://imbalanced-learn.org/stable/

Github:https://github.com/scikit-learn-contrib/imbalanced-learn

官方文档:https://imbalanced-learn.readthedocs.io/en/stable/

论文地址:http://10.187.70.34/www.jmlr.org/papers/volume18/16-365/16-365.pdf

这个库是一个 python 编写的提供了一些常用于数据集的重采样技术,它适配 scikit-learn 库,并且也是 scikit-learn-contrib 库的一部分。

???? python 编写,上手简单

R

  • smote_variants

官网:https://smote-variants.readthedocs.io/en/latest/

文档:[(https://smote-variants.readthedocs.io/en/latest/

Github:https://github.com/analyticalmindsltd/smote_variants)

集合了 85 种用于不平衡学习的过采样技术,包括多类别的过采样和模型选择特征方法(支持 R 和 Julia)

  • caret

官网:https://cran.r-project.org/web/packages/caret/index.html

文档:http://topepo.github.io/caret/index.html

Github:https://github.com/topepo/caret

实现了随机欠采样和过采样方法

  • ROSE

官网:https://cran.r-project.org/web/packages/ROSE/index.html

文档:https://www.rdocumentation.org/packages/ROSE/versions/0.0-3

实现了随机过采样方法

  • DMwR

官网:https://cran.r-project.org/web/packages/DMwR/index.html

文档:https://www.rdocumentation.org/packages/DMwR/versions/0.4.1

实现了 SMOTE(Synthetic Minority Over-sampling TEchnique),即合成少数过采样技术

Java

KEEL

官网:https://sci2s.ugr.es/keel/description.php

Github:https://github.com/SCI2SUGR/KEEL

论文:https://sci2s.ugr.es/sites/default/files/ficherosPublicaciones/0758_Alcalaetal-SoftComputing-Keel1.0.pdf

KEEL 提供了一个简单的图形界面,可以基于数据流程来设计不同数据集的实验,以及不同智能计算的算法(特别关注进化算法),从而接触到算法的行为。该工具包含了很多广泛应用的不平衡学习方法,比如过采样和欠采样,损失敏感学习,算法修正以及集成学习方法。

???? 包含多种算法,比如经典分类算法、回归算法以及预处理算法

Scalar

undersampling

官网:https://github.com/NestorRV/undersampling

文档:https://nestorrv.github.io/

Github:https://github.com/NestorRV/undersampling

实现了欠采样方法以及集成方法变形的方法。

Julia

smote_variants官网:https://smote-variants.readthedocs.io/en/latest/ 文档:https://smote-variants.readthedocs.io/en/latest/ Github:https://github.com/analyticalmindsltd/smote_variants

集合了 85 种用于不平衡学习的过采样技术,包括多类别的过采样和模型选择特征方法(支持 R 和 Julia)


论文

  • Learning from imbalanced data,2009 年的论文,有 4700+的引用,非常经典的论文。主要是系统性的回顾了流行的解决方法、评估标准以及未来研究中需要面临的挑战和问题(2009 年的时候);

???? 经典的工作

  • Learning from imbalanced data: open challenges and future directions(2016, 400+ 引用,这篇论文主要关注不平衡学习的开放性问题和挑战,比如极端类别不平衡,处理在线/流学习的不平衡问题,多类别不平衡学习以及半监督或无监督的不平衡学习。

  • Learning from class-imbalanced data: Review of methods and applications(2017(400+ 引用),一篇非常详细的不平衡学习方法和应用的综述论文,总共包含了 527 篇相关论文。它提供了几种现有方法详细的分类标准,同时也是最近研究领域的趋势。

???? 一篇系统的并且对现有方法详细分类标准的综述

深度学习

  • 综述

    • A systematic study of the class imbalance problem in convolutional neural networks (2018, 330+ 引用)

    • Survey on deep learning with class imbalance (2019, 50+ 引用)

???? 最近深度学习方向关于类别不平衡问题的综合性论文

  • 困难样本挖掘

    • Training region-based object detectors with online hard example mining (CVPR 2016, 840+ 引用),在神经网络训练的最后阶段,仅对”困难样本“进行梯度的反向传播(比如,loss 数值很大的样本)

  • 损失函数工程

    • Training deep neural networks on imbalanced data sets (IJCNN 2016, 110+ 引用) ,均方根误差可以从大多数类和少数类中同等的捕获分类错误

    • Focal loss for dense object detection [Code (Unofficial)](ICCV 2017, 2600+ 引用) ,一个集中训练困难样本稀疏集合的均匀损失函数,可以防止大量容易在训练中压倒检测器的简单负样本。

    ???? 优雅的解法,影响力很高

    • Deep imbalanced attribute classification using visual attention aggregation [Code] (ECCV 2018, 30+ 引用)

    • Imbalanced deep learning by minority class incremental rectification (TPAMI 2018, 60+ 引用) ,介绍了一个类别修正损失,它是在迭代的分批学习过程中,通过发现少数类的稀疏采样边界来最小化多数类的优势效应;

    • Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss [Code] (NIPS 2019, 10+ 引用) ,一种理论上有原则的标签分布感知边际损失(LDAM),其动机是最小化基于边际的泛化边界。

    • Gradient harmonized single-stage detector [Code] (AAAI 2019, 40+ 引用) ,相比 Focal loss 只会降低”容易“的负样本的权重,GHM 还可以降低一些可能是异常值的”困难“样本的权重。

    ???? 有趣的想法:根据梯度分布来协调样本的贡献

    • Class-Balanced Loss Based on Effective Number of Samples (CVPR 2019, 70+ 引用) ,一种简单而通用的基于有效样本数量的类权重调整机制。

  • 元学习

    • Learning to model the tail (NIPS 2017, 70+ citations) ,将元知识从分布头部的数据丰富的类转移到尾部的数据贫乏的类;

    • Learning to reweight examples for robust deep learning [Code]  (ICML 2018, 150+ citations) ,在深度神经网络的梯度更新中隐式学习一个权重函数对样本进行权重的调整。

      ???? 通过元学习解决类别不平衡问题的代表性工作.

    • Meta-weight-net: Learning an explicit mapping for sample weighting [Code] (NIPS 2019) ,在深度神经网络的梯度更新中,显式学习一个权重函数(使用多层感知器作为函数逼近器)来对样本的权重进行调整;

    • Learning Data Manipulation for Augmentation and Weighting [Code] (NIPS 2019)

  • Learning to Balance: Bayesian Meta-Learning for Imbalanced and Out-of-distribution Tasks [Code] (ICLR 2020)

  • 表示学习

    • Learning deep representation for imbalanced classification (CVPR 2016, 220+ 引用)

    • Supervised Class Distribution Learning for GANs-Based Imbalanced Classification (ICDM 2019)

    • Decoupling Representation and Classifier for Long-tailed Recognition (ICLR 2020)

  • 课程学习

    • Dynamic Curriculum Learning for Imbalanced Data Classification (ICCV 2019)

  • 两阶段学习

    • Brain tumor segmentation with deep neural networks (2017, 1200+ 引用) ,先在类别平衡的数据集进行预训练,然后在原始的类别不平衡数据集上进行微调网络 softmax 之前的最后一层输出层;

  • 网络结构

    • BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition (CVPR 2020)


另外,本人水平有限,所以对部分专业术语的翻译可能并不正确,没法做到非常完美,请多多包涵,谢谢!

下一篇将继续介绍剩余的论文以及不平衡数据库。


精选AI文章

1.  2020年计算机视觉学习指南

2. 是选择Keras还是PyTorch开始你的深度学习之旅呢?

3. 编写高效的PyTorch代码技巧(上)

4. 编写高效的PyTorch代码技巧(下)

5. 深度学习算法简要综述(上)

6. 深度学习算法简要综述(下)

7. 10个实用的机器学习建议

8. 实战|手把手教你训练一个基于Keras的多标签图像分类器

精选python文章

1.  python数据模型

2. python版代码整洁之道

3. 快速入门 Jupyter notebook

4. Jupyter 进阶教程

5. 10个高效的pandas技巧

精选教程资源文章

1. [资源分享] TensorFlow 官方中文版教程来了

2. [资源]推荐一些Python书籍和教程,入门和进阶的都有!

3. [Github项目推荐] 推荐三个助你更好利用Github的工具

4. Github上的各大高校资料以及国外公开课视频

5. GitHub上有哪些比较好的计算机视觉/机器视觉的项目?

欢迎关注我的微信公众号--算法猿的成长,或者扫描下方的二维码,大家一起交流,学习和进步!

 

如果觉得不错,在看、转发就是对小编的一个支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/408359.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Github|类别不平衡学习资源(下)

点击上方“算法猿的成长“,关注公众号,选择加“星标“或“置顶”总第 139 篇文章,本文大约 3600 字,阅读大约需要 10 分钟继续介绍类别不平衡学习资源,github 地址:https://github.com/ZhiningLiu1998/awes…

Github | 线稿自动上色

点击上方“算法猿的成长“,关注公众号,选择加“星标“或“置顶”总第 140 篇文章,本文大约 1500 字,阅读大约需要 5 分钟今天要介绍的是一个 Github 项目,项目地址如下,它实现了对线稿的自动上色功能&#…

如何在图片上添加文本信息

点击上方“算法猿的成长“,关注公众号,选择加“星标“或“置顶”总第 141 篇文章,本文大约 1500 字,阅读大约需要 5 分钟前言给图片添加文本信息是非常常见的需求,通常需要添加的文本信息分为中文文字或者是非中文的文…

Github|基于 Jittor 的 GAN 模型库

点击上方“算法猿的成长“,关注公众号,选择加“星标“或“置顶”总第 142 篇文章,本文大约 1300 字,阅读大约需要 5 分钟前言今天介绍一个 Github 项目---集成了 27 种 GAN 模型的 Jittor-GAN,项目地址:htt…

mongoDB分页的两种方法

mongoDB的分页查询是通过limit(),skip(),sort()这三个函数组合进行分页查询的 下面这个是我的测试数据 db.test.find().sort({"age":1}); 第一种方法 查询第一页的数据:db.test.find().sort({"age":1}).limit(2); 查询第二页的数据:…

22 款设计和可视化神经网络的工具

点击上方“算法猿的成长“,关注公众号,选择加“星标“或“置顶”总第 143 篇文章,本文大约 3000 字,阅读大约需要 10 分钟前言深度学习领域,最常见的就是各种网络模型,那么在写论文或者文章,介绍…

计算机视觉研究生文献和复现哪个更重要?

点击上方“算法猿的成长“,关注公众号,选择加“星标“或“置顶”总第 144 篇文章,本文大约 6000 字,阅读大约需要 15 分钟前言这是来自知乎上的一个问题,但我觉得应该是对很多初入深度学习领域,不只是计算机…

Flex4 初始化过慢解决方法

昨天找了个免费.net空间,想测试一下做的一个简单Flex4 上传项目的效果。上传所有文件到网站之后,访问项目页面,进度条一点一点艰难的向前移动,到了100%后却不出现程序界面,等待一会儿还是没有出现,于是我去…

SRZoo--深度学习图像超分辨率工具

点击上方“算法猿的成长“,关注公众号,选择加“星标“或“置顶”总第 145 篇文章,本文大约 2100 字,阅读大约需要 7 分钟前言今天要介绍的是 Github 上一个基于深度学习的超分辨率工具--SRZoo,并且它还提供了多个预训练…

Scapy:局域网MAC地址扫描脚本

转载自:http://blog.sina.com.cn/s/blog_4b5039210100gn6k.html 未测试,回头研究研究。 用pythonscapy写的,只要双击.py文件即可,扫描当地局域网的主机MAC地址,并把结果写入文档保存。 代码如下:用到注册表…

基于 opencv 的图像处理入门教程

点击上方“算法猿的成长“,关注公众号,选择加“星标“或“置顶”总第 146 篇文章,本文大约 5000 字,阅读大约需要 20 分钟前言虽然计算机视觉领域目前基本是以深度学习算法为主,但实际上很多时候对图片的很多处理方法&…

新增两款Skin(clover与Valentine)

感谢沪江博客又为博客园提供两款漂亮的Skin。 clover: Valentine: 转载于:https://www.cnblogs.com/dudu/archive/2005/03/06/113853.html

同一页面引入多个JS文件的编码问题

原来只是觉得IE解析HTML文件的时候,需要知道其传输编码,才能正确处理,而从来没有在意过JavaScript文件的编码问题。结果今天发现同一页面中的多个JavaScript文件如果保存编码不同,也会有出错的问题。这个一般怎么会遇到呢&#xf…

简单盘点 CVPR2020 的图像合成论文

点击上方“算法猿的成长“,关注公众号,选择加“星标“或“置顶”总第 147 篇文章,本文大约 3500 字,阅读大约需要 10 分钟前言本文将简单盘点在 CVPR2020 上的图像合成方面的论文,然后给出下载地址以及开源代码 github…

泛化、实现、依赖和关联的区别

传统应用程序设计中所说的依赖一般指“类之间的关系”,那先让我们复习一下类之间的关系:a、实现表示类对接口的实现。UML图中实现使用一条带有空心三角箭头的虚线指向接口,如下: b、泛化表示类与类之间的继承关系、接口与接口之间…

目标检测学习笔记

看完吴恩达老师的 deeplearning.ai 课程目标检测这节课程的学习笔记。 文章目录1. 目标定位(object localization)2. 基于滑动窗口的目标检测算法滑动窗口的卷积实现Bounding Box预测(Bounding box predictions)交并比(Intersection over uni…

中小企业的软件需求问题

近年来,做为我国经济发展新兴动力的中小企业同时也成为了IT行业的热点市场。IT领域的顶级厂商在高端市场日趋饱和的情况下,正逐渐将眼光投向中小企业市场。而大多数IT厂商由于自身的资源和规模限制无法涉足高端用户,中小企业市场为这些厂商提…