【Python】 使用SMOTE解决数据不平衡问题


原谅把你带走的雨天
在渐渐模糊的窗前
每个人最后都要说再见
原谅被你带走的永远
微笑着容易过一天
也许是我已经 老了一点
那些日子你会不会舍不得
思念就像关不紧的门
空气里有幸福的灰尘
否则为何闭上眼睛的时候
又全都想起了
谁都别说
让我一个人躲一躲
你的承诺
我竟然没怀疑过
反反覆覆
要不是当初深深深爱过
我试着恨你
却想起你的笑容
                     🎵 陈楚生/单依纯《原谅》


在机器学习和数据科学领域,不平衡数据集是一个常见的问题。数据不平衡会导致模型偏向于预测多数类,从而影响分类器的性能。为了应对这一挑战,研究人员提出了许多方法,其中SMOTE(Synthetic Minority Over-sampling Technique)是最常用的方法之一。本文将介绍如何使用imblearn库中的SMOTE来处理不平衡数据集。

什么是SMOTE?

SMOTE是一种过采样技术,通过生成合成的少数类样本来平衡数据集。其基本思想是基于少数类样本的特征向量,在其特征空间中进行插值,生成新的合成样本。SMOTE可以有效地减少因数据不平衡导致的模型偏差,提高分类器的性能。

安装Imbalanced-learn库

在使用SMOTE之前,我们需要安装imbalanced-learn库,这是一个专门用于处理不平衡数据集的Python库。可以使用以下命令进行安装:

pip install imbalanced-learn

基本用法

假设我们有一个不平衡的数据集,其中少数类样本较少。我们将使用SMOTE对其进行处理。以下是一个简单的示例:

import pandas as pd
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import SMOTE
from collections import Counter# 生成一个不平衡的数据集
X, y = make_classification(n_samples=1000, n_features=20, n_informative=2, n_redundant=10, n_clusters_per_class=1, weights=[0.9, 0.1], flip_y=0, random_state=42)# 查看数据分布
print(f"原始数据集类别分布: {Counter(y)}")# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)# 使用SMOTE进行过采样
smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X_train, y_train)# 查看过采样后的数据分布
print(f"过采样后数据集类别分布: {Counter(y_resampled)}")

代码详解

数据生成

我们使用make_classification函数生成一个不平衡的数据集。该数据集有1000个样本,20个特征,其中90%的样本属于多数类(类0),10%的样本属于少数类(类1)。

X, y = make_classification(n_samples=1000, n_features=20, n_informative=2, n_redundant=10, n_clusters_per_class=1, weights=[0.9, 0.1], flip_y=0, random_state=42)

数据分布

使用Counter查看原始数据集的类别分布,确认数据集不平衡。

print(f"原始数据集类别分布: {Counter(y)}")

数据集划分

将数据集划分为训练集和测试集,并保持数据分布的一致性。

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

SMOTE过采样

使用SMOTE对训练集进行过采样,以平衡少数类和多数类样本的数量。

smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X_train, y_train)

查看过采样后的数据分布

再次使用Counter查看过采样后的数据分布,确认数据集已经平衡。

print(f"过采样后数据集类别分布: {Counter(y_resampled)}")

SMOTE的优点和局限性

优点

  • 提高模型性能:通过平衡数据集,SMOTE可以显著提高分类器的性能,特别是在处理不平衡数据时。
  • 易于实现:使用imbalanced-learn库中的SMOTE非常简单,只需几行代码即可完成过采样。
  • 灵活性:SMOTE可以与其他预处理方法和机器学习算法结合使用,具有很高的灵活性。
    局限性:
  • 可能引入噪声:由于SMOTE是基于插值的方法生成合成样本,可能会引入一些噪声数据,影响模型的性能。
  • 不适用于高维数据:在高维数据中,生成合成样本的插值过程可能会变得不稳定,影响过采样效果。
  • 无法处理极端不平衡:对于极端不平衡的数据集,SMOTE的效果可能不如其他高级方法(如ADASYN、Borderline-SMOTE等)。

总结

SMOTE是一种强大的过采样技术,可以有效地处理不平衡数据集,提升分类器的性能。通过imbalanced-learn库中的SMOTE实现,我们可以轻松地对少数类样本进行过采样,平衡数据集。在实际应用中,我们可以根据具体数据集的特点和需求,选择合适的过采样方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/16166.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VXLAN小结

1.VXLAN:(组件虚拟网络的架构核心)虚拟扩展本地局域网,通过隧道的形式,将物理上有隔离的资源,在逻辑上连通起来,使其二层互通。 a.物理网络:指的是构成 VXLAN 连接的基础 IP 网络 b.逻辑网络:指的是通过 VXLAN 构建的虚拟网络 C.N…

DragonKnight CTF2024部分wp

DragonKnight CTF2024部分wp 最终成果 又是被带飞的一天,偷偷拷打一下队里的pwn手,只出了一题 这里是我们队的wp web web就出了两个ez题,确实很easy,只是需要一点脑洞(感觉), ezsgin dirsearch扫一下就发现有ind…

(九)npm 使用

视频链接:尚硅谷2024最新版微信小程序 文章目录 使用 npm 包自定义构建 npmVant Weapp 组件库的使用Vant Weapp 组件样式覆盖使用 npm 包 目前小程序已经支持使用 npm 安装第三方包,因为 node_modules 目录中的包不会参与小程序项目的编译、上传和打包, 因此在小程序项目中要…

ROS参数服务器

一、介绍 参数服务器是用于存储和检索参数的分布式多机器人配置系统,它允许节点动态地获取参数值。 在ROS中,参数服务器是一种用于存储和检索参数的分布式多机器人配置系统。它允许节点动态地获取参数值,并提供了一种方便的方式来管理和共享配…

基于Python Selenium web测试工具 - 基本用法详解

这篇文章主要介绍了Selenium(Python web测试工具)基本用法,结合实例形式分析了Selenium的基本安装、简单使用方法及相关操作技巧,需要的朋友可以参考下 本文实例讲述了Selenium基本用法。分享给大家供大家参考,具体如下: Seleni…

react之Effect的生命周期

第四章 - 脱围机制 响应式 Effect 的生命周期 Effect与组件有不同的生命周期。组件可以挂载,更新或卸载。Effect只能做两件事:开始同步某些东西,然后停止同步它。如果Effect依赖于随时间变化的props 和 state,这个循环可能会发生…

如何查看热门GPT应用?

1、登陆chatgpt 2、访问 https://chatgpt.com/gpts 3、在该界面,可以搜索并使用image generator, Write For Me,Language Teature等热门应用。

嵌入式C语言中结构体使用详解

各位开发者大家好,今天给大家分享一下,嵌入式C语言中结构体的使用方法。 第一个:内存对齐 内存对齐是指一个数据类型在内存中存放时,对其地址的要求。简单来说内存对齐就是使得其内存地址是该类型大小的整数倍,例如 double 类型的变量,其内存地址需要是8的倍数(double大…

Golang:使用bcrypt实现密码加密和和校验

bcrypt可以用于数据库中的用户密码保存,相比md5而言更加的安全可靠 文档 https://pkg.go.dev/golang.org/x/crypto/bcrypt 文档上给出了标准文档,这个库是下面这个文件描述的算法golang实现: https://www.usenix.org/legacy/event/usenix99/provos/p…

深入理解 Mysql 分层架构:从存储引擎到查询优化器的内部机制解析

一、基础架构 1.连接器 1.会先连接到这个数据库上,这时候接待你的就是连接器。连接器负责跟客户端建立连接、获取权限、维持和管理连接 2.用户密码连接成功之后,会从权限表中拿出你的权限,后续操作权限都依赖于此时拿出的权限,这就意味着当链…

SVM兵王问题

1.流程 前面六个就是棋子的位置,draw就是逼和,后面的数字six就代表,白棋最少用六步就能将死对方。然后呢,可以看一下最后一个有几种情况: 2.交叉测试 leave one out: 留一个样本作测试集,其余…

Django 里的静态资源调用

静态资源:图片,CSS, JavaScript 一共有两种方法 第一种方法 在项目的文件夹里创建名为 static 文件夹 在该文件夹里,添加静态资源 在 settings.py 里添加路径 import os# Static files (CSS, JavaScript, Images) # https://docs.djan…

Oracle Graph 入门 - RDF 知识图谱

Oracle Graph 入门 - RDF 知识图谱 0. 引言1. 查看 RDF Semantic Graph 安装情况2. 创建一个语义网络4. 创建一个模型5. 加载 RDF 文件6. 配置 W3C 标准的 SPARQL 端点 0. 引言 Oracle Graph 的中文资料太少了,只能自己参考英文资料整理一篇吧。 Oracle 数据库包括…

搭建Harbor镜像仓库

前言 1、系统版本:CentOS9 2、harbor版本:v2.9.4 3、提前安装好docker和docker-compose,参考地址。我这里安装的版本是docker:26.1.3 docker-compose:v2.27.1 安装步骤 下载安装包 1、下载地址:ha…

[自动驾驶技术]-1 概述技术和法规

自动驾驶(Autonomous Driving),也称为无人驾驶或自驾,是指通过计算机系统和传感器设备,自动驾驶汽车在没有人类干预的情况下能够感知环境并做出驾驶决策,从而实现车辆的自主行驶。 自动驾驶技术层级 自动…

fastadmin 树状菜单展开,合并;简要文件管理系统界面设计与实现

一,菜单合并效果图 源文件参考:fastadmin 子级菜单展开合并、分类父级归纳 - FastAdmin问答社区 php服务端: public function _initialize() {parent::_initialize();$this->model new \app\admin\model\auth\Filetype;$this->admin…

企业如何做好 SQL 质量管理?

研发人员写 SQL 操作数据库想必一定是一类基础且常见的工作内容。如何避免 “问题” SQL 流转到生产环境,保证数据质量?这值得被研发/DBA/运维所重视。 什么是 SQL 问题? 对于研发人员来说,在日常工作中,大部分都需要…

Jenkins - Pipeline Retry

Jenkins - Pipeline Retry 引言retryretry 实例 引言 日常运行自动化测试用例,通常是晚上定时启动 pipeline job,一个 pipeline 脚本可能会涉及到多个 Job, 最后 post 发邮件汇总测试 report。有时会遇到 Jenkins 环境问题导致某 Job 失败,第…

代码随想录算法训练营第三十六天 | 1005.K次取反后最大化的数组和、134.加油站、135.分发糖果

目录 1005.K次取反后最大化的数组和 思路 代码 代码 134.加油站 思路 代码 135.分发糖果 思路 代码 1005.K次取反后最大化的数组和 本题简单一些,估计大家不用想着贪心 ,用自己直觉也会有思路。 代码随想录 思路 直觉,直接写&…