【机器学习】合成少数过采样技术 (SMOTE)处理不平衡数据(附代码)

1、简介

不平衡数据集是机器学习和人工智能中普遍存在的挑战。当一个类别中的样本数量明显超过另一类别时,机器学习模型往往会偏向大多数类别,从而导致性能不佳。

合成少数过采样技术 (SMOTE) 已成为解决数据不平衡问题的强大且广泛采用的解决方案。

在本文中,我们将探讨 SMOTE 的概念、其工作原理、优点、局限性及其对提高人工智能模型的性能和公平性的重大影响。

2、SMOTE

SMOTE 背后的主要思想是通过生成合成样本来弥合少数群体和多数群体之间的差距。

以下是 SMOTE 工作原理的分步说明:

2.1识别少数样本:

第一步涉及识别数据集中属于少数类别的样本。

2.2 识别K近邻:

对于每个少数样本,SMOTE 识别其在特征空间中的 K-近邻。通常,欧几里德距离度量用于测量数据点之间的相似性。

2.3 合成样本生成:

一旦识别出邻居,SMOTE 就会选择随机邻居并计算少数样本的特征向量与其所选邻居之间的差异。

然后将该差异乘以 0 到 1 之间的随机数,并将其添加到少数样本的特征向量中。

此过程会创建新的合成样本,这些样本位于少数样本与其所选邻居之间的线段上

重复生成合成样本的过程,直到达到所需的类别平衡水平。

3.SMOTE的好处

3.1 提高模型性能:

通过解决类不平衡问题,SMOTE 使 AI 模型能够更好地识别模式并跨类进行泛化,从而提高整体性能。

3.2 减轻偏差:

SMOTE 有助于减少类别不平衡带来的偏差,确保模型不会以牺牲少数类别为代价而偏向多数类别。

3.3 数据效率:

SMOTE 有效地放大了少数类中的样本数量,而无需收集额外的数据,使其成为一种资源高效的技术。

3.4和各种算法的兼容性:

SMOTE 与算法无关,这意味着它可以与各种 AI 算法一起使用,包括决策树、支持向量机、神经网络等。

虽然 SMOTE 已被证明是一种有价值的工具,但在应用该技术时必须意识到其局限性并考虑某些方面:

1.过度拟合风险:如果使用不当,SMOTE 可能会导致过度拟合,尤其是在生成过多合成样本时。适当的交叉验证对于准确评估模型性能至关重要。

2.潜在噪声:SMOTE 生成的合成样本可能无法准确代表真实世界的数据实例,从而引入可能对模型性能产生负面影响的噪声。

3.k 的合适选择:SMOTE 的性能受到参数 k 的选择的影响,它决定了要考虑的最近邻居的数量。k 值不合适可能会导致不良结果

4.代码

下面是合成少数过采样技术 (SMOTE) 的 Python 实现:

import numpy as np
from sklearn.neighbors import NearestNeighborsdef SMOTE(X, y, N, k=5):"""合成少数类过采样技术(SMOTE)参数:X (numpy数组): 包含数据点的特征矩阵。y (numpy数组): 对应的标签数组(多数类为0,少数类为1)。N (int): 生成的合成样本数量。k (int, 可选): 考虑的最近邻居数量,默认为5。返回:X_synthetic (numpy数组): 包含生成样本的合成特征矩阵。y_synthetic (numpy数组): 合成样本对应的标签数组。"""# 分离多数类和少数类样本X_majority = X[y == 0]X_minority = X[y == 1]# 计算每个少数类样本需要生成的合成样本数量N_per_sample = N // len(X_minority)# 如果k大于少数样本数量,则将其减少到可能的最大值k = min(k, len(X_minority) - 1)# 初始化列表以存储合成样本和相应的标签synthetic_samples = []synthetic_labels = []# 在少数类样本上拟合k近邻knn = NearestNeighbors(n_neighbors=k)knn.fit(X_minority)for minority_sample in X_minority:# 查找当前少数类样本的k个最近邻居_, indices = knn.kneighbors(minority_sample.reshape(1, -1), n_neighbors=k)# 随机选择k个邻居并创建合成样本for _ in range(N_per_sample):neighbor_index = np.random.choice(indices[0])neighbor = X_minority[neighbor_index]# 计算当前少数类样本和邻居之间的差异difference = neighbor - minority_sample# 生成一个0到1之间的随机数alpha = np.random.random()# 创建一个合成样本作为少数类样本和邻居的线性组合synthetic_sample = minority_sample + alpha * difference# 将合成样本及其标签追加到列表中synthetic_samples.append(synthetic_sample)synthetic_labels.append(1)# 将列表转换为numpy数组X_synthetic = np.array(synthetic_samples)y_synthetic = np.array(synthetic_labels)# 将原始多数类样本与合成样本合并X_balanced = np.concatenate((X_majority, X_synthetic), axis=0)y_balanced = np.concatenate((np.zeros(len(X_majority)), y_synthetic), axis=0)return X_balanced, y_balanced

SMOTE函数接受特征矩阵X、对应的标签数组y、要生成的合成样本数N以及最近邻居数k(默认设置为5)。

该函数返回包含生成样本的合成特征矩阵X_synthetic和对应的标签数组y_synthetic。

请注意,这个实现假设是二元分类,其中少数类标记为1,多数类标记为0。原始的多数类样本被保留,合成样本仅为少数类创建。

要使用SMOTE函数,您可以使用您的数据集调用它,并指定您想要生成的合成样本数量,例如:

X_balanced, y_balanced = SMOTE (X_train, y_train, N= 1000 )

在这个示例中,SMOTE函数将生成1000个合成样本来平衡训练数据,X_balanced和y_balanced分别包含增强的特征矩阵和对应的标签。

下面是一个如何定义X_train和y_train为numpy数组的简单二元分类问题示例:

import numpy as np # 具有 10 个样本和 2 个特征的示例特征矩阵
X_train X_train = np.array([ [ 1.0, 2.0 ], [ 2.0, 3.0 ], [ 3.0, 4.0 ], [ 4.0, 5.0 ], [ 5.0, 6.0 ], [ 6.0, 7.0 ], [ 7.0, 8.0 ], [ 8.0, 9.0 ], [ 9.0, 10.0 ], [ 10.0, 11.0 ] 
]) # 标签数组示例 y_train (0 代表多数类,1 代表少数类)y_train = np.array([ 0 , 0 , 0 , 0 , 0 , 1 , 0 , 1 , 0 , 0 ])

在这个示例中,X_train是一个二维numpy数组,代表具有10个样本(行)和2个特征(列)的特征矩阵。每行对应一个数据样本,每列对应一个特定的特征。

y_train是一个一维numpy数组,代表X_train中样本的对应标签。在这个示例中,多数类被标记为0,少数类被标记为1。

您可以使用前面代码片段中提供的SMOTE函数来平衡X_train和y_train数据集,并为少数类创建合成样本。例如:

X_balanced, y_balanced = SMOTE(X_train, y_train, N=1000)

调用SMOTE函数后,X_balanced和y_balanced将包含用合成样本增强的特征矩阵和对应的标签,以平衡数据集。

生成的合成样本数量(在这个示例中为1000)可以根据不平衡程度和您的具体需求进行调整。

5.结语

合成少数类过采样技术(SMOTE)已成为解决AI中不平衡数据集挑战的一个强大而有效的解决方案。

通过生成合成样本,SMOTE平衡了类别分布,使AI模型能够做出更好的决策,减少偏见并提高性能。

然而,使用SMOTE时必须谨慎,考虑其局限性,并确保合成数据的质量和相关性。

随着AI的不断发展,SMOTE和类似技术将继续作为追求更准确、公平和稳健AI模型的关键工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/676251.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

核心篇-OSPF技术之序(上)

文章目录 一. 实验专题1.1. 实验1:配置单区域OSPF1.1.1. 实验目的1.1.2. 实验拓扑1.1.3. 实验步骤(1)配置地址(2)运行OSPF 1.1.4. 实验调试(1)查看接口信息(2)查看邻居状…

基于华为云欧拉操作系统(HCE OS)单节点容器化部署(Prometheus、node-exporter、Grafana)应用性能监控平台

写在前面 博文内容为 华为云欧拉操作系统入门级开发者认证(HCCDA – Huawei Cloud EulerOS)实验笔记整理认证地址:https://edu.huaweicloud.com/certificationindex/developer/9bf91efb086a448ab4331a2f53a4d3a1内容涉及,HCE OS 容器化部署(Prometheus、…

Java_栈_队列

文章目录 一、栈(Stack)1.概念2.栈的使用3.栈的模拟实现1、定义接口2、定义栈3、成员4、构造方法5、判断空间是否满 full6、入栈 push7、出栈 pop8、获取栈顶元素 peek9、获取栈中有效元素个数 size10、检测栈是否为空 empty完整代码 4.练习1、有效括号2…

免费搭建幻兽帕鲁服务器,白嫖阿里云游戏服务器

阿里云幻兽帕鲁服务器免费搭建方案,先在阿里云高校计划「云工开物」活动领取学生专享300元无门槛代金券,幻兽帕鲁专用服务器4核16G配置26元1个月、149元半年,直接使用这个无门槛300元代金券抵扣即可免费搭建幻兽帕鲁服务器。阿里云服务器网al…

除夕快乐(前端小烟花)

家人们,新的一年好运常在,愿大家在新的一年里得偿所愿,发财暴富,愿大家找到属于自己的那个公主,下面就给大家展示一下给公主的烟花 前端烟花 新的一年,新的挑战,愿我们不忘初心,砥砺…

C++ 动态规划 树形DP 没有上司的舞会

Ural 大学有 N 名职员,编号为 1∼N 。 他们的关系就像一棵以校长为根的树,父节点就是子节点的直接上司。 每个职员有一个快乐指数,用整数 Hi 给出,其中 1≤i≤N 。 现在要召开一场周年庆宴会,不过,没有职…

口袋工具箱微信小程序源码

这是一款云开发口袋工具箱微信小程序源码,只有纯前端版本,该版本的口袋工具箱涵盖了13个功能,分别为圣诞帽头像生成、二维码生成、日语50音图、汉字拼音查询、计算器、程序员黄历、娱乐摇骰子、身材计算、所在地天气查询、IP地址查询、手机归…

自制微信红包封面

一.前言 这不是过年了吗,各大平台都发放了免费的微信红包封面,但我老是抢不到QAQ。于是乎,我便想“授人以鱼不如授人以渔”,不如自己造个封面。 二.主要步骤 1.条件 1>创建视频号 2>过去一年发表过视频号 3>过去一…

【JavaScript 漫游】【012】ES5 规范中 String 对象方法汇总

文章简介 本文为【JavaScript 漫游】专栏的第 012 篇文章,记录的内容包含了 ES5 规范中String 对象的所有方法。 笔者认为要掌握的方法包括: String.prototype.concat()String.prototype.slice()String.prototype.substring()String.prototype.substr…

MacOS上怎么把格式化成APFS的U盘或者硬盘格式化回ExFAT?

一、问题 MacOS在更新MacOS Monterey后或者更高系统后发现,格式U盘或者硬盘只有4个APFS选项,那么我们该如何将APFS格式成ExFAT? 二、解答 将APFS的U盘或者硬盘拓展成MacOS的拓展格式即可,操作步骤如下 1、电脑接入U盘或者硬盘 2…

vue3 之 商城项目—二级分类

二级分类功能描述 配置二级路由 准备组件模版 <script setup></script><template><div class"container "><!-- 面包屑 --><div class"bread-container"><el-breadcrumb separator">"><el-bre…

GPT如何在一分钟内完成论文数据分析?

数据上传 PPMAN-AI 01 由于技术限制&#xff0c;目前InfinitePaper AI仅支持上传1份文件&#xff0c;且大小不超过10M。但是&#xff0c;在强大的代码解释器面前&#xff0c;这都是小问题。我们只需要将可能用到的文件打包成压缩文件上传即可&#xff0c;之后要求GPT直接解压…

Spring基础 - Spring核心之控制反转(IOC)

Spring基础 - Spring核心之控制反转(IOC) 引入 Spring框架管理这些Bean的创建工作&#xff0c;用户管理Bean转变为框架管理Bean&#xff0c;这个称之为控制翻转Spring框架托管创建的Bean放在IOC容器中Spring框架为了更好让用户配置Bean&#xff0c;必然会引入不同方式来配置B…

网络协议、网络传输认识

目录 网络协议概念 网络协议具象化理解 协议分层 TCP/IP模型 网络传输基本流程 网络协议概念 网络协议是计算机网络中用于在通信设备之间传输数据的规则集合。这些规则定义了数据的格式、传输方式、错误检测和纠正方法等&#xff0c;以确保不同设备之间的通信能够正确进行…

Amazon Dynamo学习总结

目录 一、Amazon Dynamo的问世 二、Amazon Dynamo主要技术概要 三、数据划分算法 四、数据复制 五、版本控制 六、故障处理 七、成员和故障检测 一、Amazon Dynamo的问世 Amazon Dynamo是由亚马逊在2007年开发的一种高度可扩展和分布式的键值存储系统&#xff0c;旨在解…

百度Apollo荣获量子位-智能车参考“2023智能车年度评选”两大奖项

2023&#xff0c;是谁在引领智能车浪潮&#xff1f; 量子位-智能车参考发布“2023智能车年度评选”结果。经过业内专业评审和垂直社群万人票选后&#xff0c;百度Apollo荣获「年度十大智能车技术产品/方案」「年度十大智能车领军人物」两项大奖。 年度十大智能车技术产品\方…

jvm问题自查思路

本文聊一下最近处理了一些jvm的问题上&#xff0c;将这个排查和学习过程分享一下&#xff0c;看了很多资料&#xff0c;最终都会落地到几个工具的使用&#xff0c;本文主要是从文档学习、工具学习和第三方技术验证来打开认知和实践&#xff0c;希望有用。 一、文档 不仅知道了…

springboot+vue居民小区设备报修系统

小区报修系统可以提高设施维护的效率&#xff0c;减少机构的人力物力成本&#xff0c;并使得维修人员可以更好地了解维护设备的情况&#xff0c;及时解决问题。 对于用户来说&#xff0c;报修系统也方便用户的维修请求和沟通&#xff0c;提高了用户的满意度和信任。其次小区报修…

imazing是啥?imazing有什么用

iMazing 是一款用于管理 iOS 设备的第三方软件。它支持在 Windows 或 Mac 电脑上对连接的 iPhone、iPad 或 iPod 进行数据传输、备份和管理工作。用户可以通过 iMazing 传输和备份包括照片、音乐、铃声、视频、电子书和通讯录等在内的多种信息。iMazing 的功能与苹果官方的 iTu…

函数及函数的定义

前言&#xff1a; 在之前介绍指针的时候&#xff0c;小编发现有些地方需要用函数&#xff0c;所以小编决定先带领大家学习函数&#xff0c;然后再学习指针。 函数是从英文function翻译过来的&#xff0c;其实function在英文中的意思就是函数&#xff0c;也是功能的意思&#xf…