基于集成学习的不平衡数据集分类问题研究--文献阅读

 参考文献

基于集成学习的不平衡数据集分类问题研究 - 中国知网https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CMFD&dbname=CMFD202201&filename=1021697818.nh&uniplatform=NZKPT&v=K9J_5NETTyZXPhDr5D6KwISCv2zm0skRm7rEZ0KmYS0Yv_zs562Re8oiwR5h_ylK

文章总体思路

问题

当应用于不平衡数据集时,这两种算法都存在对样本量较少的正类样本不能正确分类以至于分类精度不高、泛化误差较大的问题

目的

本文将集成学习算法与不平衡数据集数据层面的优化算法组合构造分类性能更好的模型

算法结合构造的新模型

机器学习算法

随机森林与 XGBoost

数据处理算法

SMOTE 过采样、随机欠采样以及 SMOTEtomek 混合采样

结合结果

RUS-RF、SMOTE-RF、SMOTEtomek-RF、

RUS-XGBoost、SMOTE-XGBoost 和 SMOTEtomek-XGBoost 模型

数据集:

本文选用了 UCI 中的 Adult 数据集,同时利用与 Adult 数据集不平衡比例不同的 BankMarketing 数据集与 Credit Card 数据集进行结果对比

实验发现:

(1)从总体来看,以 XGBoost 为基础算法的模型的分类效果要优于以随机森林为基础算法的模型;

(2)从模型选择的角度来看,当样本量充足时,RUS-XGBoost 模型的 AUC 与 G-mean 取值最高,比起其他模型更适合作为不平衡数据集的有效分类模型;

(3)从数据重采样方法的角度来看,采用随机欠采样的模型比采用SMOTE 过采样或者 SMOTEtomek 混合采样的模型分类效果更好。

为什么要对此进行研究

        机器学习致力于利用机器从已知数据中挖掘数据规律并生成学习模型进而对未知数据做出反馈。

        传统的机器学习方法如决策树、K 最近邻、支持向量机以及人工神经网络等算法都是根据平衡数据设计的,以提高总体分类精度为目标,这就使得在不平衡数据中进行学习时,极易造成分类器倾向于负样本,导致误分成本上升。

        针对分类任务,多数学习算法都有一个共同的基本假设——不同类别的训练样本数目相当。如果不同类别的样本数稍有差别,通常对算法的泛化性能影响不大,但是若不同类别样本数差别很大即存在类别不平衡问题,则会对学习过程造成困扰。

采样方法研究现状

欠采样

        欠采样:通过选择部分具有典型意义的负样本,构造正样本与负样本数目相当的平衡数据集。随机欠采样是最简单有效的欠采样方法,它随机抽取出与正样本一致规模的负样本,然后将抽取到的负样本放入正样本空间中组成新的平衡数据集。

随机欠采样(Random Under-Sampling,RUS)

        是最简单的欠采样方法,该算法通过从负类样本中随机抽取与正类样本规模一致的数据来达到数据平衡,然而抽取样本同样会造成关键信息的流失;

Easy Ensemble 算法与Balance Cascade 算法

        这两种算法都采用了集成的思想,对负类样本进行多次采样构建不同的分类器,从而弥补随机欠采样存在的弊端

基于聚类的欠采样

        CBUS算法和 Fast-CBUS算法

遗传算法的欠采样:

        GAUS算法以及类似于噪声检测的 ENN算法和 Tomek算法

过采样

        过采样:通过生成足量的正样本实现正样本与负样本的平衡。其优点是提高了正样本的学习量;缺点是生成的正样本并不是通过抽样得到的真实正样本,从而容易带来样本噪声,降低算法模型少数类样本的分类正确率

随机过采样

        基本步骤

                是反复随机地抽取正样本,并将抽取到的样本放入原始样本空间,形成新的样本空间

        优点

                抽样方法速度很快

        缺点

                会在正类样本中产生大量相似数据,因此在分类器的训练中容易使模型过拟合。同样,          如果正类样本中存在噪声数据,那么在多次抽取正类样本后,噪声数据对模型的影响也会增            大

 SMOTE 算法

        改进方面

                采用数据合成的方式取代数据替换来进行过采样

        步骤

Borderline-SMOTE 算法与 ADASYN 算法

        针对 SMOTE 算法没有考虑近邻样本的分布特点带来的样本重叠度高的问题

混合采样

        结合了欠采样和过采样,

目前常用的算法有:

将随机欠采样和 SMOTE 组合的 RU-SMOTE算法

将 SMOTE 和Tomek 结合的 SMOTEtomek 算法

将 SMOTE 和 ENN 结合的 SMOTEENN 算法

不平衡数据集算法层面的优化方法

价敏 感(Cost-Sensitive) 学习、集成学习、单类学习

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/434883.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[读书笔记]TCP/IP详解V1读书笔记-1

TCP数据单元:tcp segment UDP数据单元:udp datagram IP数据单元:IP datagram 链路层单元:frame --------------------------------------- 应用层: SMTP:简单邮件传输协议 FTP:文件传输协议 DNS…

pandas划分数据

1.根据列位置划分 execldata pd.read_excel(filepath) # 获取列数 bandscount execldata.shape[1] #去除最后一列数据类别 bandscount bandscount - 1 classifypointdata execldata[:, 0:bandscount] classifypointlabel execldata[:, -1] 2.根据字段名称进行划分 exec…

python 程序停止打印日志_停止 Spring Boot 服务的几种优雅姿势

在使用 Spring Boot 的时候,都要涉及到服务的停止和启动,当我们停止服务的时候,很多时候大家都是 kill -9 直接把程序进程杀掉,这样程序不会执行优雅的关闭。而且一些没有执行完的程序就会直接退出。我们很多时候都需要安全的将服…

批量导出部分依赖图(PDP)

部分依赖图 (PDP) 和个体条件期望 (ICE) 图可用于可视化和分析目标响应1与一组感兴趣的输入特征之间的交互。 部分依赖图 (PDP) 显示了目标响应与一组感兴趣的输入特征之间的依赖关系,边缘化了所有其他输入特征(“补充”特征)的值。直观地说…

arcgis已知两点投影坐标求距离

问题: 已知中心点坐标,求个点与中心点坐标的距离 解决方法如下: 新建字段 在新建字段上右键字段计算器 利用字段计算器进行两点间距离计算 不懂问题请进群交流询问相关知识点

【原创】StreamInsight查询系列(十九)——查询模式之检测异常

上篇文章介绍了查询模式中如何发现趋势,这篇博文将介绍StreamInsight中如何检测异常。 测试数据准备 为了方便测试查询,我们首先准备一个静态的测试数据源:var now DateTime.Parse("09/12/2011 8:57:00 PM"); var input new[] {n…

SIP协议详解

SIP协议概念** 会话启动协议SIP(Session Initiation Protocol)是一个在IP网络上进行多媒体通信的应用层控制协议,它被用来创 建、修改、和终结一个或多个参加者参加的会话进程。 **SIP协议可用于发起会话,也可以用于邀请成员加入…

arcgis判断两个字段是否相等

def a(b,c):if(bc):return 1else:return 0 不懂问题请进群交流

一元三次方程重根判别式_许兴华——关于复数集中解一元二次方程的问题

在学习复数时,最近有个别比较好学的同学提出一个问题:“对于复数系数一元二次方程,是否可以用求根公式求解呢?”——回答是肯定的!关于复数集中解一元二次方程的问题。其实,在复数集内解关于x的一元二次方程…

arcgis批量将栅格里的nodata转为0

新建模型 修改名称 在arcgis的工具箱中新建一个模型,具体模型如下 模型里的具体参数如下 1.栅格计算器 2.输出路径,%—%这样的的输出可以保留之前的文件的名称 不懂问题请进群交流

arcgis中制作复杂符号

简介 在arcgis制图中常会遇到复杂的制图符号,如下 通过平常的代码显示并不会显示原图这样的效果,接下来我们开始解决改问题 主要思想: 通过字体文件将其显示 所以的软件: arcgis和FontCreator FontCreator软件下载链接

根据rtk参数在arcgis中进行可视化

RTK原始文件 通过原始文件发现,arcgis中并没有中央经线是113的CGS2000投影坐标,所以此处需要进行自定义投影转换 不懂问题请进群交流

解决mapgis转位置范围偏差过大的问题(比例尺)

问题描述: 在mapgis投影坐标转地理坐标,结果发现地理坐标错误 这样的地理坐标很明显是错误的,发现经度位置些许有些偏差,纬度有大幅度偏差 问题主要出现在在调整投影参数的比例尺分母不正确 解决: 找一个相似研究范围的mapgis文件或者shp文件 方法1(mapgis文件): …

有意思的小学数学竞赛题-2

刚刚在matrix67上看到一篇很有意思的帖子,原文http://www.matrix67.com/blog/archives/4485 我老早就写过一个经典的小学几何题。如果你还没看过这个问题,你一定要去看看。一个小学奥数老师曾 经告诉我,当年带领学生参加这次竞赛时&#xff0…

利用python处理中国地面气候资料日值数据集(V3.0)

原始文件 数据链接 00年到18年气象数据,但是未进行处理-数据集文档类资源-CSDN下载00年到18年气象数据,但是未进行处理,如果需要处理好的数据(execl和shp),请查看本博主其他更多下载资源、学习资料请访问C…

mapgis转shp左右位置偏差

问题描述 问题原因 一般情况下,投影中心经度不会出现这么复杂的数字,一般都是1110000,1170000,前3个数字为整数后四个数字为0 问题解决 主要思想:通常相差的经纬度,调整投影中心点经度 解决步骤 1.试图…

Oracle Database Appliance

转载:http://www.hellodb.net/2011/09/oracle-database-appliance.html自从Oracle收购了SUN,不仅仅得到了MySQL,Java,Solaris等,还得到了SUN的硬件产品,真正成为了一家软硬通杀的服务提供商。这几年&#x…

arcgis中的插值分析了解

1.前言 打开arcgis工具箱我们可以发现arcgis为我们提供了多种插值分析的工具,克里金插值、反距离权重插值、样条函数插值等,具体如图所示 在工具箱中除地形转栅格和通过文件实现地形转栅格是用来绘制dem数据,其他就是我们日常研究所用的插值工…

解决MAPGIS导出数据乱码

所需软件: MAPGIS6.7 MAPGIS10版本以上 MAPGIS开发入门向导手册.zip-行业报告文档类资源-CSDN下载MAPGIS开发入门向导手册.zip更多下载资源、学习资料请访问CSDN下载频道.https://download.csdn.net/download/qq_39397927/85321238ArcGIS 问题描述 在mapgis中的…

突破select的FD_SETSIZE限制

前言: 在很多比较各种网络模型的文章中,但凡提到select模型时,都会说select受限于轮询的套接字数量,这个 数量也就是系统头文件中定义的FD_SETSIZE值(例如64)。但事实上这个算不上真的限制。 C语言的偏方: 在C语…