论文笔记:基于概念漂移的在线类非平衡学习系统研究

0 摘要

论文:A Systematic Study of Online Class Imbalance Learning With Concept Drift
发表:2018年发表在TNNLS上
源代码:?

作为一个新兴的研究课题,在线类非平衡学习往往结合了类非平衡和概念漂移的挑战。它处理具有非常倾斜的类分布的数据流,其中可能发生概念漂移。它最近受到越来越多的研究关注;然而,很少有研究解决类失衡和观念漂移并存的综合问题。作为第一个系统研究类不平衡数据流中处理概念漂移的研究,本文首先对该领域的研究进展进行了全面回顾,包括当前的研究重点和开放的挑战。然后,进行了深入的实验研究,目的是了解如何最好地克服类不平衡的在线学习中的概念漂移。

1 引言

随着机器学习算法在现实世界中的广泛应用,类失衡和概念漂移已经成为重要的学习问题。风险管理[1]、异常检测[2]、软件工程[3]和社交媒体挖掘[4]等各个领域的应用都受到类不平衡和概念漂移的影响。当数据类别的代表性不均匀时,即至少有一个类别与其他类别相比是少数类别[5]。它会导致对多数类的学习偏差和泛化不良。概念漂移是问题底层分布的变化,特别是在从数据流中学习时[6],这是一个重要的问题。它要求学习者能够适应动态变化。

类不平衡和概念漂移会严重阻碍预测性能,当它们同时发生时问题变得尤为具有挑战性。这一挑战源于这样一个事实,即一个问题可能影响对另一个问题的治疗。例如,传统的基于分类误差的漂移检测算法可能对不平衡程度敏感而变得不那么有效,而类不平衡技术需要适应不平衡率的变化;否则,目前受到优待的类可能不是正确的少数类。
虽然已有论文分别对分布不平衡的数据流和概念漂移的数据流进行了研究,但对类不平衡和概念漂移同时存在的情况的研究却很少。Hoens等人[7]首次概述了组合问题,但只介绍了一些基于块的学习技术。本文旨在通过实验研究对类不平衡数据流中概念漂移的处理进行更系统的研究。我们专注于在线(即一对一)学习,因为它比基于块的学习更困难,考虑到一次只有一个实例可用。此外,在线学习方法可以应用于数据以块形式到达的问题,但是基于块的学习方法不能应用于存在高速和内存限制的在线问题。在线学习方法对于产生高速数据流的应用特别有用,例如机器人系统和传感器网络[3]。

本文首先对该领域的研究进展进行了综述,包括问题定义、问题和方法分类、性能评估以及最新的方法。它揭示了新的挑战和研究差距。大多数现有的工作集中在后验概率中的概念漂移[即真实概念漂移[8]和 P ( y ∣ x ) P(y|x) P(yx)的变化]。其他类型的概念漂移所面临的挑战尚未得到充分讨论和处理。特别是,先验概率 P ( y ) P(y) P(y)的变化与类不平衡密切相关,但大多数现有工作都忽略了这一点。大多数提出的概念漂移检测方法都是针对平衡数据流设计和测试的。很少有方法旨在同时解决类不平衡和概念漂移。在有限的解决方案中,仍不清楚哪种方法更好,何时更好。应用类不平衡技术(例如,重采样方法)是否以及如何影响概念漂移检测和在线预测也是未知的。

为了填补研究空白,我们通过关注三个研究问题,提供了一个关于如何最好地克服类不平衡在线学习中的概念漂移的实验见解。

    1. 当数据流不平衡时,检测每种类型的概念漂移的挑战是什么?
    1. 在针对在线类不平衡学习的概念漂移方法中,哪一种方法对哪种类型的概念漂移效果更好?
    1. 应用类不平衡技术(例如,重采样方法)是否有助于概念漂移检测和在线预测?

在人工数据流以及真实数据集中三种基本的概念漂移类型(即先验概率 P ( y ) P(y) P(y)、类条件概率密度函数(pdf) P ( x ∣ y ) P(x|y) P(xy)和后验概率 P ( y ∣ x ) P(y|x) P(yx)的变化)下,对在线类失衡漂移检测方法(DDM-OCI)[9]、线性四率(LFR)[10]、ROC曲线下的先验面积Page-Hinkley (PAUC-PH)[11]、[12]、OOB[13]、RLSACP[14]和ESOSELM[15]等六种最新方法进行了比较和深入分析。据我们所知,它们是迄今为止为数不多的明确设计用于解决类不平衡和概念漂移的在线学习问题的方法。

最后,在综述和实验结果的基础上,我们提出了开发一种有效的从概念漂移的不平衡数据流中学习的算法需要考虑的几个重要问题。我们强调研究类失衡和观念漂移的相互影响的重要性。

本文的主要贡献包括:

    1. 首次全面研究了类不平衡数据流中的概念漂移检测;
    1. 将数据问题分为不同类型的概念漂移和类失衡,并进行了说明应用;
    1. 对各类现有方法进行系统比较分析;
    1. 研究了每种方法的优缺点;
    1. 研究结果为未来学习任务选择合适的技术和开发更好的算法提供指导;
    1. 这也是首次探讨类不平衡技术在概念漂移检测中的作用,揭示了是否以及如何同时解决类不平衡和概念漂移。

本文的其余部分组织如下。第二部分阐述了学习问题,包括一个学习框架和详细的问题描述,以及对类失衡和概念漂移的单独介绍。第三节回顾了类失衡和概念漂移的综合问题,包括示例应用和现有解决方案。第四部分进行了实验研究,旨在找到三个研究问题的答案。第五节得出结论并指出未来可能的方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/60460.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++中使用 if…else 有条件地执行多条语句

C中使用 if…else 有条件地执行多条语句 如果要在满足(或不满足)条件时执行多条语句,需要将它们组合成一个语句块。包含在大括号({})内的多条语句被视为语句块,例如: if (condition) {// cond…

C语言每日一练------------Day(7)

本专栏为c语言练习专栏,适合刚刚学完c语言的初学者。本专栏每天会不定时更新,通过每天练习,进一步对c语言的重难点知识进行更深入的学习。 今日练习题关键字:两个数组的交集     双指针 💓博主csdn个人主页&#xf…

Java自定义捕获异常

需求分析 ElectricalCustomerVO electricalCustomerVO new ElectricalCustomerVO(); electricalCustomerVO.setElcNumber(chatRecordsLog.getDeviceNumber()); List<ElectricalCustomerVO> electricalCustomerlist electricalCustomerMapper.selectElectricalCustomer…

Hadoop

阅读前请看一下&#xff1a;我是一个热衷于记录的人&#xff0c;每次写博客会反复研读&#xff0c;尽量不断提升博客质量。文章设置为仅粉丝可见&#xff0c;是因为写博客确实花了不少精力。希望互相进步谢谢&#xff01;&#xff01; 文章目录 阅读前请看一下&#xff1a;我是…

【pyqt5界面化工具开发-13】QtDesigner功能择优使用

目录 0x00 前言&#xff1a; 一、完成基本的布局 二、其他功能的使用 三、在代码行开发 0x00 前言&#xff1a; QtDesigner工具的择优使用&#xff1a; 1、他的界面开发&#xff0c;是我们主要需要使用的功能 2、他的其他功能的使用&#xff0c;有需要就可使用&#xff…

Redis持久化——RDF与AOF两种方式怎么做?有什么区别?

目录 1. 什么是RDB 2. save 和 bgsave 命令主动保存数据 2.1 save 2.2 bgsave 3. Redis 内部自动RDB机制 4. RDB 底层是如何实现 bgsave 的&#xff1f; 5. RDB 的缺点 6. 什么是AOF&#xff1f; 7. AOF文件的缺点&#xff1f; 8. AOF 重写文件配置 9. RDB 与 AOF …

docker启动paddlespeech服务,并使用接口调用

一、检查docker容器是否启动 1.输入命令 systemctl status docker 启动 systemctl start docker 守护进程重启 sudo systemctl daemon-reload 重启docker服务 systemctl restart docker 重启docker服务 sudo service docker restart 关闭docker service docker…

cvat 安装部署

官网地址&#xff1a; https://github.com/opencv/cvat/tree/masterhttps://github.com/opencv/cvat/tree/master 1.从官网上下载源码地址。 2.配置环境变量 vim /etc/profile source /etc/profile 或者执行&#xff1a; export CVAT_HOSTyour-ip-address 3.执行命令 …

Sql 函数传递参数 字符串拼接

使用场景 一个计算价格的函数&#xff0c;多个存储过程调用&#xff0c;因业务需求经常要新增参数&#xff0c;避免修改函数时程序执行存储过程报错&#xff0c;将多个参数拼接为一个字符串传递 -- 调用函数CalcuPrice(UnitPrice,CONCAT(MFQZC,MFQZC,&ItemNum,ItemNum,&am…

2023年天府杯——C 题:码头停靠问题

问题背景&#xff1a; 某个港口有多个不同类型的码头&#xff0c;可以停靠不同种类的船只。每 艘船只需要一定的时间来完成装卸货物等任务&#xff0c;并且每个码头有容量 限制和停靠时间限制。港口需要在保证收益的情况下&#xff0c;尽可能地提高 运营效率和降低成本。同…

【大虾送书第七期】深入浅出SSD:固态存储核心技术、原理与实战

目录 ✨写在前面 ✨内容简介 ✨作者简介 ✨名人推荐 ✨文末福利 &#x1f990;博客主页&#xff1a;大虾好吃吗的博客 &#x1f990;专栏地址&#xff1a;免费送书活动专栏地址 写在前面 近年来国家大力支持半导体行业&#xff0c;鼓励自主创新&#xff0c;中国SSD技术和产业…

C++信息学奥赛1178:成绩排序

#include<bits/stdc.h> using namespace std; int main(){int n;cin>>n; // 输入整数 n&#xff0c;表示数组的大小int arr[n]; // 创建大小为 n 的整型数组 arrstring brr[n]; // 创建大小为 n 的字符串数组 brrfor(int i0;i<n;i) cin>>brr[i]>>ar…

Greenplum-segment镜像分布策略

Greenplum作为一款基于PostgreSQL的OLAP分布式MPP架构&#xff0c;其内部的角色可以通过配置冗余来保证高可用性&#xff0c;无论是管理节点还是计算节点。管理节点可以为Master配置一个Standby来保证高可用&#xff0c;而计算节点则可以为每个Primary segment配置一个对应的Mi…

Linux常用命令(不定期更新)

记录一下自己工作中常用的linux命令 查询类 top 实时查看进程 free -h 查看内存 df -h 查看已挂在的存储 fdisk -l 查看所有存储&#xff0c;包含未挂载 编辑类 passwd 修改密码&#xff0c;要进入到系统

update-alternatives详解

1.功能作用 update-alternatives是dpkg的实用工具&#xff0c;用来维护系统命令的符号链接&#xff0c;以决定系统默认使用什么命令。 在Debian系统中&#xff0c;我们可能会同时安装有很多功能类似的程序和可选配置&#xff0c;如Web浏览器程序(firefox&#xff0c;konquero…

分发糖果问题

n 个孩子站成一排。给你一个整数数组 ratings 表示每个孩子的评分。 你需要按照以下要求&#xff0c;给这些孩子分发糖果&#xff1a; 每个孩子至少分配到 1 个糖果。 相邻两个孩子评分更高的孩子会获得更多的糖果。 请你给每个孩子分发糖果&#xff0c;计算并返回需要准备…

list(介绍与实现)

目录 1. list的介绍及使用 1.1 list的介绍 1.2 list的使用 1.2.1 list的构造 1.2.2 list iterator的使用 1.2.3 list capacity 1.2.4 list element access 1.2.5 list modififiers 1.2.6 list的迭代器失效 2. list的模拟实现 2.1 模拟实现list 2.2 list的反向迭代器 1.…

浅析Linux虚拟网络技术

文章目录 概述Tap/tun设备tun/tap的工作机制 Bridge网桥Bridge的工作机制Bridge IP 相关参考 概述 在传统的网络环境中&#xff0c;一台物理主机包含一张或多张网卡&#xff0c;要实现与其它物理主机之间的通信&#xff0c;需要将自身的网卡通过路由器或者交换机连接到外部的物…

vue3 页面显示中文,分页显示中文

vue3 分页默认为英文 &#xff0c;但想要中文显示 那么在App.vue中的代码为三步即可&#xff0c;引入中文&#xff0c;声明中文 &#xff0c;绑定中文&#xff1b; 1. import zhCn from element-plus/es/locale/lang/zh-cn&#xff1b; 2. let locale zhCn; 3. :locale&q…

【内网穿透】搭建我的世界Java版服务器,公网远程联机

目录 前言 1. 搭建我的世界服务器 1.1 服务器安装java环境 1.2 配置服务端 2. 测试局域网联机 3. 公网远程联机 3.1 安装cpolar内网穿透 3.1.1 windows系统 3.1.2 linux系统&#xff08;支持一键自动安装脚本&#xff09; 3.2 创建隧道映射内网端口 3.3 测试公网远程…