论文浅尝 | Dynamic Weighted Majority for Incremental Learning

 

Yang Lu , Yiu-ming Cheung , Yuan Yan Tang. Dynamic Weighted Majority for Incremental Learning ofImbalanced Data Streams with Concept Drift. In Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence (IJCAI-17)

 

论文链接:http://www.ijcai.org/proceedings/2017/0333.pdf

 

数据流中发生的概念漂移将降低在线学习过程的准确性和稳定性。如果数据流不平衡,检测和修正概念漂移将更具挑战性。目前已经对这两个问题分别进行了深入的研究,但是还没有考虑它们同时出现的情况。在本文中,作者提出了一种基于块的增量学习方法,称为动态加权多数增量学习(DWMIL)来处理具有概念漂移和类不平衡问题的数据流。DWMIL 根据基分类器在当前数据块上的性能,对基分类器进行动态加权,实现了一个整体框架。

Algorithm & Ensemble Framework

算法的输入:在时间点 t 的数据 D^(t)={xi belongs to X,yi belongs to Y}, i=1,...,N, 删除分类器的阈值 theta, 基分类器集合 H^(t-1)={H^(t-1)_1,...,H^(t-1)_m}, 基分类器的权重 w^(t-1), 基分类器的数量 m, 集成的规模大小 T

step 1: 通过集成分类器对输入的进行预测


step 2: 计算当前输入的数据块在基分类器上的错误率 epsilon^t_j, 并更新基分类器的权重

step 3: 移除过时的分类器(权重值小于阈值 theta)并更新基分类器数量


step 4: 构建新的分类器并对其初始化


算法的输出:更新的基分类器集合 H^(t), 基分类器的权重 W^(t), 基分类器的数量 m, 目标预测值 bar_y

本文的算法如下图所示:

Experiments

本文选取了4个合成、2个真实的均具有概念漂移的数据集。并且在集合方法、自适应方法、主动漂移检测方法中各选取了一个具有代表性的作为baseline,分别是:Learn++.NIE(LPN)Recursive Ensemble Approach (REA)Class-Based ensemble for Class Evolution(CBCE),并与Dynamic Weighted Majority (DWM)也进行了比较。对具有概念漂移的合成数据集和实际数据集的实验表明,DWMIL与现有技术相比,性能更好,计算成本更低。

Comparisons:

与现有方法相比,其优点在于以下 4 点:

  1.  能够使非偏移的数据流保持稳定,快速适应新的概念;

  2. 它是完全增量的,即不需要存储以前的数据;

  3.  模型中保持有限数量的分类器以确保高效;

  4. 简单,只需要一个阈值参数。

DWMILDWM相比:

在学习数据流的过程中,DWMILDWM都保留了一些分类器。但是,

  1. 在决定是否创建一个新的分类器时,DWM的依据是单个样本的预测性能。如果数据不平衡,则样本属于多数类的概率比少数类的高得多,并且对多数类样本错误分类的概率较低。因此,DWM在不平衡数据流上创建新分类器的机会很低。事实证明,它可能无法有效地适应新的概念。相比之下,DWMIL为每个数据块创建一个新的分类器,以及时学习新的概念。

  2.  在决定是否移除一个过时或低效的分类器时,DWM中分类器的权重通过固定的参数β减少,并且在归一化之后再次减小。相反,DWMIL根据性能降低了权重,没有任何标准化。因此,如果当前概念与创建分类器的概念类似,则分类器可以持续更长时间来对预测做出贡献。

DWMILLearn++相比:

Learn++DWMIL都是为每个数据块创建分类,并使用分类错误率来调整权重。但是,

  1. 关于降低在过去的数据块上训练的分类器的权重这一问题,Learn++使用了时间衰减函数σ。这个σ取决于两个自由参数:ab,其中不同的值会产生不同的结果。在DWMIL中,减重仅取决于没有自由参数的分类器的性能。

  2. 关于分类器权重的影响因素,在Learn++中,权重不仅取决于当前数据块,还取决于创建的分类器到当前数据块的数据块。在这种情况下,可能会产生偏差。具体来说,如果一个分类器在其创建的数据块上表现得非常好,它将在接下来几个数据块中持续获得更高的权重。如果概念发生变化,那么在旧概念上训练的分类器的高权重将降低预测效果。

  3. 关于分类器的性能,Learn++会保留所有的分类器。如果数据流很长,累积的分类器会增加计算负担,因为它需要评估当前分块上所有过去的分类器的性能。相比之下,DWMIL放弃了过时或无用的分类器来提高计算效率。

笔者认为,这篇文章的主要创新点在于:用数据块的输入代替传统的单一样本输入,使得模型可以更快地对概念漂移作出反应;通过对分类器性能的检测,动态调整它们的权重,并及时剔除过时或低效的分类器,使得模型比较高效。

 

本文作者邓淑敏,浙江大学计算机学院2017级直博生,研究兴趣为知识图谱,描述逻辑,ontology stream。

 



OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480936.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【JavaWeb】数据库基础复习

1 MySQL 数据库特点: 持久化存储数据,数据库就是一个文件系统便于存储和管理数据使用统一的方式操作数据库 启动MySQL服务: 管理员cmd:net start mysql 停止MySQL服务: 管理员cmd:net stop mysql 打开服…

Python的多行输入与多行输出

因为在OJ上做编程,要求标准输入,特别是多行输入。特意查了资料,自己验证了可行性。if __name__ "__main__":strList []for line in sys.stdin: #当没有接受到输入结束信号就一直遍历每一行tempStr line.split()#对字符串利用空…

微服务Dubbo和SpringCloud架构设计、优劣势比较

一、微服务介绍 微服务架构是互联网很热门的话题,是互联网技术发展的必然结果。它提倡将单一应用程序划分成一组小的服务,服务之间互相协调、互相配合,为用户提供最终价值。虽然微服务架构没有公认的技术标准和规范或者草案,但业界…

搜索引擎核心技术与算法 —— 词项词典与倒排索引优化

一只小狐狸带你解锁NLP/ML/DL秘籍作者:QvQ老板~我会写倒排索引啦!我要把它放进咱们自研搜索引擎啦!我呸!你这种demo级代码,都不够当单元测试的!嘤嘤嘤,课本上就是这样讲的呀?!来来&…

论文浅尝 | Distant Supervision for Relation Extraction

Citation: Ji,G., Liu, K., He, S., & Zhao, J. (2017). Distant Supervision for RelationExtraction with Sentence-Level Attention and Entity Descriptions. Ai,3060–3066.动机关系抽取的远程监督方法通过知识库与非结构化文本对其的方式,自动标注数据&am…

使用sklearn做单机特征工程

目录 1 特征工程是什么?2 数据预处理  2.1 无量纲化    2.1.1 标准化    2.1.2 区间缩放法    2.1.3 标准化与归一化的区别  2.2 对定量特征二值化  2.3 对定性特征哑编码  2.4 缺失值计算  2.5 数据变换  2.6 回顾3 特征选择  3.1 Filte…

【JavaWeb】JDBC的基本操作和事务控制+登录和转账案例

1 JDBC操作数据库 1.1 连接数据库 首先导入jar包到lib public class JdbcDemo1 {public static void main(String[] args) throws ClassNotFoundException, SQLException {//1.注册驱动Class.forName("com.mysql.jdbc.Driver");//2.获取数据库连接对象Connection…

Restful、SOAP、RPC、SOA、微服务之间的区别

一、介绍Restful、SOAP、RPC、SOA以及微服务 1.1、什么是Restful? Restful是一种架构设计风格,提供了设计原则和约束条件,而不是架构,而满足这些约束条件和原则的应用程序或设计就是 Restful架构或服务。 主要的设计原则&#xf…

详解深度语义匹配模型DSSM和他的兄弟姐妹

一只小狐狸带你解锁NLP/ML/DL秘籍正文作者:郭耀华正文来源:https://www.cnblogs.com/guoyaohua/p/9229190.html前言在NLP领域,语义相似度的计算一直是个难题:搜索场景下Query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、…

行业新闻 | 阿里发力知识图谱研究 悉数囊括顶尖学者探讨合作

12 月 20 日,阿里巴巴联合中国中文信息学会语言与知识计算专委会(KG专委)举办的知识图谱研讨会在杭州召开。研讨会由阿里巴巴集团副总裁墙辉(花名:玄难)主持,国内知识图谱领域多位顶级专家参加此次研讨会。在阿里巴巴持…

【JavaWeb】JDBC优化 之 数据库连接池、Spring JDBC

1 数据库连接池 为什么要使用数据库连接池? 数据库连接是一件费时的操作,连接池可以使多个操作共享一个连接使用连接池可以提高对数据库连接资源的管理节约资源且高效 概念:数据库连接池其实就是一个容器,存放数据库连接的容器…

Java远程通讯技术及原理分析

在分布式服务框架中,一个最基础的问题就是远程服务是怎么通讯的,在Java领域中有很多可实现远程通讯的技术,例如:RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等,这些名词之间到底是些什么关系呢,它们背…

CUDA层硬件debug之路

前记 众所周知,夕小瑶是个做NLP的小可爱。 虽然懂点DL框架层知识,懂点CUDA和底层,但是我是做算法的哎,平时debug很少会遇到深度学习框架层的bug(上一次还是三年前被pytorch坑),更从没遇到过CUDA…

研讨会 | 知识图谱大咖云集阿里,他们都说了啥

前言12月20日,由阿里巴巴联合中国中文信息学会语言与知识计算专委会(KG专委)举办的知识图谱研讨会在杭州召开。研讨会由阿里巴巴集团副总裁墙辉(玄难)主持,知识图谱领域国内知名专家参与了此次研讨。在阿里巴巴持续发力知识图谱这…

置信区间、P值那点事

在假设检验中,我们常常看到跟P值形影不离的一对区间值, 就是大名鼎鼎的置信区间了。 这置信区间和P值是怎么得来的,我想大多数盆友都不会有什么直观的概念,只会注意P值是否小于0.05或者0.01(根据显著性水平确定)。为了给大伙说清楚…

【JavaWeb】HTML+CSS

1 Web概念概述 JavaWeb是使用Java语言开发基于互联网的项目 软件架构 cs架构:优点【资源加载快、用户体验好】、缺点【安装、部署、维护麻烦】bs架构:优点【开发、安装、部署、维护简单】、缺点【应用过大,用户体验会受影响、对硬件有要求…

深度推荐系统2019年度阅读收藏清单

一只小狐狸带你解锁NLP/ML/DL秘籍正文来源:深度传送门今天是2020年新年工作第一天,祝大家开工大吉,新的一年一切顺利,诸事躺赢!深度传送门也跟很多号主一样,花了点时间分类整理了一下阅读清单(包…

手把手教你协方差分析的SPSS操作

手把手教你协方差分析的SPSS操作 2017-04-27 手把手教你协方差分析的SPSS操作 一、问题与数据 某研究将73例脑卒中患者随机分为现代理疗组(38例)和传统康复疗法组(35例)进行康复治疗,采用Fugl-Meyer运动功能评分法&a…

我对DevOps的理解

一、DevOps的意图 究竟什么是DevOps? 要想回答这个问题,首先要明确DevOps这个过程参与的人员是谁?即开发团队和IT运维团队!那么,DevOps的意图是什么呢?即在两个团队之间,建立良好的沟通和协作,…

【JavaWeb】JavaScript基础篇+高级篇

文章目录1 介绍2 ECMAScript2.1 基本语法2.2 基本对象3 BOM3.1 window窗口对象3.2 location地址栏对象3.3 history历史记录对象4 DOM4.1 概念4.2 核心DOM4.2.1 Document对象4.2.2 Element对象4.2.3 节点对象4.2.4 案例:动态表格4.2.5 内容切换4.2.6 样式设置5 事件5…