异常检测算法之IForest

前言

IForest即孤立森林,可以用于做异常检测。一句话总结IForest做异常检测的原理:异常点密度小,基于树模型容易被一下切割出来,正常值密度大,需要切割多次才能得到目标值。

原理

iForest算法得益于随机森林的思想,与随机森林由大量决策树组成一样,iForest森林也由大量的二叉树组成。iForest中的树叫isolation tree,简称iTree。iTree树和决策树不太一样,其构建过程也比决策树简单,是一个完全随机的过程。
每个iTree的实现步骤
1、 假设数据集有N条数据,构建一颗iTree时,从N条数据中均匀抽样(一般是无放回抽样)出ψ个样本出来,作为这颗树的训练样本。
2、 在样本中,随机选一个特征,并在这个特征的所有值范围内(最小值与最大值之间)随机选一个值,对样本进行二叉划分,将样本中小于该值的划分到节点的左边,大于等于该值的划分到节点的右边。由此得到一个分裂条件和左、右两边的数据集。
3、 然后分别在左右两边的数据集上重复上面的过程,直到数据集只有一条记录或者达到了树的限定高度。

获得t个iTree之后,iForest 训练就结束,然后我们可以用生成的iForest来评估测试数据了。对于一个训练数据x,我们令其遍历每一棵iTree,然后计算x最终落在每个树第几层(x在树的高度)。然后我们可以得出x在每棵树的高度平均值,即 the average path length overt iTrees。
获得每个测试数据的average path length后,我们可以设置一个阈值(边界值),average path length 低于此阈值的测试数据即为异常。
在这里插入图片描述
图1 iForest构建iTree示例,异常数据点(17,17)通常离根节点很近

由于异常数据的数量较小且特征值和正常数据差别很大。因此,构建iTree的时候,异常数据离根更近,而正常数据离根更远。一棵iTree的结果往往不可信,iForest算法通过多次抽取样本,构建多棵二叉树。最后整合所有树的结果,并取平均深度作为最终的输出深度,由此计算数据点的异常分值。

优缺点

优点:

iForest具有线性时间复杂度,IForest是集成算法,因此可以用在海量数据集上,通常树的数量越多,算法越稳定。

缺点:

1、不适用与特别高维的数据。由于每次切数据空间都是随机选取一个维度,建完树后仍然有大量的维度信息没有被使用,导致算法可靠性降低。高维空间还可能存在大量噪音维度或无关维度(irrelevant attributes),影响树的构建。对这类数据,建议使用子空间异常检测(Subspace Anomaly Detection)技术
2、iForest仅对Global Anomaly 敏感,即全局稀疏点敏感,不擅长处理局部的相对稀疏点 (Local Anomaly)。目前已有改进方法发表于PAKDD,详见“Improving iForest with Relative Mass”。

适用场景

适用于样本维度不是特别高的场景

参数详解

classpyod.models.iforest.IForest(n_estimators=100, max_samples='auto', contamination=0.1, max_features=1.0, bootstrap=False, n_jobs=1, random_state=None, verbose=0)n_estimators:估算器数量。默认100棵树
max_samples:训练每个估算器(tree)需要抽取的样本数。默认选256个样本建树
int:抽取max_samples个
float:抽取max_samples*X.shape[0](即样本行数)个
auto:抽取min(256, n_samples)个contamination:污染度即假设每个数据集包含的噪声含量
;
max_features:训练每个估算器需要抽取的特征数,高维数据时不必分割所有特征
int:抽取max_features个
float:抽取max_features*X.shape[1]即(样本列数)个<占比>bootstrap:
true:单一树需拟合替换的随机样本
false:进行无需更换的取样n_jobs:并行作业数。-1时,n_jobs为CPU核心数random_state:随机数种子/生成器verbose:控制建树过程

总结

经实践,发现IForest针对数据量大,特征少的业务场景,进行异常识别的效果非常不错。但是需要注意在调整contamination参数的时候,若数据中识别的噪声数据量不满足该参数,则不会做任何处理。即若设置噪声占比为10%,但是模型识别的噪声数量小于10%(比如只识别了7%的噪声),这个时候模型只会返回7%的噪声,并不会按照10%噪声占比量进行返回。一定要注意这种情况,这种情况可能的原因之一:当噪声数据聚成了一个簇时,若实际的噪声占比为15%,但是我初始设置的是contamination为10%。这时候由于有约5%的噪声在模型中对应的深度相同,即异常分数相同,则造成模型最终认为这些数据在当前的参数设定下不能认定为噪声。
PS:该模型最终是将每条数据在IForest中所处的深度转化为一个异常值分数,按照异常值分数进行排序,通过contamination的设定值截取前top的数据作为噪声输出来完成整个噪声识别流程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/456311.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JavaScript - 动态数据

1、使用ajax进行数据的请求 function getData(params){$.ajax({type: "POST", //提交方式data: "{params}", //请求参数url:, //请求接口contentType: "application/text;charsetutf-8",async: false, //是否同步dataType: &quo…

用c#编写爬虫在marinetraffic下载船仅仅图片

近期在做船仅仅识别方面的事情&#xff0c;须要大量的正样本来训练adaboost分类器。于是到marinetraffic这个站点上下载船仅仅图片。写个爬虫来自己主动下载显然非常方便。 站点特点 在介绍爬虫之前首先了解一下marinetraffic这个站点的一些特点&#xff1a; 1. 会定期检測爬虫…

发送手机验证码通过调用第三方网易云信API(flask项目)

一、 获取验证码&#xff1a; 1. 输入手机号码 2. 通过ajax发送请求 3. 后端&#xff1a; 获取手机号码 使用requests向第三方的服务端&#xff08;网易云信&#xff09;发送请求 官方文档 https://dev.yunxin.163.com/docs/product/%E7%9F%AD%E4%BF%A1/%E7%9F…

异常检测算法之LOF

前言&#xff1a; LOF&#xff1a;Local outlier factor&#xff0c;即局部异常因子。LOF主要是通过比较每个点p和其邻域点的密度来判断该点是否为异常点&#xff0c;如果点p的密度越低&#xff0c;越可能被认定是异常点。至于密度&#xff0c;是通过点之间的距离来计算的&…

Android属性动画进阶用法

2019独角兽企业重金招聘Python工程师标准>>> 在上周二文章中介绍补间动画缺点的时候有提到过&#xff0c;补间动画是只能对View对象进行动画操作的。而属性动画就不再受这个限制&#xff0c;它可以对任意对象进行动画操作。那么大家应该还记得之前我举的一个例子&am…

5.3linux下C语言socket网络编程简例

原创文章&#xff0c;转载请注明转载字样和出处&#xff0c;谢谢&#xff01; 这里给出在Linux下的简单socket网络编程的实例&#xff0c;使用tcp协议进行通信&#xff0c;服务端进行监听&#xff0c;在收到客户端的连接后&#xff0c;发送数据给客户端&#xff1b;客户端在接受…

parser.add_argument验证格式

article_bp Blueprint(article, __name__, url_prefix/api) api Api(article_bp) parser reqparse.RequestParser() parser.add_argument(name, typestr, help必须填写名称, requiredTrue) channel_fields { id: fields.Integer, cname: fields.String } clas…

异常检测算法之HBOS

前言 HBOS&#xff08;Histogram-based Outlier Score&#xff09;核心思想&#xff1a;将样本按照特征分成多个区间&#xff0c;样本数少的区间是异常值的概率大。 原理 该方法为每一个样本进行异常评分&#xff0c;评分越高越可能是异常点。评分模型为&#xff1a; 假设样…

字典和json 的区别 和转换

前言&#xff1a;字典和json非常像。接下来比较一下两者的异同 先看一下字典的写法&#xff1a; a {a:1,b:2,c:3} 再看一下json的写法&#xff1a; {"studentInfo":{"id":123456,"stu_name":"Dorra"} } 从形式上看&#xff0c;都是…

Struts2的工作原理及工作流程

众所周知&#xff0c;Struts2是个非常优秀的开源框架&#xff0c;我们能用Struts2框架进行开发&#xff0c;同时能 快速搭建好一个Struts2框架&#xff0c;但我们是否能把Struts2框架的工作原理用语言表达清楚&#xff0c;你表达的原理不需要说出底层是怎么实现的&#xff0c;我…

正则表达式采坑

[a-zA-Z]匹配大小写字符 \w 匹配字母、数字、下划线 {5,7} 表示前面的字符&#xff08;即&#xff1a;\w&#xff09;必须至少出现 5 次最多出现 7 次. 合起来就是 >6 少于8个的字符 [a-zA-Z]\w{6,12} --------------》》 就是要输入七位数到十三位&#x…

easyui动态显示和隐藏表头

为什么80%的码农都做不了架构师&#xff1f;>>> var _bt{date:日期,subtime:填写时间,xz:小组,uname:操作人,qdbh:渠道编号,mt:媒体,zh:账户,sjd:时间段,tfwz:投放位置,tfh:投放号,td:团队,sjje:实际金额,jxs:进线数,cb:成本,yxzyjx:有效资源进线,yxzyl:有效资源率…

物联网

如果要说未来什么技术正在或将彻底改变人类生活、工作和娱乐的方式&#xff0c;那必须是物联网。小到各种可穿戴产品&#xff0c;大到汽车、工厂和楼宇&#xff0c;物联网能使一切设备互联并具备智慧。物联网也正改变着产业的格局&#xff0c;索尼、夏普、东芝等日本传统电子设…

理解:复杂度是O(log^n) 就是二分法

冒昧问一下&#xff0c;为什么二分法查找的复杂度是O(log^n)&#xff1f;这是怎么计算的&#xff1f; 你要从1&#xff0c;2&#xff0c;3&#xff0c;4&#xff0c;5&#xff0c;6&#xff0c;7&#xff0c;8里面找到3&#xff0c;分成几步&#xff1f; 第一步&#xff0c;…

浅谈管理数据平台的一些想法

前言&#xff1a; 对于任何使用大数据技术的公司来说&#xff0c;大数据平台特别是Hive来说&#xff0c;维护其高效快速的运行&#xff0c;对整个公司的运作来说至关重要。比如说&#xff1a;某个调度任务失败了造成业务部门的某些报表无法正常产出&#xff1b;hive平台最近速…

MongoDB误删表恢复

一、场景描述公司某工程师执行db.giveget_card.drop()&#xff0c;误将线上表删除。幸好每天都有做备份&#xff0c;这个时候就体现了备份的重要性了&#xff0c;哈哈哈。。。二、模拟故障过程备份数据大小&#xff1a;rs_test01:PRIMARY> use ycsb switched to db ycsb rs_…

linux下kill某个应用

linux命令行与桌面切换快捷键CtrAltF1&#xff0c;CtrAltF7 ps -e | grep abc sudo kill xyz 转载于:https://www.cnblogs.com/cj2014/p/6512354.html

flask中数据库的基本操作-增删改查【备忘】

1.增加数据&#xff08;就相当于增加一个实例对象&#xff09; user1 User(namelong,email1006550026qq.com,password123456,role_id1) db.session.add(user1) db.session.commit() 2.修改数据 修改用户表里面的name为long的姓名为&#xff1a;fang 首先查询到名为…

两个文件比较之comm命令

comm命令可用于两个文件之间的比较。它有很多不错的选项可用来调整输出&#xff0c;以便我们执行交集、求差&#xff08;difference&#xff09;以及差集操作。 交集&#xff1a;打印出两个文件所共有的行。 求差&#xff1a;打印出指定文件所包含的且互不相同的那些行。…

【转】error while loading shared libraries: xxx.so.x 错误的原因和解决办法

原博客地址&#xff1a;http://www.cnblogs.com/Anker/p/3209876.html#undefined error while loading shared libraries: xxx.so.x" 错误的原因和解决办法 今天在执行一个protobuf程序时&#xff0c;提示error while loading shared libraries: libprotobuf.so.8: cannot…