异常检测算法之LOF

前言:

LOF:Local outlier factor,即局部异常因子。LOF主要是通过比较每个点p和其邻域点的密度来判断该点是否为异常点,如果点p的密度越低,越可能被认定是异常点。至于密度,是通过点之间的距离来计算的,点之间距离越远,密度越低,距离越近,密度越高,完全符合我们的理解。而且,因为lof对密度的计算是通过点的k邻域来计算,而不是全局计算,因此得名为“局部”异常因子。即LOF是基于密度分析,通过局部的数据密度来检测异常。

原理

LOF算法,是基于密度的离群点检测方法中一个比较有代表性的算法该算法会给数据集中的每个点计算一个离群因子LOF,通过判断LOF是否接近于1来判定是否是离群因子。若LOF远大于1,则认为是离群因子,接近于1,则是正常点

为了叙述LOF算法,首先引入以下概念:
(1)对象p的k距离(距离对象p最近的第k个对象的距离)
对于正整数k,对象p的k距离可记作k-distance§。在样本空间中,存在对象o,它与对象p之间的距离记做d(p,o)。如果满足以下两个条件,我们则认为k-distance§=d(p,o):
1)在样本空间中,至少存在k个对象q,使得d(p,q)<=d(d,o);
2)在样本空间中,至多存在k-1个对象q,使得d(p,q)<d(p,o)。
k−distance§=max||p−o||(样本o和p的最大距离即p的k邻域的最大距离)
显然易见,如果使用k−distance§来量化对象p的局部空间区域范围,那么对于对象密度较大的区域,k−distance§值较小,而对象密度较小的区域,k−distance§值较大。

(2)对象p的第k距离领域
已经对象p的第k距离,那么,与对象p之间距离小于等于k−distance§的对象集合称为对象p的第k距离领域,记作:Nk§
该领域其实是以p为中心, k−distance§为半径的区域内所有对象的集合(不包括p本身)。由于可能同时存在多个第k距离的数据,因此该集合至少包括k个对象。可以想象,离群度越大的对象的范围往往比较大,而离群度比较小的对象范围小。
(3)对象p相对于对象o的可达距离
公式:reachdist(p,o)=max{k−distance(o),||p−o||}
公式的理解可以参考下图,对于两个不同的点p1和p2,它们的可达距离计算是不一样的,对p1来说,因为p1 在 o 的 k 邻域内(可以看出这里的k=3),所以它们的距离就是 k-distance(o) 的距离,也就是等于圆的半径;而对于p2,很明显它不在o的k邻域内,所以它的可达距离就是实际距离,也就是这两点之间的距离。
在这里插入图片描述
(4)局部可达密度
对象p的局部可达密度定义为p的k最近邻点的平均可达距离的倒数(实质也就是p的第k距离邻域内所有可达距离的平均值的导数。越大越好,代表数据聚的越紧凑)
在这里插入图片描述
(5)局部离群点因子
在这里插入图片描述
如果这个比值越接近1,说明p和其K距离邻域内的点密度差不多,p可能和其K距离邻域内的点同属一簇;如果这个比值越小于1,说明p的密度高于其邻域内其他点的密度,p为密集点;如果这个比值越大于1,说明p的密度小于其邻域内其他点的密度,p越可能是异常点。通过这种方式就能在样本空间数据分布不均匀的情况下也可以准确发现离群点。
可以想象下,一个离群点p,它的lrdk(o)是远大于lrdk§的,通过特例很容易看出,这样该算法就可以很好的理解了

优缺点

优点:
LOF算法是一种非监督算法
LOF算法是一种基于密度的算法
LOF算法适合于对不同密度的数据的异常检测

缺点:
检测的数据必须有明显的密度差异
计算比较复杂
应用场景有限

调参

LOF(self, n_neighbors=20, algorithm='auto', leaf_size=30,metric='minkowski', p=2, metric_params=None,contamination=0.1, n_jobs=1)n_neighbors:(int,optional (default = 20 )) - 默认情况下用于kneighbors查询的邻居数。如果n_neighbors大于提供的样本数,则将使用所有样本。Algorithm:({‘auto’ ,‘ball_tree’ ,‘kd_tree’ ,‘brute’} ,可选) -
用于计算最近邻居的算法:
'ball_tree’将使用BallTree
'kd_tree’将使用KDTree
'brute’将使用蛮力搜索。
'auto’将尝试根据传递给fit()方法的值来确定最合适的算法。
注意:在稀疏输入上拟合将使用强力来覆盖此参数的设置。leaf_size:(int,optional (default = 30 )) - 传递给BallTree或KDTree的叶子大小。
这可能会影响构造和查询的速度,以及存储树所需的内存。最佳值取决于问题的性质。Metric:(字符串或可调用,默认’minkowski’) -用于距离计算的度量。
from scikit-learn: [‘cityblock’, ‘cosine’, ‘euclidean’, ‘l1’, ‘l2’, ‘manhattan’]
from scipy.spatial.distance: [‘braycurtis’, ‘canberra’, ‘chebyshev’, ‘correlation’, ‘dice’, ‘hamming’, ‘jaccard’, ‘kulsinski’, ‘mahalanobis’, ‘matching’, ‘minkowski’, ‘rogerstanimoto’, ‘russellrao’, ‘seuclidean’, ‘sokalmichener’, ‘sokalsneath’, ‘sqeuclidean’, ‘yule’]p:(整数,可选(默认值= 2 )) - 来自sklearn.metrics.pairwise.pairwise_distances的Minkowski度量的参数。
当p = 1时,这相当于使用manhattan_distance(l1)。
对于p = 2使用euclidean_distance(l2)。
对于任意p,使用minkowski_distance(l_p)

总结

经实践,发现该算法在面对数据量较大的场景时,执行效率较低。作为基于密度的算法,效果比KNN要好,面对适当的场景,可以尝试法使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/456307.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android属性动画进阶用法

2019独角兽企业重金招聘Python工程师标准>>> 在上周二文章中介绍补间动画缺点的时候有提到过&#xff0c;补间动画是只能对View对象进行动画操作的。而属性动画就不再受这个限制&#xff0c;它可以对任意对象进行动画操作。那么大家应该还记得之前我举的一个例子&am…

5.3linux下C语言socket网络编程简例

原创文章&#xff0c;转载请注明转载字样和出处&#xff0c;谢谢&#xff01; 这里给出在Linux下的简单socket网络编程的实例&#xff0c;使用tcp协议进行通信&#xff0c;服务端进行监听&#xff0c;在收到客户端的连接后&#xff0c;发送数据给客户端&#xff1b;客户端在接受…

parser.add_argument验证格式

article_bp Blueprint(article, __name__, url_prefix/api) api Api(article_bp) parser reqparse.RequestParser() parser.add_argument(name, typestr, help必须填写名称, requiredTrue) channel_fields { id: fields.Integer, cname: fields.String } clas…

异常检测算法之HBOS

前言 HBOS&#xff08;Histogram-based Outlier Score&#xff09;核心思想&#xff1a;将样本按照特征分成多个区间&#xff0c;样本数少的区间是异常值的概率大。 原理 该方法为每一个样本进行异常评分&#xff0c;评分越高越可能是异常点。评分模型为&#xff1a; 假设样…

字典和json 的区别 和转换

前言&#xff1a;字典和json非常像。接下来比较一下两者的异同 先看一下字典的写法&#xff1a; a {a:1,b:2,c:3} 再看一下json的写法&#xff1a; {"studentInfo":{"id":123456,"stu_name":"Dorra"} } 从形式上看&#xff0c;都是…

Struts2的工作原理及工作流程

众所周知&#xff0c;Struts2是个非常优秀的开源框架&#xff0c;我们能用Struts2框架进行开发&#xff0c;同时能 快速搭建好一个Struts2框架&#xff0c;但我们是否能把Struts2框架的工作原理用语言表达清楚&#xff0c;你表达的原理不需要说出底层是怎么实现的&#xff0c;我…

正则表达式采坑

[a-zA-Z]匹配大小写字符 \w 匹配字母、数字、下划线 {5,7} 表示前面的字符&#xff08;即&#xff1a;\w&#xff09;必须至少出现 5 次最多出现 7 次. 合起来就是 >6 少于8个的字符 [a-zA-Z]\w{6,12} --------------》》 就是要输入七位数到十三位&#x…

easyui动态显示和隐藏表头

为什么80%的码农都做不了架构师&#xff1f;>>> var _bt{date:日期,subtime:填写时间,xz:小组,uname:操作人,qdbh:渠道编号,mt:媒体,zh:账户,sjd:时间段,tfwz:投放位置,tfh:投放号,td:团队,sjje:实际金额,jxs:进线数,cb:成本,yxzyjx:有效资源进线,yxzyl:有效资源率…

物联网

如果要说未来什么技术正在或将彻底改变人类生活、工作和娱乐的方式&#xff0c;那必须是物联网。小到各种可穿戴产品&#xff0c;大到汽车、工厂和楼宇&#xff0c;物联网能使一切设备互联并具备智慧。物联网也正改变着产业的格局&#xff0c;索尼、夏普、东芝等日本传统电子设…

理解:复杂度是O(log^n) 就是二分法

冒昧问一下&#xff0c;为什么二分法查找的复杂度是O(log^n)&#xff1f;这是怎么计算的&#xff1f; 你要从1&#xff0c;2&#xff0c;3&#xff0c;4&#xff0c;5&#xff0c;6&#xff0c;7&#xff0c;8里面找到3&#xff0c;分成几步&#xff1f; 第一步&#xff0c;…

浅谈管理数据平台的一些想法

前言&#xff1a; 对于任何使用大数据技术的公司来说&#xff0c;大数据平台特别是Hive来说&#xff0c;维护其高效快速的运行&#xff0c;对整个公司的运作来说至关重要。比如说&#xff1a;某个调度任务失败了造成业务部门的某些报表无法正常产出&#xff1b;hive平台最近速…

MongoDB误删表恢复

一、场景描述公司某工程师执行db.giveget_card.drop()&#xff0c;误将线上表删除。幸好每天都有做备份&#xff0c;这个时候就体现了备份的重要性了&#xff0c;哈哈哈。。。二、模拟故障过程备份数据大小&#xff1a;rs_test01:PRIMARY> use ycsb switched to db ycsb rs_…

linux下kill某个应用

linux命令行与桌面切换快捷键CtrAltF1&#xff0c;CtrAltF7 ps -e | grep abc sudo kill xyz 转载于:https://www.cnblogs.com/cj2014/p/6512354.html

flask中数据库的基本操作-增删改查【备忘】

1.增加数据&#xff08;就相当于增加一个实例对象&#xff09; user1 User(namelong,email1006550026qq.com,password123456,role_id1) db.session.add(user1) db.session.commit() 2.修改数据 修改用户表里面的name为long的姓名为&#xff1a;fang 首先查询到名为…

两个文件比较之comm命令

comm命令可用于两个文件之间的比较。它有很多不错的选项可用来调整输出&#xff0c;以便我们执行交集、求差&#xff08;difference&#xff09;以及差集操作。 交集&#xff1a;打印出两个文件所共有的行。 求差&#xff1a;打印出指定文件所包含的且互不相同的那些行。…

【转】error while loading shared libraries: xxx.so.x 错误的原因和解决办法

原博客地址&#xff1a;http://www.cnblogs.com/Anker/p/3209876.html#undefined error while loading shared libraries: xxx.so.x" 错误的原因和解决办法 今天在执行一个protobuf程序时&#xff0c;提示error while loading shared libraries: libprotobuf.so.8: cannot…

Flask学习记录之Flask-SQLAlchemy

Flask-SQLAlchemy库让flask更方便的使用SQLALchemy,是一个强大的关系形数据库框架,既可以使用orm方式操作数据库,也可以使用原始的SQL命令. Flask-Migrate 是一个数据迁移框架,需要通过Flask-script库来操作. 一.配置Flask-SQLAlchemy 程序使用的数据库地址需要配置在SQLALCH…

Postico —— OS X 上的免费 PostgreSQL 客户端

Postico 是 OS X 下的一个 PostgreSQL 客户端管理工具。要求 OS X 10.8 或者更新版本。 文章转载自 开源中国社区 [http://www.oschina.net]

hdu 1760 A New Tetris Game(搜索博弈)

题目链接&#xff1a;hdu 1760 A New Tetris Game 题意&#xff1a; 给你一个矩阵&#xff0c;0表示可以放格子&#xff0c;现在给你2*2的格子&#xff0c;lele先放&#xff0c;问是否能赢。 题解&#xff1a; 爆搜。具体看代码 1 #include<bits/stdc.h>2 #define F(i,a,…

flask-restful接口

同flask一样&#xff0c;flask-restful同样支持返回任一迭代器&#xff0c;它将会被转换成一个包含原始 Flask 响应对象的响应&#xff1a; class ArticleApi(Resource):def get(self):return {"hello":"world"},201&#xff0c;{"course":&quo…