异常检测算法之HBOS

前言

HBOS（Histogram-based Outlier Score）核心思想：将样本按照特征分成多个区间，样本数少的区间是异常值的概率大。

原理

该方法为每一个样本进行异常评分，评分越高越可能是异常点。评分模型为：
在这里插入图片描述
假设样本p第 i 个特征的概率密度为Pi ，则p的概率密度可以计算为（多个特征的概率密度的乘积）：

两边取对数：

概率密度越大，异常评分越小，则两边乘以“-1”：

即：

如何计算概率密度，特别是对于连续型数据？最简单的方法是对连续数据进行离散化。离散化的基本思想是设置“断点”，将数据分割成若干个区间。其中，“断点”的设置可以是静态的，也可以是动态的。
对于样本集D，设置合适的“断点”集合，将特征的取值分割成若干个区间。统计区间的样本数，可以构建一个频数直方图H。假设第 i 个特征分割成m 个区间，每个区间统计的样本个数分别为：
在这里插入图片描述
频率（概率）分布表

明显，根据频数直方图H可以计算出所有特征的频率分布。
为什么频率越大，异常评分越小？

上图是特征c的样本分布例图。直观上，B样本是异常点，A点是正常点。由于，样本A（样本B）关于特征c的概率密度估计可以用特征c在相应区间的频率来近似。显然，特征的取值频率越大，样本的关于该特征的异常评分越小。

优缺点

优点：
算法原理简单，复杂度低。

缺点：
1、难以确定最佳的带宽（即每个区间的长度）。
2、高维情形下的效果不佳。
3、特征相互独立的条件比较强。

适用场景

适用于样本维度低的大数据场景。

参数详解

from pyod.models.hbos import HBOS
HBOS(n_bins=10, alpha=0.1, tol=0.5, contamination=0.1)n_bins：样本划分为多少个区间。默认10。contamination：污染度

总结

该算法针对大数据场景特别好用，但是异常识别的效果一般，且针对特征间比较独立的场景。直白点讲该算法就是把数据划分为多个区间，然后根据每个区间的频次根据概率密度函数转化为对应的出现概率，在将这个概率转化为异常分数，以此来区分异常数据。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/456303.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

异常检测算法之HBOS

前言

原理

优缺点

适用场景

参数详解

总结

相关文章

字典和json 的区别和转换

Struts2的工作原理及工作流程

正则表达式采坑

easyui动态显示和隐藏表头

物联网

理解：复杂度是O(log^n) 就是二分法

浅谈管理数据平台的一些想法

MongoDB误删表恢复

linux下kill某个应用

flask中数据库的基本操作-增删改查【备忘】

两个文件比较之comm命令

【转】error while loading shared libraries: xxx.so.x 错误的原因和解决办法

Flask学习记录之Flask-SQLAlchemy

Postico —— OS X 上的免费 PostgreSQL 客户端

hdu 1760 A New Tetris Game(搜索博弈)

flask-restful接口

如约而至 Nexus 6 的 Android 7.1.1 已经上线

关于jedis2.4以上版本的连接池配置，及工具类

关于response格式转换

微软老兵 Antoine LeBlond 将正式离职