异常检测算法之HBOS

前言

HBOS(Histogram-based Outlier Score)核心思想:将样本按照特征分成多个区间,样本数少的区间是异常值的概率大。

原理

该方法为每一个样本进行异常评分,评分越高越可能是异常点。评分模型为:
在这里插入图片描述
假设样本p第 i 个特征的概率密度为Pi ,则p的概率密度可以计算为(多个特征的概率密度的乘积):
在这里插入图片描述
两边取对数:
在这里插入图片描述
概率密度越大,异常评分越小,则两边乘以“-1”:
在这里插入图片描述
即:
在这里插入图片描述
如何计算概率密度,特别是对于连续型数据?最简单的方法是对连续数据进行离散化。离散化的基本思想是设置“断点”,将数据分割成若干个区间。其中,“断点”的设置可以是静态的,也可以是动态的。
对于样本集D,设置合适的“断点”集合,将特征的取值分割成若干个区间。统计区间的样本数,可以构建一个频数直方图H。假设第 i 个特征分割成m 个区间,每个区间统计的样本个数分别为
在这里插入图片描述
频率(概率)分布表
在这里插入图片描述
明显,根据频数直方图H可以计算出所有特征的频率分布。
为什么频率越大,异常评分越小?
在这里插入图片描述
上图是特征c的样本分布例图。直观上,B样本是异常点,A点是正常点。由于,样本A(样本B)关于特征c的概率密度估计可以用特征c在相应区间的频率来近似。显然,特征的取值频率越大,样本的关于该特征的异常评分越小

优缺点

优点:
算法原理简单,复杂度低。

缺点:
1、难以确定最佳的带宽(即每个区间的长度)。
2、高维情形下的效果不佳。
3、特征相互独立的条件比较强。

适用场景

适用于样本维度低的大数据场景。

参数详解

from pyod.models.hbos import HBOS
HBOS(n_bins=10, alpha=0.1, tol=0.5, contamination=0.1)n_bins:样本划分为多少个区间。默认10。contamination:污染度

总结

该算法针对大数据场景特别好用,但是异常识别的效果一般,且针对特征间比较独立的场景。直白点讲该算法就是把数据划分为多个区间,然后根据每个区间的频次根据概率密度函数转化为对应的出现概率,在将这个概率转化为异常分数,以此来区分异常数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/456303.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

字典和json 的区别 和转换

前言:字典和json非常像。接下来比较一下两者的异同 先看一下字典的写法: a {a:1,b:2,c:3} 再看一下json的写法: {"studentInfo":{"id":123456,"stu_name":"Dorra"} } 从形式上看,都是…

Struts2的工作原理及工作流程

众所周知,Struts2是个非常优秀的开源框架,我们能用Struts2框架进行开发,同时能 快速搭建好一个Struts2框架,但我们是否能把Struts2框架的工作原理用语言表达清楚,你表达的原理不需要说出底层是怎么实现的,我…

正则表达式采坑

[a-zA-Z]匹配大小写字符 \w 匹配字母、数字、下划线 {5,7} 表示前面的字符(即:\w)必须至少出现 5 次最多出现 7 次. 合起来就是 >6 少于8个的字符 [a-zA-Z]\w{6,12} --------------》》 就是要输入七位数到十三位&#x…

easyui动态显示和隐藏表头

为什么80%的码农都做不了架构师?>>> var _bt{date:日期,subtime:填写时间,xz:小组,uname:操作人,qdbh:渠道编号,mt:媒体,zh:账户,sjd:时间段,tfwz:投放位置,tfh:投放号,td:团队,sjje:实际金额,jxs:进线数,cb:成本,yxzyjx:有效资源进线,yxzyl:有效资源率…

物联网

如果要说未来什么技术正在或将彻底改变人类生活、工作和娱乐的方式,那必须是物联网。小到各种可穿戴产品,大到汽车、工厂和楼宇,物联网能使一切设备互联并具备智慧。物联网也正改变着产业的格局,索尼、夏普、东芝等日本传统电子设…

理解:复杂度是O(log^n) 就是二分法

冒昧问一下,为什么二分法查找的复杂度是O(log^n)?这是怎么计算的? 你要从1,2,3,4,5,6,7,8里面找到3,分成几步? 第一步,…

浅谈管理数据平台的一些想法

前言: 对于任何使用大数据技术的公司来说,大数据平台特别是Hive来说,维护其高效快速的运行,对整个公司的运作来说至关重要。比如说:某个调度任务失败了造成业务部门的某些报表无法正常产出;hive平台最近速…

MongoDB误删表恢复

一、场景描述公司某工程师执行db.giveget_card.drop(),误将线上表删除。幸好每天都有做备份,这个时候就体现了备份的重要性了,哈哈哈。。。二、模拟故障过程备份数据大小:rs_test01:PRIMARY> use ycsb switched to db ycsb rs_…

linux下kill某个应用

linux命令行与桌面切换快捷键CtrAltF1,CtrAltF7 ps -e | grep abc sudo kill xyz 转载于:https://www.cnblogs.com/cj2014/p/6512354.html

flask中数据库的基本操作-增删改查【备忘】

1.增加数据(就相当于增加一个实例对象) user1 User(namelong,email1006550026qq.com,password123456,role_id1) db.session.add(user1) db.session.commit() 2.修改数据 修改用户表里面的name为long的姓名为:fang 首先查询到名为…

两个文件比较之comm命令

comm命令可用于两个文件之间的比较。它有很多不错的选项可用来调整输出,以便我们执行交集、求差(difference)以及差集操作。 交集:打印出两个文件所共有的行。 求差:打印出指定文件所包含的且互不相同的那些行。…

【转】error while loading shared libraries: xxx.so.x 错误的原因和解决办法

原博客地址:http://www.cnblogs.com/Anker/p/3209876.html#undefined error while loading shared libraries: xxx.so.x" 错误的原因和解决办法 今天在执行一个protobuf程序时,提示error while loading shared libraries: libprotobuf.so.8: cannot…

Flask学习记录之Flask-SQLAlchemy

Flask-SQLAlchemy库让flask更方便的使用SQLALchemy,是一个强大的关系形数据库框架,既可以使用orm方式操作数据库,也可以使用原始的SQL命令. Flask-Migrate 是一个数据迁移框架,需要通过Flask-script库来操作. 一.配置Flask-SQLAlchemy 程序使用的数据库地址需要配置在SQLALCH…

Postico —— OS X 上的免费 PostgreSQL 客户端

Postico 是 OS X 下的一个 PostgreSQL 客户端管理工具。要求 OS X 10.8 或者更新版本。 文章转载自 开源中国社区 [http://www.oschina.net]

hdu 1760 A New Tetris Game(搜索博弈)

题目链接&#xff1a;hdu 1760 A New Tetris Game 题意&#xff1a; 给你一个矩阵&#xff0c;0表示可以放格子&#xff0c;现在给你2*2的格子&#xff0c;lele先放&#xff0c;问是否能赢。 题解&#xff1a; 爆搜。具体看代码 1 #include<bits/stdc.h>2 #define F(i,a,…

flask-restful接口

同flask一样&#xff0c;flask-restful同样支持返回任一迭代器&#xff0c;它将会被转换成一个包含原始 Flask 响应对象的响应&#xff1a; class ArticleApi(Resource):def get(self):return {"hello":"world"},201&#xff0c;{"course":&quo…

如约而至 Nexus 6 的 Android 7.1.1 已经上线

经过近一个月的等待&#xff0c;Google 已正式为 Nexus 6 推送 Android 7.1.1 更新&#xff0c;本次更新版本号为 N6F26Q&#xff0c;可以点击这里下载完整系统镜像或者下载 OTA 升级包。 相比其他 Nexus 和 Pixel 设备&#xff0c;Nexus 6 已经发布了超过两年之久&#xff0c;…

关于jedis2.4以上版本的连接池配置,及工具类

jedis.propertise 注意以前版本的maxAcitve和maxWait有所改变&#xff0c;JVM根据系统环境变量ServerType中的值 取不同的配置&#xff0c;实现多环境&#xff08;测试环境、生产环境&#xff09;集成。 redis.pool.maxTotalredis.pool.maxActive.${ServerType} redis.pool.max…

关于response格式转换

调用图灵机器人api实例&#xff1a; class RobotHandler(WebSocketHandler):def open(self):# print("WebSocket opened",self.request.remote_ip)robot_set.add(self)# 获取websocket的发过来的信息def on_message(self, message):urlhttp://openapi.tuling123.com/…

微软老兵 Antoine LeBlond 将正式离职

Antoine LeBlond (安东勒布朗)是微软众高管之一,他在微软工作将近25年之久,然而他将在下周一,也就是他在微软的第9000天正式离职. 在发给微软众同事的邮件中,勒布朗表示他希望"探索微软之外的世界". 勒布朗在微软Office部门度过了他在微软的前20年时光,并与前微软高管…