孤立森林【python,机器学习,算法】

作用与特征

孤立森林主要用于样本的异常点检测,异常点检测又被称为离群点检测(outlier detection),那么什么样的数据才能算作异常数据呢,一般情况异常点具有以下两个特性:

  • 异常数据跟样本中大多数数据不太一样。
  • 异常数据在整体数据样本中占比比较小。

直观理解

先简单解释一下什么是孤立森林: 「假设我们用一个随机超平面来切割(split)数据空间(data space), 切一次可以生成两个子空间(想象拿刀切蛋糕一分为二)。

之后我们再继续用一个随机超平面来切割每个子空间,循环下去,直到每子空间里面只有一个数据点为止。

直观上来讲,我们可以发现那些密度很高的簇是可以被切很多次才会停止切割,但是那些密度很低的点很容易很早的就停到一个子空间里了」。

哪些很容易被切分出去的点就会被定义为异常点。

孤立森林构建流程

  1. 构建森林
    那么和随机森林一样,孤立森林由 iTree(isolation tree)组成,iTree树和随机森林的决策树不太一样,构建过程只是一个完全随机的过程。构建步骤如下:
    • 随机选择一个特征tree_feature作为建树的节点。
    • 如果样本只剩一个或者树的路径深度已经超过最大深度,那么可以将当前节点作为叶子节点直接返回。
      • 叶子节点返回值为【0,1】,其中 0 表示叶子节点,1 表示叶子节点的路径长度为 1。
    • 从所选样本中,找出tree_feature
      的最大值和最小值,然后在最大值和最小值之间随机选择一个值作为分割点split_val
    • 构建树的左右节点。
      • 样本中小于split_val的划分到左边节点。
      • 样本中大于等于split_val的划分到右边节点。
    • 返回当前节点信息:【1,left_child,right_child,tree_feature,split_val】。
  2. 使用森林进行评估。
    使用训练好的孤立森林进行数据评估,检测异常数据。具体步骤如下:
    • 遍历每一个样本数据。
    • 计算样本数据的异常分数。计算公式如下:
      • 样本的异常分数 s ( i ) = 2 − E ( h ( i ) ) c ( n ) s(i)=2^{-\frac{E(h(i))}{c(n)}} s(i)=2c(n)E(h(i))
      • 其中 E ( h ( i ) ) E(h(i)) E(h(i))表示样本i的期望路径长度,计算方法如下:
        1. 将样本i带入每课树中,计算其路径长度。
        2. 将计算得到的所有长度相加再除以树的棵树,就得到了样本的期望。
      • 其中二叉搜索树的平均路径长度 c ( n ) = 2 H ( n − 1 ) − 2 ( n − 1 ) n c(n)=2H(n-1)-\frac{2(n-1)}{n} c(n)=2H(n1)n2(n1),用来对结果进行归一化处理。这里的n表示树的数量。
      • 而调和数 H ( n − 1 ) = ln ⁡ n − 1 − ζ H(n-1)=\ln{n-1}-\zeta H(n1)=lnn1ζ,欧拉常数 ζ ≈ 0.5772156649 \zeta \approx 0.5772156649 ζ0.5772156649
    • 根据异常分数判断样本是否为异常点。异常分数的取值范围为0-1,分数越接近 1,表示该点越有可能是异常孤立的点。

代码实现

import numpy as np
import torch
from matplotlib import pyplot as pltdef iTree(X: torch.Tensor, current_path_len, max_tree_height):"""孤立森林中的树:param X: 数据集:param current_path_len: 当前路径长:param max_tree_height: 树高最大值:return: 决策树信息"""# 当前路径长度大于等于树的最大高度或者样本数量小于等于 1,返回叶子节点信息:0 表示叶子节点,以及样本的数量if current_path_len >= max_tree_height or len(X) <= 1:return [0, len(X)]# 随机选取一个样本特征random_select_feature = np.random.randint(0, len(X[0]))# 找到特征下的最大值和最小值feature_max_val = X[:, random_select_feature].max()feature_min_val = X[:, random_select_feature].min()# 在最大值和最小值之间随机选一个值作为分割点separate_val = (np.random.rand() * (feature_max_val - feature_min_val)+ feature_min_val)lchild = iTree(X[X[:, random_select_feature] < separate_val, :],current_path_len + 1, max_tree_height)rchild = iTree(X[X[:, random_select_feature] >= separate_val, :],current_path_len + 1, max_tree_height)# 返回当前节点信息return [1, lchild, rchild, random_select_feature, separate_val]def c(n):"""计算二叉搜索树的平均路径长度,用来对结果进行归一化处理公式:c(n)= 2H( n − 1 ) − 2 ( n − 1 )/nH(i) 表示调和数,近似值为:ln(i)+ ζ,其中 ζ 表示欧拉常数,约等于 0.5772156649,n 表示样本的数量。平均路径长度的期望是一个常数,该公式提供了一个标准化的基准,用于将路径长度标准化。:param n: 表示单棵树中的样本数量:return: 平均路径长度"""return 0 if n == 1 else 2 * (np.log(n - 1) + 0.5772156649) - (2 * (n - 1) / n)def PathLength(x, iTree, current_path_len):"""计算样本在树中的路径长度:param x: 样本:param iTree: 孤立树:param current_path_len: 当前长度:return: 叶子节点的路径长度。"""# 到达叶子节点或者达到最大路长度时,结束计算。if iTree[0] == 0:return current_path_len + c(iTree[1])# 样本中的特征值小于分叉点的值时,搜索左子树if x[iTree[3]] < iTree[4]:return PathLength(x, iTree[1], current_path_len + 1)# 搜索右子树return PathLength(x, iTree[2], current_path_len + 1)def myIForest(X, n_trees, tree_size):"""孤立森林,即构建多颗树:param X:样本集:param n_trees: 树的数量:param tree_size: 每棵树有多少个样本,即采样大小:return: 树的集合"""Ts = []# 树高的最大值max_tree_height = np.ceil(np.log(tree_size))for i in range(n_trees):x_i = np.random.choice(range(len(X)), [tree_size], replace=False)Ts.append(iTree(X[x_i], 0, max_tree_height))return Tsdef anomalyScore(x, Ts, tree_size):"""计算样本的样本的异常分数,异常分数的取值为 0-1,值越大越可能是异常点:param x: 样本:param Ts: 树的集合:param tree_size: 树中包含的样本数量:return: 异常分数值"""# 样本在所有树中的路径长度期望E_x_len = 0for T in Ts:E_x_len += PathLength(x, T, 0)E_x_len /= len(Ts)s = 2 ** (-E_x_len / c(tree_size))return s# %% 定义正常分布、超参数、绘图矩阵
torch.manual_seed(0)
np.random.seed(0)
points = torch.randn([512, 2])
# 将 80 个样本形成一个簇
points[-80:] = torch.randn([80, 2]) / 3 + 4
# 定义树的数量和树的大小
n_tree, tree_size = 100, 256x, y = np.arange(-4.5, 5.5, 0.1), np.arange(-4.5, 5.5, 0.1)
# 网格化
X, Y = np.meshgrid(x, y)XY = np.stack([X, Y], -1)
# 生成和 X 一样大小的 0 矩阵 Z
Z = np.zeros_like(X)
# %% 自定义孤立森林、异常值可视化、决策边界
# 训练树
myTs = myIForest(points, n_tree, tree_size)
# 评分
for i in range(XY.shape[0]):for j in range(XY.shape[1]):Z[i, j] = anomalyScore(XY[i, j], myTs, tree_size)
plt.plot(points[:, 0], points[:, 1], '.', c="purple", alpha=0.3)
# 绘制登高线
plt.contourf(X, Y, Z)
cont = plt.contour(X, Y, Z, levels=[0.55])
plt.clabel(cont, inline=True, fontsize=10)
plt.show()
# %% pyOD孤立森林、异常值可视化、决策边界
from pyod.models.iforest import IForestifor = IForest(n_tree, tree_size, 0.1, random_state=0)
ifor.fit(points)
h, w = XY.shape[0], XY.shape[1]
XY = XY.reshape(-1, 2)
Z = Z.reshape(-1)
Z = ifor.decision_function(XY)
Z = Z.reshape(h, w)
XY = XY.reshape(h, w, 2)plt.plot(points[:, 0], points[:, 1], '.', c="purple", alpha=0.3)
plt.contourf(X, Y, Z)
cont = plt.contour(X, Y, Z, levels=[0])  # 决策边界为0
plt.clabel(cont, inline=True, fontsize=10)
plt.show()

这个示例实现了孤立森林算法,并将实现的算法与第三方库实现的算法进行可视化的比较展示,从结果可以看出,该手撕代码实现与生产结果差异并不大。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/27327.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

activiti(一)-相关概述及相关表的定义

官网 1、概述 Activiti 是一个开源的、以 Java 为中心的业务流程管理&#xff08;BPM&#xff09;平台&#xff0c;旨在帮助企业自动化和管理复杂的业务流程。其核心功能包括工作流管理、任务分配、事件处理、流程监控和集成等。 1.1、主要功能和特点 流程设计和建模&#…

GaussDB技术解读——GaussDB架构介绍(三)

目录 9 智能关键技术方案 智能关键技术一&#xff1a;自治运维系统 智能关键技术二&#xff1a;库内AI引擎 智能关键技术三&#xff1a;智能优化器 10 驱动接口关键技术方案 GaussDB架构介绍&#xff08;二&#xff09;从数据持久化存取层(DataNode)关键技术方案、全局事…

Druid未授权访问漏洞修复

前言 安全组针对系统漏扫发现系统存在Druid未授权访问&#xff0c;会引发泄露系统敏感信息&#xff0c;漏洞链接为ip:端口/druid/index.html&#xff0c;可以清楚的查看数据库的相关连接信息&#xff0c;如下图所示&#xff1a; 漏洞修复 1、关闭Druid监控页面 在Druid的配…

右值引用和移动语义

什么是左值&#xff1f;什么是右值&#xff1f; 通俗来讲&#xff0c;可以出现在赋值语句左侧的&#xff0c;为左值&#xff1b;只能出现在赋值语句右侧的&#xff0c;为右值。 左值与右值的本质区别在于&#xff1a;左值能取地址&#xff0c;但右值不能。 本文主要通过三个场景…

使用星鸾云GPU云服务器搭配Jupyter Lab,创建个人AI大模型

最近我们公司IT部门宣布了一个大事情&#xff0c;他们开发了一款内部用的大模型&#xff0c;叫作一号AI员工&#xff08;其实就是一个聊天机器人&#xff09;&#xff0c;这个一号员工可以回答所有关于公司财务、人事、制度、产品方面的问题。 我问了句&#xff1a;公司加班有…

DevOps的原理及应用详解(一)

本系列文章简介&#xff1a; 在当今快速变化的商业环境中&#xff0c;企业对于软件交付的速度、质量和安全性要求日益提高。传统的软件开发和运维模式已经难以满足这些需求&#xff0c;因此&#xff0c;DevOps&#xff08;Development和Operations的组合&#xff09;应运而生&a…

GMT6绘制北半球

设置绘制区域及投影方式 投影方式选择立体等角投影&#xff0c;在GMT6中的命令是-Js # 定义区域变量和投影变量&#xff0c;纬度从北纬30度到极点 region-180/180/30/90 projection0/90/1:60000000 gmt set PROJ_ELLIPSOID WGS-84定义CPT及地形展示 现在定义一个CPT用于显示…

c++_0基础_讲解5 判断语句

判断语句 C是一种计算机编程语言&#xff0c;其提供了多种判断语句来控制程序的执行流程。判断语句允许程序根据条件判断的结果来选择不同的执行路径。在C中&#xff0c;常用的判断语句有if语句、switch语句和三元运算符。 if语句是最常用的判断语句之一。它的基本形式是if&a…

欧式家居官网源码系统-轻奢大气设计风格

一款家居家私的官方网站系统&#xff0c;设计轻奢大气。 前端内容均可通过后台修改。当然你也可以用于其他行业的官网使用&#xff0c;只要你喜欢这个设计。 大致功能&#xff1a; 1、会员系统 2、支付功能 3、标签功能 4、熊掌号提交功能 5、文章发布功能 6、SEO设置功能 7、多…

[学习笔记] VFX Silhouette

目录 Part 1 : The interface of Silhouettte &#xff08;Silhouette的界面介绍&#xff09; Part 2: The shape divisions and manual roto&#xff08;形状分区和手动roto工作&#xff09;: Part 3: tracking &#xff1a; Part 4: Mocha Tracking Part 5: Motion Blur(…

【单片机毕业设计选题24004】-基于STM32和阿里云的智能鱼缸控制系统

系统功能: 此设计采用STM32单片机将采集到的环境温度,TDS值,PH值等显示在OLED上&#xff0c;并将这些信息上报至阿里云平台。系统可通过阿里云平台或按键开关加热继电器,增氧继电器,水泵继电器和舵机. 主要功能模块原理图: 电源时钟烧录接口: 单片机和按键输入电路: 继电器控…

vscode插件开发之 - menu配置

上一遍博客介绍了如何从0到1搭建vscode插件开发的base code&#xff0c;这遍博客将重点介绍如何配置menu。通常&#xff0c;开发一款插件&#xff0c;会将插件显示在VSCode 左侧的活动栏&#xff08;Activity Bar&#xff09;&#xff0c;那么如何配置让插件显示在Activity Bar…

香橙派鲲鹏Pro(orange pi kunpeng) 开箱测试,和在娱乐功能(电视盒子),深度机器学习应用方面的测试报告

摘要 对Orange Pi kunpeng这个开发板进行综合评测&#xff0c;特别关注其作为电视盒子的性能以及在深度学习应用中的算力和稳定性。通过一个月的测试&#xff0c;我们评估了其硬件性能、软件兼容性、用户体验和实际应用潜力 引言 5月份&#xff0c;我收到了csdn 对Orange P…

LabVIEW阀性能测试平台

项目背景 公司需要开发一套综合测试平台&#xff0c;用于测试汽车气压制动系统控制装置和调节装置的性能。测试平台需满足QC/T标准&#xff0c;并实现多项测试功能&#xff0c;包括密封性测试、静特性测试、动态特性测试等。公司要求系统基于LabVIEW开发&#xff0c;以便于与现…

C++ 06 之 c++增强

c06c增强.cpp #include <iostream>using namespace std; // 1、全局变量检测增强&#xff1a;可以检测出重定义 (c语言不会报错&#xff0c;但是C会报错) //int a; //int a 10;// 2、函数检测增强: 函数返回值类型、形参类型、实参个数 int sum(int a, int b) {return …

【总线】AMBA总线架构的发展历程

目录 引言 发展历程 第一代AMBA&#xff08;AMBA 1&#xff09; 第二代AMBA&#xff08;AMBA 2&#xff09; 第三代AMBA&#xff08;AMBA 3&#xff09; 第四代AMBA&#xff08;AMBA 4&#xff09; 第五代AMBA&#xff08;AMBA 5&#xff09; AMBA协议简介 ASB&#x…

JavaScript快速入门系列-3(函数基础)

第三章:函数基础 3.1 函数定义与调用3.1.1 函数声明3.1.2 函数表达式3.2 参数与返回值3.3 匿名函数与立即执行函数表达式(IIFE)3.3.1 匿名函数3.3.2 立即执行函数表达式3.4 箭头函数3.4.1 箭头函数与this3.5 函数的高级话题3.5.1 闭包3.5.2 函数柯里化3.5.3 高阶函数小结在Jav…

【C++课程学习】:Data类的实现

&#x1f381;个人主页&#xff1a;我们的五年 &#x1f50d;系列专栏&#xff1a;C课程学习 &#x1f389;欢迎大家点赞&#x1f44d;评论&#x1f4dd;收藏⭐文章 目录 &#x1f369;1.头文件 &#x1f369;2.实现文件&#xff1a; &#x1f369;3.分析&#xff1a; &…

GroupJoin算子的实现

PolarIMC 发的一篇挺好的文章&#xff0c;值得阅读。写作很认真&#xff1a; https://help.aliyun.com/zh/polardb/polardb-for-mysql/user-guide/implementation-of-groupjoin

算法训练营第五十九天 | LeetCode 115 不同的子序列、LeetCode 583 两个字符串的删除操作、LeetCode 72 编辑距离

LeetCode 115 不同的子序列 这题和编辑距离比较像&#xff0c;也就是今天的第三题。 这题用动规解决的是多对一的分支子问题推导出当前问题的思路。 同样递推公式由两个字符串平齐&#xff0c;如果当前字符相等&#xff0c;则当前问题可由第一个字符串0~i-1和0~j-1匹配数及0~…