树模型（一）孤立森林

树模型（一）孤立森林

news/2025/4/26 20:25:27/文章来源:https://blog.csdn.net/qq_40369277/article/details/133826232

孤立森林（Isolation Forest）算法是西瓜书作者周志华老师的团队研究开发的算法，一般用于结构化数据的异常检测。

异常的定义

针对于不同类型的异常，要用不同的算法来进行检测，而孤立森林算法主要针对的是连续型结构化数据中的异常点。

使用孤立森林的前提是，将异常点定义为那些 “容易被孤立的离群点” —— 可以理解为分布稀疏，且距离高密度群体较远的点。从统计学来看，在数据空间里，若一个区域内只有分布稀疏的点，表示数据点落在此区域的概率很低，因此可以认为这些区域的点是异常的。

异常数据占总样本量的比例很小；
异常点的特征值与正常点的差异很大。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

算法思想

想象这样一个场景，我们用一个随机超平面对一个数据空间进行切割，切一次可以生成两个子空间（也可以想象用刀切蛋糕）。接下来，我们再继续随机选取超平面，来切割第一步得到的两个子空间，以此循环下去，直到每子空间里面只包含一个数据点为止。

直观上来看，我们可以发现，那些密度很高的簇要被切很多次才会停止切割，即每个点都单独存在于一个子空间内，但那些分布稀疏的点，大都很早就停到一个子空间内了。

训练测试过程

单棵树的训练

从训练数据中随机选择 Ψ 个点作为子样本，放入一棵孤立树的根节点；
随机指定一个维度，在当前节点数据范围内，随机产生一个切割点 p —— 切割点产生于当前节点数据中指定维度的最大值与最小值之间；
此切割点的选取生成了一个超平面，将当前节点数据空间切分为2个子空间：把当前所选维度下小于 p 的点放在当前节点的左分支，把大于等于 p 的点放在当前节点的右分支；
在节点的左分支和右分支节点递归步骤 2、3，不断构造新的叶子节点，直到叶子节点上只有一个数据（无法再继续切割）或树已经生长到了所设定的高度。（至于为什么要对树的高度做限制，后续会解释）

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

上图就是对子样本进行切割训练的过程，左图的处于密度较高的区域，因此切割了十几次才被分到了单独的子空间，而右图的落在边缘分布较稀疏的区域，只经历了四次切分就被 “孤立” 了。

整合全部孤立树的结果

由于切割过程是完全随机的，所以需要用 ensemble 的方法来使结果收敛，即反复从头开始切，然后计算每次切分结果的平均值。

获得 t 个孤立树后，单棵树的训练就结束了。接下来就可以用生成的孤立树来评估测试数据了，即计算异常分数 s。对于每个样本 x，需要对其综合计算每棵树的结果，通过下面的公式计算异常得分：

$s(x,\psi)=2^{-\frac{E(h(x))}{c(\psi)}}$

h(x) 为 x 在每棵树的高度，c(Ψ) 为给定样本数 Ψ 时路径长度的平均值，用来对样本 x 的路径长度 h(x) 进行标准化处理。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

上图为孤立树的数目与每个样本点的平均高度的关系，可以看到数目选取在 10 以内时，结果非常不稳定，当数目达到 100 后就趋于收敛了。因此我们在使用过程中，树的棵树设置为 100 即可，如果棵树过少结果可能不稳定，若过多则白白浪费了系统开销。

异常得分

如果异常得分接近 1，那么一定是异常点；

如果异常得分远小于 0.5，那么一定不是异常点；

如果异常得分所有点的得分都在 0.5 左右，那么样本中很可能不存在异常点。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/105594.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

适用于 Golang 的任务调度程序 AGScheduler

适用于 Golang 的任务调度程序 AGScheduler

以前一直使用 Python 的任务调度库 APScheduler（支持任务持久化，支持多种存储方式），但由于没有找到和它功能和使用方式类似的 Golang 库，所以模仿 APScheduler 3.x 写了个简易版本的 AGScheduler。 AGScheduler Advan…

阅读更多...

近地面无人机植被定量遥感与生理参数反演

近地面无人机植被定量遥感与生理参数反演

目录专题一近十年近地面无人机植被遥感文献分析、传感器选择、观测方式及质量控制要点专题二辐射度量与地物反射特性专题三无人机遥感影像辐射与几何处理专题四光在植被叶片与冠层中的辐射传输机理及平面模型应用专题五植被覆盖度与叶面积指数遥感估算更多应用…

阅读更多...

【LeetCode】21. 合并两个有序链表

【LeetCode】21. 合并两个有序链表

1 问题将两个升序链表合并为一个新的升序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。示例 1： 输入：l1 [1,2,4], l2 [1,3,4] 输出：[1,1,2,3,4,4] 示例 2： 输入：l1 [], l2 [] 输出&…

阅读更多...

【Node.js】路由

【Node.js】路由

基础使用写法一： // server.js const http require(http); const fs require(fs); const route require(./route) http.createServer(function (req, res) {const myURL new URL(req.url, http://127.0.0.1)route(res, myURL.pathname)res.end() }).listen…

阅读更多...

毕业设计选题Java+springboot校园新闻资讯系统源码开题 lw 调试

毕业设计选题Java+springboot校园新闻资讯系统源码开题 lw 调试

💕💕作者：计算机源码社 💕💕个人简介：本人七年开发经验，擅长Java、Python、PHP、.NET、微信小程序、爬虫、大数据等，大家有这一块的问题可以一起交流！ 💕&…

阅读更多...

HT for Web (Hightopo) 使用心得（3）- 吸附与锚点

HT for Web (Hightopo) 使用心得（3）- 吸附与锚点

吸附与锚点是 HT for Web 中两个比较重要的概念。这两个概念在执行交互和动画时会经常被用到。吸附，顾名思义，是一个节点吸附到另一个节点上。就像船底的贝类一样，通过吸附到船身，在船移动的时候自己也会跟着移动；而…

阅读更多...

Oracle update 关联更新优化方法

Oracle update 关联更新优化方法

关联更新顾名思义就是指，更新的数据从关联的表中获取并update到目标表。并且该SQL将会是一个天然的嵌套循环。有两种优化思路解决： 1、PLSQL 根据rowid更新是否需要加order by rowid的考量： 如果buffer cache足够大，能够放得下要…

阅读更多...

蓝桥杯双周赛算法心得——三带一（暴力枚举）

蓝桥杯双周赛算法心得——三带一（暴力枚举）

大家好，我是晴天学长，枚举思想，需要的小伙伴可以关注支持一下哦！后续会继续更新的。 1) .三带一 2) .算法思路 1.通过Scanner读取输入的整数n，表示接下来有n个字符串需要处理。 2.使用循环遍历每个字符串：…

阅读更多...

华为端到端战略管理体系（DSTE开发战略到执行）的运作日历图/逻辑图及DSTE三大子流程介绍

华为端到端战略管理体系（DSTE开发战略到执行）的运作日历图/逻辑图及DSTE三大子流程介绍

华为端到端战略管理体系（DSTE开发战略到执行）的运作日历图/逻辑图及DSTE三大子流程介绍本文作者 | 谢宁，《华为战略管理法：DSTE实战体系》、《智慧研发管理》作者添加图片注释，不超过 140 字（可选&#…

阅读更多...

VUE 弹出输入框

VUE 弹出输入框

html代码：主要是设置一个按钮，绑定点击事件 <el-button size="mini" @click="addOrganization(row)">新增</el-button>JS代码：下面是element-ui的代码，里面有邮箱格式匹配公式，应该以后还会用到 element-ui的链接附上&#

阅读更多...

es6（三）—— set（集合）和map的使用

es6（三）—— set（集合）和map的使用

ES6的系列文章目录第一章 Python 机器学习入门之pandas的使用文章目录 ES6的系列文章目录一、set（集合）0. 定义1. 基本使用2.常用方法（1）代码（2）效果（3）遍历二、map0. 定义1. 基…

阅读更多...

Stable Diffusion绘图，lora选择

Stable Diffusion绘图，lora选择

best quality, ultra high res, (photorealistic:1.4), 1girl, off-shoulder white shirt, black tight skirt, black choker, (faded ash gray hair:1), looking at viewer, closeup <lora:koreandolllikeness_v20:0.66> 最佳品质，超高分辨率，&am…

阅读更多...

【C++】继承 -- 详解

【C++】继承 -- 详解

一、继承的概念及定义 1、继承的概念继承 (inheritance) 机制是面向对象程序设计使代码可以复用的最重要的手段，它允许程序员在保持原有类特性的基础上进行扩展，增加功能，这样产生新的类，称派生类。继承呈现了面向对象程序设…

阅读更多...

极限号可以拿到函数的内部吗？【复合函数中极限的进入】

极限号可以拿到函数的内部吗？【复合函数中极限的进入】

极限号无脑直接拿进来 1.1 如果f（极限值）在该点连续，ojbk，拿进来。 1.2 如果f（极限值）不存在或不连续，不能拿进来，出去。

阅读更多...

【操作系统】磁臂黏着现象

【操作系统】磁臂黏着现象

文章目录什么是磁臂黏着？为什么 FCFS（First Come First Service） 可以避免磁臂黏着？为什么 scan，cscan 会产生磁臂黏着？为什么 NsetpScan 可以避免磁臂黏着？NScan 原理简介NScan 避免磁臂黏着的…

阅读更多...

【React】03-React面向组件编程2

【React】03-React面向组件编程2

文章目录 2.6. 组件的生命周期2.6.1. 效果2.6.2. 理解2.6.3. 生命周期流程图(旧)2.6.4. 生命周期流程图(新)2.6.5. 重要的勾子2.6.6. 即将废弃的勾子2.6.7 getSnapshotBeforeUpdate 2.7. 虚拟DOM与DOM Diffing算法2.7.1. 效果2.7.2. 基本原理图 2.6. 组件的生命周期 2.6.1. 效…

阅读更多...

【VASP】POSCAR文件

【VASP】POSCAR文件

【VASP】POSCAR文件前言一、4个常用的输入文件INCAR、POSCAR、POTCAR、KPOINTS INCAR: 计算任务类型是什么？怎么计算？ KPOINTS: 包含了倒易空间点网格的坐标和权重。 POSCAR: 包含元胞的原子坐标信息以及初始速度等信息。 POTCAR: 超软赝势或PAW势函数…

阅读更多...

从零开始学习调用百度地图网页API：二、初始化地图，鼠标交互创建信息窗口

从零开始学习调用百度地图网页API：二、初始化地图，鼠标交互创建信息窗口

目录代码结构headbodyscript 调试代码 <!DOCTYPE html> <html> <head><meta http-equiv"Content-Type" content"text/html; charsetutf-8" /><meta name"viewport" content"initial-scale1.0, user-scalable…

阅读更多...

JMeter分布式

JMeter分布式

一分布式注意事项关闭防火墙控制机和代理机在同一子网控制机和代理机上安装的jmeter和JDK版本要一样关闭jmeter的RMI SSL开关二代理机（agent）的配置修改服务端口打开bin/jmeter.properties文件，修改’server_port’ 将RMI SSL设备…

阅读更多...

Flask (Jinja2) 服务端模板注入漏洞复现

Flask (Jinja2) 服务端模板注入漏洞复现

文章目录 Flask (Jinja2) 服务端模板注入漏洞1.1 漏洞描述1.2 漏洞原理1.3 漏洞危害1.4 漏洞复现1.4.1 漏洞利用 1.5 漏洞防御 Flask (Jinja2) 服务端模板注入漏洞 1.1 漏洞描述说明内容漏洞编号漏洞名称Flask (Jinja2) 服务端模板注入漏洞漏洞评级高危影响版本使用Flask框架…

阅读更多...

最新文章