机器学习笔记:时间序列异常检测

1 异常类型

1.1 异常值outlier

给定输入时间序列\{x_1,\cdots,x_t\},异常值是时间戳值其中观测值x_t与该时间序列的期望值E(x_t)不同。

1.2 波动点(Change Point)

给定输入时间序列\{x_1,\cdots,x_t\},波动点是指在某个时间t,其状态在这个时间序列上表现出与t前后的值不同的特性。

1.3 断层异常(Breakout) 

时序系统中某一时刻的值比前一时刻的值陡增或者陡降很多,之后形态也发生了改变。

2 常见异常检测方法

2.1 基于统计

  • 首先建立一个数据模型。异常是那些同模型不能完美拟合的对象
    • eg,数据分布模型可以通过估计概率分布的参数来创建。如果一个对象不能很好地同该模型拟合,即如果它很可能不服从该分布,则它是一个异常

2.1.1 3σ法则

  • 假如分布满足正态分布,那么  (μ−3σ,μ+3σ)区间内的概率为99.74。
  • 所以可以认为,当数据分布区间超过这个区间时,即可认为是异常数据。

2.1.2 分位数异常检测

  • IQR是第三四分位数减去第一四分位数,大于Q3+1.5*IQR之外的数和小于Q1-1.5*IQR的值被认为是异常值。

2.1.3  Grubbs测试

  • 不断从样本中找出outlier的方法
    • 这里的outlier,是指样本中偏离平均值过远的数据
  • 算法流程

    1. 样本从小到大排序

    2. 求样本的mean和std

    3. 计算此时样本的min/max与mean的差距,距离更远的那个为可疑值

    4. 求可疑值的z-score (standard score),如果大于预先设定的Grubbs临界值,那么就是outlier;

    5. 对剩余序列不断做1~4步(每次检测一个异常点)

  • 局限性:

    1. 它的判断机制是“逐一剔除”,所以每个异常值都要单独计算整个步骤,数据量大吃不消;

    2. 需假定数据服从正态分布或近正态分布。

2.2 基于预测

  • 对于单条时序数据,根据其预测出来的时序曲线和真实的数据相比,求出每个点的残差
  • 对残差序列建模,利用KSigma或者分位数等方法便可以进行异常检测

2.3 基于距离

2.3.1 k-最近邻

  • 数据对象与最近的k个点的距离之和。
  • 很明显,与k个最近点的距离之和越小,异常分越低;与k个最近点的距离之和越大,异常分越大。
  • 设定一个距离的阈值,异常分高于这个阈值,对应的数据对象就是异常点。

2.4 基于密度的方法

2.4.1 Local Outlier Factor (LOF)

  • 给每个数据点都分配一个依赖于邻域密度的离群因子 LOF,进而判断该数据点是否为离群点
    • 好处在于可以量化每个数据点的异常程度(outlierness)
  • 数据点p的局部相对密度(局部异常因子)为点p邻域内点的平均局部可达密度跟数据 点p的局部可达密度的比值(密度越小,越可能是异常点)
      • 数据点P的局部可达密度=P最近邻的平均可达距离的倒数。距离越大,密度越小。
        • 点O的k近邻距离=第k个最近的点跟点O之间的距离。
  • 整体来说,LOF算法流程如下:

    • 对于每个数据点,计算它与其他所有点的距离,并按从近到远排序;

    • 对于每个数据点,找到它的K-Nearest-Neighbor,计算LOF得分。

2.5 基于聚类的方法

  • 小于某个最小尺寸的所有簇视为异常

2.6 基于树的方法

2.6.1 孤立森林

  •  “孤立” (isolation) 指的是 “把异常点从所有样本中孤立出来”

  • 用一个随机超平面对一个数据空间进行切割,切一次可以生成两个子空间
  • 接下来再继续随机选取超平面,来切割第一步得到的两个子空间
  • 以此循环下去,直到每子空间里面只包含一个数据点为止
  • ——>可以发现,那些密度很高的簇要被切很多次才会停止切割(每个点都单独存在于一个子空间内,才会停止切割);但那些分布稀疏的点,大都很早就停到一个子空间内了

  • 孤立森林的算法思想
    • 异常样本更容易快速落入叶子结点
    • 或者说,异常样本在决策树上,距离根节点更近

  • 随机选择m个特征,通过在所选特征的最大值和最小值之间随机选择一个值来分割数据点。
  • 观察值的划分递归地重复,直到所有的观察值被孤立。
  • 获得 t 个孤立树后,单棵树的训练就结束了。接下来就可以用生成的孤立树来评估测试数据了,即计算异常分数 s。
    • 对于每个样本 x,需要对其综合计算每棵树的结果(异常得分):
        • E(h(x))——样本在这t棵孤立树上路径长度的均值
        • c(n)——n个样本构建一个二叉搜索树BST中的末成功搜索平均路径长度
    • 异常得分越大,平均路径长度越小,越容易是孤立点

参考内容:【TS技术课堂】时间序列异常检测

时间序列异常检测综述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/611698.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

京东(天猫淘宝)数据分析工具-鲸参谋系统全功能解析——行业大盘、红蓝海市场、品牌分析、店铺分析、商品分析、竞品监控(区分自营和POP)

作为第三方电商数据平台,鲸参谋电商大数据系统能够为品牌方和商家提供包括行业趋势、热门品牌、店铺分析、单品分析在内的多个层面数据分析,帮助商家做出更加准确的经营决策,提升经营效率,实现精准营销。 下面,我们针…

linux和windows机器下创建共享文件夹

1、安装samba sudo apt-get install samba 2、创建共享文件夹 sudo mkdir /smb sudo chmod 777 /smb/ 3、备份配置 sudo cp /etc/samba/smb.conf /etc/samba/smb.conf.bak 4、修改配置 sudo vim /etc/samba/smb.conf 添加以下信息到文件结尾 [SMB share] #描述信息…

压测必经之路,Jmeter分布式压测教程

01、分布式压测原理 Jemter分布式压测是选择其中一台作为调度机(master),其他机器作为执行机(slave);当然一台机器也可以既做调度机,也做执行机。 调度机执行脚本的时候,master将会…

Springboot的配置文件详解:从入门到精通,解读配置文件的奇妙世界

目录 1、前言 2、介绍 2.1 Springboot配置文件的作用 2.2 Springboot支持的配置文件类型 2.3 Springboot配置文件的加载顺序 3、YAML配置文件 3.1 YAML基本语法介绍 3.2 YAML中的基本数据类型 3.3 YAML中的复合数据类型 3.4 YAML中的配置属性 3.5 YAML中的多环境配置…

Python虚拟环境轻松配置:Jupyter Notebook中的内核管理指南

问题 在Python开发中,一些人在服务器上使用Jupyter Notebook中进行开发。一般是创建虚拟环境后,向Jupyter notebook中添加虚拟环境中的Kernel,后续新建Notebook中在该Kernel中进行开发,这里记录一下如何创建Python虚拟环境以及添…

【python基础教程】print输出函数和range()函数的正确使用方式

嗨喽,大家好呀~这里是爱看美女的茜茜呐 print()有多个参数,参数个数不固定。 有四个关键字参数(sep end file flush),这四个关键字参数都有默认值。 print作用是将objects的内容输出到file中,objects中的…

知名开发者社区Stack Overflow发布《2023 年开发者调查报告》

Stack Overflow成立于2008年,最知名的是它的公共问答平台,每月有超过 1 亿人访问该平台来提问、学习和分享技术知识。是世界上最受欢迎的开发者社区之一。每年都会发布一份关于开发者的调查报告,来了解不断变化的开发人员现状、正在兴起或衰落…

PiflowX-MysqlCdc组件

MysqlCdc组件 组件说明 MySQL CDC连接器允许从MySQL数据库读取快照数据和增量数据。 计算引擎 flink 组件分组 cdc 端口 Inport:默认端口 outport:默认端口 组件属性 名称展示名称默认值允许值是否必填描述例子hostnameHostname“”无是MySQL…

JS 监听网络状态

我们在开发过程中会遇到监听用户网络状态的需求,通过JS可以获取当前的网络状态,包括下载速度、网络延迟、网络在线状态、网络类型等信息 具体获取如下: let info navigator.connection console.log(info)可以看到,包含几个信息…

element plus el-form双列布局及拓展任意布局

1 场景 一般表单我们直接默认布局&#xff0c;也就是单列布局&#xff0c;突然有个人员信息表单&#xff0c;需要双列布局的需求&#xff0c;简单实现并拓展下 2 思路 直接无脑divflex布局实现 3 代码 <template><el-form ref"formRef" :model"fo…

Blazor 错误笔记

1. 运行时问题 Microsoft.NETCore.App.Runtime.Mono.browser-wasm Microsoft.NETCore.App.Runtime.Mono.browser-wasm 是一个 .NET Core 运行时的包&#xff0c;用于在浏览器中运行 .NET Core 应用程序。它是针对 WebAssembly 架构的 .NET Core 运行时&#xff0c;可以在浏览…

Java中CompletableFuture 异步编排的基本使用

一、前言 在复杂业务场景中&#xff0c;有些数据需要远程调用&#xff0c;导致查询时间缓慢&#xff0c;影响以下代码逻辑运行&#xff0c;并且这些浪费时间的逻辑与以后的请求并没有关系&#xff0c;这样会大大增加服务的时间。 假如商品详情页的每个查询&#xff0c;需要如下…

书生·浦语第三次作业

我最近在参加书生浦语大模型实战营&#xff0c;这是第三次作业打卡&#xff01; 如果你也想两周玩转大模型微调&#xff0c;部署与测评全链路。报名链接&#xff1a;invite 书生浦语大模型实战营报名 邀请码可以填026014 一、基础作业&#xff1a;复现课程知识库助手搭建过程…

WEB之HTML练习

第一题&#xff1a;用户注册界面 HTML代码&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><titl…

【Python】使用tkinter设计开发Windows桌面程序记事本(2)

上一篇&#xff1a;【Python】使用tkinter设计开发Windows桌面程序记事本&#xff08;1&#xff09;-CSDN博客 下一篇&#xff1a; 作者发炎 此代码模块是继承上一篇文章的代码模块的基础上开始设计开发的。 如果不知道怎么新建"记事本项目"文件夹&#xff0c;请参…

C++ 多态以及多态的原理

文章目录 多态的概念多态的构成条件虚函数的重写虚函数重写的两个例外 重载、重写(覆盖)、重定义(隐藏)对比C11 final 和 override关键字抽象类接口继承和普通继承多态的原理虚函数表多态的原理 单继承和多继承关系的虚函数表单继承中的虚函数表多继承中的虚函数表 多态的概念 …

Linux安装nginx并设置为开机自启动

1.更新gcc安装包 yum install -y gcc pcre-devel zlib-devel2.下载文件并解压 命令如下 wget https://nginx.org/download/nginx-1.18.0.tar.gz //解压nginx tar -zxvf nginx-1.18.0.tar.gz //进入后进行指定安装位置 ./configure --prefix/usr/local/nginx //安装 make &…

面试宝典之spring框架常见面试题

F1、类的反射机制有啥用&#xff1f; &#xff08;1&#xff09;增加程序的灵活性&#xff0c;可扩展性&#xff0c;动态创建对象。 &#xff08;2&#xff09;框架必备&#xff0c;任何框架的封装都要用反射。&#xff08;框架的灵魂&#xff09; F2、获取Class对象的三种方…

小程序分销商城,打造高效线上购物体验

小程序商城系统&#xff0c;为您带来前所未有的在线购物体验。它不仅提供线上商城购物、在线下单、支付及配送等功能&#xff0c;还凭借其便捷性成为众多商家的首选。 想象一下&#xff0c;商家可以展示琳琅满目的商品&#xff0c;包括图片、文字描述、价格及库存等详尽信息。而…

内网渗透实战攻略

&#x1f308;个人主页: Aileen_0v0 &#x1f525;热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法 &#x1f4ab;个人格言:"没有罗马,那就自己创造罗马~" 目录 介绍 什么是内网&#xff1f; 什么是内网渗透&#xff1f; 内网渗透的目的&#xff1a; 内网…