数据预处理之基于聚类的TOD异常值检测#matlab

1.基于聚类的异常值检测方法

物以类聚——相似的对象聚合在一起,基于聚类的异常点检测方法有两个共同特点:

(1)先采用特殊的聚类算法处理输入数据而得到聚类,再在聚类的基础上来检测异常。

(2)只需要扫描数据集若干次,效率较高,适用于大规模数据集。

2.检测方法计算步骤

基于聚类的异常点检测方法计算如下:

(1)把所有样本按某个聚类方法进行聚类,假设聚为k类:C₁,C₂…Ck

(2)对于每个对象p,计算该对象到每个类之间的距离d(p,Ci)

(3)计算每个对象p的异常因子得分,公式如下:

(4)计算所有对象的因子异常得分的平均值Ave_OF及标准差Dev_OF。

(5)奇异值标定:若OF(p)≥Ave_OF+β·Dve_OF(1≤β≤2),则为奇异值。通常取β=1或1.285。

3.案例数据

以下为图书馆书籍的案例数据,大小为789*16,部分如下图:

4.TOD异常检测案例代码

此处的TOD函数代码为作者自编的代码,如有需要请在公众号:早星数学建模 后台回复TOD,获得相关代码和案例数据。

4.1最优K的确认

基于聚类的异常检测方法的基础是必须先对样本点进行聚类,然而案例数据中所给样本

点个数较多,且维度高难以直观的判断出K-means聚类的参数:聚类数K的值。因此,本文

依据聚类算法中常用的“肘部法则”确定聚类数K的值。

简而言之,“肘部法则”根据计算不同连续K值时,所有样本点SSE的大小进而以斜率

变化大的点(“手肘”)作为聚类数K,此法则简单有效,在聚类算法中常用。对于SSE的计算有:

同理,在聚类算法中,不同K值对应的SSE为:

在MATLAB中编程实现上述“肘部法则”,SSE随K变化如下:

显然,当K>3后,SSE随K不再显著下降,因此可以确定除了异常点之外的样本点可聚为3类。

4.2代码运行与结果

接下来利用matlab查找案例数据中的异常值,以下为matlab代码:

clear

clc

A=xlsread('3.3基于聚类异常值检测案例数据.xlsx','Sheet1','C2:R790');

[B,sum,ab_rate]=TOD(A);

在经过Step.5奇异值标定后,共有42个样本点成为异常点,占5.32%,对应序号如下:

序号

8

127

278

450

606

745

13

162

362

453

632

760

86

172

365

455

650

770

88

188

406

563

678

772

94

226

430

566

698

773

100

273

432

577

713

778

117

277

440

603

715

786

本案例每一个异常的对象的每一个属性特征用所有对象的每一个属性特征的众数来替代。此外,异常值处理不仅仅可以用众数替代,还可以用均值和中位数,还可以用插值等方法替代。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/28914.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

3D Gaussian Splatting Windows安装

1.下载源码 git clone https://github.com/graphdeco-inria/gaussian-splatting --recursive 2.安装cuda NVIDIA GPU Computing Toolkit CUDA Toolkit Archive | NVIDIA Developer 3.安装COLMAP https://github.com/colmap/colmap/releases/tag/3.9.1 下载完成需要添加环…

基于Springboot框架班级综合测评管理系统的设计与实现

开头语:你好呀,我是计算机学姐码农小野!如果有相关需求,可以私信联系我。 开发语言:Java 数据库:MySQL 技术:Springboot框架,B/S模式 工具:MyEclipse 系统展示 首页…

Go 并发控制:RWMutex 实战指南

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

《地下城与勇士》新手攻略,开荒必备!云手机多开教程!

《地下城与勇士》(DNF)是一款广受欢迎的多人在线动作角色扮演游戏。玩家将在游戏中扮演不同职业的角色,通过打怪、做任务、PK等方式不断提升自己,探索广阔的阿拉德大陆。游戏中设有丰富的副本、装备、技能系统,玩家可以…

重磅!草料模板库更新,新增签到报名和旅游模板

本次共更新5个签到报名场景模板,以及6个旅游场景模板。 所有模板内容均可自定义修改,并可免费使用。 签到报名场景 签到报名场景更新了 活动报名、大型活动会议报名、展会邀请函、专题讲座活动报名和技能培训邀约报名 5个模板,基于不同的会…

6.13.1 使用残差神经网络堆叠集成进行乳腺肿块分类和诊断的综合框架

计算机辅助诊断 (CAD) 系统需要将肿瘤检测、分割和分类的自动化阶段按顺序集成到一个框架中,以协助放射科医生做出最终诊断决定。 介绍了使用堆叠的残差神经网络 (ResNet) 模型(即 ResNet50V2、ResNet101V2 和 ResNet152V2)进行乳腺肿块分类…

基于自编码器的心电图信号异常检测(Python)

使用的数据集来自PTB心电图数据库,包括14552个心电图记录,包括两类:正常心跳和异常心跳,采样频率为125Hz。 import numpy as np np.set_printoptions(suppressTrue) import pandas as pd import matplotlib.pyplot as plt import…

reverse-android-淘最热点so

资源 1. com.maihan.tredian 2021版 淘最热点 2. 该 app 没有加壳 ,也没混淆。 登录抓包 POST: https://api.taozuiredian.com/api/v1/auth/login/sms POST /api/v1/auth/login/sms HTTP/1.1 Content-Type: application/json Connection: close Charset: UTF-8 User-Agen…

RabbitMQ实践——在Ubuntu上安装并启用管理后台

大纲 环境安装启动管理后台 RabbitMQ是一款功能强大、灵活可靠的消息代理软件,为分布式系统中的通信问题提供了优秀的解决方案。无论是在大规模数据处理、实时分析还是微服务架构中,RabbitMQ都能发挥出色的性能,帮助开发者构建高效、稳定的系…

夏季河湖防溺水新举措:EasyCVR+AI视频智能监控系统保障水域安全

近日一则新闻引起大众关注,有网友发布视频称,假期在逛西湖时,发现水面上“平躺”漂浮着一名游客在等待救援。在事发3分钟内,沿湖救生员成功将落水游客救到了岸边。 随着夏季的到来,雨水增多,各危险水域水位…

Windows添加用户

以管理员身份进入CMD命令中心,执行以下命令: // net user 用户名 密码 /add net user admin 123456 /add 执行完成会已添加该用户名,可在系统设置中查看更改

免费插件集-illustrator插件-Ai插件-批量加边框

文章目录 1.介绍2.安装3.通过窗口>扩展>知了插件4.功能解释5.总结 1.介绍 本文介绍一款免费插件,加强illustrator使用人员工作效率,进行批量加边框处理。首先从下载网址下载这款插件 https://download.csdn.net/download/m0_67316550/87890501&am…

vscode字符多行自动增长插件。

多行字符自动增长插件CharAutoIncre 当你使用shiftalt选中了多行,并输入了’1’,这时这几行都变成了’1’. 这时你可以选中(shift左键)为’1’的这几行, 接下来按下shiftaltq此时’1’变为了’12345’自增长的样式。 同时本插件支持字符’a-z,A-Z’。 目…

离散数学-代数系统证明题归类

什么是独异点? 运算 在B上封闭,运算 可结合,且存在幺元。 学会合理套用题目公式结合律 零元? 群中不可能有零元 几个结论要熟记: 1.当群的阶为1时,它的唯一元素视作幺元e 2.若群的阶大于1时,…

多标签识别:JoyTag模型的图像标注革命【开源】

公共视觉模型通常会对其训练数据集进行严格过滤,这限制了这些基础模型在广泛概念上的表现,进而限制了表达自由、包容性和多样性。JoyTag通过结合Danbooru 2021数据集和一组手动标记的图像,努力提高模型对不同类型图像的泛化能力。 JoyTag项目…

雪花算法和UUID

目录 雪花算法概念优点和不足优点:缺点:解决方案代码示例 UUID优点与不足优点不足 两种算法的比较应用场景区别 雪花算法 概念 雪花算法是一个分布式id生成算法,它生成的id一般情况下具有唯一性。由64位01数字组成,第一位是符号位,始终为0。…

专业纸箱厂:品质之选

在繁忙的工业园区,我们的纸箱厂以其卓越的品质和高效的生产能力脱颖而出。我们深谙纸箱制造的精髓,不断推陈出新,将传统工艺与现代科技完美结合。我们的纸箱不仅坚固耐用,而且设计独特,能够满足各种包装需求。 田东美达…

宝塔安装了redis但是远程无法连接

服务器:阿里云 宝塔版本:8.0.5 redis版本:7.2.4 操作步骤: 1.在阿里云上开放redis端口:6379 2.在宝塔上开发端口 3.修改redis配置文件: 修改一: 注释:bind 127.0.0.1,…

Chromium 开发指南2024 Mac篇-编译前的准备工作(一)

1.引言 Chromium 是一款开源的网页浏览器项目,作为 Google Chrome 浏览器的基础,其卓越的性能和广泛的应用使其成为众多开发者研究和学习的对象。对于希望深入了解浏览器内核,或是计划在 Chromium 基础上开发自定义浏览器的开发者来说&#…

ANSYS EMC解决方案与经典案例

EMC问题非常复杂,各行各业都会涉及,例如航空、航天、船舶、汽车、火车、高科技、物联网、消费电子。要考虑EMC的对象很多,包含整个系统、设备、PCB、线缆、电源、芯片封装。而且技术领域覆盖广,涉及高频问题、低频问题&#xff1b…