数据预处理之基于统计的(3σ,Z分数,Boxplot箱线图)异常值检测#matlab

基于统计的异常值检测

1.异常值的含义

异常值是指在数据集中偏离大部分数据的数据,使人怀疑这些数据的偏离并非由随机因素产生,而是产生于完全不同的机制。

异常挖掘(outlier mining)问题由两个子问题构成:(1)如何度量异常。(2)如何有效发现异常。

不同的异常挖掘方法就是通过不同的异常度量方法,构造异常点得分(outlier score),从而发现异常点。

2.异常值的使用背景

异常值的检测有助于识别数据中潜在的问题或异常情况,从而及早发现并解决可能的故障或错误。例如,在制造业中,通过检测流水线上生产的产品数据的异常,可以及时发现生产线的问题并进行修正,提高产品质量;通过住院费用的异常数据挖掘,可以有效的找到不合理的医疗费用支出,找出不规范的医疗行为,控制医疗费用不合理的上涨等。

因此,异常值的检测在数据研究和数学建模中是必不可少的一步。

3.方法理论简介

异常值的检测主要有基于统计、密度、距离、预测和聚类等检测方法,不同类型的数据和不同背景下异常值的检测有不同的适当的方法。

4.基于统计的异常值检测

基于统计的异常数据检测方法主要包括3σ 准则、Z分数、Boxplot(箱线图)等。其中,3σ 准则与Z分数等方法以数据服从正态分布为前提,而Boxplot不严格依赖于正态分布。

4.1 3σ准则

3σ 准则基于正态分布的性质,即大约99.7%的数据点会落在均值(μ)加减3个标准差(σ)的范围内。落在该范围之外的数据点被认为是异常值。
案例数据可从文章底部获得,接下来利用matlab实例代码介绍:

clear all

clc

data1=xlsread('3.6基于统计异常值检测案例数据.xlsx');%假设A为正态分布数据,此处不进行正态分布检验

%此处的data1虽然是42*16,但只是一个对象的一个指标的数据

%所以本文可以直接把data1改成一列

data = reshape(data1, [], 1);

mu = mean(data); % 计算均值

sigma = std(data); % 计算标准差

% 识别异常值

outliers = data(abs(data - mu) > 3*sigma);

disp('异常值:');

disp(outliers);

最终,matlab输出A.xlsx的异常值为15  15  20  20

4.2 Z分数

Z分数是数据点与其均值之间的差除以标准差。Z分数绝对值大于某个阈值(如3)的数据点被认为是异常值。

接下来利用matlab实例代码介绍:

clear all

clc

data1=xlsread('3.6基于统计异常值检测案例数据.xlsx');%假设A为正态分布数据,此处不进行正态分布检验

%此处的data1虽然是42*16,但只是一个对象的一个指标的数据

%所以本文可以直接把data1改成一列

data = reshape(data1, [], 1);

mu = mean(data); % 计算均值

sigma = std(data); % 计算标准差

% 计算Z分数

z_scores = (data - mu) ./ sigma;

% 识别异常值

outliers = data(abs(z_scores) > 3);

disp('异常值:');

disp(outliers);

最终,matlab输出A.xlsx的异常值为15  15  20  20

4.3 Boxplot(箱线图)

Boxplot是一种图形化显示数据分布的方法,它使用四分位数来绘制。箱线图可以帮助我们直观地识别出可能的异常值。

接下来利用matlab实例代码介绍:

clear all

clc

data1=xlsread('3.6基于统计异常值检测案例数据.xlsx');

%此处的data1虽然是42*16,但只是一个对象的一个指标的数据

%所以本文可以直接把data1改成一列

data = reshape(data1, [], 1);

figure;

boxplot(data);

title('箱线图');

xlabel('数据');

ylabel('值');

% MATLAB不会自动标记异常值,但你可以通过观察箱线图来识别它们

% 通常,异常值会被绘制为箱线图外的小点或星号

% 如果你想要根据箱线图计算的界限来识别异常值,你可以手动计算这些界限

Q1 = prctile(data, 25); % 下四分位数

Q3 = prctile(data, 75); % 上四分位数

IQR = Q3 - Q1; % 四分位距

lower_whisker = Q1 - 1.5 * IQR; % 下限

upper_whisker = Q3 + 1.5 * IQR; % 上限

% 识别异常值

outliers = data(data < lower_whisker | data > upper_whisker);

disp('异常值:');

disp(outliers);

最终,matlab输出A.xlsx的异常值为20 20,箱线图如下:

4.4 基于统计的优缺点

·优点:1)异常点检测的统计学方法具有坚实的基础,建立在标准的统计学技术(如分布参数的估计)之上。2)当存在充分的数据和所用的检验类型的知识时,这些检验可能非常有效。

·缺点:1)大部分统计方法都是针对单个属性的,对于多元数据技术方法较少。2)在许多情况下,数据分布是未知的。3)对于高维数据很难估计真实的分布。
案例数据:
链接:https://pan.baidu.com/s/1Mw6xwYvATB3atgrjnrRX6A?pwd=3650 
提取码:3650 
--来自百度网盘超级会员V4的分享

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/26931.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

金融与大模型:引领行业未来的创新融合

前言 在数字化浪潮席卷全球的今天&#xff0c;金融与大模型的结合正成为行业发展的新引擎。这种融合不仅为金融机构带来了前所未有的效率和准确性&#xff0c;也为金融市场的稳定与发展注入了新的活力。本文将基于当前的市场现状&#xff0c;结合金融环境的发展&#xff0c;深…

Java学习-MyBatis学习(四)

代码下载 解决字段名与属性名不一致 ①使用别名emp_name empName解决字段名和属性名不一致 <select id"getAllEmpOld" resultType"Emp"><!--①使用别名emp_name empName解决字段名和属性名不一致-->select eid,emp_name empName,age,sex,em…

图片查看器

目录 一 原型 二 源码 一 原型 二 源码 namespace 图片查看器 {public partial class Form1 : Form{public Form1(){InitializeComponent();}private void Form1_Load(object sender, EventArgs e){//默认显示第一张图片pictureBox1.Image imageList1.Images[0];}private v…

《未选择的路》

2024年&#xff0c;计算机相关专业还值得选择吗&#xff1f; 看到这个话题活动&#xff0c;回想起自己过去做的许多选择&#xff0c;思绪良久。 一首诗送给大家吧。 顾子欣 译 列位&#xff0c;共勉。

【PB案例学习笔记】-21小大写金额转换

写在前面 这是PB案例学习笔记系列文章的第21篇&#xff0c;该系列文章适合具有一定PB基础的读者。 通过一个个由浅入深的编程实战案例学习&#xff0c;提高编程技巧&#xff0c;以保证小伙伴们能应付公司的各种开发需求。 文章中设计到的源码&#xff0c;小凡都上传到了gite…

ARM32开发--IIC时钟案例

知不足而奋进 望远山而前行 目录 文章目录 前言 目标 内容 需求 开发流程 移植驱动 修改I2C实现 测试功能 总结 前言 在现代嵌入式系统开发中&#xff0c;移植外设驱动并测试其功能是一项常见的任务。本次学习的目标是掌握移植方法和测试方法&#xff0c;以实现对开…

【python】flask中Session忽然取不到存储内容怎么办?

尚未确定,后续更新,先别以此为准。 【背景】 用flask写的Web应用,运行不正常,查看原因,发现视图函数a中设定的session内容在视图函数b忽然拿不到了。 【分析】 这个应用在两个服务器间互相Hook,因此可能涉及跨域的问题。 视图函数a设置的session,再次从前端调用视图…

Undertow学习

Undertow介绍 Undertow是一个用java编写的灵活、高性能的web服务器&#xff0c;提供基于NIO的阻塞和非阻塞API。 Undertow有一个基于组合的体系结构&#xff0c;允许您通过组合小型单用途处理程序来构建web服务器。为您提供了在完整的Java EE servlet 4.0容器或低级别非阻塞处…

C# 设置PDF表单不可编辑、或提取PDF表单数据

PDF表单是PDF中的可编辑区域&#xff0c;允许用户填写指定信息。当表单填写完成后&#xff0c;有时候我们可能需要将其设置为不可编辑&#xff0c;以保护表单内容的完整性和可靠性。或者需要从PDF表单中提取数据以便后续处理或分析。 之前文章详细介绍过如何使用免费Spire.PDF…

PHP在线生成查询产品防伪证书系统源码

源码介绍 PHP在线生成查询产品防伪证书系统源码&#xff0c;源码自带90套授权证书模板&#xff0c;带PSD公章模板&#xff0c;证书PSD源文件。 环境要求&#xff1a;PHPMYSQL&#xff0c;PHP 版本请使用PHP5.1 ~5.3。 图片截图 源码安装说明 1.上传所有文件至你的空间服务器…

免费的端口映射工具哪个好用

端口映射&#xff0c;即从一个网络环境下的端口映射到另一个网络环境下访问的过程。通常由软件方式来提供这一过程的实现&#xff0c;或一些客户端工具。当涉及内外网时&#xff0c;如内网端口地址映射到外网地址&#xff0c;即是内网穿透的原理。免费的端口映射工具有哪些&…

PHP和Mysql前后端交互效果实现

一、连接数据库基本函数 mysqli_connect(); 作用&#xff1a;创建数据库连接&#xff0c;打开一个新的mysql的连接。传参顺序&#xff1a;数据库地址、数据库账号、数据库密码 <?phpecho mysqli_connect("localhost",root,root) ?> /*结果&#xff1a;F…

5.6 Python 常用函数

文章目录 1. enumerate枚举函数2. map映射函数3. zip拉链函数4. max,min比较函数4.1 对象比较4.2 列表相关1. 获取列表中的最大值2. 获取列表中的最大数值3. 获取列表中指定索引的最大值4. 获取列表中的最大的绝对值 4.3 字典相关1. 获取字典中key的最大值2. 获取字典中最大val…

翻译《The Old New Thing》- The case of the exception that a catch (…) didn’t catch

The case of the exception that a catch (...) didnt catch - The Old New Thing (microsoft.com)https://devblogs.microsoft.com/oldnewthing/20240405-00/?p109621 Raymond Chen 2024年04月05日 一位客户认为他们修复了一个bug&#xff0c;但他们仍然因为这个bug而崩溃。…

python django初步搭建(一)

记录一次简单的python django使用&#xff0c;后续调用api相关的暂时不想写。。。 一、环境 windows python 3.11.7 django 二、初步搭建 2.1 新建空文件夹 为了方便本次记录&#xff0c;新建了一个空的文件夹来使用。 直接在这里输入cmd 然后按下回车 2.2 安装virtual…

华为数通——奇偶数子网划分与流量控制(QoS)

在华为设备上使用 QoS&#xff08;Quality of Service&#xff09;配置来实现将 IP 地址段 192.168.1.0/24 分成奇数和偶数两个子网&#xff0c;并将它们定向到不同的下一跳&#xff0c;可以通过以下步骤进行配置&#xff1a; 配置 ACL配置流量分类器配置流量行为配置流量策略应…

Vim安装

Vim安装的过程可以根据您使用的操作系统有所不同。以下是在不同系统上安装Vim的详细步骤&#xff1a; 1. Linux系统&#xff08;如Debian/Ubuntu&#xff09; 1.1 检测Vim是否已安装 打开终端&#xff0c;输入vi&#xff0c;然后按两次Tab键。 如果显示了Vim的相关命令&…

前端 JS 经典:package.json 属性详解

前言&#xff1a;package.json 里的字段大致分两部分&#xff0c;一部分标准字段&#xff0c;一部分非标字段。标准字段就是官方定义好的字段&#xff0c;非标字段包括作者自定义字段 1. 标准字段 1.1 name 包名&#xff0c;就是我们用 npm 去下载的名字&#xff0c;就定义在…

vue页面和 iframe多页面无刷新方案和并行存在解决方案

面临问题 : back的后台以jsp嵌套iframe为主, 所以在前端框架要把iframe无刷新嵌套和vue页面进行并行使用,vue的keep-alive只能对虚拟dom树 vtree 进行缓存无法缓存iframe,所以要对iframe进行处理 tab标签的切换效果具体参考若依框架的tab切换,可以去若依看源码,若依源码没有实…

DES文件加密解密(增强版)

1.引入hutool-all的maven依赖 <!-- https://mvnrepository.com/artifact/cn.hutool/hutool-all --> <dependency> <groupId>cn.hutool</groupId> <artifactId>hutool-all</artifactId> <version>5.8.28</version> </depend…