一文总结python的异常数据处理示例

AI应用开发相关目录

本专栏包括AI应用开发相关内容分享,包括不限于AI算法部署实施细节、AI应用后端分析服务相关概念及开发技巧、AI应用后端应用服务相关概念及开发技巧、AI应用前端实现路径及开发技巧
适用于具备一定算法及Python使用基础的人群

  1. AI应用开发流程概述
  2. Visual Studio Code及Remote Development插件远程开发
  3. git开源项目的一些问题及镜像解决办法
  4. python实现UDP报文通信
  5. python实现日志生成及定期清理
  6. Linux终端命令Screen常见用法
  7. python实现redis数据存储
  8. python字符串转字典
  9. python实现文本向量化及文本相似度计算
  10. python对MySQL数据的常见使用
  11. 一文总结python的异常数据处理示例

文章目录

  • AI应用开发相关目录
    • 一、前言
    • 二、代码示例


一、前言

数据是一切应用开发的基础,异常数据处理可以保障数据质量。
本文总结了基于数据分布、聚类算法、树、距离以及概率的异常数据处理算法及其示例。

二、代码示例

数据
在这里插入图片描述
基于数据分布的异常处理算法

# 基于箱线图的异常数据检测
KW_data = data['线路长度'].tolist()
Q1 = np.quantile(KW_data,0.25,interpolation='lower')#下四分位数
Q3 = np.quantile(KW_data,0.75,interpolation='higher')#上四分位数
QE = Q3-Q1max_value = Q3+1.5*QE
min_value = Q3-1.5*QE
error_index = []
for i in range(len(KW_data)):if (KW_data[i]>= min_value) and (KW_data[i] <= max_value):passelse:error_index.append(i)

在这里插入图片描述

基于聚类算法的异常处理算法

# DBSCAN聚类
import numpy as np
from sklearn.cluster import DBSCAN
from sklearn.preprocessing import StandardScaler# 创建数据集
X = np.array(data[['线路长度','导线长度','塔材','挂线金具','混凝土','土石方熨','本体投资']])# 对数据进行标准化处理
X = StandardScaler().fit_transform(X)# 使用DBSCAN算法进行聚类
dbscan = DBSCAN(eps=0.3, min_samples=2)
dbscan.fit(X)# 获取异常数据的索引
outliers_mask = dbscan.labels_ == -1
outliers_indices = np.where(outliers_mask)[0]# 输出异常数据的索引
print("异常数据的索引:", outliers_indices)

在这里插入图片描述

基于树的异常处理算法

# 基于孤立森林的异常数据检测import numpy as np  
from sklearn.ensemble import IsolationForest  
import matplotlib.pyplot as plt  # 生成示例数据  
X = np.array(data[['塔材','本体投资']])# 可多# 使用孤立森林算法进行异常检测  
clf = IsolationForest(contamination='auto')  
pred = clf.fit_predict(X)  # 将预测结果可视化  
plt.scatter(X[:, 0], X[:, 1], c=pred)  
plt.show()

在这里插入图片描述
基于数据间距的异常处理算法

# 基于局部异常因子的异常检测算法import numpy as np  
from sklearn.neighbors import LocalOutlierFactor  # 生成示例数据  
X = np.array(data[['塔材','本体投资']])# 可多# 使用局部异常因子算法进行异常检测  
clf = LocalOutlierFactor(n_neighbors=20, contamination='auto')  
pred = clf.fit_predict(X)  # 将预测结果可视化  
plt.scatter(X[:, 0], X[:, 1], c=pred)  
plt.show()

在这里插入图片描述
基于概率的异常处理算法

# 示例数据集
db_path = os.getcwd()+'\\db.sqlite3'
# 数据读取
gradedb = sqlite3.connect(db_path)
cursor=gradedb.cursor()
cursor.execute("SELECT * FROM returning_files_table;")
Tables=cursor.fetchall()
raw_data  = []
for i in Tables:raw_data.append([i[0],i[1],i[2],i[3],i[4],i[5],i[6],i[7],i[8]])
raw_data = pd.DataFrame(raw_data, columns=['标段', '线路长度', '导线长度', '塔材', '挂线金具', '盘型绝缘子', '混凝土', '土石方熨', '本体投资'])
a0 = raw_data['标段'].tolist()
a1 = [float(i) for i in raw_data['线路长度']]
a2 = [float(i) for i in raw_data['导线长度']]
a3 = [float(i) for i in raw_data['塔材']]
a4 = [float(i) for i in raw_data['挂线金具']]
a5 = raw_data['盘型绝缘子'].tolist()
a6 = [float(i) for i in raw_data['混凝土']]
a7 = [float(i) for i in raw_data['土石方熨']]
a8 = [float(i) for i in raw_data['本体投资']]
data = []
for i in range(len(a0)):data.append([a0[i],a1[i],a2[i],a3[i],a4[i],a5[i],a6[i],a7[i],a8[i]])
data = pd.DataFrame(data, columns=['标段', '线路长度', '导线长度', '塔材', '挂线金具', '盘型绝缘子', '混凝土', '土石方熨', '本体投资'])
# 从数据集中删除PassengerId,Name变量
data.drop(['标段'], axis=1, inplace=True) 
data = data[['线路长度','导线长度','塔材','挂线金具','混凝土','土石方熨','本体投资']]
data.head()
import pandas as pd
from sksos import SOSX = np.array(data[['塔材','本体投资']]) # 两个维度
detector = SOS()
data["score"] = detector.predict(X)
data.sort_values("score", ascending=False).head(10)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/751039.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

理解java特性:抽象类和接口

抽象类 抽象类的意义何在&#xff1f; 表面上看抽象类就是其中的抽象方法 不写方法体 只写一个方法声明&#xff1a; public abstract void eat(); 这个eat方法 在基类中是一个抽象概念 不知道动物要吃什么 动物是一个总体概念 所以继承它的子类必须实现这个方法 把抽象变为…

springboot278基于JavaWeb的鲜牛奶订购系统的设计与实现

鲜牛奶订购系统的设计与实现 摘 要 如今社会上各行各业&#xff0c;都喜欢用自己行业的专属软件工作&#xff0c;互联网发展到这个时候&#xff0c;人们已经发现离不开了互联网。新技术的产生&#xff0c;往往能解决一些老技术的弊端问题。因为传统鲜牛奶订购信息管理难度大&…

VMwareWorkstation16与Ubuntu 22.04.6 LTS下载与安装

一、准备工作 VMware Workstation Pro 16官网下载&#xff1a; https://customerconnect.vmware.com/cn/downloads/info/slug/desktop_end_user_computing/vmware_workstation_pro/16_0。下载需要账号登录。 二、安装 双击exe文件稍等一会会弹出安装程序&#xff0c;如图 这…

FUTR3D论文实验环境配置及运行

项目地址&#xff1a;https://github.com/Tsinghua-MARS-Lab/futr3d 论文地址&#xff1a;https://arxiv.org/abs/2203.10642 环境&#xff1a;Linux、cuda 11.1、python 3.8 1.创建虚拟环境futr conda create -n futr python3.8 -y conda activate futr2.安装pytorch的GPU版本…

Vue中nextTick一文详解

什么是 nextTick&#xff1f; 在 Vue 中&#xff0c;当我们修改数据时&#xff0c;Vue 会自动更新视图。但是&#xff0c;由于 JavaScript 的事件循环机制&#xff0c;我们无法立即得知视图更新完成的时机。这时候&#xff0c;我们就需要使用 nextTick 来获取视图更新完成后的…

Spring Boot(六十八):SpringBoot 整合Apache tika 实现文档内容解析

1 Apache Tika 介绍 Apache Tika 是一个开源的内容检测和分析框架,由Apache软件基金会开发和维护的顶级项目。它可以从各种格式的文件中提取元数据和文本内容。Tika非常适合处理全文搜索、内容分析、翻译、内容提取等需要大量处理和分析文档内容的任务。Apache Tika提供了多种…

Airtest-Selenium升级兼容Selenium 4.0,给你全新体验!

一、前言 在上期更新推文中提到&#xff0c;我们Airtest-Selenium更新到了1.0.6版本&#xff0c;新增支持Selenium4.0的语法&#xff0c;那么我们来看一下Airtest-Selenium更新后有什么新的内容吧~ 二、selenium 4.0有什么新功能 selenium4.0最主要的还是定位元素方法的更新…

力扣--最小覆盖子串--双端队列+滑动窗口

滑动窗口思路&#xff08;双端队列实现&#xff09;&#xff1a; 可以参考一下&#xff1a;力扣hot8---滑动窗口-CSDN博客以及力扣hot9---滑动窗口-CSDN博客。 使用滑动窗口有以下几个步骤&#xff1a;初始化双端队列&#xff08;将s的前t_len个元素入队&#xff0c;此时检验是…

spring源码分析-事务的底层源码-1

这里写自定义目录标题 spring事务的源码分析阅读spring事务源码的前置知识JDBC的事务spring当中和事务相关的对象spring应用程序编码spring事务的源码如何开始研究spring源码当中如何代理bean spring事务的源码分析 最近在研究seata&#xff1b;看了一下spring当中的事务有一点…

第十三届蓝桥杯(C/C++ 大学B组)

目录 试题 A: 九进制转十进制 试题 B: 顺子日期 试题 C: 刷题统计 试题 D: 修剪灌木 试题 E: X 进制减法 试题 F: 统计子矩阵 试题 G: 积木画 试题 H: 扫雷 试题 I: 李白打酒加强版 试题 J: 砍竹子 试题 A: 九进制转十进制 九进制正整数 ( 2022 )转换成十进制等于多…

Hypermesh碰撞安全之安全带缠绕建模

进入安全带建模&#xff08;Analysis→safety→belt routing) ①肩带的创建 注&#xff1a;end types: 表示2D和1D单元的过渡方式 ②腰带的创建 ③修改接触系数

鸿蒙Harmony应用开发—ArkTS声明式开发(容器组件:Tabs)

通过页签进行内容视图切换的容器组件&#xff0c;每个页签对应一个内容视图。 说明&#xff1a; 该组件从API Version 7开始支持。后续版本如有新增内容&#xff0c;则采用上角标单独标记该内容的起始版本。 该组件从API Version 11开始默认支持安全区避让特性(默认值为&#x…

【老旧小区用电安全谁能管?】安科瑞智慧用电安全管理系统解决方案

行业背景 电气火灾指由电气故障引发的火灾。每年以30%的比例高居各类火灾原因之首。以50%到80%的比例高居重特大火灾之首。已成为业界重点关注的对象并为此进行着孜孜不倦的努力。 国务院安委会也于2017年5月至2020年4月年开展了为期3年的电气火灾综合治理工作。在各界努力的…

HJ212协议C#代码解析实现

HJ212协议C#代码解析实现 HJ212协议是环保中一个非常重要的标准协议&#xff08;字符串协议&#xff09;&#xff0c;之前写了两篇C HJ212协议解析的相关博文&#xff1a; 环保 HJ212协议解析基于Qt5.14.2的HJ212 TCP服务端接收解析入库程序 最近在学习C#&#xff0c;所以打算…

Liunx系统部署服务应用常用的命令操作

根目录下文件夹的用途 在 Linux 系统中&#xff0c;各个文件夹有着明确的目的和用途。基于您提供的列表&#xff0c;以下是这些文件夹的基本解释&#xff1a; bin: 存放二进制可执行文件&#xff0c;这些是普通用户和系统管理员常用的基本命令和应用程序。 boot: 包含启动 Li…

人工智能的发展与未来

人工智能&#xff08;Artificial Intelligence&#xff0c;简称 AI&#xff09;是一门极富挑战性的科学&#xff0c;它涉及计算机科学、控制论、信息论、语言学、神经生理学、心理学、数学、哲学等多种学科的相互渗透。人工智能的研究课题广泛&#xff0c;旨在让机器学会思考&a…

开启clas小猫咪后hosts解析失效不起作用

问题描述 开发网站时经常将域名某个域名&#xff0c;如abc.com写入hosts文件将域名解析劫持到127.0.0.1&#xff0c;方便本地测试用。 但在开启小猫咪clas后&#xff0c;hosts失效&#xff0c;访问了域名指向的真实ip。这种情况是引文dns解析被接管&#xff0c;导致hosts不能使…

蓝桥杯刷题|01普及-真题

目录 [蓝桥杯 2013 省 B] 翻硬币 题解 题目背景 题目描述 输入格式 输出格式 输入输出样例 说明/提示 代码及思路 [蓝桥杯 2015 省 B] 移动距离 题目描述 输入格式 输出格式 输入输出样例 说明/提示 代码及思路 [蓝桥杯 2021 国 BC] 大写 题目描述 输入格式 输…

接口幂等性问题和常见解决方案

接口幂等性问题和常见解决方案 1.什么是接口幂等性问题1.1 会产生接口幂等性的问题1.2 解决思路 2.接口幂等性的解决方案2.1 唯一索引解决方案2.2 乐观锁解决方案2.3 分布式锁解决方案2.4 Token解决方案(最优方案) 3 Token解决方案落地3.1 token获取、token校验3.2 自定义注解,…

小蓝的漆房——算法思路

题目链接&#xff1a;1.小蓝的漆房 - 蓝桥云课 (lanqiao.cn) 本题只要是通过枚举的方法&#xff0c;算出涂成每一种颜色所需的天数&#xff0c;最后在所有天数中找出最小值&#xff08;由题可知&#xff0c;最多只有60种颜色&#xff0c;所以可以尝试算出每种颜色所需的时间&am…