数据挖掘实验(二)数据预处理【等深分箱与等宽分箱】

一、分箱平滑的原理

(1)分箱方法

在分箱前,一定要先排序数据,再将它们分到等深(等宽)的箱中。
常见的有两种分箱方法:等深分箱和等宽分箱。

等深分箱:按记录数进行分箱,每箱具有相同的记录数,每箱的记录数称为箱的权重,也称箱子的深度。
等宽分箱:在整个属性值的区间上平均分布,即每个箱的区间范围设定为一个常量,称为箱子的宽度。

(2)数据平滑

将数据划分到不同的箱子之后,可以运用如下三种策略对每个箱子中的数据进行平滑处理:

平均值平滑:箱中的每一个值被箱中数值的平均值替换。
中值平滑:箱中的每一个值被箱中数值的中值替换。
边界平滑:箱中的最大值和最小值称为箱子的边界,箱中的每一个值被最近的边界值替换。

二、Matlab代码实现

首先用rand()函数随机生成20*5的矩阵,其数据范围为[0,1]。

1.等深分箱

clear;clc; % 清除变量和命令窗口A=rand(20,5); % 随机生成20*5的矩阵,其中每个数取值范围[0,1]
fprintf("当前生成的原数据:\n");
disp(A);% 排序,参数1表示按列排序,取2为按行排序;'ascend'为升序,'descend'为降序
A=sort(A,1,'ascend'); 
fprintf("将原数据的每列排序后:\n"); 
disp(A);h=input("请输入等深分箱的深度h(1<h<20):");% 检查输入变量h是否有效
if ~isnumeric(h) || ~isscalar(h) || h<=1 || h>=20 || h~=floor(h)error("输入变量h必须是一个大于1小于20的正整数");
end%% 对每列进行等深分箱,然后求每个箱子的均值
[n,m]=size(A); % n行m列
B=zeros(n,m); % 预分配输出变量B
for j=1:m % 列jfor i=1:h:n % 行i% 当前箱子第一个数位置为i,最后一个数位置为min(i+h-1,n)p1=int64(i); % 转换成整数(i默认是double类型,但是索引必须要为整数)p2=int64(min(i+h-1,n));B(p1:p2,j)=mean(A(p1:p2,j)); % 当前箱子的均值end
end % 结束行循环fprintf("\n经过等深分箱,用箱均值平滑处理后的数据:\n"); 
disp(B);

for i=1:h:n 的含义是:

  • i 是一个循环变量,它的初始值是 1。
  • h 是一个输入变量,它表示等深分箱的深度。
  • n 是一个由 size 函数得到的变量,它表示矩阵 A 的行数。
  • 这个循环的作用是从第一行开始,每隔 h 行取一行作为一个箱子的起始位置,然后计算这个箱子中所有元素的均值,并赋给输出矩阵 B 的相应位置。

isnumeric 函数是一个用于判断输入是否为数值数组的函数。数值数组是指由数值类型的元素组成的数组,例如整数、浮点数、无穷大或非数字。MATLAB 中的数值类型包括 int8, int16, int32, int64, uint8, uint16, uint32, uint64, single, 和 double。

isnumeric 函数的语法格式是:

TF = isnumeric(A)

其中,A 是输入数组,可以是任意维度的;TF 是输出逻辑值,如果 A 是数值数组,则返回 1 (true),否则返回 0 (false)。

例如,如果 A 是一个包含整数和浮点数的矩阵,那么 isnumeric(A) 将返回 1;如果 A 是一个包含字符串或单元数组的矩阵,那么 isnumeric(A) 将返回 0。

~isscalar(h) 函数是一个逻辑表达式,它用于判断 h 是否不是一个标量。标量是一个大小为 1×1 的二维数组,也就是一个单个的数值。如果 h 不是一个标量,那么 ~isscalar(h) 将返回 1 (true),否则返回 0 (false)。 

 python代码为

import numpy as np # 导入 numpy 库
=A = np.random.rand(20,5) # 随机生成 20*5 的矩阵,其中每个数取值范围 [0,1]
print("当前生成的原数据:")
print(A)# 排序,参数 0 表示按列排序,取 1 为按行排序;'ascend' 为升序,'descend' 为降序
A = np.sort(A, axis=0, kind='quicksort') # 使用快速排序算法
print("将原数据的每列排序后:")
print(A)h = int(input("请输入等深分箱的深度 h (1<h<20):")) # 输入一个整数# 检查输入变量 h 是否有效
if not isinstance(h, int) or h <= 1 or h >= 20: # 如果 h 不是一个大于 1 小于 20 的整数raise ValueError("输入变量 h 必须是一个大于 1 小于 20 的正整数") # 抛出异常# 对每列进行等深分箱,然后求每个箱子的均值
n, m = A.shape # n 行 m 列
B = np.zeros((n,m)) # 预分配输出变量 B
for j in range(m): # 列 jfor i in range(0, n, h): # 行 i# 当前箱子第一个数位置为 i,最后一个数位置为 min(i+h,n)p1 = int(i) # 转换成整数 (i 默认是 double 类型,但是索引必须要为整数)p2 = int(min(i+h,n))B[p1:p2,j] = np.mean(A[p1:p2,j]) # 当前箱子的均值print("\n经过等深分箱,用箱均值平滑处理后的数据:")
print(B)
代码运行结果

输入的深度为3:

当前生成的原数据:
A =0.4067    0.4504    0.5747    0.5154    0.99690.6669    0.2057    0.3260    0.6575    0.55350.9337    0.8997    0.4564    0.9509    0.51550.8110    0.7626    0.7138    0.7223    0.33070.4845    0.8825    0.8844    0.4001    0.43000.7567    0.2850    0.7209    0.8319    0.49180.4170    0.6732    0.0186    0.1343    0.07100.9718    0.6643    0.6748    0.0605    0.88770.9880    0.1228    0.4385    0.0842    0.06460.8641    0.4073    0.4378    0.1639    0.43620.3889    0.2753    0.1170    0.3242    0.82660.4547    0.7167    0.8147    0.3017    0.39450.2467    0.2834    0.3249    0.0117    0.61350.7844    0.8962    0.2462    0.5399    0.81860.8828    0.8266    0.3427    0.0954    0.88620.9137    0.3900    0.3757    0.1465    0.93110.5583    0.4979    0.5466    0.6311    0.19080.5989    0.6948    0.5619    0.8593    0.25860.1489    0.8344    0.3958    0.9742    0.89790.8997    0.6096    0.3981    0.5708    0.5934将原数据的每列排序后:
A =0.1489    0.1228    0.0186    0.0117    0.06460.2467    0.2057    0.1170    0.0605    0.07100.3889    0.2753    0.2462    0.0842    0.19080.4067    0.2834    0.3249    0.0954    0.25860.4170    0.2850    0.3260    0.1343    0.33070.4547    0.3900    0.3427    0.1465    0.39450.4845    0.4073    0.3757    0.1639    0.43000.5583    0.4504    0.3958    0.3017    0.43620.5989    0.4979    0.3981    0.3242    0.49180.6669    0.6096    0.4378    0.4001    0.51550.7567    0.6643    0.4385    0.5154    0.55350.7844    0.6732    0.4564    0.5399    0.59340.8110    0.6948    0.5466    0.5708    0.61350.8641    0.7167    0.5619    0.6311    0.81860.8828    0.7626    0.5747    0.6575    0.82660.8997    0.8266    0.6748    0.7223    0.88620.9137    0.8344    0.7138    0.8319    0.88770.9337    0.8825    0.7209    0.8593    0.89790.9718    0.8962    0.8147    0.9509    0.93110.9880    0.8997    0.8844    0.9742    0.9969请输入等深分箱的深度h(1<h<20):3经过等深分箱,用箱均值平滑处理后的数据:
B =0.2615    0.2013    0.1273    0.0521    0.10880.2615    0.2013    0.1273    0.0521    0.10880.2615    0.2013    0.1273    0.0521    0.10880.4262    0.3195    0.3312    0.1254    0.32790.4262    0.3195    0.3312    0.1254    0.32790.4262    0.3195    0.3312    0.1254    0.32790.5472    0.4519    0.3899    0.2633    0.45270.5472    0.4519    0.3899    0.2633    0.45270.5472    0.4519    0.3899    0.2633    0.45270.7360    0.6490    0.4443    0.4851    0.55410.7360    0.6490    0.4443    0.4851    0.55410.7360    0.6490    0.4443    0.4851    0.55410.8526    0.7247    0.5611    0.6198    0.75290.8526    0.7247    0.5611    0.6198    0.75290.8526    0.7247    0.5611    0.6198    0.75290.9157    0.8478    0.7031    0.8045    0.89060.9157    0.8478    0.7031    0.8045    0.89060.9157    0.8478    0.7031    0.8045    0.89060.9799    0.8979    0.8495    0.9626    0.96400.9799    0.8979    0.8495    0.9626    0.9640

2.等宽分箱

输入箱子的宽度w(0<w<1),将每列按等宽分箱,然后用箱均值平滑。

clear;clc; % 清除变量和命令窗口%A=rand(20,5); % 随机生成20*5的矩阵,其中每个数取值范围[0,1]
A=[ 0.5038    0.3600    0.6690    0.1432    0.94190.6128    0.4542    0.5002    0.5594    0.65590.8194    0.3864    0.2180    0.0046    0.45190.5319    0.7756    0.5716    0.7667    0.83970.2021    0.7343    0.1222    0.8487    0.53260.4539    0.4303    0.6712    0.9168    0.55390.4279    0.6938    0.5996    0.9870    0.68010.9661    0.9452    0.0560    0.5051    0.36720.6201    0.7842    0.0563    0.2714    0.23930.6954    0.7056    0.1525    0.1008    0.57890.7202    0.1093    0.0196    0.5078    0.86690.3469    0.3899    0.4352    0.5856    0.40680.5170    0.5909    0.8322    0.7629    0.11260.5567    0.4594    0.6174    0.0830    0.44380.1565    0.0503    0.5201    0.6616    0.30020.5621    0.2287    0.8639    0.5170    0.40140.6948    0.8342    0.0977    0.1710    0.83340.4265    0.0156    0.9081    0.9386    0.40360.8363    0.8637    0.1080    0.5905    0.39020.7314    0.0781    0.5170    0.4406    0.3604];
fprintf("当前生成的原数据:\n");
disp(A);
% 排序,参数1表示按列排序,取2为按行排序;'ascend'为升序,'descend'为降序
A=sort(A,1,'ascend'); 
fprintf("将原数据的每列排序后:\n"); 
disp(A);w=input("请输入等宽分箱的宽度w(0<w<1):");
% 检查输入变量w是否有效
if ~isnumeric(w) || ~isscalar(w) || w<=0error("输入变量w必须是一个大于0小于1的正数");
end%% 对每列进行等宽分箱,然后求每个箱子的均值
[n,m]=size(A); % n行m列
B=zeros(n,m); % 预分配输出变量B
for j=1:m % 列jpos=1; % 当前箱子第一个数的位置A(n+1,j)=18e9; % 保证i=n+1时,A(i,j)-A(pos,j)>w一定成立for i=1:n+1  % 行iif A(i,j)-A(pos,j)>w % 当前箱子最后一个数的位置为i-1B(pos:i-1,j)=mean(A(pos:i-1,j)); % 当前箱子的均值pos=i; % 更新为下一个箱子的第一个数的位置endend
endfprintf("\n经过等宽分箱,用箱均值平滑处理后的数据:\n"); 
disp(B);

if A(i,j)-A(pos,j)>w

这段代码的作用是判断当前元素是否属于当前箱子。如果当前元素与当前箱子的第一个元素的差大于 w,那么说明当前元素已经超出了当前箱子的范围,需要开始新的一个箱子;如果不大于 w,那么说明当前元素还在当前箱子内,继续循环。

代码运行结果

输入的宽度为0.2:

当前生成的原数据:
A =0.5038    0.3600    0.6690    0.1432    0.94190.6128    0.4542    0.5002    0.5594    0.65590.8194    0.3864    0.2180    0.0046    0.45190.5319    0.7756    0.5716    0.7667    0.83970.2021    0.7343    0.1222    0.8487    0.53260.4539    0.4303    0.6712    0.9168    0.55390.4279    0.6938    0.5996    0.9870    0.68010.9661    0.9452    0.0560    0.5051    0.36720.6201    0.7842    0.0563    0.2714    0.23930.6954    0.7056    0.1525    0.1008    0.57890.7202    0.1093    0.0196    0.5078    0.86690.3469    0.3899    0.4352    0.5856    0.40680.5170    0.5909    0.8322    0.7629    0.11260.5567    0.4594    0.6174    0.0830    0.44380.1565    0.0503    0.5201    0.6616    0.30020.5621    0.2287    0.8639    0.5170    0.40140.6948    0.8342    0.0977    0.1710    0.83340.4265    0.0156    0.9081    0.9386    0.40360.8363    0.8637    0.1080    0.5905    0.39020.7314    0.0781    0.5170    0.4406    0.3604将原数据的每列排序后:
A =0.1565    0.0156    0.0196    0.0046    0.11260.2021    0.0503    0.0560    0.0830    0.23930.3469    0.0781    0.0563    0.1008    0.30020.4265    0.1093    0.0977    0.1432    0.36040.4279    0.2287    0.1080    0.1710    0.36720.4539    0.3600    0.1222    0.2714    0.39020.5038    0.3864    0.1525    0.4406    0.40140.5170    0.3899    0.2180    0.5051    0.40360.5319    0.4303    0.4352    0.5078    0.40680.5567    0.4542    0.5002    0.5170    0.44380.5621    0.4594    0.5170    0.5594    0.45190.6128    0.5909    0.5201    0.5856    0.53260.6201    0.6938    0.5716    0.5905    0.55390.6948    0.7056    0.5996    0.6616    0.57890.6954    0.7343    0.6174    0.7629    0.65590.7202    0.7756    0.6690    0.7667    0.68010.7314    0.7842    0.6712    0.8487    0.83340.8194    0.8342    0.8322    0.9168    0.83970.8363    0.8637    0.8639    0.9386    0.86690.9661    0.9452    0.9081    0.9870    0.9419请输入等宽分箱的宽度w(0<w<1):0.2经过等宽分箱,用箱均值平滑处理后的数据:
B =0.2352    0.0633    0.1038    0.1005    0.21740.2352    0.0633    0.1038    0.1005    0.21740.2352    0.0633    0.1038    0.1005    0.21740.5213    0.0633    0.1038    0.1005    0.43120.5213    0.3413    0.1038    0.1005    0.43120.5213    0.3413    0.1038    0.3560    0.43120.5213    0.3413    0.1038    0.3560    0.43120.5213    0.3413    0.1038    0.5610    0.43120.5213    0.4837    0.5373    0.5610    0.43120.5213    0.4837    0.5373    0.5610    0.43120.5213    0.4837    0.5373    0.5610    0.43120.5213    0.4837    0.5373    0.5610    0.43120.5213    0.7702    0.5373    0.5610    0.43120.7496    0.7702    0.5373    0.5610    0.63830.7496    0.7702    0.5373    0.8467    0.63830.7496    0.7702    0.7591    0.8467    0.63830.7496    0.7702    0.7591    0.8467    0.87050.7496    0.7702    0.7591    0.8467    0.87050.7496    0.7702    0.7591    0.8467    0.87050.9661    0.9452    0.9081    0.9870    0.8705

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/99222.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Altium Designer实用系列(二)----PCB绘图小技巧

一、技巧总结 1.1 丝印大小 在导入PCB之后&#xff0c;元器件的丝印一般都是strock font&#xff0c;个人感觉比较大&#xff0c;也不美观&#xff0c;但是一个个修改成true type又比较麻烦。简便方法是使用相似查找全部修改:   此时会选中所有stroke 类型的丝印&#xff…

【Java】微服务——RabbitMQ消息队列(SpringAMQP实现五种消息模型)

目录 1.初识MQ1.1.同步和异步通讯1.1.1.同步通讯1.1.2.异步通讯 1.2.技术对比&#xff1a; 2.快速入门2.1.RabbitMQ消息模型2.4.1.publisher实现2.4.2.consumer实现 2.5.总结 3.SpringAMQP3.1.Basic Queue 简单队列模型3.1.1.消息发送3.1.2.消息接收3.1.3.测试 3.2.WorkQueue3.…

GB/T 7134-2008 浇筑型工业有机玻璃板材检测

非改性浇筑PMMA板材是指甲基丙烯酸甲酯均聚物板材&#xff0c;或者甲基丙烯酸甲酯与丙烯酸酯类或甲基丙烯酸酯类单体的共聚物板材&#xff0c;通过适当的引发剂本体聚合生产。 GB/T 7134-2008浇筑型工业有机玻璃板材测试项目&#xff1a; 测试项目 测试方法 拉伸强度 GB/T …

电脑技巧:推荐一款桌面增强工具AquaSnap(附下载)

下载&#xff1a;飞猫盘&#xff5c;文件加速传输工具&#xff5c;云盘&#xff5c;橘猫旗下新概念云平台&#xff0c;取件码&#xff1a;ZdRW 一、软件介绍 AquaSnap(界面增强软件)是一款功能强大的界面增强软件。这款软件支持屏幕边缘吸附与屏幕分屏即多显示器控制、摇晃窗口…

【golang】go 返回参数 以及go中 裸返

一、Go 返回参数命名 在Golang中&#xff0c;命名返回参数通常称为命名参数。 Golang允许在函数签名或定义中为函数的返回或结果参数指定名称。或者可以说这是函数定义中返回变量的显式命名。基本上&#xff0c;它解决了在return语句中提及变量名称的要求。 通过使用命名返回参…

Linux 守护进程

一 何为守护进程 守护进程&#xff08; Daemon &#xff09;也称为精灵进程&#xff0c;是运行在后台的一种特殊进程&#xff0c;它独立于控制终端并且周期性 地执行某种任务或等待处理某些事情的发生&#xff0c;主要表现为以下两个特点&#xff1a; 长期运行。守护进程是一…

视频号直播弹幕采集

系列文章目录 websocket逆向http拦截websocket拦截视频号直播弹幕采集 系列文章目录前言技术分析分析技术选择前提准备事件分析消息去重用户进房用户发言用户送礼用户点赞用户唯一id前言 很多小伙伴倒在了礼物事件,还有用户唯一标识下。 本篇文章将讲解视频号直播弹幕的获取的…

gitlab登录出现的Invalid login or password问题

前提 我是在一个项目里创建的gitlab账号&#xff0c;想在别的项目里登录或者官网登录发现怎么都登陆不上 原因 在GitLab中&#xff0c;有两种不同的账号类型&#xff1a;项目账号和个人账号&#xff08;官网账号&#xff09;。 项目账号&#xff1a;项目账号是在特定GitLab…

某果的一个小参数分析

分析链接:aHR0cHM6Ly9hcHBsZWlkLmFwcGxlLmNvbS9hY2NvdW50 分析目标&#xff1a;X-Apple-I-Fd-Client-Info 1.在浏览器搜索关键词&#xff0c;打下断点 我们再里面进行搜索&#xff0c;定位到这个位置&#xff0c;可以看到X-Apple-I-FD-Client-Info这个参数等于e&#xff0c;…

【C++设计模式之解释器模式:行为型】分析及示例

简介 解释器模式&#xff08;Interpreter Pattern&#xff09;是一种行为型设计模式&#xff0c;它提供了一种解决问题的方法&#xff0c;通过定义语言的文法规则&#xff0c;解释并执行特定的语言表达式。 解释器模式通过使用表达式和解释器&#xff0c;将文法规则中的句子逐…

python内置模块winreg,以及使用winreg模块获取所有当前windows电脑已安装应用的安装信息

winreg模块 进入系统注册表的方法多种多样,最常见的就是运行窗口输入命令“regedit”,即可进入注册表,而Python的winreg模块可以对注册表进行一系列操作 "winreg"中的各个常量 注册表地址(HKEY_ )常量 winreg.HKEY_CLASSES_ROOT #存储应用和shell的信息 winreg…

用 HTTP 提交数据,基本就这 5 种方式

网页开发中&#xff0c;向服务端提交数据是一个基本功能&#xff0c;工作中会大量用 xhr/fetch 的 api 或者 axios 这种封装了一层的库来做。 可能大家都写过很多 http/https 相关的代码&#xff0c;但是又没有梳理下它们有哪几种呢&#xff1f; 其实通过 http/https 向服务端…

VBox启动失败、Genymotion启动失败、Vagrant迁移

VBox启动失败、Genymotion启动失败、Vagrant迁移 2023.10.9 最新版本vbox7.0.10、Genymotion3.5.0 Vbox启动失败 1、查看日志 Error -610 in supR3HardenedMainInitRuntime! (enmWhat4) Failed to locate ‘vcruntime140.dll’ 日志信息查看方法->找到虚拟机所在位置->…

对于L1正则化和L2正则化的理解

在DL中&#xff0c;L1和L2正则化经常被使用到&#xff0c;因为大于1L的正则化都是凸优化的问题&#xff0c;是个简单问题&#xff0c;可以被解决。 首先说正则的意义&#xff1a; 一切可以缓解过拟合的方法&#xff0c;都可以被叫做正则化 我最开始理解正则化的时候就是看lh…

在 Azure 中开发云原生应用程序:工具和技巧

Azure 中的云原生开发工具 Azure 包含一系列用于云原生应用程序开发的内置工具和服务。这里介绍的服务和工具是很好的入门选择。 发展 Azure 包括两个用于开发和构建云原生应用程序的主要工具&#xff1a;Visual Studio (VS) 和Azure应用服务。 VS 是一个集成开发环境&#…

【Bond随你温故Azure Architecture】之HADR篇

上次复盘数据保护策略还是在《数据需要找回怎么办&#xff1f;我们如何选择正确的恢复/退回方式&#xff1f;》探讨了在application&DB层面上&#xff0c;不同level的数据保护有不同策略。而它也恰好是今天HA&DR版图的一角&#xff08;RDBMS部分&#xff09;&#xff0…

CI/CD工具中的CI和CD的含义

CI/CD工具中的CI和CD的含义&#xff1f; CI/CD 是现代软件开发方法中广泛使用的一种方法。其中&#xff0c;CI 代表持续集成&#xff08;Continuous Integration&#xff09;&#xff0c;CD 则有两层含义&#xff0c;一是持续交付&#xff08;Continuous Delivery&#xff09;…

.net framework中webapi使用swagger进行接口文档展示

第一步&#xff1a;在nuget程序包管理中搜索“Swashbuckle”包&#xff0c;然后进行安装&#xff08;注&#xff1a;如果是.net core api请安装Sawshbuckle aspnetcore&#xff09;。 第二步&#xff1a;打开项目App_Start文件夹&#xff0c;修改SwaggerConfig.cs配置文件 我这…

mp4视频太大怎么压缩变小?

mp4视频太大怎么压缩变小&#xff1f;确实&#xff0c;很多培训和教学都转向了线上模式&#xff0c;这使得我们需要下载或分享大量的在线教学视频。然而&#xff0c;由于MP4视频文件通常较大&#xff0c;可能会遇到无法打开或发送的问题。为了解决这个问题&#xff0c;我们可以…

[C++ 网络协议] IOCP(Input Output Completion Port)

1.什么是IOCP IOCP&#xff08;Input Output Completion Port&#xff09;输入输出完成端口。其实就是基于重叠I/O的一种改进的模型。 重叠I/O具有缺点&#xff1a;重复调用非阻塞模式的accpet函数和以进入alertablewait状态为目的的SleepEx函数会影响程序性能。 而IOCP提供…