数据预处理——调整方差、标准化、归一化(Matlab、python)

对数据的预处理:

(a)、调整数据的方差

(b)、标准化:将数据标准化为具有零均值和单位方差;(均值方差归一化(Standardization)

(c)、最值归一化也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 , 1]之间

(a)、调整数据的方差

 均方差=标准差

方差的定义是:离平均值的平方距离的平均。

(b)、标准化

也称为均值归一化(mean normaliztion), 给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。转化函数为:

虽然该方法在无量纲化过程中利用了所有的数据信息,但是该方法在无量纲化后不仅使得转换后的各变量均值相同,且标准差也相同,即无量纲化的同时还消除了各变量在变异程度上的差异,从而转换后的各变量在聚类分析中的重要性程度是同等看待的。


(c)、最值归一化

也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 , 1]之间。

将一列数据变化到某个固定区间(范围)中,通常,这个区间是[0, 1] 或者(-1,1)之间的小数。主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。 

注意:由于极值化方法在对变量无量纲化过程中仅仅与该变量的最大值和最小值这两个极端值有关,而与其他取值无关,这使得该方法在改变各变量权重时过分依赖两个极端取值。

所用语言---matlab,python

matlab

%% 调整数据范围   预处理    调整方差到0.02
K=sqrt(0.02/var(inputData));
inputData = inputData*K;
K=sqrt(0.02/var(targetData));
targetData = targetData*K;
%% 标准化
mu = mean(inputData);
sig = std(inputData); %标准差std函数
inputData = (inputData - mu) / sig;
mu = mean(targetData);
sig = std(targetData);
targetData = (targetData - mu) / sig;
% 预处理  归一化
inputData= mapminmax(inputData, 0, 1);
targetData= mapminmax(targetData, 0, 1);

python

import numpy as npinputData=x
targetData=y
K=np.sqrt(0.02/np.var(inputData))
inputData=np.dot(inputData, K)
K=np.sqrt(0.02/np.var(targetData))
targetData=np.dot(targetData, K)

 将数据标准化

import numpy as npinputData=x
targetData=y
input_mean=np.mean(inputData)
input_std=np.std(inputData)
inputData=(inputData-input_mean)/input_std

 最值归一化适用于数据有明显边界的情况,例如考试成绩。该方法是将所有数据映射到[0,1]之间

(x-np.min(x))/(np.max(x)-np.min(x))  # 最值归一化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/26511.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

UKP3D用户定制图框的思路

为用户定制图框,记录以下图框制作方法,便于用户自已修改。 1.轴测图与平面图的图框: 1.1.图框在安装目录下,例如:E:\Program Files (x86)\UKSoft\UKP3d9.2\config\TemplateAndBlock\CADTemplate\ 1.2.配置文件在安装…

LVS/NAT负载均衡实操

添加规则,并做持久操作 1 添加规则 [rootlvs ~]# ipvsadm -A -t 10.36.178.183:80 -s wrr [rootlvs ~]# ipvsadm -a -t 10.36.178.183:80 -r 192.168.65.201:80 -m -w 3 [rootlvs ~]# ipvsadm -a -t 10.36.178.183:80 -r 192.168.65.202:80 -m -w 1[rootlvs ~]# ipvsadm -Ln …

vmmare虚拟机没有被分配ip地址问题

打开任务管理器–>服务–>找到与VM和server相关的服务 发现NAT和DHCP服务被关闭了 尝试启动,报错 尝试一 虚拟网络编辑器点击还原默认设置 尝试二 可以了

Android Jetpack Compose入门教程(二)

一、列表和动画 列表和动画在应用内随处可见。在本课中,您将学习如何利用 Compose 轻松创建列表并添加有趣的动画效果。 1、创建消息列表 只包含一条消息的聊天略显孤单,因此我们将更改对话,使其包含多条消息。您需要创建一个可显示多条消…

Cascade和Cascode在电路中含义的区别

两个电路cascade 是指第一个的输出接到第二个的输入. 在cascode 结构中, 第一个电路是common source amplifier, 第二个电路是common gate amplifier. (以FET 为例)

Chromium源码阅读:深入理解Mojo框架的设计思想,并掌握其基本用法(2)

我们继续分析Chromium的Mojo模块。 Dispatcher Dispatcher 是 Mojo IPC 系统中的一个关键概念。它是一个虚基类类(或接口),用于实现与特定 MojoHandle 相关联的 Mojo 核心 API 调用。在 Mojo 系统中,应用程序通过这些 API 与各种…

LabVIEW 32位与64位版本比较分析:性能与兼容性详解

LabVIEW的32位和64位版本在功能、性能、兼容性和应用场景等方面存在差异。本文从系统要求、内存管理、性能、兼容性、驱动支持和开发维护等多个角度进行详细分析,帮助用户选择合适的版本。 一、系统要求 操作系统支持: 32位LabVIEW:可以在32位…

XL3001E1 SOP-8 3A 40V 220KHz 降压LED恒流驱动器芯片

XL3001E1是一款LED驱动芯片,主要用于需要稳定电流驱动的LED照明产品中。其应用领域广泛,包括但不限于以下几个方面: 1. 室内照明:XL3001E1可用于各种室内LED灯具,如球泡灯、筒灯、射灯和平板灯,提供恒定的电…

【C++进阶】RBTree封装map与set

1.红黑树的迭代器 1.1 begin() begin()就是红黑树的开头,那么对于红黑树来说按照中序序列是该树的最左节点。 Iterator Begin(){Node* leftMin _root;while (leftMin->_left){leftMin leftMin->_left;}return Iterator(leftMin);} 1.2 end() begin()就是…

好书推荐:生成式AI入门与AWS实战

这本书给LLM的爱好者者提供了完整的学习路线,让读者从使用大语言模型开始到剖析常用的技术概念,能够填补了机器学习爱好者从传统的文字处理到大语言模型的空白知识,包括显存计算优化,微调,RAG, 多模态&…

springboot vue 的在线考试系统

springboot & vue 的在线考试系统 在线考试系统,功能如下: 管理员:题库管理,支持选择题和判断题,考试管理,成绩查询,学生管理,教师管理. 教师:题库管理,…

深入解析TF-IDF算法:文本分析的基石与力量

在信息爆炸的时代文本数据无处不在,从新闻报道到社交媒体帖子,从学术论文到产品评论,大量的文本信息需要被有效地分析和利用。在这样的背景下TF-IDF(Term Frequency-Inverse Document Frequency)算法作为一种简单而有效…

抖店被扣保证金,做起来太难导致心态崩了,怎么办?

我是王路飞。 技术、黑科技这些东西,决定不了你做店的结果。 能够决定最终结果的,一定是心态,是乐观还是悲观?是自负还是自卑?是焦躁还是踏实?这很关键。 店铺被扣保证金了,感觉没希望了&…

DIYGW可视化开发工具:微信小程序与多端应用开发的利器

一、引言 随着移动互联网的飞速发展,微信小程序以其轻便、易用和跨平台的特点受到了广泛关注。然而,微信小程序的开发相较于传统的H5网页开发,在UI搭建和交互设计上存在一定的挑战。为了应对这些挑战,开发者们一直在寻找更加高效…

私域引流宝PHP源码 以及搭建教程

私域引流宝PHP源码 以及搭建教程

直播录制怎么录?(3个方法)

在数字化快速发展的今天,直播已经成为了一种重要的传播方式,无论是商业活动、教育培训,还是娱乐休闲,直播都展现出了其独特的价值。然而,直播的即时性也意味着一旦错过,就很难再次体验。这时,直…

第20篇 Intel FPGA Monitor Program的使用<三>

Q:如何用Intel FPGA Monitor Program创建汇编语言工程呢? A:我们用一个Nios II汇编语言简易应用程序来发掘Intel Monitor FPGA Program软件的一些功能特性,并介绍创建工程的基本步骤。该程序可以实现找到存储在存储器中的32位整…

怎么改图片尺寸更方便?在线图片改大小的使用方法

图片怎么快速改尺寸呢?在网上传图或者做其他用途时,经常会对图片的尺寸有要求,当拍摄或者制作的图片太大或者太小时,都会导致图片的无法正常使用,那么就需要按照规定将图片改大小之后才能正常使用。 在遇到图片修改大…

Epicor BAQ - BAQ设计与调用

目录 一、BAQ设计常用功能1.跨公司查询2.修改作者3.添加筛选条件4.使用BAQ参数5.子查询 二、在客制化中调用BAQ取数三、在BPM中调用BAQ取数四、结束 一、BAQ设计常用功能 1.跨公司查询 在BAQ的General页面勾选Cross-company后,BAQ可以跨公司查询数据。 2.修改作…

Cloudflare 错误 1006、1007、1008 解决方案 | 如何修复

根据不完全统计,使用 Cloudflare 的网站比例已经接近 20%。因此,在日常工作中,比如进行网页抓取时,您可能经常会遇到一些因 Cloudflare 而产生的困难。例如,遇到 Cloudflare 错误 1006、1007 和 1008,这些错…