数据归一化 - MinMaxScaler()/MaxAbsScaler() - Python代码

目录

归一化

数据归一化的背景介绍

MinMaxScaler:归一到 [ 0,1 ] 

MaxAbsScaler:归一到 [ -1,1 ] 

标准化

去均值,方差规模化



归一化

数据归一化的背景介绍

在之前做聚类分析的时候我们发现,聚类的效果往往特别受其中一列数据的影响,使得原本应该散布在二维平面图上的点,变成聚集在一条线上的点,可想而知,其聚类效果肯定不理想。

左图:为所有数据都归一化之后的聚类分析散点图;

右图:为其中一列是合同金额,并且没有归一化数据的散点图;

归一化方法有两种形式,一种是把数变为(0,1)之间的小数,一种是把有量纲表达式变为无量纲表达式,成为纯量。后者常见于微波之中,也就是电路分析、信号系统、电磁波传输等,研究物理的人会比较熟悉。而像我们这些普通的数据分析师的日常工作中,不太会遇见需要归一化为无量纲表达式的情况,因此只讨论归一化到 [0,1] 的情况。

归一化一般是把数据映射到 [ 0,1 ] ,但也有归一到  [ -1,1 ] 的情况,两种情况在Python中分别可以通过MinMaxScaler 或者 MaxAbsScaler方法来实现。

 

MinMaxScaler:归一到 [ 0,1 ] 

原理

X_scaled = \frac{ (X - X.min(axis=0)) }{ (X.max(axis=0) - X.min(axis=0))} \cdot (max - min)+min

从原理中我们注意到有一个axis=0,这表示MinMaxScaler方法默认是对每一列做这样的归一化操作,这也比较符合实际应用。

eg:将数据归一到 [ 0,1 ] 

from sklearn import preprocessing
import numpy as npx = np.array([[3., -1., 2., 613.],[2., 0., 0., 232],[0., 1., -1., 113],[1., 2., -3., 489]])min_max_scaler = preprocessing.MinMaxScaler()
x_minmax = min_max_scaler.fit_transform(x)
print(x_minmax)

运行结果:

[[1.         0.         1.         1.        ][0.66666667 0.33333333 0.6        0.238     ][0.         0.66666667 0.4        0.        ][0.33333333 1.         0.         0.752     ]] 

如果有新的测试数据进来,也想做同样的转换,那么将新的测试数据添加到原数据末尾即可

from sklearn import preprocessing
import pandas as pdmin_max_scaler = preprocessing.MinMaxScaler()x = ([[3., -1., 2., 613.],[2., 0., 0., 232],[0., 1., -1., 113],[1., 2., -3., 489]])#原数据y = [7., 1., -4., 987]#新的测试数据
x.append(y)#将y添加到x的末尾
print('x :\n', x)
x_minmax = min_max_scaler.fit_transform(x)
print('x_minmax :\n', x_minmax)

运行结果:

x :[[3.0, -1.0, 2.0, 613.0], [2.0, 0.0, 0.0, 232], [0.0, 1.0, -1.0, 113], [1.0, 2.0, -3.0, 489], [7.0, 1.0, -4.0, 987]]
x_minmax :[[0.42857143 0.         1.         0.57208238][0.28571429 0.33333333 0.66666667 0.13615561][0.         0.66666667 0.5        0.        ][0.14285714 1.         0.16666667 0.43020595][1.         0.66666667 0.         1.        ]]

每一列特征中的最小值变成了0,最大值变成了1.

 


MaxAbsScaler:归一到 [ -1,1 ] 

原理与MinMaxScaler相似,

from sklearn import preprocessing
import numpy as npx = np.array([[3., -1., 2., 613.],[2., 0., 0., 232],[0., 1., -1., 113],[1., 2., -3., 489]])
max_abs_scaler = preprocessing.MaxAbsScaler()
x_train_maxsbs = max_abs_scaler.fit_transform(x)
x_train_maxsbs

运行结果:

array([[ 1.        , -0.5       ,  0.66666667,  1.        ],[ 0.66666667,  0.        ,  0.        ,  0.37846656],[ 0.        ,  0.5       , -0.33333333,  0.18433931],[ 0.33333333,  1.        , -1.        ,  0.79771615]])

 如果有新的测试数据进来,和原来的表一起进行归一化:

from sklearn import preprocessing
import pandas as pdmax_abs_scaler = preprocessing.MaxAbsScaler()x = ([[3., -1., 2., 613.],[2., 0., 0., 232],[0., 1., -1., 113],[1., 2., -3., 489]])#原数据y = [5., 1., -4., 888]#新的测试数据
x.append(y)
print('x :\n', x)
x_train_maxsbs = max_abs_scaler.fit_transform(x)
print('x_train_maxsbs :\n', x_train_maxsbs)

运行结果:

x :[[3.0, -1.0, 2.0, 613.0], [2.0, 0.0, 0.0, 232], [0.0, 1.0, -1.0, 113], [1.0, 2.0, -3.0, 489], [5.0, 1.0, -4.0, 888]]
x_train_maxsbs :[[ 0.6        -0.5         0.5         0.69031532][ 0.4         0.          0.          0.26126126][ 0.          0.5        -0.25        0.12725225][ 0.2         1.         -0.75        0.55067568][ 1.          0.5        -1.          1.        ]]

 

其他数据预处理方法

数据标准化 - scale() - Python代码

拉格朗日插值法补充缺失值

连续数据离散化(等宽、等频、聚类离散)

清洗你见过的各种类型的重复

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/475574.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 673. 最长递增子序列的个数(DP)

1. 题目 给定一个未排序的整数数组,找到最长递增子序列的个数。 示例 1: 输入: [1,3,5,4,7] 输出: 2 解释: 有两个最长递增子序列,分别是 [1, 3, 4, 7] 和[1, 3, 5, 7]。示例 2: 输入: [2,2,2,2,2] 输出: 5 解释: 最长递增子序列的长度是1,…

loadrunner 配置远程监控windows服务器系统资源

今天决定监控远程windows xp上的系统资源,本来以为应该很好连接,在同一个局域网内,结果出了一堆问题,可能是第一次就让我遇到了一个棘手的操作系统,郁闷! (1)保证装有loadrunner的测…

Python数据清洗 - 洗什么?怎么洗?看完就明白了

目录 缺失值处理 删除缺失值 插补缺失值 不处理缺失值 重复值处理 异常值处理 遍历查找异常值,并根据规则调整大小 删除异常值 视为缺失值后进行插补 数据挖掘过程中,采集的原始数据里存在着各种不利于分析与建模工作的因素,比如数…

LeetCode 1090. 受标签影响的最大值(优先队列)

1. 题目 我们有一个项的集合&#xff0c;其中第 i 项的值为 values[i]&#xff0c;标签为 labels[i]。 我们从这些项中选出一个子集 S&#xff0c;这样一来&#xff1a; |S| < num_wanted对于任意的标签 L&#xff0c;子集 S 中标签为 L 的项的数目总满足 < use_limit…

PHP中的get_defined_funciton和get_defined_vars

1 <?php 2 $zongzi "adfasdf"; 3 //将$zongzi作为数组的key,adfasdf作为数组的值返回 4 $val (get_defined_vars()); 5 echo $val[zongzi]; 6 7 8 function zongzi(){ 9 echo "adfads";10 }11 1…

合并数据 - 合并多个Excel文件并转成CSV - Python代码

在工作中&#xff0c;有时候因为部门间的数据权限问题&#xff0c;推送数据的时候往往是通过邮件完成&#xff0c;对于量大的数据&#xff0c;往往会拆成很多个excel发送&#xff0c;到下一个部门导入数据库之前&#xff0c;总是需要先将所有excel合成一个excel&#xff0c;再导…

LeetCode 524. 通过删除字母匹配到字典里最长单词(双指针)

1. 题目 给定一个字符串和一个字符串字典&#xff0c;找到字典里面最长的字符串&#xff0c;该字符串可以通过删除给定字符串的某些字符来得到。 如果答案不止一个&#xff0c;返回长度最长且字典顺序最小的字符串。如果答案不存在&#xff0c;则返回空字符串。 示例 1: 输入…

poj 3748 位操作

#include<iostream> //位运算using namespace std;int main(){int r,x,y; scanf("%x,%d,%d",&r,&x,&y); rr&(~(1<<x)); rr|(1<<y); rr|(1<<(y-1)); rr&(~(1<<(y-2))); printf("%x\…

Python - Excel文件与CSV文件相互转化

Excel文件转化成CSV - pandas #excel文件转化成csv import pandas as pdfileE:\\pythondata\\union\\test_3.xlsx outfileE:\\pythondata\\union\\test_3.csvdef xlsx_to_csv_pd():data_xls pd.read_excel(file, index_col0)data_xls.to_csv(outfile, encodingutf-8)if __nam…

LeetCode 743. 网络延迟时间(最短路径)

文章目录1. 题目2. 解题2.1 弗洛伊德1. 题目 有 N 个网络节点&#xff0c;标记为 1 到 N。 给定一个列表 times&#xff0c;表示信号经过有向边的传递时间。 times[i] (u, v, w)&#xff0c;其中 u 是源节点&#xff0c;v 是目标节点&#xff0c; w 是一个信号从源节点传递到…

SQL Server T-SQL高级查询

SQL Server T-SQL高级查询&#xff08;转&#xff09; 高级查询在数据库中用得是最频繁的&#xff0c;也是应用最广泛的。 基本常用查询 --select select * from student; --all 查询所有 select all sex from student; --distinct 过滤重复 select distinct sex from student…

逻辑回归 - sklearn (LR、LRCV、MLP、RLR)- Python代码实现

目录 LR&#xff08;LogisticRegression&#xff09; - 线性回归 LRCV&#xff08;LogisticRegressionCV &#xff09;- 逻辑回归 MLP&#xff08;MLPRegressor&#xff09; - 人工神经网络 RLR&#xff08;RandomizedLogisticRegression&#xff09;-随机逻辑回归 logisti…

LeetCode 810. 黑板异或游戏(博弈推理)

1. 题目 一个黑板上写着一个非负整数数组 nums[i] 。 小红和小明轮流从黑板上擦掉一个数字&#xff0c;小红先手。 如果擦除一个数字后&#xff0c;剩余的所有数字按位异或运算得出的结果等于 0 的话&#xff0c;当前玩家游戏失败。 (另外&#xff0c;如果只剩一个数字&#x…

[Socket]BSD socket简易入门

介绍 当你进入 UNIX 的神秘世界后&#xff0c;立刻会发现越来越多的东西难以理解。对于大多数人来说&#xff0c;BSD socket 的概念就是其中一个。这是一个很短的教程来解释他们是什么、他们如何工作并给出一些简单的代码来解释如何使用他们。 类比 (什么是 socket &#xff1f…

轻松看懂机器学习十大常用算法 - 基础知识

通过本篇文章可以对机器学习ML的常用算法有个常识性的认识&#xff0c;没有代码&#xff0c;没有复杂的理论推导&#xff0c;就是图解一下&#xff0c;知道这些算法是什么&#xff0c;它们是怎么应用的&#xff0c;例子主要是分类问题。 算法如下&#xff1a; 决策树随机森林算…

LeetCode 68. 文本左右对齐(字符串逻辑题)

1. 题目 给定一个单词数组和一个长度 maxWidth&#xff0c;重新排版单词&#xff0c;使其成为每行恰好有 maxWidth 个字符&#xff0c;且左右两端对齐的文本。 你应该使用“贪心算法”来放置给定的单词&#xff1b;也就是说&#xff0c;尽可能多地往每行中放置单词。必要时可…

VBA之六--EXCEL VBA两则

函数作用:自动获取指定月的工作日 ################################################################Sub 自动填充工作日(month1 As Integer)获取指定月份天数Dim days As IntegerDim xdate As Datexdate CDate("2008-" CStr(month1))初始化公共变量Col2的值col2…

数据离散化 - 等宽等频聚类离散 - Python代码

目录 等宽离散 等频离散 聚类离散 附录&#xff1a; rolling_mean函数解释 cut函数解释 其他数据预处理方法 一些数据挖掘算法中&#xff0c;特别是某些分类算法&#xff08;eg:ID3算法、Aprioroi算法等&#xff09;&#xff0c;要求数据是分类属性形式。因此常常需要将…

LeetCode 1444. 切披萨的方案数(DP)

1. 题目 给你一个 rows x cols 大小的矩形披萨和一个整数 k &#xff0c;矩形包含两种字符&#xff1a; ‘A’ &#xff08;表示苹果&#xff09;和 ‘.’ &#xff08;表示空白格子&#xff09;。 你需要切披萨 k-1 次&#xff0c;得到 k 块披萨并送给别人。 切披萨的每一刀…

C#动态调用Web服务的3种方法

我们在开发C# WinForm时&#xff0c;有时会调用Web服务&#xff0c;服务是本地的当前好办&#xff0c;只要在Project中的Web References中引入就可以在代码中直接创建一个Web服务对象来引用&#xff0c;其实其原理是C#帮你自动创建客户端代理类的方式调用WebService&#xff0c…