谈谈数据归一化与标准化

背景：

归一化（Normalization）和标准化（Standardization）是常用的数据预处理技术，用于将不同范围或不同单位的特征值转换为统一的尺度，以便更好地进行数据分析和模型训练。一句话：消除量纲对距离的影响。

数据归一化：

归一化（Normalization）是一种常见的数据预处理方法，用于将不同特征之间的数值范围映射到相同的区间。

最小-最大缩放（Min-Max Scaling）是将数据线性映射到指定的最小值和最大值之间的区间。具体公式如下：

$X_scaled = (X - X_min) / (X_max - X_min)$
其中，X是原始特征数据，X_min是该特征的最小值，X_max是该特征的最大值。

归一化后的数据一定在0-1之间。归一化后的数据与原始数据具有相同的维度。

import pandas as pd
from hopkins_test import hopkins_statisticdata = pd.read_csv(r'./data/city.txt', sep=',')
from sklearn.preprocessing import MinMaxScaler, StandardScaler# 提取经度和纬度数据，并转换为NumPy数组
xx = data[['longitude', 'latitude']]
X = data[['longitude', 'latitude']].values
print(xx.head())
print(type(xx)) # <class 'pandas.core.frame.DataFrame'>
print(type(X)) # <class 'numpy.ndarray'>
# 归一化处理
scaler = MinMaxScaler(feature_range=(0, 10000)) # 属性值在 0~10000 之间
normalized_data1 = scaler.fit_transform(xx)
normalized_data2 = scaler.fit_transform(X)
print(normalized_data1, type(normalized_data1))
print(normalized_data2,type(normalized_data2))

我们可以发现归一化的输入数据可以是numpy类型，也可以是dataframe类型，表头不影响结果输出。

在这里插入图片描述

数据标准化：

Z-score标准化是将数据映射到均值为0，标准差为1的正态分布上。具体公式如下：
$X_scaled = (X - X_mean) / X_std$
其中，X是原始特征数据，X_mean是该特征的均值，X_std是该特征的标准差。

import pandas as pd
from hopkins_test import hopkins_statistic
import numpy as npdata = pd.read_csv(r'./data/city.txt', sep=',')
from sklearn.preprocessing import MinMaxScaler, StandardScaler# 提取经度和纬度数据，并转换为NumPy数组
xx = data[['longitude', 'latitude']]
X = data[['longitude', 'latitude']].values
print(xx.head())
print(type(xx))
print(type(X))
# 归一化处理
# 创建StandardScaler对象
scaler= StandardScaler()
normalized_data1 = scaler.fit_transform(xx)
normalized_data2 = scaler.fit_transform(X)
print(normalized_data1, type(normalized_data1))
print(normalized_data2,type(normalized_data2))