1.读取csv文件实现特征化
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler
StandardScaler
是一个用于标准化特征的工具,通过移除均值并缩放到单位方差来实现。
df = pd.read_csv("./p039.csv")
df
scaler = StandardScaler()
创建实例
scaler.fit(df)
将StandardScaler
实例拟合到你的数据集df
上。这里的df
应该是一个包含数值型数据的DataFrame。StandardScaler
会计算每个特征的均值和标准差,然后使用这些统计数据来转换数据。
df_scaled = scaler.transform(df)
正在将之前通过scaler.fit(df)
拟合的StandardScaler
实例应用到数据集df
上,以进行数据的标准化处理。这个过程会将每个特征转换为均值为0、标准差为1的形式。
2.数据准备
实例化对象
将StandardScaler
实例拟合到你的数据集train上。
将之前通过scaler.fit(train)
拟合的StandardScaler
实例应用到数据集df_train,df_test上,以进行数据的标准化处理。这个过程会将每个特征转换为均值为0、标准差为1的形式。计算方差和平均数。
数据标准化(Data Standardization)是一种数据预处理技术,目的是改变数据的数值范围,使其更易于处理和分析。具体来说,数据标准化通常涉及以下几个主要步骤:
-
计算均值(Mean):对于每个特征,首先计算其均值。均值是所有数据点的算术平均值。
-
计算标准差(Standard Deviation):接着计算每个特征的标准差。标准差是衡量数据集中数值分布离散程度的指标,计算方式是每个数据点与均值之差的平方的平均值的平方根。
-
标准化转换:将每个数据点通过以下公式转换: 𝑧=(𝑥−𝜇)𝜎z=σ(x−μ) 其中:
- 𝑥x 是原始数据点。
- 𝜇μ 是该特征的均值。
- 𝜎σ 是该特征的标准差。
- 𝑧z 是标准化后的数据点。
-
结果:经过标准化处理后,每个特征的均值变为0,标准差变为1。这意味着所有特征都具有相同的尺度,使得它们在数学和统计分析中更容易处理。
为什么需要数据标准化?
- 消除不同量纲的影响:不同特征可能具有不同的量纲和数值范围,标准化可以消除这些差异,使得特征在模型训练中具有相同的重要性。
- 提高算法性能:许多机器学习算法(如支持向量机、k-最近邻、线性回归等)对数据的尺度敏感。标准化可以提高这些算法的性能和收敛速度。
- 数据解释性:标准化后的数据更容易解释和理解,因为所有特征都在同一尺度上。