数据标准化就是把有量纲的数据变成无量纲的数据,把量级不同的数据处理到一个层级,从而让不同的数据之间具有可比性。比如收入和体重两个解释变量,收入的单位是元,体重的单位是kg,10000元的收入要和45kg放到一个回归模型里,为了让收入和体重具有可比性,就可以考虑把他俩标准化。
标准化的方法有很多,min-max和zscore就是其中两种,
min-max
min-max可以将数据全部处理到0-1之间
zscore
什么时候适合zscore标准化
做聚类分析的时候,建议使用zscore
附什么是聚类,什么是聚类分析:聚类是什么?
数据像正太分布时,使用zscore效果最好
附怎么看数据长得像不像正太分布——Hamilton Smith:数据的正态性检验与数据转换(基于Stata)
但是Z-Score方法是一种中心化方法,会改变原有数据的分布结构,不适合用于对稀疏数据做