目录
编码分类数据
序数编码
标签编码
一次性编码
目标编码
目标编码的优点
目标编码的缺点
在现实生活中,收集的原始数据很少采用我们可以直接用于机器学习模型的格式,即数值型数据。因此,需要进行一些预处理,以便以正确的格式呈现数据、选择信息丰富的数据或降低其维度,以便能够最大限度地提取数据。
在这篇文章中,我们将讨论对原始数据的编码方式,以便能够使用分类数据作为我们的 ML 模型的特征,还将讨论数据编码的类型以及对应的适用条件!
编码分类数据
数值数据,顾名思义,具有仅包含数字(整数或浮点数)的特征。另一方面,分类数据的变量包含标签值(文本)而不是数值。机器学习模型只能接受数值输入变量。如果我们的数据集包含分类数据而不是数值数据,会发生什么?
然后,我们必须如上图所示将包含分类变量的数据转换为数字,然后才能训练 ML 模型。这称为数据编码。
两种最流行的编码技术是序数编码和One-Hot编码。
- 序数编码:此技术用于对具有自然排名顺序的分类变量进行编码。例如,好、非常好、优秀可以编码为1、2、3