特征编码
- 1.1 独热编码
- 1.1.1 实验任务
- 1.1.1.1 实验背景
- 1.1.1.2 实验目标
- 1.1.1.3 实验数据解析
- 1.1.2 实验思路
- 1.1.3 实验操作步骤
- 1.1.4 结果验证
- 1.2 Label-Encoding
- 1.2.1 实验任务
- 1.2.1.1 实验背景
- 1.2.1.2 实验目标
- 1.2.1.3 实验数据解析
- 1.2.2 实验思路
- 1.2.3 实验操作步骤
- 1.2.4 结果验证
1.1 独热编码
提问:什么是独热编码?
回答:独热编码是一种常用的数据编码方法,用于将分类变量转换为 二进制
的表示形式。它将每个类别表示为一个只包含 0和1
的二进制向量,其中每个类别对应一个维度,维度上的值为1表示该样本属于该类别,为0表示不属于该类别。
对于离散特征可以采用One-Hot编码的方式来处理,使用M位状态寄存器对M个状态进行编码,M个变量用M维表示,每个维度的数值或为1,或为0。
举例说明:
对于学历特征,可以将其取值 “小学”、“中学”、“本科”、“硕士” 和 “博士” 进行独热编码。下面是各个取值的独热编码示例:
"小学":[1, 0, 0, 0, 0]
"中学":[0, 1, 0, 0, 0]
"本科":[0, 0, 1, 0, 0]
"硕士":[0, 0, 0, 1