pandas-02-数据清洗&预处理
- E. 分类数据
- 1. 适用情况
- 2. Categorical 扩展数据类型
- 2.1 通过astype将一个Series转化为Categorical类
- 2.2 通过pd.Categorical 生成Categorical类
- 2.3 通过pd.Categorical.from_codes 将标签列表和整数列表转化为Categorical类
- 2.4 Categorical类的属性
- 2.5 Categorical类的方法
- 3. 实际应用:先分箱,再打上类别标签,分组聚合计算每个类别统计量,最后转换为one-hot向量
- 4. 性能对比
文中用S代指Series,用Df代指DataFrame
数据清洗是处理大型复杂情况数据必不可少的步骤,这里总结一些数据清洗的常用方法:包括缺失值、重复值、异常值处理,数据类型统计,分箱,随机采样,