房价预测 search Search 中对数据预处理的学习

对于缺失的数据：

我们对连续数值的特征做标准化（standardization）：设该特征在整个数据集上的均值为 μ ，标准差为 σ 。那么，我们可以将该特征的每个值先减去 μ 再除以 σ 得到标准化后的每个特征值。对于缺失的特征值，我们将其替换成该特征的均值。

numeric_features = all_features.dtypes[all_features.dtypes != 'object'].index
all_features[numeric_features] = all_features[numeric_features].apply(lambda x: (x - x.mean()) / (x.std()))
# 标准化后，每个特征的均值变为0，所以可以直接用0来替换缺失值
all_features[numeric_features] = all_features[numeric_features].fillna(0)

一个标签可能多种参数的情况：

接下来将离散数值转成指示特征。举个例子，假设特征MSZoning里面有两个不同的离散值RL和RM，那么这一步转换将去掉MSZoning特征，并新加两个特征MSZoning_RL和MSZoning_RM，其值为0或1。如果一个样本原来在MSZoning里的值为RL，那么有MSZoning_RL=1且MSZoning_RM=0。

# dummy_na=True将缺失值也当作合法的特征值并为其创建指示特征
all_features = pd.get_dummies(all_features, dummy_na=True)
all_features.shape

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/389323.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

房价预测 search Search 中对数据预处理的学习

对于缺失的数据：

一个标签可能多种参数的情况：

相关文章

3.6.1.非阻塞IO

Symbol MC1000 扫描冲突问题把下面文件做成scanwedge.reg的注册表文件,放在Application重起

rstudio 管道符号_R中的管道指南

蒙特卡洛模拟预测股票_使用蒙特卡洛模拟来预测极端天气事件

iOS之UITraitCollection

直方图绘制与直方图均衡化实现

eclipse警告与报错的修复

时间序列因果关系_分析具有因果关系的时间序列干预：货币波动

微生物研究_微生物监测如何工作，为何如此重要

Linux shell 脚本SDK 打包实践, 收集assets和apk, 上传FTP

opencv:卷积涉及的基础概念，Sobel边缘检测代码实现及卷积填充模式

怎么查这个文件在linux下的哪个目录

无法从套接字中获取更多数据_数据科学中应引起更多关注的一个组成部分

web数据交互_通过体育运动使用定制的交互式Web应用程序数据科学探索任何数据...

C# .net 对图片操作

数据类型之Integer与int

PCA(主成分分析)思想及实现

【安富莱二代示波器教程】第8章示波器设计—测量功能

深度学习数据更换背景_开始学习数据科学的最佳方法是了解其背景

熊猫数据集_用熊猫掌握数据聚合