【Kaggle】Intermediate Machine Learning(缺失值+文字特征处理)

文章目录

    • 1. Introduction
    • 2. Missing Values 缺失值处理
    • 3. Categorical Variables 文字变量处理

from https://www.kaggle.com/learn/intermediate-machine-learning

下一篇 :【Kaggle】Intermediate Machine Learning(管道+交叉验证)

1. Introduction

  • 按照教程给的7个特征,给定5种参数下的随机森林模型,选出mae误差最小的,进行提交
import pandas as pd
from sklearn.model_selection import train_test_split# Read the data
X_full = pd.read_csv('../input/train.csv', index_col='Id')
X_test_full = pd.read_csv('../input/test.csv', index_col='Id')# Obtain target and predictors
y = X_full.SalePrice
features = ['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd']
X = X_full[features].copy()
X_test = X_test_full[features].copy()# Break off validation set from training data
X_train, X_valid, y_train, y_valid = train_test_split(X, y, train_size=0.8, test_size=0.2,random_state=0)
from sklearn.ensemble import RandomForestRegressor# Define the models,定义了5种参数的随机森林模型
model_1 = RandomForestRegressor(n_estimators=50, random_state=0)
model_2 = RandomForestRegressor(n_estimators=100, random_state=0)
model_3 = RandomForestRegressor(n_estimators=100, criterion='mae', random_state=0)
model_4 = RandomForestRegressor(n_estimators=200, min_samples_split=20, random_state=0)
model_5 = RandomForestRegressor(n_estimators=100, max_depth=7, random_state=0)models = [model_1, model_2, model_3, model_4, model_5]from sklearn.metrics import mean_absolute_error# Function for comparing different models
def score_model(model, X_t=X_train, X_v=X_valid, y_t=y_train, y_v=y_valid):model.fit(X_t, y_t)preds = model.predict(X_v)return mean_absolute_error(y_v, preds)
# 找出误差最小的模型
for i in range(0, len(models)):mae = score_model(models[i])print("Model %d MAE: %d" % (i+1, mae))best_model = models[2]
my_model = best_modelmy_model.fit(X, y)
# Generate test predictions
preds_test = my_model.predict(X_test)# Save predictions in format used for competition scoring
output = pd.DataFrame({'Id': X_test.index,'SalePrice': preds_test})
output.to_csv('submission.csv', index=False)

评分:mae误差 20998.83780

2. Missing Values 缺失值处理

缺失值的处理:

  • 丢弃整列,缺点是信息丢失严重
cols_with_missing = [col for col in X_train.columnsif X_train[col].isnull().any()] # Your code here# Fill in the lines below: drop columns in training and validation data
reduced_X_train = X_train.drop(cols_with_missing,axis=1)
reduced_X_valid = X_valid.drop(cols_with_missing,axis=1)
  • 差值填补,比如填充均值等
from sklearn.impute import SimpleImputer# Fill in the lines below: imputation
help(SimpleImputer)
imp = SimpleImputer()# 默认以均值进行填补
# imp = SimpleImputer(strategy="median") # 中位数填补
imputed_X_train = pd.DataFrame(imp.fit_transform(X_train))# 拟合,填补
imputed_X_valid = pd.DataFrame(imp.transform(X_valid))#填补# Fill in the lines below: imputation removed column names; put them back
imputed_X_train.columns = X_train.columns # 差值去除了特征名称,再填上 
imputed_X_valid.columns = X_valid.columns

SimpleImputer 参考如下

class SimpleImputer(_BaseImputer)|  SimpleImputer(missing_values=nan, strategy='mean', fill_value=None,verbose=0, copy=True, add_indicator=False)|  |  Imputation transformer for completing missing values.|  |  Read more in the :ref:`User Guide <impute>`.|  |  Parameters|  ----------|  missing_values : number, string, np.nan (default) or None|      The placeholder for the missing values. All occurrences of|      `missing_values` will be imputed.|  |  strategy : string, default='mean'|      The imputation strategy.|  |      - If "mean", then replace missing values using the mean along|        each column. Can only be used with numeric data.|      - If "median", then replace missing values using the median along|        each column. Can only be used with numeric data.|      - If "most_frequent", then replace missing using the most frequent|        value along each column. Can be used with strings or numeric data.|      - If "constant", then replace missing values with fill_value. Can be|        used with strings or numeric data.

评分:mae误差 16619.07644

3. Categorical Variables 文字变量处理

分类变量处理方法:

  • 直接丢弃,如果没有用的话
  • Label Encoding 标记编码:比如频率:“Never” (0) < “Rarely” (1) < “Most days” (2) < “Every day” (3),将字符串分类成几类,用数字表示,特征存在内在顺序 (ordinal feature)
  • One-Hot Encoding,特征无内在顺序,会在数据里新生成一系列的列,一般来说最后一种效果最好,但是特征中值的种类过多的话,该方法会把数据集扩的比较大
# Get list of categorical variables,获取非数字类变量
s = (X_train.dtypes == 'object')
object_cols = list(s[s].index)print("Categorical variables:")
print(object_cols)
Categorical variables:
['Type', 'Method', 'Regionname'] # 特征名称
  1. 直接丢弃
drop_X_train = X_train.select_dtypes(exclude=['object'])
drop_X_valid = X_valid.select_dtypes(exclude=['object'])
  1. Label Encoding
from sklearn.preprocessing import LabelEncoder# Make copy to avoid changing original data 
label_X_train = X_train.copy()
label_X_valid = X_valid.copy()# Apply label encoder to each column with categorical data
label_encoder = LabelEncoder()
for col in object_cols:label_X_train[col] = label_encoder.fit_transform(X_train[col])label_X_valid[col] = label_encoder.transform(X_valid[col])
  1. One-Hot Encoding
# Apply one-hot encoder to each column with categorical data
OH_encoder = OneHotEncoder(handle_unknown='ignore', sparse=False)
OH_cols_train = pd.DataFrame(OH_encoder.fit_transform(X_train[object_cols]))
OH_cols_valid = pd.DataFrame(OH_encoder.transform(X_valid[object_cols]))# One-hot encoding removed index; put it back,放回idx
OH_cols_train.index = X_train.index
OH_cols_valid.index = X_valid.index# Remove categorical columns (will replace with one-hot encoding)
num_X_train = X_train.drop(object_cols, axis=1) # 丢弃原有的文字列,只剩数字
num_X_valid = X_valid.drop(object_cols, axis=1)# Add one-hot encoded columns to numerical features # 数字列和编码后的文本特征列合并
OH_X_train = pd.concat([num_X_train, OH_cols_train], axis=1)
OH_X_valid = pd.concat([num_X_valid, OH_cols_valid], axis=1)

遇见训练集和测试集的文字变量种类不一样:

  • 检查哪些特征在两个集合里都是一样的,不一样的话直接编码会出错
# All categorical columns
object_cols = [col for col in X_train.columns if X_train[col].dtype == "object"]# Columns that can be safely label encoded
good_label_cols = [col for col in object_cols if set(X_train[col]) == set(X_valid[col])]# Problematic columns that will be dropped from the dataset
bad_label_cols = list(set(object_cols)-set(good_label_cols))
  • 这里处理的方法是,丢弃不一致的,对一致的进行编码转换
from sklearn.preprocessing import LabelEncoder# Drop categorical columns that will not be encoded
label_X_train = X_train.drop(bad_label_cols, axis=1)
label_X_valid = X_valid.drop(bad_label_cols, axis=1)# Apply label encoder 
labEncoder = LabelEncoder()
for feature in set(good_label_cols):label_X_train[feature] = labEncoder.fit_transform(label_X_train[feature])label_X_valid[feature] = labEncoder.transform(label_X_valid[feature])

查看文字特征里,有多少种变量值

# Get number of unique entries in each column with categorical data
object_nunique = list(map(lambda col: X_train[col].nunique(), object_cols))
d = dict(zip(object_cols, object_nunique))# Print number of unique entries by column, in ascending order
sorted(d.items(), key=lambda x: x[1])
[('Street', 2), # 街道有2个不同的值('Utilities', 2),('CentralAir', 2),。。。('Exterior2nd', 16),('Neighborhood', 25)] # 种数较多的不宜用one-hot,# 数据集扩大的很厉害,可以label-encoding,或丢弃

# Columns that will be one-hot encoded
# 不同数值数 < 10 的特征进行 one-hot编码
low_cardinality_cols = [col for col in object_cols if X_train[col].nunique() < 10]# Columns that will be dropped from the dataset
# 剩余的(两个set做差),丢弃
high_cardinality_cols = list(set(object_cols)-set(low_cardinality_cols))
from sklearn.preprocessing import OneHotEncoder# one_hot编码器
ohEnc = OneHotEncoder(handle_unknown='ignore', sparse=False)# 不同数值数 < 10 的特征one_hot编码
OH_X_train = pd.DataFrame(ohEnc.fit_transform(X_train[low_cardinality_cols]))
OH_X_valid = pd.DataFrame(ohEnc.transform(X_valid[low_cardinality_cols]))# 编码后index丢失,再加上
OH_X_train.index = X_train.index
OH_X_valid.index = X_valid.index# 数字特征(原数据丢弃文字特征,即得到)
num_X_train = X_train.drop(object_cols, axis=1)
num_X_valid = X_valid.drop(object_cols, axis=1)# 合并 数字特征 + one_hot编码(记得恢复index)后的文字特征(特征数值种类多的丢弃了)
OH_X_train = pd.concat([OH_X_train, num_X_train], axis=1)
OH_X_valid = pd.concat([OH_X_valid, num_X_valid], axis=1)

下一篇 :【Kaggle】Intermediate Machine Learning(管道+交叉验证)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/475895.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VB6调用API打开目标文件所在文件夹且选中目标文件

Option Explicit 模块名称: mOpenFolderAndSetFileFocus 作者: 唐细刚 时间: 2010-08-22 功能: VB6调用API打开目标文件所在文件夹且选中目标文件 注&#xff1a; 由于调用 Explorer.exe /select 方式会使系统产生多余的 Explorer.exe 进程 所以还是API来实现较好…

python 保存文件 吃内存_孤荷凌寒自学python第三十七天python的文件与内存变量之间的序列化与反序列化...

孤荷凌寒自学python第三十七天python的文件与内存变量之间的序列化与反序列化(完整学习过程屏幕记录视频地址在文末&#xff0c;手写笔记在文末)一、什么是序列化与反序列化序列化是指将内存中的数据进行指定规则的格式梳理&#xff0c;使之方便按一定格式保存到文件中。我的理…

【Kaggle】Intermediate Machine Learning(管道+交叉验证)

文章目录4. Pipelines 管道5. Cross-Validation 交叉验证上一篇&#xff1a;【Kaggle】Intermediate Machine Learning&#xff08;缺失值文字特征处理&#xff09; 下一篇&#xff1a;【Kaggle】Intermediate Machine Learning&#xff08;XGBoost Data Leakage&#xff09; …

ASP.NET2.0导出Word文档(C#导出DOC)

在网络上看到很多关于ASP.NET导出DOC文档的例子&#xff0c;有的干脆就直接将html页面不做任何处理直接导出为DOC文件&#xff0c;但是那样会有很多错误&#xff0c;例如将某些控件显示为图片。我还曾经见过微软为中国某个大公司制作的一个XX系统&#xff0c;导出的DOC文件实际…

java todo error_java.sql.SQLException: sql injection violation, syntax error: TODO UNIQUE unique

wenshao 你好&#xff0c;想跟你请教个问题&#xff1a;我是在用activiti工作流的时候 初始化生成流程表产生了下面的问题工作流引擎代码&#xff1a;ProcessEngineConfiguration config ProcessEngineConfiguration.createStandaloneProcessEngineConfiguration();config.se…

ASP VBScript 函数速查表

VBScript函数 功能说明 例子 Abs &#xff08;数值&#xff09;绝对值。一个数字的绝对值是它的正值。空字符串 (null) 的绝对值&#xff0c;也是空字符串。未初始化的变数&#xff0c;其绝对为 0例子&#xff1a;ABS(-2000) 结果&#xff1a;2000Array &#xff08;以逗点分…

LeetCode 201. 数字范围按位与(位运算)

文章目录1. 题目2. 解题2.1 按位查找02.2 两数直接都往右移动&#xff0c;直到相等1. 题目 给定范围 [m, n]&#xff0c;其中 0 < m < n < 2147483647&#xff0c;返回此范围内所有数字的按位与&#xff08;包含 m, n 两端点&#xff09;。 示例 1: 输入: [5,7] 输…

编php矩阵求和,PHP二维数组如何求和?

PHP二维数组求和的方法&#xff1a;1、使用array_sum和array_map函数求和1)、PHP7.2以下可用<?php $arr array(0>array(id>1,tol>10),1>array(id>3,tol>12),2>array(id>8,tol>5));//输出tol值的和echo array_sum(array_map(create_function($v…

LeetCode 1311. 获取你好友已观看的视频(BFS+哈希map+vector排序)

1. 题目 有 n 个人&#xff0c;每个人都有一个 0 到 n-1 的唯一 id 。 给你数组 watchedVideos 和 friends &#xff0c;其中 watchedVideos[i] 和 friends[i] 分别表示 id i 的人观看过的视频列表和他的好友列表。 Level 1 的视频包含所有你好友观看过的视频&#xff0c; …

发布ASP.NET程序至IIS7

以前一直和IIS5打交道&#xff0c;后来系统升级到WIN7,自然的就用上了IIS7了&#xff0c;不过因为对IIS7服务器没有系统的了解&#xff0c;所以在自己机子上测试发布网站时&#xff0c;总是遇到各种各样的问题&#xff0c;当时就放弃了&#xff0c;准备有时间再研究的&#xff…

php请求来源,php验证请求页面来源

php教程验证请求页面来源if( $_server[http_x_requested_with] xmlhttprequest ) {echo ajax;} else {echo normal;}jquery内部实现ajax的时候&#xff0c;已经加入了标识jquery源码中是这样的&#xff1a;xhr.setrequestheader("x-requested-with", "xmlhttpr…

LeetCode 1319. 连通网络的操作次数(BFS/DFS/并查集)

文章目录1. 题目2. 解题2.1 BFS2.2 DFS2.3 并查集1. 题目 用以太网线缆将 n 台计算机连接成一个网络&#xff0c;计算机的编号从 0 到 n-1。 线缆用 connections 表示&#xff0c;其中 connections[i] [a, b] 连接了计算机 a 和 b。 网络中的任何一台计算机都可以通过网络直…

1D機身調焦方法

原文作者&#xff1a;Kent 原文地址&#xff1a;http://www.ldsclub.net/forum/viewthread.php?tid21513&extrapage%3D1&page1另附大兔子調焦心得&#xff1a;http://www.ldsclub.net/forum/viewthread.php?tid28268&extrapage%3D1 需要1.27規格的6角手柄本次轉文…

kdevelop php,KDevelop 5.2开放源代码IDE发布,改进了C ++,PHP和Python支持

KDevelop 5.2近半年的发布&#xff0c;是一个主要的发行版&#xff0c;它在前面版本KDevelop 5.1中实现的Analyzer菜单条目中引入了更多的分析器插件。这些包括Heaprack&#xff0c;一个用C / C 编写的Linux应用程序的堆内存分析器和Cppcheck(一种流行的C 编程语言静态分析器)&…

LeetCode 187. 重复的DNA序列(哈希/位运算)

1. 题目 所有 DNA 都由一系列缩写为 A&#xff0c;C&#xff0c;G 和 T 的核苷酸组成&#xff0c;例如&#xff1a;“ACGAATTCCG”。 在研究 DNA 时&#xff0c;识别 DNA 中的重复序列有时会对研究非常有帮助。 编写一个函数来查找 DNA 分子中所有出现超过一次的 10 个字母长…

System.Net.Cookie

Does anyone know if it is possible to convert a System.Net.Cookie to a System.Web.HttpCookie ? What is the difference exactly? What Im trying to do is simulate a pseudo-autologin feature on my site into another website. So for example, my code does an Ht…

java获取api接口新浪数据,新浪短网址API接口的获取以及API接口的调用文档分享...

我们可能会收到类似于这样的短信&#xff0c;发现其中的链接并不是常规的网址链接&#xff0c;而是个短小精悍的短链接&#xff0c;产品中经常需要这样的需求&#xff0c;如果在给用户下发的短信中是一个很长的连接&#xff0c;用户体验肯定很差&#xff0c;因此我们需要实现长…

LeetCode 223. 矩形面积

1. 题目 在二维平面上计算出两个由直线构成的矩形重叠后形成的总面积。 每个矩形由其左下顶点和右上顶点坐标表示&#xff0c;如图所示。 示例: 输入: -3, 0, 3, 4, 0, -1, 9, 2 输出: 45 说明: 假设矩形面积不会超出 int 的范围。来源&#xff1a;力扣&#xff08;LeetCode&…

exe程序的启动过程

学习windows 编程从mfc角度来说可分为两部分那就是WinMain函数以前的&#xff0c;和WinMain函数以后的。前者涉及很多windows操作系统内部的知识&#xff0c;后者么看mfc源码就可以了。虽然大多数程序不需要你了解太多关于os加载应用程序这方面的知识&#xff0c;但我认为能较深…

php保存流文件到本地,php下载保存文件保存到本地的两种实现方法

第一种&#xff1a;<?php function downfile(){$filenamerealpath("resume.html"); //文件名$datedate("Ymd-H:i:m");Header( "Content-type: application/octet-stream ");Header( "Accept-Ranges: bytes ");Header( "Accep…