【Kaggle】Intermediate Machine Learning(管道+交叉验证)

文章目录

    • 4. Pipelines 管道
    • 5. Cross-Validation 交叉验证

上一篇:【Kaggle】Intermediate Machine Learning(缺失值+文字特征处理)
下一篇:【Kaggle】Intermediate Machine Learning(XGBoost + Data Leakage)

4. Pipelines 管道

该模块可以把数据前处理+建模整合起来

好处:

  1. 更清晰的代码:在预处理的每个步骤中对数据的核算都可能变得混乱。使用管道,您无需在每个步骤中手动跟踪训练和验证数据。
  2. 错误更少:错误地使用步骤或忘记预处理步骤的机会更少。
  3. 易于生产部署
  4. 对模型验证也有好处

步骤1: 定义前处理步骤

  • 对缺失的数字数据,进行插值
  • 对文字特征进行one-hot编码
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder# Preprocessing for numerical data 数字数据插值
numerical_transformer = SimpleImputer(strategy='constant')# Preprocessing for categorical data 文字特征处理,插值+编码转换
categorical_transformer = Pipeline(steps=[('imputer', SimpleImputer(strategy='most_frequent')),('onehot', OneHotEncoder(handle_unknown='ignore'))
])# Bundle preprocessing for numerical and categorical data
# 上面两者合并起来,形成完整的数据处理流程
preprocessor = ColumnTransformer(transformers=[('num', numerical_transformer, numerical_cols),('cat', categorical_transformer, categorical_cols)])

步骤2: 定义模型

from sklearn.ensemble import RandomForestRegressormodel = RandomForestRegressor(n_estimators=100, random_state=0)

步骤3: 创建和评估管道

我们使用Pipeline类来定义将预处理和建模步骤捆绑在一起的管道。

管道会在生成预测之前自动对数据进行预处理(如果没有管道,我们必须在进行预测之前先对数据进行预处理)。

# Bundle preprocessing and modeling code in a pipeline
# 将 前处理管道 + 模型管道,再次叠加形成新管道
my_pipeline = Pipeline(steps=[('preprocessor', preprocessor),('model', model)])# Preprocessing of training data, fit model 
my_pipeline.fit(X_train, y_train)# Preprocessing of validation data, get predictions
preds = my_pipeline.predict(X_valid)
# 用定义好的pipeline 对test进行预测,提交,代码很简洁,不易出错
preds_test = my_pipeline.predict(X_test)
# Save test predictions to file
output = pd.DataFrame({'Id': X_test.index,'SalePrice': preds_test})
output.to_csv('submission.csv', index=False)

You advanced 5,020 places on the leaderboard!
Your submission scored 16459.13640, which is an improvement of your previous score of 16619.07644. Great job!
误差有点提升,哈哈,加油!🚀

5. Cross-Validation 交叉验证

交叉验证可以更好的验证模型,把数据分成几份(Folds),依次选取一份作为验证集,其余的用来训练,显然交叉验证会花费更多的时间

如何选择是否使用:

  • 对于较小的数据集,不需要太多的计算负担,则应运行交叉验证

  • 对于较大的数据集,单个验证集就足够了,因为数据足够多了,交叉验证花费的时间成本变大

  • 没有简单的准则,如果模型花费几分钟或更短的时间来运行,那就使用交叉验证吧

  • 可以运行交叉验证,看看每个实验的分数是否接近。如果每个实验产生相同的结果,则单个验证集可能就足够了

from sklearn.ensemble import RandomForestRegressor
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputermy_pipeline = Pipeline(steps=[('preprocessor', SimpleImputer()),('model', RandomForestRegressor(n_estimators=50,random_state=0))
])
from sklearn.model_selection import cross_val_score
# Multiply by -1 since sklearn calculates *negative* MAE
scores = -1 * cross_val_score(my_pipeline, X, y,cv=5,scoring='neg_mean_absolute_error')
print("MAE scores:\n", scores)
print("Average MAE score (across experiments):")
print(scores.mean())
# 树的棵数不同情况下,交叉验证的得分均值
def get_score(n_estimators):"""Return the average MAE over 3 CV folds of random forest model.Keyword argument:n_estimators -- the number of trees in the forest"""my_pipeline = Pipeline(steps=[('preprocessing',SimpleImputer()),('model',RandomForestRegressor(n_estimators=n_estimators,random_state=0))])scores = -1*cross_val_score(my_pipeline,X,y,cv=3,scoring='neg_mean_absolute_error')return scores.mean()results = {}
for i in range(1,9):# 获取树的棵树是50100,。。。,400时,模型的效果results[50*i] = get_score(50*i)
# 可视化不同参数下的模型效果
import matplotlib.pyplot as plt
%matplotlib inlineplt.plot(list(results.keys()), list(results.values()))
plt.show()
n_estimators_best = min(results, key=results.get) #最合适的参数

在这里插入图片描述
还可以通过 sklearn.model_selection.GridSearchCV 网格式搜索最佳的参数


上一篇:【Kaggle】Intermediate Machine Learning(缺失值+文字特征处理)
下一篇:【Kaggle】Intermediate Machine Learning(XGBoost + Data Leakage)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/475892.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 201. 数字范围按位与(位运算)

文章目录1. 题目2. 解题2.1 按位查找02.2 两数直接都往右移动&#xff0c;直到相等1. 题目 给定范围 [m, n]&#xff0c;其中 0 < m < n < 2147483647&#xff0c;返回此范围内所有数字的按位与&#xff08;包含 m, n 两端点&#xff09;。 示例 1: 输入: [5,7] 输…

编php矩阵求和,PHP二维数组如何求和?

PHP二维数组求和的方法&#xff1a;1、使用array_sum和array_map函数求和1)、PHP7.2以下可用<?php $arr array(0>array(id>1,tol>10),1>array(id>3,tol>12),2>array(id>8,tol>5));//输出tol值的和echo array_sum(array_map(create_function($v…

LeetCode 1311. 获取你好友已观看的视频(BFS+哈希map+vector排序)

1. 题目 有 n 个人&#xff0c;每个人都有一个 0 到 n-1 的唯一 id 。 给你数组 watchedVideos 和 friends &#xff0c;其中 watchedVideos[i] 和 friends[i] 分别表示 id i 的人观看过的视频列表和他的好友列表。 Level 1 的视频包含所有你好友观看过的视频&#xff0c; …

发布ASP.NET程序至IIS7

以前一直和IIS5打交道&#xff0c;后来系统升级到WIN7,自然的就用上了IIS7了&#xff0c;不过因为对IIS7服务器没有系统的了解&#xff0c;所以在自己机子上测试发布网站时&#xff0c;总是遇到各种各样的问题&#xff0c;当时就放弃了&#xff0c;准备有时间再研究的&#xff…

LeetCode 1319. 连通网络的操作次数(BFS/DFS/并查集)

文章目录1. 题目2. 解题2.1 BFS2.2 DFS2.3 并查集1. 题目 用以太网线缆将 n 台计算机连接成一个网络&#xff0c;计算机的编号从 0 到 n-1。 线缆用 connections 表示&#xff0c;其中 connections[i] [a, b] 连接了计算机 a 和 b。 网络中的任何一台计算机都可以通过网络直…

1D機身調焦方法

原文作者&#xff1a;Kent 原文地址&#xff1a;http://www.ldsclub.net/forum/viewthread.php?tid21513&extrapage%3D1&page1另附大兔子調焦心得&#xff1a;http://www.ldsclub.net/forum/viewthread.php?tid28268&extrapage%3D1 需要1.27規格的6角手柄本次轉文…

kdevelop php,KDevelop 5.2开放源代码IDE发布,改进了C ++,PHP和Python支持

KDevelop 5.2近半年的发布&#xff0c;是一个主要的发行版&#xff0c;它在前面版本KDevelop 5.1中实现的Analyzer菜单条目中引入了更多的分析器插件。这些包括Heaprack&#xff0c;一个用C / C 编写的Linux应用程序的堆内存分析器和Cppcheck(一种流行的C 编程语言静态分析器)&…

LeetCode 223. 矩形面积

1. 题目 在二维平面上计算出两个由直线构成的矩形重叠后形成的总面积。 每个矩形由其左下顶点和右上顶点坐标表示&#xff0c;如图所示。 示例: 输入: -3, 0, 3, 4, 0, -1, 9, 2 输出: 45 说明: 假设矩形面积不会超出 int 的范围。来源&#xff1a;力扣&#xff08;LeetCode&…

【Kaggle】Intermediate Machine Learning(XGBoost + Data Leakage)

文章目录6. XGBoost7. Data Leakage 数据泄露上一篇&#xff1a;【Kaggle】Intermediate Machine Learning&#xff08;管道交叉验证&#xff09; 6. XGBoost 参考&#xff1a;《统计学习方法》提升方法&#xff08;Boosting&#xff09; extreme gradient boosting “梯度提…

silverlight(一.安装和新建项目)

1.下载安装silverlight&#xff1a;Microsoft Silverlight™ 3 Tools &#xff08;安装之前需要升级VS2008到SP1&#xff09; 2.和多数人一样我的程序新建好运行调试报错&#xff0c;提示“未安装silverlight托管调试包”&#xff0c;后来我使用VS2010新建的时候提示安装silver…

php webview,Android:控件WebView显示网页 – tinyphp – 博客园

WebView可以使得网页轻松的内嵌到app里&#xff0c;还可以直接跟js相互调用。webview有两个方法&#xff1a;setWebChromeClient 和 setWebClientsetWebClient&#xff1a;主要处理解析&#xff0c;渲染网页等浏览器做的事情setWebChromeClient&#xff1a;辅助WebView处理Java…

LeetCode 207. 课程表(拓扑排序)

1. 题目 你这个学期必须选修 numCourse 门课程&#xff0c;记为 0 到 numCourse-1 。 在选修某些课程之前需要一些先修课程。 例如&#xff0c;想要学习课程 0 &#xff0c;你需要先完成课程 1 &#xff0c;我们用一个匹配来表示他们&#xff1a;[0,1] 给定课程总量以及它们…

php 将颜色透明度,css中如何使颜色透明度

css中使颜色透明度的方法&#xff1a;首先创建一个HTML示例文件&#xff1b;然后创建一个div&#xff1b;最后通过“opacity:0.5;”属性设置元素背景的透明度即可。本教程操作环境&#xff1a;windows7系统、css3、thinkpad t480电脑。CSS颜色透明度一、设置元素背景透明度opac…

php框架laravel百科,PHP 的Laravel 框架

在windows下,搭建PHP的Laravel框架很简单.先把PHP的安装目录 加入到环境变量里(在命令行能访问到php -v 就说明可以了)然后 这些是需求的环境PHP> 7.1.3 (不用说了)OpenSSL PHP扩展(用composer安装器可以自动给你配置的,以下同理,如果没配置,可以自行去php.ini里面把扩展前…

LeetCode 332. 重新安排行程(欧拉路径)

1. 题目 给定一个机票的字符串二维数组 [from, to]&#xff0c;子数组中的两个成员分别表示飞机出发和降落的机场地点&#xff0c;对该行程进行重新规划排序。 所有这些机票都属于一个从JFK&#xff08;肯尼迪国际机场&#xff09;出发的先生&#xff0c;所以该行程必须从 JFK…

seaborn绘图入门1(lineplot+barplot+heatmap+scatterplot)

文章目录1. lineplot 线图2. barplot 、heatmap 条形图、热图2.1 barplot&#xff0c;条形图2.2 heatmap&#xff0c;热图3. scatterplot、regplot 散点图3.1 scatterplot&#xff0c;普通散点图3.2 regplot&#xff0c;带回归线3.3 scatterplot(x,y,hue) &#xff0c;hue带第三…

matlab系统的初始条件,指定总线信号的初始条件

创建用于初始化的非完全结构体非完全初始条件结构体为总线的部分元素提供初始值。如果您在仿真过程中使用非完全初始条件结构体&#xff0c;Simulink 将创建一个完全的初始条件结构体来表示总线的所有元素。对于非完全初始条件结构体没有显式指定值的每个元素&#xff0c;Simul…

seaborn绘图入门2(distplot+kdeplot+jointplot+set_style)

文章目录4. distplot(a,kdeFalse)&#xff0c;直方图5. kdeplot&#xff0c;密度图5.1 kdeplot&#xff0c;一维密度图5.2 jointplot(x,y,kindkde)&#xff0c;二维密度图6. set_style()&#xff0c;设置底色learn from https://www.kaggle.com/learn/data-visualization 上一…

帝国cms搜索php分页,帝国cms V7.2自定义分页(列表分页,内容分页)样式步骤

【1】自己修改帝国cms默认的分页样式(css)&#xff0c;这样做的好处是你不用去改动帝国的核心文件&#xff0c;方便以后升级。【2】自己动手去修改帝国的分页(phpcss)&#xff0c;帝国的分页在e>class>下的t_functions.php这个文件里。列表页模板[!--show.page--]:分页导…

python怎么写方程条件,条件方程曲线拟合

在xmin处多项式的导数0的条件可以表示为一个简单的约束&#xff0c;这意味着变量p2&#xff0c;p3&#xff0c;和{}实际上并不独立。衍生条件是p2 2*p3*xmin 3*p4*xmin**2 0其中xmin是xdata的最小值。此外&#xff0c;xmin将在fit之前知道(如果不一定是在编写脚本时)&#x…