分类算法——模型选择与调优(三)

交叉验证

交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中
一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的
结果,取平均值作为最终结果。又称4折交叉验证。

1分析
我们之前知道数据分为训练集和测试集,但是为了让从训练得到模型结果更加准确。做以下处理

  • 训练集:训练集+验证集
  • 测试集:测试集
    在这里插入图片描述
    2为什么需要交叉验证
    交叉验证目的:为了让被评估的模型更加准确可信

问题:那么这个只是对于参数得出更好的结果,那么怎么选择或者调优参数呢?

超参数搜索-网格搜索(Grid Search)

通常情况下,有很多参数是需要手动指定的(如k-近邻算法中的K值),这种叫超参数。
但是手动过程繁杂,所以需要对模型预设几种超参数组合。每组超参数都采用交叉验证来进行评估。最后选出最优参数组合建立模型。
在这里插入图片描述

1模型选择与调优API

  • sklearn.model_selection.GridSearchCV(estimator,param_grid=None,cv=None)
    • 估计器的指定参数值进行详尽搜索
    • estimator:估计器对象
    • param_grid:估计器参数(dict){“n_neighbors":[1,3,5]}
    • cv:指定几折交叉验证
    • fit():输入训练数据
    • score():准确率
    • 结果分析:
      • 最佳参数:best_params_
      • 最佳结果:best_score_
      • 最佳估计器:best_estimator_
      • 交叉验证结果:cv_results_

鸢尾花案例增加K值调优

  • 使用GridSearchCV构建估计器
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCVdef knn_iris_gscv()://1)获取数据iris=load_iris()//2)划分数据集x_train, x_test, y_train, y_test=train_test_split(iris.data, iris.target, random_state=22)//3)特征工程:标准化transfer=StandardScaler()x train=transfer.fit_transform(x_train)x_test=transfer.transform(x_test)//4)KNN算法预估器estimator=KNeighborsClassifier()//加入网格搜索与交叉验证param_dict ={"n_neighbors":[1,3,5,7,9,11]}estimator=GridSearchCV(estimator,param_grid=param_dict,cv=10)estimator.fit(x_train,y_train)//5)模型评估//方法1:直接比对真实值和预测值y_predict=estimator.predict(x_test)print("y_predict:\n",y_predict)print("直接比对真实值和预测值:\n",y_test==y_predict)//方法2:计算准确率score=estimator.score(x_test,y_test)print("准确率为:\n",score)//最佳参数:best_params_print("最佳参数:\n",estimator.best_params_)//最佳结果:best_score_print("最佳结果:\n",estimator.best_score_)//最佳估计器:best_estimatir_print("最佳估计器:\n",estimator,best_estimator_)//交叉验证结果:cv_results_print("交叉验证结果:\n",estimator.cv_results_)return None

在这里插入图片描述

案例:预测facebook签到位置

1数据集介绍
File descriptions
数据介绍:将根据用户的位置,准确性和时间戳预测用户正在查看的业务
在这里插入图片描述

官网:https://www.kagge.com/navoshta/grid-knn/data

2实践

在这里插入图片描述

import pandas as pd// 1、获取数据
data=pd.read_csv("./rBlocation/train.csv")//基本的数据处理
//1)缩小数据范围
data=data.query("x<2.5 & x>1.5 & y>1.0 & y<1.5")//2)处理时间特征
time_value=pd.to_datetime(data["time"],unit="s")
date=pd.DatetimeIndex(time_value)
//添加需要的项
data["day"]=date.day
data["weekday"]=date.weekday
data["hour"]=date.hour//3)过滤签到次数少的地点
place_count=data.groupby("place_id").count()["row_id"]
data["place_id"].isin(place_count[place_count >3].index.values)
data_final=data[data["place_id"].isin(place_count[place_count >3].index.values)]//筛选特征值和目标值
x=data_final[["x","y","accuracy","day","weekday","hour"]]
y=data_final["place_id"]//数据集划分
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test=train_test_split(x,y)from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridsearchCV//3)特征工程:标准化
transfer=StandardScaler()
x train=transfer.fit_transform(x_train)
x_test=transfer.transform(x_test)//4)KNN算法预估器
estimator=KNeighborsClassifier()
//加入网格搜索与交叉验证
param_dict ={"n_neighbors":[1,3,5,7,9,11]}
estimator=GridSearchCV(estimator,param_grid=param_dict,cv=3)
estimator.fit(x_train,y_train)//5)模型评估
//方法1:直接比对真实值和预测值
y_predict=estimator.predict(x_test)
print("y_predict:\n",y_predict)
print("直接比对真实值和预测值:\n",y_test==y_predict)//方法2:计算准确率
score=estimator.score(x_test,y_test)
print("准确率为:\n",score)//最佳参数:best_params_
print("最佳参数:\n",estimator.best_params_)
//最佳结果:best_score_
print("最佳结果:\n",estimator.best_score_)
//最佳估计器:best_estimatir_
print("最佳估计器:\n",estimator,best_estimator_)
//交叉验证结果:cv_results_
print("交叉验证结果:\n",estimator.cv_results_)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/822219.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用Google reCAPTCHA防止机器注册

本文作者&#xff1a;陈进坚 博客地址&#xff1a;https://jian1098.github.io CSDN博客&#xff1a;https://blog.csdn.net/c_jian 简书&#xff1a;https://www.jianshu.com/u/8ba9ac5706b6 联系方式&#xff1a;jian1098qq.com 环境要求 能翻墙的电脑域名 验证原理 在谷歌…

C++入门之类和对象

C入门之类和对象 文章目录 C入门之类和对象1. 类的6个默认对象2. 构造函数2.1 概念2.2 特性2.3 补丁 3. 析构函数3.1 概念3.2 特性3.3 总结 4. 拷贝构造函数4.1 概念4.2 特性4.3 总结 1. 类的6个默认对象 如果一个类中什么都没有&#xff0c;那么这个类就是一个空类。但是&…

个人网站制作 Part 21 添加多语言支持 | Web开发项目

文章目录 &#x1f469;‍&#x1f4bb; 基础Web开发练手项目系列&#xff1a;个人网站制作&#x1f680; 添加多语言支持&#x1f528;使用多语言库&#x1f527;步骤 1: 选择多语言库&#x1f527;步骤 2: 安装vue-i18n&#x1f527;步骤 3: 创建多语言文件 &#x1f528;使用…

【网站项目】 游泳馆管理系统小程序

&#x1f64a;作者简介&#xff1a;拥有多年开发工作经验&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。&#x1f339;赠送计算机毕业设计600个选题excel文件&#xff0c;帮助大学选题。赠送开题报告模板&#xff…

教育短信群发有效果吗?邦之信短信平台为您分析!

教育短信群发确实是一种有效的营销和沟通手段&#xff0c;尤其在教育行业&#xff0c;其效果得到了广泛的认可。以下是教育短信群发的主要效果及其原因分析&#xff1a; 首先&#xff0c;短信群发能够覆盖广大的手机用户群体&#xff0c;几乎每个人都有手机&#xff0c;且经常…

uni-app学习

目录 一、安装HBuilderX 二、创第一个uni-app 三、项目目录和文件作用 四、全局配置文件&#xff08;pages.json&#xff09; 4.1 globalStyle&#xff08;全局样式&#xff09; 导航栏&#xff1a;背景颜色、标题颜色、标题文本 导航栏&#xff1a;开启下拉刷新、下拉背…

电商价格监测合规性探讨

品牌在做控价、数据分析的过程中&#xff0c;都需要先有数据作为支撑&#xff0c;也就是说要先采集数据&#xff0c;价格监测也是如此&#xff0c;监测的基础是采集&#xff0c;现在主流的采集形式是爬虫采集&#xff0c;可以理解为人工采集的升级版&#xff0c;以机器代替人工…

QT常量中有换行符解决方法--使用中文显示乱码或者编译报错

QT6.3常量中有换行符 int ret2QMessageBox::information(this,QString::fromLocal8Bit("提示"),QString::fromLocal8Bit(("确认启动设备吗?")),QMessageBox::Yes,QMessageBox::No); 确保显示正常&#xff0c;建议每次使用时&#xff0c;中文的前后加一个空…

PLSQL中文乱码问题 + EZDML导入数据库模型乱码

PLSQL中文乱码问题 EZDML导入数据库模型乱码 查询数据库字符集 select userenv(language) from dual;查询本地字符集编码 select * from V$NLS_PARAMETERS;理论上 数据库字符集 跟 本地字符集编码 是一致的 本地字符集编码需要拼接字段值 NLS_LANGUAGE NLS_TERRITORY NLS…

【机器学习300问】71、神经网络中前向传播和反向传播是什么?

我之前写了一篇有关计算图如何帮助人们理解反向传播的文章&#xff0c;那为什么我还要写这篇文章呢&#xff1f;是因为我又学习了一个新的方法来可视化前向传播和反向传播&#xff0c;我想把两种方法总结在一起&#xff0c;方便我自己后续的复习。对了顺便附上往期文章的链接方…

Java工程师常见面试题:Java基础(一)

1、JDK 和 JRE 有什么区别&#xff1f; JDK是Java开发工具包&#xff0c;它包含了JRE和开发工具&#xff08;如javac编译器和java程序运行工具等&#xff09;&#xff0c;主要用于Java程序的开发。而JRE是Java运行环境&#xff0c;它只包含了运行Java程序所必须的环境&#xf…

MySQL与Redis缓存一致性的实现与挑战

缓存是提高应用性能的重要手段之一&#xff0c;而 MySQL 和 Redis 是两种常用的数据存储和缓存技术。在许多应用中&#xff0c;常常将 Redis 用作缓存层&#xff0c;以加速对数据的访问。然而&#xff0c;在使用 MySQL 和 Redis 组合时&#xff0c;保持缓存与数据库之间的一致性…

淘宝京东1688API接口系列:商品属性丨价格丨sku丨详情图等,请求文档说明示例

电商平台的API接口系列为商家、开发者及数据分析师等提供了丰富的商品数据&#xff0c;帮助他们更深入地了解商品详情、市场动态以及消费者行为。以下是淘宝、京东等电商平台API接口系列中关于商品属性、价格、SKU和详情图等相关信息的介绍&#xff1a; 1.请求方式&#xff1a…

数字化浪潮下的企业转型:机遇与挑战并存

一、数字化转型的时代背景 科技进步推动数字化转型随着云计算、大数据、人工智能等技术的迅猛发展&#xff0c;数字化转型成为必然趋势。这些技术不仅改变了我们的生活方式&#xff0c;也深刻影响着企业的运营模式和商业模式。经济全球化加速数字化转型在经济全球化的背景下&a…

no_good_file(训练题)

[题目信息]&#xff1a; 题目名称题目难度no_good_file&#xff08;训练题&#xff09;2 [题目考点]&#xff1a; 远程命令执行漏洞&#xff0c;用户通过浏览器提交执行命令&#xff0c;由于服务器端没有针对执行函数做过滤&#xff0c;导致在没有指定绝对路径的情况下就执行…

读《SQL基础教程 第二版 上》的一些总结

1. 数据库语言 DDL: Data Definition Language&#xff0c;数据定义语言&#xff08;库、表的操作&#xff09; DML: Data Manipulation Language&#xff0c; 数据操控语言&#xff08;对表中数据的增删改&#xff09; DQL: Data Query Language&#xff0c;数据库查询语言…

Proxyman Premium for Mac v5.1.1激活版:卓越的网络调试与分析工具

Proxyman Premium for Mac是一款功能强大的网络调试与分析工具&#xff0c;专为开发人员和测试人员精心打造。它集多种功能于一身&#xff0c;为用户提供了全面、高效的网络开发体验。 Proxyman Premium for Mac v5.1.1激活版下载 作为一款跨平台代理工具&#xff0c;Proxyman …

cesium primitive 移动 缩放 旋转 矩阵

旋转参考&#xff1a;cesium 指定点旋转rectangle Primitive方式 矩阵篇-CSDN博客 平移参考&#xff1a;cesium 调整3dtiles的位置 世界坐标下 相对坐标下 平移矩阵-CSDN博客 一、primitive方式添加polygon let polygonInstance new Cesium.GeometryInstance({geometry: Ce…

逻辑回归模型-逻辑回归算法原理-逻辑回归代码与实现-笔记整合

通过一段时间的学习&#xff0c;总算把逻辑回归模型弄清楚了 《老饼讲解-机器学习》www.bbbdata.com中是讲得最清晰的&#xff0c;结合其它资料&#xff0c;整理一个完整的笔记如下&#xff0c;希望能帮助像我这样入门的新人&#xff0c;快速理解逻辑回归算法原理和逻辑回归实…

Adobe AE(After Effects)2023下载地址及安装教程

Adobe After Effects是一款专业级别的视觉效果和动态图形处理软件&#xff0c;由Adobe Systems开发。它被广泛用于电影、电视节目、广告和其他多媒体项目的制作。 After Effects提供了强大的合成和特效功能&#xff0c;可以让用户创建出令人惊艳的动态图形和视觉效果。用户可以…