[Kaggle] Digit Recognizer 手写数字识别

文章目录

    • 1. Baseline KNN
    • 2. Try SVC

Digit Recognizer 练习地址

相关博文:[Hands On ML] 3. 分类(MNIST手写数字预测)

1. Baseline KNN

  • 读取数据
import pandas as pd
train = pd.read_csv('train.csv')
X_test = pd.read_csv('test.csv')
  • 特征、标签分离
train.head()
y_train = train['label']
X_train = train.drop(['label'], axis=1)
X_train

在这里插入图片描述

  • 网格搜索 KNN 模型最佳参数
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score
# help(KNeighborsClassifier)
para_dict = [{'weights':["uniform", "distance"], 'n_neighbors':[3,4,5], 'leaf_size':[10,20]}
]
knn_clf = KNeighborsClassifier()
grid_search = GridSearchCV(knn_clf, para_dict, cv=3,scoring='accuracy',n_jobs=-1)
grid_search.fit(X_train, y_train)
输出
GridSearchCV(cv=3, estimator=KNeighborsClassifier(), n_jobs=-1,param_grid=[{'leaf_size': [10, 20], 'n_neighbors': [3, 4, 5],'weights': ['uniform', 'distance']}],scoring='accuracy')
  • 最佳参数
grid_search.best_params_
# {'leaf_size': 10, 'n_neighbors': 4, 'weights': 'distance'}
  • 最好得分
grid_search.best_score_
# 0.9677619047619048
  • 生成 test 集预测结果
y_pred = grid_search.predict(X_test)
  • 写入结果文件
image_id = pd.Series(range(1,len(y_pred)+1))
output = pd.DataFrame({'ImageId':image_id, 'Label':y_pred})
output.to_csv("submission.csv",  index=False) # 不要index列
  • 预测结果

排行榜

以上 KNN 模型得分 0.97067,目前排名2467
在这里插入图片描述

2. Try SVC

  • 读取数据
import pandas as pd
train = pd.read_csv('train.csv')
X_test = pd.read_csv('test.csv')
y_train = train['label']
X_train = train.drop(['label'], axis=1)
  • 导入包
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC, LinearSVC
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score
  • 搜索最佳参数
pipeline = Pipeline([("scaler",StandardScaler()),('clf', SVC(decision_function_shape="ovr", gamma="auto"))
])from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import reciprocal, uniformparam_distributions = {"clf__gamma": reciprocal(0.001, 0.1), "clf__C": uniform(1, 10)}
rnd_search_cv = RandomizedSearchCV(pipeline, param_distributions, n_iter=10, verbose=2, cv=3)rnd_search_cv.fit(X_train, y_train)
  • 训练花费12个小时 [Parallel(n_jobs=1)]: Done 30 out of 30 | elapsed: 744.1min finished
rnd_search_cv.best_estimator_
  • 最佳评估器
Pipeline(steps=[('scaler', StandardScaler()),('clf',SVC(C=10.729327185542381, gamma=0.0022750096640207287))])
  • 最好得分
rnd_search_cv.best_score_
# 0.9584285714285713
  • 预测
y_pred = rnd_search_cv.best_estimator_.predict(X_test)
image_id = pd.Series(range(1,len(y_pred)+1))
output = pd.DataFrame({'ImageId':image_id, 'Label':y_pred})
output.to_csv("submission_svc.csv",  index=False)

在这里插入图片描述
SVC 支持向量机分类模型 得分 0.96464 没有上面 KNN 模型高(KNN 得分 0.97067)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/475488.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Power BI 数据分析可视化软件入门教程

入 门 l Power BI 的引导学习 什么是Power BI? Power BI 是软件服务、应用和连接器的集合,它们协同工作以将相关数据来源转换为连贯的视觉逼真的交互式见解。 Power BI 简单且快速,能够从 Excel 电子表格或本地数据库创建快速见解。同…

分组统计 - DataFrame.groupby() 所见的各种用法 - Python代码

目录 所见 1 :日常用法 所见 2 :解决groupby.sum() 后层级索引levels上移的问题 所见 3 :解决groupby.apply() 后层级索引levels上移的问题 所见 4 :groupby函数的分组结果保存成DataFrame groupby的函数定义: Da…

线性回归 - 多元线性回归案例 - 分析步骤、输出结果详解、与Python的结果对比 -(SPSS建模)

现在用 Python 写线性回归的博客都快烂大街了,为什么还要用 SPSS 做线性回归呢?这就来说说 SPSS 存在的原因吧。 SPSS 是一个很强大的软件,不用编程,不用调参,点巴两下就出结果了,而且出来的大多是你想要的…

R12 应付款模块(AP):预付款(prepayment)的标准处理流程

预付款的概念 财务会计的解释: 企业对于某些物资有时需要采取预先订购的方式,即按照购货合同规定预付一部分货款。这部分预先付给供货单位的订货款就构成了企业的预付账款。(来自会计学概论,要区分定金和预付款的区别!…

LeetCode 391. 完美矩形(set检查顶点+面积检查)

1. 题目 我们有 N 个与坐标轴对齐的矩形, 其中 N > 0, 判断它们是否能精确地覆盖一个矩形区域。 每个矩形用左下角的点和右上角的点的坐标来表示。例如, 一个单位正方形可以表示为 [1,1,2,2]。 ( 左下角的点的坐标为 (1, 1) 以及右上角的点的坐标为 (2, 2) )。…

时间序列 - 案例按步骤详解 -(SPSS建模)

时间序列简单的说就是各时间点上形成的数值序列,通过观察历史数据的变化规律预测未来的值。在这里需要强调一点的是,时间序列分析并不是关于时间的回归,它主要是研究自身的变化规律的。 准备工作:SPSS - 中文版 SPSS 22.0 软件下…

特征计算 - 遍历求值提速 6 万倍 lambda...if...else(if...else...) +map() 对比 iterrows() - Python代码

Python 进行 DataFrame 数据处理的过程中,需要判断某一列中的值(条件),然后对其他两列或三列进行求和(均值/最值)等运算,并把运算结果存储在新的一列中。干说可能觉得比较晕,我们来看…

非线性回归 - 案例按步骤详解 -(SPSS建模)

在上一篇时间序列的文章中,偶然发现另一份数据的整体趋势很符合非线性回归关系,那么就顺势写一篇非线性回归案例的文章吧。 准备工作:SPSS - 中文版 SPSS 22.0 软件下载与安装教程 - 【附产品授权许可码,永久免费】 数据解释&am…

邮件服务器之POP3协议分析

第1章. POP3概述 POP3全称为Post Office Protocol version3,即邮局协议第3版。它被用户代理用来邮件服务器取得邮件。POP3采用的也是C/S通信 模型,对应的RFC文 档为RFC1939。 该协议非常简单,所以我们只重点介绍其通信过程,而相关…

Python 画图常用颜色 - 单色、渐变色、混色 - 够用

单色 装了seaborn扩展的话,在字典seaborn.xkcd_rgb中包含所有的xkcd crowdsourced color names。如下: plt.plot([1,2], lw4, cseaborn.xkcd_rgb[baby poop green]) 虽然觉得上面的已经够用了,但是还是备份一下这个最全的吧。 渐变色&…

[scikit-learn 机器学习] 2. 简单线性回归

文章目录1. 简单线性回归2. 评价模型本文为 scikit-learn机器学习(第2版)学习笔记1. 简单线性回归 import numpy as np import matplotlib.pyplot as pltX np.array([[6],[8],[10],[14],[18]]) y np.array([7,9,13,17.5,18]) plt.title("pizza …

Matplotlib - 散点图 scatter() 所有用法详解

目录 基本用法 散点的大小不同(根据点对应的数值) 散点的颜色不同(指定颜色或者渐变色) 散点图和折线图是数据分析中最常用的两种图形,他们能够分析不同数值型特征间的关系。其中,散点图主要用于分析特征…

Matplotlib - 折线图 plot() 所有用法详解

散点图和折线图是数据分析中最常用的两种图形。其中,折线图用于分析自变量和因变量之间的趋势关系,最适合用于显示随着时间而变化的连续数据,同时还可以看出数量的差异,增长情况。 Matplotlib 中绘制散点图的函数为 plot() &…

html 拍照旋转了90度_华为Mate X2概念图:可旋转正反三屏幕,单颗镜头在转轴上...

如果你是新朋友,请点击上方的蓝色字 关注 “高科技爱好者”,保证不会让你失望的.华为折叠手机的上市发售,引起了消费者的广泛关注,尤其是华为MateX系列手机的售价非常昂贵,同时出货量也比较少,所以外界都十…

[scikit-learn 机器学习] 3. K-近邻算法分类和回归

文章目录1. KNN模型2. KNN分类3. 使用sklearn KNN分类4. KNN回归本文为 scikit-learn机器学习(第2版)学习笔记K 近邻法(K-Nearest Neighbor, K-NN) 常用于 搜索和推荐系统。 1. KNN模型 确定距离度量方法(如欧氏距离…

Matplotlib - 柱状图、直方图、条形图 bar() barh() 所有用法详解

目录 基本用法 多个直方图并列显示 显示直方图上的数值 多个直方图堆叠显示 水平直方图 相较散点图和折线图,柱状图(直方图、条形图)、饼图、箱线图是另外 3 种数据分析常用的图形,主要用于分析数据内部的分布状态或分散状…

word里双横线怎么打_美人计 | 精致打工人秀智,教你内双怎么化

通勤妆千千万,大家画好才能算。国民初恋裴秀智搭档“南朋友”南柱赫,《启动了》这部剧让很多颜值控都纷纷沦陷了。起初奔着这两大主角看的,结果看着看着又被男二金宣虎圈了粉,在剧中裴秀智和金宣虎两小无猜的感情没能发展成爱情&a…

Matplotlib - 饼图、环形图 pie() 多重饼图 subplots() 所有用法详解

目录 基本用法 饼图中突出显示某部分 环形图(空心饼图) 多重饼图,并添加分割线 相较散点图和折线图,柱状图、饼图、箱线图是另外 3 种数据分析常用的图形,主要用于分析数据内部的分布状态或分散状态。饼图主要用于…

USACO2.11 The Castle hdu1198

题意: 我们憨厚的USACO主人公农夫约翰(Farmer John)以无法想象的运气,在他生日那天收到了一份特别的礼物:一张“幸运爱尔兰”(一种彩票)。结果这张彩票让他获得了这次比赛唯一的奖品——坐落于爱尔兰郊外的一座梦幻般的城堡&#…

Matplotlib - 箱线图、箱型图 boxplot () 所有用法详解

目录 基本用法 水平箱线图,显示均值 改变箱线图的形状(箱体的形状notch、异常值的形状sym) 改变箱线图的颜色(箱体边框的颜色、箱体填充色) 相较散点图和折线图,柱状图、饼图、箱线图(箱…