sklearn监督学习--k近邻算法

sklearn监督学习

  • 一、分类与回归
  • 二、泛化、过拟合与欠拟合
  • 三、k近邻算法
  • 四、分析KNeighborsClassifier
  • 五、k近邻算法用于回归
    • 优点、缺点和参数

一、分类与回归

监督学习是最常用也是最成功的机器学习类型之一。监督机器学习问题主要有两种,分别叫做分类回归。分类问题的目标是预测类别标签,这些标签来自预定义的可选列表。分类问题有时可分为二分类(在两个类别之间进行区分的一种特殊情况)和多分类(在两个以上的类别之间进行区分)。
回归任务的目标是预测一个连续值。根据教育水平、年龄和居住地来预测一个人的年收入,这就是回归的一个例子。在预测收入时,预测值是一个金额,可以在给定范围内任意取值。
区分分类任务和回归任务有一个简单办法,就是问一个问题:输出是否具有某种连续性。如果在可能的结果之间具有连续性,那么它就是一个回归问题。

二、泛化、过拟合与欠拟合

在监督学习中,我们想要在训练数据上构建模型,然后能够对没见过的新数据做出准确预测。如果一个模型能够对没见过的数据做出准确预测,我们就说它能够从训练集泛化到测试集。
判断一个算法在新数据上表现好坏的唯一度量,就是在测试集上的评估。然而从直觉上看,我们认为简单的模型对新数据的泛化能力更好。构建一个对现有信息量来说过于复杂的模型,被称为过拟合。如果你在拟合模型时过分关注训练集的细节,得到了一个在训练集上表现很好、但不能泛化到新数据上的模型,那么就存在过拟合。与之相反,如果你的模型过于简单,那么你可能无法抓住数据的全部内容以及数据中的变化,你的模型甚至在训练集上的表现就很差。选择过于简单的模型被称为欠拟合
我们的模型越复杂,在训练数据上的预测结果就越好。但是,如果我们的模型过于复杂,我们开始过多关注训练集中每个单独的数据点,模型就不能很好地泛化到新数据上。二者之间存在一个最佳位置,可以得到最好的泛化性能。
另外,收集更多数据,适当构建更复杂的模型,对监督学习任务往往特别有用。

三、k近邻算法

先来看一个数据集,它是一个模拟的二分类数据集,叫做forge。它有两个特征,下面代码将绘制一个散点图,将此数据集的所有数据点可视化。图像以第一个特征为x轴,第二个特征为y轴。

import mglearn
import matplotlib.pyplot as plt
# 生成数据集
X, y = mglearn.datasets.make_forge()
# 数据集绘图
mglearn.discrete_scatter(X[:, 0], X[:, 1], y)
plt.legend(["Class 0", "Class 1"], loc=4)
plt.xlabel("First feature")
plt.ylabel("Second feature")

得到如下的图形:
在这里插入图片描述
k-NN算法可以说是最简单的机器学习算法。构建模型只需要保存训练数据集即可。想要对新数据点做出预测,算法会在训练数据集中找到最近的数据点,也就是它的“最近邻”。
k-NN算法最简单的版本只考虑一个最近邻,也就是与我们想要预测的数据点最近的训练数据点。预测结果就是这个训练数据点的已知输出。下图给出了这种分类方法在forge数据集上的应用:

mglearn.plots.plot_knn_classification(n_neighbors=1)

在这里插入图片描述
这里我们添加了3个新数据点(用五角星表示)。对于每个新数据点,我们标记了训练集中与它最近的点。单一最近邻算法的预测结果就是那个点的标签(对应五角星的颜色)。除了仅考虑最近邻,我们还可以考虑任意k个邻居,这也是k近邻算法名字的来历。在考虑多于一个邻居的情况时,我们用投票法来指定标签。也就是说,对于每个测试点,我们数一数多少个邻居属于类别0,多少个邻居属于类别1。然后将出现次数更多的类别作为预测结果。下面的例子用到了3个近邻:

mglearn.plots.plot_knn_classification(n_neighbors=3)

在这里插入图片描述
和上面一样,预测结果可以从五角星的颜色看出。可以发现,左上角新数据点的预测结果与只用一个邻居时的预测结果不同。
接下来,使用sklearn的k近邻算法。

import mglearn
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifierX, y = mglearn.datasets.make_forge()
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
# 实例化类,邻居的个数设为3
clf = KNeighborsClassifier(n_neighbors=3)

现在,利用训练集对这个分类器进行拟合。对于KNeighborsClassifier来说就是保存数据集,以便在预测时计算与邻居之间的距离:

clf.fit(X_train, y_train)

调用predict方法来对测试数据进行预测。对于测试集中的每个数据点,都要计算它在训练集的最近邻,然后找出其中出现次数最多的类别:
在这里插入图片描述
为了评估模型的泛化能力好坏,我们可以对测试数据和测试标签调用score方法:
在这里插入图片描述
可以看到,我们的模型精度约为86%,也就是说,在测试数据集中,模型对其中86%的样本预测的类别都是正确的。

四、分析KNeighborsClassifier

对于二维数据集,我们还可以在xy平面上画出所有可能得测试点的预测结果。我们根据平面中每个点所属的类别对平面进行着色。这样可以查看决策边界,即算法对类别0和类别1的分界线。下面代码分别将1个、3个和9个邻居3中情况的决策边界可视化:

fig, axes = plt.subplots(1, 3, figsize=(10, 3))for n_neighbors, ax in zip([1, 3, 9], axes):clf = KNeighborsClassifier(n_neighbors=n_neighbors).fit(X, y)mglearn.plots.plot_2d_separator(clf, X, fill=True, eps=0.5, ax=ax, alpha=.4)mglearn.discrete_scatter(X[:, 0],X[:, 1], y, ax=ax)ax.set_title(f"{n_neighbors} neighbors")ax.set_xlabel("feature 0")ax.set_ylabel("feature 1")

可视化结果如下:
在这里插入图片描述

五、k近邻算法用于回归

k近邻算法还可以用于回归。我们还是先从单一近邻开始,这次使用wave数据集。我们添加了3个测试数据点,在x轴上用绿色五角星表示。利用单一邻居的预测结果就是最近邻的目标值:

mglearn.plots.plot_knn_regression(n_neighbors=1)

如下图所示:
在这里插入图片描述
同样,也可以用多个近邻进行回归。在使用多个近邻时,预测结果为这些邻居的平均值:

mglearn.plots.plot_knn_regression(n_neighbors=3)

如下图所示:
在这里插入图片描述
用于回归的k近邻算法在sklearn的KNeighborsRegressor类中实现。其用法与KNeighborsClassifier类似:

from sklearn.neighbors import KNeighborsRegressorX, y = mglearn.datasets.make_wave(n_samples=40)X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
# 模型实例化,并将邻居个数设为3
reg = KNeighborsRegressor(n_neighbors=3)
reg.fit(X_train, y_train)

我们还可以用score方法来评估模型,对于回归问题,这一方法返回的是R²分数。R²分数也叫作决定系数,是回归模型预测的优度度量,位于0到1之间。R²等于1对应完美预测,R²等于0对应常数模型,即总是预测训练集响应(y_train)的平均值:

在这里插入图片描述
分数是0.83,表示模型的拟合相对较好。

优点、缺点和参数

一般来说,KNeighbors分类器有2个重要参数:邻居个数与数据点之间距离的度量方法。在实践中,使用较小的邻居个数(比如3个或5个)往往可以得到比较好的结果,但你应该调节这个参数。距离度量方法默认使用欧式距离,它在许多情况下的效果都很好。
k-NN的优点之一就是模型很容易理解,通常不需要过多调节就可以得到不错的性能。在考虑使用更高级的技术之前,尝试此算法是一种很好的基准方法。构建最近邻模型的速度通常很快,但如果训练集很大(特征数很多或者样本数很大),预测速度可能会比较慢。使用该算法时,对数据进行预处理很重要。这一算法对于有很多特征(几百或更多)的数据集往往效果不好,对于大多数特征的大多数取值都为0的数据集来说,这一算法的效果尤其不好。
虽然k近邻算法很容易理解,但由于预测速度慢且不能处理具有很多特征的数据集,所以在实践中往往不会用到。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/843052.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IDEA项目通过 tomcat运行报错: 404 请求的资源不可用

SpringBootVue项目 IDEA运行 Tomcat,自动打开网页报错 HTTP状态 404 - 未找到 类型 状态报告 消息 请求的资源[/WarehouseManagerApi_war/]不可用 描述 源服务器未能找到目标资源的表示或者是不愿公开一个已经存在的资源表示。 Apache Tomcat/9.0.89 但是运行访问 …

c++参数 使用笔记

定义函数&#xff1a; 传两个参数&#xff0c;一个引用&#xff0c;一个返回 public:ThpRecord getLatestRecord(QVector<int>& ids); };ThpRecord faceinit::getLatestRecord(QVector<int>& ids) {ThpRecord entity;// 创建一个 SQL 查询对象QSqlQuery …

【Unity】如何在独立thread中调用协程

【背景】 需要在脚本的分线程中调用协程,结果发现协程必须由主线程调用,不然报错。 但是协程动作的触发点却放在分支thread中触发最理想。如何能够绕过这一限制,使得分支线程满足条件后能直接成功发起协程呢? 【分析】 无法直接start协程那就只能用间接的方法吊起协程。…

【接口测试_04课_Jsonpath断言、接口关联及加密处理】

一、Jasonpath的应用 JsonPath工具网站&#xff1a;JSONPath解析器 - 一个工具箱 - 好用的在线工具都在这里&#xff01; 1、JSONPath的手写与获取 手写JSONPath 1、 $ &#xff08;英文美元符号&#xff09;代表外层的{} . &#xff08;英文句号&#xff09;表示当前…

卷积神经网络-奥特曼识别

数据集 四种奥特曼图片_数据集-飞桨AI Studio星河社区 (baidu.com) 中间的隐藏层 已经使用参数的空间 Conv2D卷积层 ReLU激活层 MaxPool2D最大池化层 AdaptiveAvgPool2D自适应的平均池化 Linear全链接层 Dropout放置过拟合&#xff0c;随机丢弃神经元 -----------------…

echarts快速入门

之前只看过&#xff0c;没写过&#xff0c;来了个新需求了解下echarts功能 官网&#xff1a;https://echarts.apache.org/handbook/zh/get-started 官方参数文档&#xff1a;https://echarts.apache.org/zh/option.html#title 其实大部分问题&#xff0c;去官方参数文档里面都…

【项目教程】FFmpeg+SDL2实现视频播放器

一、前言 学习ffmpeg和sdl&#xff0c;并编写一个视频播放器&#xff0c;是一个很好的音视频开发项目。 虽然关于视频播放器的原理已经有很多人在博客中进行了讲解&#xff0c;但是很多人不提供视频和代码&#xff0c;这也是我写这篇博客的主要原因。 二、在视频播放器中&am…

机器学习 - toad 0.10 和 0.13 之间的区别

Toad 是一个用于机器学习建模、预处理和特征工程的 Python 库。以下是 Toad 库版本 0.10 和 0.13 之间的主要区别&#xff1a; Toad 0.10 初始功能: 版本 0.10 可能包含了 Toad 的基础功能&#xff0c;如数据预处理、特征选择和模型评估。特征选择: 提供了基本的特征选择方法…

【组合数学 放球问题 虚拟点 小于等于转小于】1621. 大小为 K 的不重叠线段的数目

本文涉及知识点 放球问题 组合数学汇总 本题难道分&#xff1a;2198 LeetCode1621. 大小为 K 的不重叠线段的数目 给你一维空间的 n 个点&#xff0c;其中第 i 个点&#xff08;编号从 0 到 n-1&#xff09;位于 x i 处&#xff0c;请你找到 恰好 k 个不重叠 线段且每个线段…

零拷贝(Zero Copy)

目录 零拷贝&#xff08;Zero Copy&#xff09; 1.什么是Zero Copy? 2.物理内存和虚拟内存 3.内核空间和用户空间 4.Linux的I/O读写方式 4.1 I/O中断原理 4.2 DMA传输原理 5.传统I/O方式 5.1传统读操作 5.2传统写操作 6.零拷贝 6.1.用户态直接IO 6.2.mmapwrite …

免费使用知网下载文献

第一步&#xff1a;输入网址&#xff1a;https://digi.library.hb.cn:8443/#/&#xff08;或搜索湖北省图书馆&#xff09; 第二步&#xff1a;点击登录按钮。 第三步&#xff1a;使用手机 支付宝 扫描页面左侧二维码。 第四步&#xff1a;手机点击“电子读者证注册”。&…

抖音 v27.8.0 内置增强模块,自动播放、无水印下载(可登录,助手增强版)

介绍 抖音应用作为全球领先的短视频平台&#xff0c;其内置功能允许用户将喜欢的内容保存至本地设备&#xff0c;但默认情况下&#xff0c;这些视频会带有抖音的水印。为了解决这一限制&#xff0c;该版本使用户能够直接保存不带水印的视频到手机中&#xff0c;无需使用任何第…

Lambda架构的三层 批处理层 加速层 服务层

Lambda架构是一种大数据处理架构&#xff0c;由Nathan Marz提出&#xff0c;它旨在处理大规模数据的批处理和实时处理问题。Lambda架构试图提供一种既能处理大量数据&#xff0c;又能提供低延迟查询和视图的系统。它主要由以下三层组成&#xff1a; 1. 批处理层&#xff08;Ba…

R25 型双极型晶体管 433功率放大器,集电极电流可达100mA

R25 型硅基微波双极型晶体管是一种常见的晶体管&#xff0c;主要用于高频电子放大线路中。常被用作放大器、开关、变频器等电子电路中的核心元件。在放大电路中&#xff0c;它可以将微弱的信号放大到足以驱动输出负载&#xff1b;在开关电路中&#xff0c;它可以实现电路的打开…

易查分小程序 学生成绩管理小程序

亲爱的老师们&#xff0c;是不是每次成绩公布后&#xff0c;家长们的连环夺命call让你头大&#xff1f;担心孩子们的成绩信息安全&#xff0c;又想快速分享给家长&#xff0c;这可咋整&#xff1f;别急&#xff0c;易查分小程序来帮忙啦&#xff01; 安全有保障 智能验证码&a…

用枚举算法解决Leetcode第318题最大单词长度乘积问题

318. 最大单词长度乘积 难度&#xff1a;中等 问题描述&#xff1a; 给你一个字符串数组 words &#xff0c;找出并返回 length(words[i]) * length(words[j]) 的最大值&#xff0c;并且这两个单词不含有公共字母。如果不存在这样的两个单词&#xff0c;返回 0 。 示例 1&a…

【Vue】接口调用方式

前言 目标 1 接口调用方式有哪些 2 如何调用接口 #mermaid-svg-YlRqEAhIdpqh7D3I {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-YlRqEAhIdpqh7D3I .error-icon{fill:#552222;}#mermaid-svg-YlRqEAhIdpqh7D3I .err…

基于tcp实现自定义应用层协议

认识协议 协议&#xff08;Protocol&#xff09; 是一种通信规则或标准&#xff0c;用于定义通信双方或多方之间如何交互和传输数据。在计算机网络和通信系统中&#xff0c;协议规定了通信实体之间信息交换的格式、顺序、定时以及有关同步等事宜的约定。简易来说协议就是通信…

【Linux】Linux下centos更换国内yum源

&#x1f331;博客主页&#xff1a;青竹雾色间 &#x1f331;系列专栏&#xff1a;Linux &#x1f618;博客制作不易欢迎各位&#x1f44d;点赞⭐收藏➕关注 目录 1. 备份旧的 YUM 源文件2. 下载国内的 YUM 源文件阿里云&#xff1a;网易&#xff1a; 3. 清理 YUM 缓存4. 更新…

scp问题:Permission denied, please try again.

我把scp归纳三种情况&#xff1a; 源端root——》目标端root 源端root——》目标端mysql&#xff08;任意&#xff09;用户 源端&#xff08;任意用户&#xff09;——》目标端root用户 在scp传输文件的时候需要指导目标端的用户密码&#xff0c;如root用户密码、mysql用户…