【机器学习】k近邻(k-nearest neighbor )算法

文章目录

  • 0. 前言
  • 1. 算法原理
    • 1.1 距离度量
    • 1.2 参数k的选择
  • 2. 优缺点及适用场景
  • 3. 改进和扩展
  • 4. 案例
  • 5. 总结

0. 前言

k近邻(k-nearest neighbors,KNN)算法是一种基本的监督学习算法,用于分类和回归问题。k值的选择、距离度量及分类决策规则是k近邻法的三个基本要素。

1. 算法原理

给定一个训练数据集,KNN算法通过计算待分类样本与训练数据集中各个样本的距离,选取距离最近的k个样本,然后根据这k个样本的类别进行投票(分类问题)或者求平均值(回归问题),以确定待分类样本的类别或者值。

注:分类问题中常使用多数表决作为决策规则,回归问题中常使用平均或加权平均作为决策规则

1.1 距离度量

距离度量在机器学习和数据挖掘领域中是一项基础且至关重要的工作。它用于衡量数据集中样本之间的相似性或差异性。在KNN算法中,距离度量被用来衡量待分类样本与训练数据集中各个样本之间的距离,以便确定最近的邻居。KNN算法常用的距离度量方法包括欧氏距离和曼哈顿距离。

  • 欧氏距离(Euclidean Distance)
    欧氏距离是最常见的距离度量方法之一,也是我们通常所理解的“直线距离”。对于两个样本向量 p = ( p 1 , p 2 , . . . , p n ) \mathbf{p}=(p_1, p_2, ...,p_n) p=(p1,p2,...,pn) q = ( q 1 , q 2 , . . . , q n ) \mathbf{q}=(q_1, q_2, ...,q_n) q=(q1,q2,...,qn),它们之间的欧氏距离可以表示为:
    d ( p , q ) = ∑ i = 1 n ( p i − q i ) 2 d(\mathbf{p}, \mathbf{q}) = \sqrt{\sum_{i=1}^{n}(p_i - q_i)^2} d(p,q)=i=1n(piqi)2
  • 曼哈顿距离(Manhattan Distance)
    曼哈顿距离又称为城市街区距离,它是两个点在标准坐标系上的绝对轴距总和。两个样本向量之间的曼哈顿距离可以表示为: d ( p , q ) = ∑ i = 1 n ∣ p i − q i ∣ d(\mathbf{p}, \mathbf{q}) = \sum_{i=1}^{n}|p_i - q_i| d(p,q)=i=1npiqi

1.2 参数k的选择

选择适当的 k 值对 K 近邻算法的性能至关重要。选择 k 值时,需要权衡模型的复杂度和泛化能力,通常通过交叉验证等方法来确定。

下面是一些常见的选择 k 值的方法:

  • 经验法:选择一个较小的 k 值,例如 3 或 5。这种方法适用于较小的数据集和较简单的问题
  • 奇数选择:为了避免平局情况的发生,通常选择奇数的 k 值,这样在进行投票时可以避免平票的情况
  • 交叉验证:通过交叉验证来选择最优的 k 值。可以采用 k 折交叉验证,将训练数据集划分为 k 个子集,每次将其中一个子集作为验证集,其余子集作为训练集,重复 k 次计算模型的性能指标(如准确率、F1 分数等),然后选取性能最好的 k 值
  • 网格搜索:结合交叉验证,使用网格搜索方法在指定范围内搜索最优的 k 值。通过在给定的 k 值范围内进行搜索,并评估每个 k 值的性能,最终选择性能最好的 k 值。
  • 调整邻域大小:对于特定问题,可能需要调整邻域的大小,即样本点在特征空间中的密度。可以通过逐步增加或减少 k 值来探索模型的性能变化。

在实践中,选择 k 值时需要考虑数据集的大小、类别分布、特征的数量和类型等因素。较大的 k 值会使模型更加平滑,减少噪声的影响,但可能导致模型欠拟合;而较小的 k 值可能会使模型更加复杂,容易受到局部极值点的影响,但也更容易受到噪声的干扰。因此,选择合适的 k 值需要在模型的泛化能力和准确性之间进行权衡。

2. 优缺点及适用场景

优点:

  • 实现简单,易于理解
  • 适用于多分类和回归问题
  • 对于特征维度较高的数据也能够有效地进行分类

缺点:

  • 需要保存全部的训练数据,当训练数据集较大时,内存消耗较大
  • 对于每个待分类样本,都需要计算与所有训练样本的距离,当训练数据集较大时,计算复杂度较高
  • 对于样本不平衡的数据,可能会导致预测偏倚

适用场景:

  • 适用于样本数量较少、类别较少、特征维度较低的情况
  • 可以用于初步了解数据分布、进行数据探索性分析等

3. 改进和扩展

  • 加权KNN:通过给距离较近的样本赋予更高的权重,改善模型性能。
  • KD树、球树等数据结构:用于加速KNN算法的搜索过程,降低计算复杂度。
  • 距离加权KNN、半径最近邻等改进算法。

4. 案例

以《动手学机器学习》中高斯数据集的分类为例(官方项目地址),高斯数据集包含一些平面上的点,分别由两个独立的二维高斯分布随机生成。

首先,导入数据集并分析数据结构

在这里插入图片描述

可以看到,数据一共有200个样本,每个样本包含x,y坐标和对应的类别。然后对数据进行可视化:

在这里插入图片描述

将整个数据集作为训练集,将平面上其他点作为测试集。由于平面上的点是连续的,因此采用均匀网格采样获取离散点作为测试样本:

在这里插入图片描述

通过np.meshgrid函数生成了409*390个网格点,xx和yy分别为横坐标和纵坐标,将两者reshape和拼接后得到的grid_data作为测试集。使用sklearn中的KNN对测试集进行分类:

在这里插入图片描述
在这里插入图片描述
从分类结果中可以看到,随着K的增大,分类边界逐渐平滑,但同时错分概率也逐渐变大。

5. 总结

总的来说,KNN算法是一种简单而有效的分类和回归方法,尤其适用于小型数据集和低维特征空间。然而,在大规模数据集和高维特征空间下,KNN算法的计算复杂度和内存消耗可能会成为问题,因此在实际应用中需要谨慎选择。

TODO

  • kd树提高k近邻算法效率的原理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/766954.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux中Oracle数据库启动顺序

首先使用oracle用户登录Linux,用lsnrctl status查看监听状态 1、:进入sqlplus $ sqlplus /nolog SQL> 2:使用sysdab角色登录sqlplus SQL> conn /as sysdba 3:启动数据库 SQL> startup 4:打开Oracle监听 …

微信小程序 - picker-viewer实现省市选择器

简介 本文会基于微信小程序picker viewer组件实现省市选择器的功能。 实现效果 实现代码 布局 <picker-view value"{{value}}" bindchange"bindChange" indicator-style"height: 50px;" style"width: 100%; height: 300px;" &…

OCR研究背景及相关论文分享

光学字符识别&#xff08;Optical Character Recognition&#xff0c;OCR&#xff09;是指使用光学方法将图像中的文字转换为机器可编辑的文本的技术。OCR技术的研究和应用已有数十年的历史&#xff0c;其背景和发展受到多方面因素的影响。 技术需求背景 1.自动化文档处理&am…

【数据分享】2012-2023年全球范围逐年NPP/VIIRS夜间灯光数据

夜间灯光数据是我们在各项研究中经常使用的数据&#xff01;本次我们给大家分享的是2012-2023年全球范围的逐年的NPP/VIIRS夜间灯光数据&#xff0c;数据格式为栅格格式(.tif)。该数据来自于NCEI国家环境信息中心&#xff0c;近期该网站更新了2023年的夜间灯光数据&#xff0c;…

电脑如何关闭自启动应用?cmd一招解决问题

很多小伙伴说电脑刚开机就卡的和定格动画似的&#xff0c;cmd一招解决问题&#xff1a; CtrlR打开cmd,输入&#xff1a;msconfig 进入到这个界面&#xff1a; 点击启动&#xff1a; 打开任务管理器&#xff0c;禁用不要的自启动应用就ok了

Linux——进程间通信管道

&#x1f4d8;北尘_&#xff1a;个人主页 &#x1f30e;个人专栏:《Linux操作系统》《经典算法试题 》《C》 《数据结构与算法》 ☀️走在路上&#xff0c;不忘来时的初心 文章目录 一、进程间通信1、进程间通信的目的2、进程间通信发展3、进程间通信分类 二、管道1、什么是管…

tcp 协议详解

什么是 TCP 协议 TCP全称为 “传输控制协议(Transmission Control Protocol”). 人如其名, 要对数据的传输进行一个详细的控制。TCP 是一个传输层的协议。 如下图&#xff1a; 我们接下来在讲解 TCP/IP 协议栈的下三层时都会先解决这两个问题&#xff1a; 报头与有效载荷如何…

【Linux】线程控制{fork() / vfork / clone/pthread_join()/pthread_cancel()}

文章目录 1.fork() / vfork / clone2.线程等待2.1pthread_join()2.2pthread_tryjoin_np() 3.pthread_exit()4.pthread_cancel()5.一些线程相关的问题6.pthread_detach()7.pthread_self()8.认识线程标识符&#xff1a;pthread_self()获取线程标识符9.POSIX线程库 1.fork() / vfo…

【CVPR2024】CricaVPR

【CVPR2024】CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition 这个论文提出了一种具有跨图像相关性的鲁棒全局表示方法用于视觉位置识别&#xff08;VPR&#xff0c;Visual Place Recognition &#xff09;任务&#xff0c;命…

MySQL学习笔记------SQL(1)

关系型数据库&#xff08;RDBMS&#xff09; 建立在关系模型基础上&#xff0c;由多张相互连接的二维表组成的数据库 特点&#xff1a;使用表储存数据&#xff0c;格式统一&#xff0c;便于维护 使用SQL语言操作&#xff0c;标准统一&#xff0c;使用方便 SQL通用语法 SQL…

Java 开篇之 JDK 下载、安装、配置、卸载、运行及乱码处理

JDK 安装和配置 本文内容简介&#xff1a; JDK 简介JDK 正确卸载方式JDK 下载和安装环境变量配置开发过程运行结果及乱码解决 JDK 简介 JDK&#xff08;Java Development Kit&#xff09;是 Java 语言的软件开发工具包&#xff0c;它是 Sun Microsystems&#xff08;现已被 Ora…

【研发日记】C/C++开发避坑秘籍(一)——CAN接收Buffer溢出Bug

文章目录 背景介绍 问题描述 分析排查 解决方案 总结归纳 背景介绍 在一个嵌入式软件项目中&#xff0c;有一段使用C语言写的嵌入式代码&#xff0c;功能是把CAN总线上的几帧报文接收进来&#xff0c;并解析出数据。示例如下&#xff1a; 乍一看感觉挺简单&#xff0c;想着…

【算法】回溯与深搜

方法论 1.构建决策树 2.设计代码&#xff1a;全局变量、dfs函数 3.剪枝&#xff0c;回溯 全排列 给定一个不含重复数字的整数数组 nums &#xff0c;返回其 所有可能的全排列 。可以 按任意顺序 返回答案。 示例 1&#xff1a; 输入&#xff1a;nums [1,2,3] 输出&#xff…

微软Microsoft Surface Go 2

1个小玩具 Microsoft Surface Go 2的评测结果出炉&#xff01;它是目前最好的中端Windows 二合一笔记本平板。 外形简洁小巧&#xff0c;工作娱乐两不误。 它有多个版本。 我们测试的是配备8GB Ram和128GB SSD的Pentium 4425Y处理器&#xff08;第8代&#xff09;的型号。 S…

elementary OS7 Ubuntu 22.04中硬盘挂载报错

elementary OS7 Ubuntu 22.04中硬盘挂载报错 背景目标思路解决方法 背景 上周末安装elementaryos7的过程中将windows10的引导文件搞丢了&#xff0c;这两天准备修复一下&#xff0c;保险期间将固态硬盘上的文件备份到移动硬盘上&#xff0c;备份过程中出现报错的问题&#xff…

Axure RP 9 for Mac中文激活版:原型设计工具

Axure RP 9 for Mac是一款值得设计师信赖的原型设计工具。它以其卓越的性能和稳定的运行赢得了广大用户的赞誉。 软件下载&#xff1a;Axure RP 9 for Mac中文激活版下载 在Axure RP 9中&#xff0c;您可以尽情发挥自己的设计才华&#xff0c;创造出独一无二的原型作品。无论是…

电子电器架构 —— 诊断数据DTC起始篇(下)

电子电器架构 —— 诊断数据DTC起始篇(下) 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师(Wechat:gongkenan2013)。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 本就是小人物,输了就是输了,不要在意别人怎么看自己。江湖一碗茶,喝完再…

系统架构设计-构建系统应用

1. 系统架构目标与设计原则 在设计系统架构时&#xff0c;我们的目标是确保系统具有以下特点&#xff1a; 可靠性&#xff1a;系统能够持续稳定运行&#xff0c;保证业务可用性。可伸缩性&#xff1a;系统能够根据负载变化自动扩展或收缩&#xff0c;以应对不同的流量需求。容…

STM32通过串口发送指令控制LED灯亮灭OLED并显示命令

先来看看程序运行的结果吧&#xff1a; 接下来就不说废话了&#xff0c;自己看源代码吧&#xff01;每一行我都做了注释&#xff1a; 首先是主函数main.c文件&#xff1a; #include "stm32f10x.h" // Device header #include "OLED.h" …

Python工具-清理Unity(批量深度)清理U3D项目工程保留关键工程文件

前沿 1. Unity工程越来越多&#xff0c;很久不用的工程里存在了很多无用的大文件夹&#xff0c;极大的影响电脑容量。 2. 我电脑里面U3D工程只有17个&#xff0c;但容量就高达60GB&#xff0c;使用自己编写的工具清理后&#xff0c;减到了30GB多。清理了不是很重要的文件和文件…