【机器学习】之 K-最近邻(KNN)算法原理及实现

K-最近邻(K-Nearest Neighbors, KNN)是一种简单且直观的监督学习算法,广泛应用于分类和回归任务。本文将介绍KNN算法的基本概念、实现细节以及Python代码示例。

基本概念

KNN算法的核心思想是:给定一个测试样本,根据其在特征空间中与训练样本的距离,找到距离最近的K个训练样本(邻居),然后通过这些邻居的标签来决定测试样本的标签。在分类任务中,KNN通过对K个邻居的标签进行投票,选择出现次数最多的标签作为预测结果;在回归任务中,KNN通过对K个邻居的标签进行平均来预测结果。

算法步骤

  1. 计算距离:计算测试样本与每个训练样本之间的距离。
  2. 选择最近的K个邻居:根据距离选择K个最近的训练样本。
  3. 投票:在K个最近邻居中,选择出现次数最多的类别作为预测结果。

距离度量

在KNN算法中,通常使用欧氏距离(Euclidean Distance)来度量样本之间的距离。

实现代码

下面是一个使用 numpy 实现的 KNN 分类器的示例代码:

import numpy as np
from collections import Counterclass KNN:def __init__(self, k=3):self.k = kdef fit(self, X_train, y_train):"""训练KNN分类器,保存训练数据。参数:- X_train: 训练样本特征,形状 (num_samples, num_features)- y_train: 训练样本标签,形状 (num_samples,)"""self.X_train = X_trainself.y_train = y_traindef predict(self, X_test):"""对测试样本进行预测。参数:- X_test: 测试样本特征,形状 (num_samples, num_features)返回值:- y_pred: 预测标签,形状 (num_samples,)"""y_pred = [self._predict(x) for x in X_test]return np.array(y_pred)def _predict(self, x):"""对单个测试样本进行预测。参数:- x: 单个测试样本特征,形状 (num_features,)返回值:- 预测标签"""# 计算所有训练样本与测试样本之间的距离distances = np.linalg.norm(self.X_train - x, axis=1)# 获取距离最近的k个训练样本的索引k_indices = np.argsort(distances)[:self.k]# 获取k个最近邻居的标签k_nearest_labels = [self.y_train[i] for i in k_indices]# 返回出现次数最多的标签most_common = Counter(k_nearest_labels).most_common(1)return most_common[0][0]# 示例用法
if __name__ == "__main__":# 创建示例数据X_train = np.array([[1, 2], [2, 3], [3, 4], [6, 7], [7, 8], [8, 9]])y_train = np.array([0, 0, 0, 1, 1, 1])X_test = np.array([[2, 3], [3, 5], [8, 8]])# 创建KNN实例knn = KNN(k=3)knn.fit(X_train, y_train)predictions = knn.predict(X_test)print("测试样本预测结果:", predictions)

代码解释

  1. 初始化

    • __init__ 方法初始化KNN分类器,并设置K值。
  2. 训练模型

    • fit 方法保存训练样本的特征和标签,供后续预测使用。
  3. 预测

    • predict 方法对一组测试样本进行预测,返回预测标签。
    • _predict 方法对单个测试样本进行预测:
      • 计算测试样本与每个训练样本之间的欧氏距离。
      • 找到距离最近的K个训练样本的索引。
      • 获取K个最近邻居的标签。
      • 返回出现次数最多的标签作为预测结果。
  4. 示例用法

    • 创建示例训练数据和测试数据。
    • 实例化KNN分类器,并设置K值为3。
    • 调用 fit 方法训练模型。
    • 调用 predict 方法对测试样本进行预测,并输出预测结果。

超参数选择

K值是KNN算法的一个关键超参数,其选择会直接影响模型的性能。一般来说,较小的K值会导致模型对噪声敏感,而较大的K值会使模型过于平滑,导致欠拟合。可以通过交叉验证来选择最优的K值。

优缺点

优点

  • 简单直观,易于理解和实现。
  • 不需要显式的训练过程,只需保存训练数据。
  • 对于小规模数据集效果较好。

缺点

  • 计算复杂度高,对大规模数据集不适用。
  • 对噪声和不相关特征敏感。
  • 需要保存所有训练数据,存储开销大。

总结

K-最近邻(KNN)是一种经典的机器学习算法,适用于分类和回归任务。尽管其简单性和直观性使其在许多应用中表现良好,但在处理大规模数据集和高维数据时,KNN的计算复杂度和存储需求成为其主要限制因素。通过合理选择K值和使用适当的距离度量,KNN可以在许多实际问题中取得令人满意的效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/19564.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

上位机图像处理和嵌入式模块部署(f407 mcu vs f103)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 对于一部分嵌入式场景来说,f103其实已经足够了,特别是要求不高的低速场合。如果开发的代码比较多,还可以选用更…

黑马es集群

1、为什么要做es集群 单机的elasticsearch做数据存储,必然面临两个问题:海量数据存储问题、单点故障问题 海量数据存储问题:将索引库从逻辑上拆分为N个分片(shard),存储到多个节点 单点故障问题:将分片数据在不同节点备份(replica) 2、搭建es集群 1、用…

Python 数据库编程(Mysql)

目录 知识点 游标 提交事务 检索数据 回滚 关闭 增删改查 查询 新增 修改 删除 回滚的用法 知识点 游标 在Python中,数据库游标(cursor)是用于执行SQL语句并检索数据的对象。游标允许你在数据库中移动并操作数据。在使用Python进…

请说明Vue的filter的理解与用法

Vue.js 的 filter 是一种特殊的功能,允许你在mustache插值 ({{ }}) 或 v-bind 表达式中预处理文本。然而,需要注意的是,从 Vue 2.x 开始,filter 已被标记为废弃,并且在 Vue 3.x 中已完全移除。尽管如此,了解…

力扣Hot100-有效的括号(栈stack)

给定一个只包括 (,),{,},[,] 的字符串 s ,判断字符串是否有效。 有效字符串需满足: 左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。每个右括号都有一个对应的相同类型的左括…

【C++】哈希(2万字)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 目录 前言 unordered系列关联式容器 unordered_map unordered_map的文档介绍 unordered_map的接口说明 unordered_set 底层结构 哈希概念 哈希冲突 哈希函数 哈希…

Whisper-AT:抗噪语音识别模型(Whisper)实现通用音频事件标记(Audio Tagger)

1.概述: Whisper-AT 是建立在 Whisper 自动语音识别(ASR)模型基础上的一个模型。Whisper 模型使用了一个包含 68 万小时标注语音的大规模语料库进行训练,这些语料是在各种不同条件下录制的。Whisper 模型以其在现实背景噪音(如音乐…

探究 Meme 的金融与社交属性

原文标题:《A Social and Financial Study of Memecoins》撰文:Andrew Hong编译:Chris,Techub News 每一个市场周期都伴随着 Meme 代币的出现。一群人围绕着某个 Meme 集结起来,暂时抬高了某个资产的价格(从…

Github Copilot登录账号,完美支持chat

Github Copilot 代码补全等功能,提高写代码的效率 https://web.52shizhan.cn/activity/copilot 登录授权后,已经可以使用,完美。如图

flutter 自动生成静态资源的引用

flutter_gen库的使用 第一步、项目yarml中dev_dependencies 新增一下flutter_gen_runner 和build_runner dev_dependencies:build_runner: nullflutter_gen_runner: null # flutter packages pub run build_runner build 第二步、新增配置信息 和(dev_dependencies 同级的) …

大话设计模式学习笔记

目录 工厂模式策略模式备忘录模式(快照模式)代理模式单例模式迭代器模式访问者模式观察者模式解释器模式命令模式模板方法模式桥接模式适配器模式外观模式享元模式原型模式责任链模式中介者模式装饰模式状态模式 工厂模式 策略模式 核心:封装…

03.k8s常用的资源

3.k8s常用的资源 3.1 创建pod资源 k8s yaml的主要组成 apiVersion: v1 api版本 kind: pod 资源类型 metadata: 属性 spec: 详细上传nginx镜像文件,并且上传私有仓库里面 k8s_pod.yaml apiVersion: v1 kind: Pod metadata:name: nginxlabels:app: we…

prometheus 标签选择器 正则表达式 = 、=~

Prometheus expression是一种用于查询和操作Prometheus时间序列数据的查询语言。它具有一套丰富的函数和运算符,可以用于提取、聚合和转换时间序列数据。 正则表达式在Prometheus expresion中也被广泛使用,可以用于匹配和过滤时间序列。 Prometheus ex…

Tuxera Ntfs For Mac 2023的具体使用方法

大家都知道由于操作系统的原因,在苹果电脑上不能够读写NTFS磁盘,但是,今天小编带来的这款tuxera ntfs 2024 mac 破解版,完美的解决了这个问题。这是一款在macOS平台上使用的磁盘读写软件,能够实现苹果Mac OS X系统读写…

CSS实验性功能及CSS4特性

CSS4目前仍然是一个宽泛的概念,因为CSS的发展通常是通过一系列逐步完善的模块来进行的,而不是一次性推出一个全新的“第四代”。许多所谓的“CSS4”特性实际上是正在开发或已经草案阶段的CSS模块,它们可能在未来的CSS规范中被正式采纳。 选择器4: :is() 和 :where() 伪类允…

Docker的数据管理(数据卷+数据卷容器)

文章目录 一、Docker的数据管理1、概述2、主要的技术(三种数据挂载方式)2.1、数据卷(Volumes)2.2、绑定挂载(Bind mounts)2.3、tmpfs挂载(Tmpfs mounts)2.4、之间的关系(…

偏微分方程算法之二阶双曲型方程交替方向隐格式(变形一)

目录 一、研究目标 二、变形 三、算例实现 四、计算结果 本专栏介绍了二阶双曲型偏微分方程的交替方向隐格式的介绍和推导(链接如下),本节将进一步研究二维双曲型方程初边值问题其它的交替方向隐格式。

示例丨医学、医药类查新点填写参考案例

根据《科技查新技术规范》GB/T 32003-2015,科学技术要点是必须要包含查新点内容的,而查新点就是科学技术要点中能够体现查新项目新颖性和技术进步的技术特征点。 在日常查新工作的接待中,我们发现医学、医药类查新合同上查新点的书写&#x…

计算机tcp/ip网络通信过程

目录 (1)同一网段两台计算机通信过程 (2)不同网段的两台计算机通信过程 (3)目的主机收到数据包后的解包过程 (1)同一网段两台计算机通信过程 如果两台计算机在同一个局域网中的同…

算法(九)希尔排序

文章目录 希尔排序简介代码实现 希尔排序简介 希尔排序(shell sort)选定一个小于N(数列长度)的整数gap作为第一增量,然后将所有距离为gap的元素分成一组,然后对每一组的元素进行插入排序。然后再取一个比前…