k-邻近算法(kNN)

目录

k-近邻算法概述

k-近邻算法的一般流程

kNN算法伪代码


k-近邻算法概述

优点:精度高、对异常值不敏感、无数据输入假定

缺点:计算复杂度高、空间复杂度高

适用数据范围:数值型和标称型

k-近邻算法的一般流程

(1)收集数据

(2)准备数据

(3)分析数据

(4)训练算法(不需要)

(5)测试算法

(6)使用算法

from numpy import *
import operator
def createDataSet():group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])labels = ['A', 'A', 'B', 'B']return group, labels
group, labels = createDataSet()
group
array([[1. , 1.1],[1. , 1. ],[0. , 0. ],[0. , 0.1]])

labels
['A', 'A', 'B', 'B']
import matplotlib.pyplot as plt
x = group[:, 0]
y = group[:, 1]
plt.scatter(x, y)
plt.xlim(-0.2, 1.2)
plt.ylim(-0.2, 1.2)
for i, pos in enumerate(zip(x, y)):plt.text(pos[0]-0.01, pos[1], f'{labels[i]}', ha='right')
plt.show()

kNN算法伪代码

对未知类别属性的数据集中的每个点依次执行以下操作:

(1)计算已知类别数据集中的点与当前点之间的距离

(2)按照距离递增的次序排列

(3)选取与当前点距离最小的k个点

(4)确定前k个点所在类别的出现频率

(5)返回前k个点出现频率最高的类别作为当前点的预测分类

def classify0(inX, dataSet, labels, k):dataSetSize = dataSet.shape[0]diffMat = tile(inX, (dataSetSize, 1)) - dataSetsqDiffMat = diffMat ** 2sqDistances = sqDiffMat.sum(axis=1)distances = sqDistances**0.5sortedDistIndicies = distances.argsort()classCount = {}for i in range(k):voteIlabel = labels[sortedDistIndicies[i]]classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)return sortedClassCount[0][0]
classify0([0, 0], group, labels, 3)

'B'


这段代码实现了k近邻算法中的分类函数,用于根据输入的数据点inX,在数据集dataSet中找到距离最近的k个邻居,并统计它们的类别标签,最终返回频率最高的类别。

现在让我们逐步分析这段代码:

  1. dataSetSize = dataSet.shape[0]: 获取数据集的行数,即数据点的数量。

  2. diffMat = tile(inX, (dataSetSize, 1)) - dataSet: 将输入数据点inX复制成与数据集相同大小的矩阵,然后计算与数据集中每个点的差值。

  3. sqDiffMat = diffMat ** 2: 对差值矩阵的每个元素进行平方操作。

  4. sqDistances = sqDiffMat.sum(axis=1): 沿着列的方向对平方差值矩阵进行求和,得到每个数据点与输入点的平方距离。

  5. distances = sqDistances**0.5: 对平方距离进行开方,得到真实距离。

  6. sortedDistIndicies = distances.argsort(): 对距离进行排序,返回排序后的索引值。

  7. classCount = {}: 初始化一个空字典,用于存储每个类别的投票数。

  8. for i in range(k):: 遍历前k个最小距离的索引。

  9. voteIlabel = labels[sortedDistIndicies[i]]: 获取对应索引的类别标签。

  10. classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1: 统计每个类别的投票数,使用get方法获取字典中的值,如果键不存在则返回默认值0。

  11. sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True): 对字典按照值进行排序,items()方法返回字典的键值对,key=operator.itemgetter(1)表示按照值排序,reverse=True表示降序排列。

  12. return sortedClassCount[0][0]: 返回排序后的字典中频率最高的类别标签,即k个邻居中出现最多的类别。

这个函数的核心思想是通过计算输入点与数据集中每个点的距离,找到距离最近的k个邻居,然后通过投票机制确定输入点的类别。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/694280.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 0105.从前序与中序遍历序列构造二叉树:分治(递归)——五彩斑斓的题解(若不是彩色的可以点击原文链接查看)

【LetMeFly】105.从前序与中序遍历序列构造二叉树:分治(递归)——五彩斑斓的题解(若不是彩色的可以点击原文链接查看) 力扣题目链接:https://leetcode.cn/problems/construct-binary-tree-from-preorder-a…

【hoare基础版】快速排序算法(1)

目录 交换排序 QuickSort快速排序 Hoare整体思路 图解分析 ​ Hoare版本代码 总代码 时间复杂度 交换排序 基本思想:所谓交换,就是根据序列中两个记录键值的比较结果来对换这两个记录在序列中的位置,交换排序的特点是:将键…

相机图像质量研究(38)常见问题总结:编解码对成像的影响--呼吸效应

系列文章目录 相机图像质量研究(1)Camera成像流程介绍 相机图像质量研究(2)ISP专用平台调优介绍 相机图像质量研究(3)图像质量测试介绍 相机图像质量研究(4)常见问题总结:光学结构对成像的影响--焦距 相机图像质量研究(5)常见问题总结:光学结构对成…

【C#】List泛型数据集如何循环移动,最后一位移动到第一位,以此类推

欢迎来到《小5讲堂》 大家好,我是全栈小5。 这是《C#》系列文章,每篇文章将以博主理解的角度展开讲解, 特别是针对知识点的概念进行叙说,大部分文章将会对这些概念进行实际例子验证,以此达到加深对知识点的理解和掌握。…

数据安全治理:构建与实施的关键要素及总体架构

本文将深入探讨数据安全治理的核心要素和总体架构,旨在为组织提供一个明确的指南,帮助他们构建和实施有效的数据安全治理策略。在数字化快速发展的今天,理解并实施这些要点和架构不仅是提升数据安全的关键,也是确保组织能够在复杂…

内核移植学习

内核移植 内核移植就是指将RT-Thread内核在不同的芯片架构、不同的板卡上运行起来。 移植可分为CPU架构移植和BSP板级支持包移植两部分。 CPU架构移植 在嵌入式领域有多种不同CPU架构,例如Cortex-M、ARM920T、MIPS32、RISC-V等等。 为了使RT-Thread能够在不同C…

《雾锁王国》游戏存档迁移教程,本地存档/服务器数据迁移到服务器

《雾锁王国》游戏存档迁移教程,本地存档/服务器数据迁移到服务器 一、本地存档转到服务器: 首先保存本地存档数据,例如我的存档路径为C:\Program Files(x86)\Steam\Userdata 然后远程登录到你的Windows云服务器,打开任务管理器…

App Inventor 2 Activity启动器技巧:如何查看并启动其他App

App包名和类名的查看 由 App Inventor 2 创建的应用要弄清包名和类名,可通过下载其应用程序的源代码,然后使用文件资源管理器或解压缩程序解压 .aia源文件(文件的扩展名修改成.zip 或.rar,然后解压),在解压…

论文阅读-EMS: History-Driven Mutation for Coverage-based Fuzzing(2022)模糊测试

一、背景 本文研究了基于覆盖率的模糊测试中的历史驱动变异技术。之前的研究主要采用自适应变异策略或集成约束求解技术来探索触发独特路径和崩溃的测试用例,但它们缺乏对模糊测试历史的细粒度重用,即它们在不同的模糊测试试验之间很大程度上未能正确利用…

Easyx的学习1

使用easys的相关函数需要包含头文件#include<easyx.h>或#include<graphics.h>&#xff08;#include<graphics.h>包含了<easyx.h>和一些不推荐使用的函数&#xff09; 目录 窗口创建背景颜色 基本图形绘制 1.点 2.线 3.矩形 圆角矩形 4. 圆形 椭圆…

流式存储音频/视频

目录 流式存储音频/视频 1.1 具有元文件的万维网服务器 1.2 媒体服务器 1.3 实时流式协议 RTSP 使用 RTSP 的媒体服务器的工作过程 流式存储音频/视频 “存储”音频/视频文件不是实时产生的&#xff0c;而是已经录制好的&#xff0c;通常存储在光盘或硬盘中。 传统浏览器…

一个简短的补充------对链表练习题的补充补充

昨天不是写了一篇有关链表的数据结构练习题嘛&#xff0c;其实那篇文章的第二道题还有许多值得我们思考的东西&#xff0c;今天就在这做一个简短的补充。补充一下运用那道题解决另一道题。 给大家看一下绿色让眼睛放松一下。 给定一个链表的头节点 head &#xff0c;返回链表…

【前端】前端三要素之JavsScript基础

写在前面&#xff1a;本文仅包含JavaScript内容&#xff0c;DOM知识传送门在这里&#xff0c;BOM传送门在这里。 本文内容是假期中刷的黑马Pink老师视频&#xff08;十分感谢Pink老师&#xff09;&#xff0c;原文保存在个人的GitLab中&#xff0c;如果需要写的网页内容信息等可…

计算机二级C语言的注意事项及相应真题-6-程序修改

目录 51.从整数10到55之间&#xff0c;选出能被3整除、且有一位上的数是5的那些数&#xff0c;并把这些数放在b所指的数组中&#xff0c;这些数的个数作为函数值返回52.先将s所指字符串中的字符按逆序存放到t所指字符串中&#xff0c;然后把s所指串中的字符按正序连接到t所指串…

K210基础实验——点亮LED灯

一、目的是点亮K210开发板左下角的LED0和LED1&#xff0c;LED0是红灯&#xff0c;LED1是绿灯&#xff0c;两颗LED灯都是低电平点亮&#xff0c;高电平熄灭。 二、这是原理图上的硬件连接&#xff0c;LED0连接的是IO0&#xff0c;LED1连接的是IO17。 三、在src目录下新建文件夹 …

WSL2配置Linux、Docker、VS Code、zsh、oh my zsh

0. 写在前面 本篇笔记来自于UP主麦兜搞IT的合集视频Windows10开发环境搭建中的部分内容 1. 安装WSL2 按照微软官方文档进行操作&#xff0c;当然也可以直接wsl --install 也可以按照 旧版手动安装的步骤 来进行操作 选择安装的是Ubuntu 20.04 LTS 注&#xff1a;WSL默认安装…

【Vulkan Tutorials 01】【环境搭建】三角形例子

Development Environment&#xff08;开发环境&#xff09; 1. 安装Vulkan SDK 官网 2. 安装cmake和minGW 2.1 cmake 官网 双击可执行文件&#xff0c;然后直接安装&#xff0c;注意环境变量选择设置&#xff0c;否则需要自己操作。 2.2 minGW 官网 下载如下图所示&am…

2.21数据与结构算法学习日记(最小生成树prim算法)

目录 最小生成树prim 最小生成树算法是一种用来在一个加权连通图中找到最小生成树的算法。最小生成树是一个包含图中所有顶点的树&#xff0c;其总权值最小。 prim算法 洛谷题目示例 P3366 【模板】最小生成树 题目描述 输入格式 输出格式 输入输出样例 说明/提示 题…

K8s ingress-nginx根据请求目录不同将请求转发到不同应用

K8s ingress-nginx根据请求目录不同将请求转发到不同应用 1. 起因 有小伙伴做实验想要实现以下需求: 输入www.pana.com/app1访问app1的svc 输入www.pana.com/app2访问app2的svc 2. 实验 2.1 Dockerfile 先准备Dockerfile FROM nginx:1.20ADD index.html /usr/share/ngin…

还迷糊事务的并发问题以及隔离级别?

还迷糊事务的并发问题以及隔离级别&#xff1f; 事务并发问题 MySQL 服务端是允许多个客户端连接的&#xff0c;这意味着 MySQL 会出现同时处理多个事务的情况。 那么在同时处理多个事务的时候&#xff0c;就可能出现脏读&#xff08;dirty read&#xff09;、不可重复读&am…