手写kNN算法的实现-用余弦相似度来度量距离

设a为预测点,b为其中一个样本点,在向量空间里,它们的形成的夹角为θ,那么θ越小(cosθ的值越接近1),就说明a点越接近b点。所以我们可以通过考察余弦相似度来预测a点的类型。

在这里插入图片描述

在这里插入图片描述

from collections import Counter
import numpy as npclass MyKnn:def __init__(self,neighbors):self.k = neighborsdef fit(self,X,Y):self.X = np.array(X)self.Y = np.array(Y)if self.X.ndim != 2 or self.Y.ndim != 1:raise Exception("dimensions are wrong!")if self.X.shape[0] != self.Y.shape[0]:raise Exception("input labels are not correct!")def predict(self,X_pre):pre = np.array(X_pre)if self.X.ndim != pre.ndim:raise Exception("input dimensions are wrong!")rs = []for p in pre:temp = []for a in self.X:cos = (p @ a)/np.linalg.norm(p)/np.linalg.norm(a)temp.append(cos)temp = np.array(temp)indices = np.argsort(temp)[:-self.k-1:-1]ss = np.take(self.Y,indices)found = Counter(ss).most_common(1)[0][0]print(found)rs.append(found)return np.array(rs)

测试:

# 用鸢尾花数据集来验证我们上面写的算法
from sklearn.datasets import load_iris
# 使用train_test_split对数据集进行拆分,一部分用于训练,一部分用于测试验证
from sklearn.model_selection import train_test_split
# 1.生成一个kNN模型
myknn = MyKnn(5)
# 2.准备数据集:特征集X_train和标签集y_train
X_train,y_train = load_iris(return_X_y=True)
# 留出30%的数据集用于验证测试
X_train,X_test,y_train,y_test = train_test_split(X_train,y_train,test_size=0.3)
# 3.训练模型
myknn.fit(X_train,y_train)
# 4.预测,acc就是预测结果
acc = myknn.predict(X_test)
# 计算准确率
(acc == y_test).mean()

其实如果余弦相似度来进行分类,那么根据文章最开头讲到的,其实取余弦值最大的点作为预测类型也可以:

import numpy as npclass MyClassicfication:def fit(self,X,Y):self.X = np.array(X)self.Y = np.array(Y)if self.X.ndim != 2 or self.Y.ndim != 1:raise Exception("dimensions are wrong!")if self.X.shape[0] != self.Y.shape[0]:raise Exception("input labels are not correct!")def predict(self,X_pre):pre = np.array(X_pre)if self.X.ndim != pre.ndim:raise Exception("input dimensions are wrong!")rs = []for p in pre:temp = []for a in self.X:cos = (p @ a)/np.linalg.norm(p)/np.linalg.norm(a)temp.append(cos)temp = np.array(temp)index = np.argsort(temp)[-1]found = np.take(self.Y,index)rs.append(found)return np.array(rs)

测试:

# 用鸢尾花数据集来验证我们上面写的算法
from sklearn.datasets import load_iris
# 使用train_test_split对数据集进行拆分,一部分用于训练,一部分用于测试验证
from sklearn.model_selection import train_test_split
# 1.生成一个kNN模型
myCla = MyClassicfication
# 2.准备数据集:特征集X_train和标签集y_train
X_train,y_train = load_iris(return_X_y=True)
# 留出30%的数据集用于验证测试
X_train,X_test,y_train,y_test = train_test_split(X_train,y_train,test_size=0.3)
# 3.训练模型
myCla.fit(X_train,y_train)
# 4.预测,acc就是预测结果
acc = myCla.predict(X_test)
# 计算准确率
(acc == y_test).mean()

经测试,上面两种方式的准确率是差不多的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/25335.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux Ext2/3/4文件系统

文章目录 前言一、Linux文件系统简介1.1 简介1.2 Linux File System Structure1.3 Directory Structure 二、Ext2/3/4文件系统2.1 Minix2.2 EXT2.3 EXT22.4 EXT32.5 EXT4 三、EXT Inode参考资料 前言 这篇文章介绍了Linux文件系统的一些基础知识:Linux 文件系统简介…

vs - vs2013中编译sqlite3.44.2

文章目录 vs - vs2013中编译sqlite3.44.2概述笔记工程输出归档END vs - vs2013中编译sqlite3.44.2 概述 以前在vs2019下编译了sqlite3.44.2, 好使。做了笔记(sqlite3.44.2的编译) 现在准备将手头的vs2019工程改为vs2013的,自然要将sqlite也编译为vs2013版本的。 按…

Javaweb02-XML概述

第一章 XML概述 1.XML基本概念 什么是xml? **a.**引入的原因:为了解决不同不同语言之间的数据传输的格式不同 **b.**概念:XML是一种可扩展标记语言,适用于不同数据之间的数据交换 **c.**XML文档:通过元素的嵌套&a…

[HNCTF 2022 WEEK4]flower plus

第一种花指令 第二种花指令 根据两种花指令特征,写出去花指令脚本 saddr0x401000 eaddr0x435000 for i in range(saddr,eaddr):if get_wide_dword(i)0x01740275:print(hex(i),hex(get_wide_dword(i)))patch_byte(i-5,0x90)patch_dword(i-4,0x90909090)patch_dw…

插卡式仪器模块:数字万用表模块(插卡式)

• 6 位数字表显示 • 24 位分辨率 • 250 KSPS 采样率 • 电源和数字 I/O 均采用隔离抗噪技术 • 电压、电流、电阻、电感、电容的高精度测量 • 二极管/三极管测试 通道122输入 阻抗 电压10 MΩHigh-Z, 10 MΩ电流10 Ω50 mΩ / 2 Ω / 2 KΩ输入范围电压 5 V0–60 V电流…

Ubuntu 配置动态链接器的搜索路径(/etc/ld.so.conf.d)

引言 为了使程序在运行时可以正常找到指定的lib库,防止出现卡死或闪退现象。 /etc/ld.so.conf.d 路径是程序运行时,系统查找共享库(如 .so 文件)的位置。 简要说明 如果你安装了一个第三方软件,它可能将其共享库放在…

【C语言】Leetcode-312 戳气球

文章目录 题目思路代码如下 题目 链接: Leetcode-312 戳气球 思路 我们观察戳气球的操作,发现这会导致两个气球从不相邻变成相邻,使得后续操作难以处理。于是我们倒过来看这些操作,将全过程看作是每次添加一个气球。 首先 我们需要创建一个…

【xilinx】使用vivado编译中methodology的相关介绍

Vivado Methodology 是 Xilinx 提供的一系列设计流程和最佳实践,旨在帮助工程师使用 Vivado Design Suite 工具链来开发高质量的 FPGA 和 SoC 应用。Vivado Methodology 涵盖了从设计开始到最终实现的整个流程,包括设计规划、实现、验证和优化等多个方面…

EF Core Model-First

使用C# .NET Core 3.1和EF Core Model-First方法生成数据库表的详细步骤,并介绍EF Core数据库迁移常用命令。 使用C# .NET Core 3.1和EF Core的Model-First方法生成数据库表 1. 安装EF Core包 首先,在你的项目中安装EF Core和相关的工具包。可以使用Nu…

后端Long类型参数前端接受精度丢失解决方案

背景 在项目中使用雪花Id作为主键Id使用,前端返回查询数据时在展示时出现精度丢失,如原Id为1797913405167583236进度丢失后为1797913405167583000 解决方案(前后端) 前端方案 前端解决精度问题很简单,通过字符串接…

58.CountdownLatch

用来进行线程同步协作,等待所有线程完成倒计时。 构造参数用来初始化等待计数值,await方法用来等待计数归零,countDown方法用来让计数减一。 CountdownLatch普通使用 @Slf4j public class CountdownLatchDemo {public static void main(String[] args) {CountDownLatch c…

Numpy基本操作之矩阵的检索与赋值

一 Numpy基本操作 创建矩阵 检索与赋值[y,x] 获取子数组[:,:] 二 Numpy检索与赋值 [y,x] [y,x,channel] import cv2import numpy as np#定义zeros矩阵 imgnp.zeros((480,640),np.uint8)print(img[100,100]) count0 while count<200:img[count,100,1]255countcount1cv2.i…

初学者使用sql时易犯的错误(持续更新)

DDL&#xff08;数据定义&#xff09; DROP 子句 用于删除指定的列名&#xff0c; ◼ 若选择RESTRICT &#xff0c;则删除的基本表不能被其他表的约 束所引用&#xff08;如 CHECK &#xff0c; FOREIGN KEY 等约束&#xff09;&#xff0c;不 能有视图&#xff0c;不能有触…

Python 冷门语法:深度探索与奇妙应用

Python 冷门语法&#xff1a;深度探索与奇妙应用 在Python的广阔天地中&#xff0c;除了那些广为人知的常用语法特性&#xff0c;还隐藏着一些冷门但极具魅力的语法。这些冷门语法虽然在日常编程中不常用&#xff0c;但它们的存在无疑为Python的多样性和灵活性增添了浓墨重彩的…

卷积的计算过程

卷积的计算过程 flyfish 包括手动计算&#xff0c;可视化使用torch.nn.Conv2d实现 示例 import torch import torch.nn as nn# 定义输入图像 input_image torch.tensor([[1, 2, 3, 0, 1],[0, 1, 2, 3, 4],[2, 3, 0, 1, 2],[1, 2, 3, 4, 0],[0, 1, 2, 3, 4] ], dtypetorch.f…

springboot 3 oauth2认证this.authorizationService.save(authorization)生成token报错异常

springboot 3 oauth2认证this.authorizationService.save(authorization)生成token报错异常&#xff0c;使用springboot版本3.3.0。 <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId>&…

2024年政治经济学与社会科学国际会议(ICPESS 2024)

2024年政治经济学与社会科学国际会议 2024 International Conference on Political Economy and Social Sciences 会议简介 2024年政治经济学与社会科学国际会议是一个致力于探讨政治经济学与社会科学交叉领域前沿问题的国际盛会。本次会议汇聚了全球顶尖的专家学者、研究人员和…

DNS解析和bond网卡

DNS解析 ​ dns就是域名系统的简称,作用就是ip地址之间的映射关系 ​ 在互联网中,ip地址是通信的唯一标识,逻辑地址 ​ 访问网站,域名,ip地址不好记,域名朗朗上口,好记 ​ 域名解析的目的就是为了实现访问域名就等于ip地址 ​ 在访问域名的时候,通过dns解析,把域名映射的i…

探索智慧农业系统架构的设计与应用

随着科技的不断进步和农业现代化的推进&#xff0c;智慧农业正逐渐成为农业发展的重要趋势。智慧农业系统架构的设计与应用&#xff0c;将农业生产与信息技术相结合&#xff0c;为农业生产提供了新的思路和解决方案。本文将深入探讨智慧农业系统架构的设计与应用&#xff0c;从…

vite 配置 typescript 环境

要在 Vite 项目中配置 TypeScript 环境&#xff0c;你需要遵循几个步骤来确保 TypeScript 被正确设置并可以与 Vite 一起工作。以下是一个基本的指南&#xff1a; 初始化项目 如果你还没有初始化项目&#xff0c;可以使用 npm 或 yarn 初始化一个新的项目&#xff1a; npm i…