机器学习笔记——K近邻算法、手写数字识别

KNN算法

“物以类聚,人以群分”相似的数据往往拥有相同的类别
其大概原理就是一个样本归到哪一类,当前样本需要归到频次最高的哪个类去
也就是说有一个待分类的样本,然后跟他周围的k个样本来看,k中哪一个类最多,待分类的样本就是哪一个。
那就以手写数字识别为例吧

import matplotlib.pyplot as plt
import numpy as np
import os
#%%
# 读入mnist数据集
m_x = np.loadtxt('./data/mnist_x', delimiter=' ')
m_y = np.loadtxt('./data/mnist_y')
#%%
# 数据集可视化
data = np.reshape(np.array(m_x[0], dtype=int), [28, 28])
plt.figure()
plt.imshow(data, cmap='gray')
#%%
# 将数据集分为训练集和测试集
ratio = 0.8
split = int(len(m_x) * ratio)
# 打乱数据
np.random.seed(0)
idx = np.random.permutation(np.arange(len(m_x))) #随机排序
m_x = m_x[idx]
m_y = m_y[idx]
x_train, x_test = m_x[:split], m_x[split:]
y_train, y_test = m_y[:split], m_y[split:]
#%%
#定义距离函数
def distance(x,y):return np.sqrt(np.sum(np.square(x-y)))#%%
#定义KNN模型
class KNN:def __init__(self,k,label_num):self.k=kself.label_num=label_num #类别的数量def fit(self,x_train,y_train):self.x_train=x_trainself.y_train=y_traindef get_knn_indices(self,x): #获得距离目标样本最近的k个点的标签,a来做self_x.traindis=list(map(lambda a:distance(a,x),self.x_train))knn_indices=np.argsort(dis) #对距离排序,在选择k个出来knn_indices=knn_indices[:self.k]#标签return knn_indicesdef get_label(self,x):#计算k个点中,样本的标签数量是多少knn_indices=self.get_knn_indices(x)label_statistic=np.zeros(shape=[self.label_num])for index in knn_indices:label=int(self.y_train[index])label_statistic[label]+=1return np.argmax(label_statistic) #找出最大的类别def predict(self,x_test):predicted_test_labels=np.zeros(shape=[len(x_test)],dtype=int)for i,x in enumerate(x_test): #枚举predicted_test_labels[i]=self.get_label(x)return predicted_test_labels#%%
for k in range(1,10):knn=KNN(k,label_num=10)knn.fit(x_train,y_train)predicted_labels=knn.predict(x_test)accuracy=np.mean(predicted_labels==y_test)print(f'k的取值为{k},预测准确率为{accuracy*100:.lf}%')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/17125.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Oracle数据库Day01-SELECT语句

一、SQL语句 1. 环境配置与准备 linux端oracle用户打开监听//查看监听状态与开始监听 lsnrctl status lsnrctl start开启数据库sqlplus / as sysdba startup;解锁hr用户样例数据库,给hr用户设置密码并且连接alter user hr account unlock; alter user hr identifie…

2024爆款神器!会声会影2024旗舰版,让你的视频制作技能暴涨,不学真的亏大了!

在数字内容创作的时代,视频编辑已经成为连接创意与现实的重要桥梁。无论是个人Vlog制作、在线教育课程、企业宣传还是专业影视制作,高效而强大的视频编辑软件成为了必不可少的工具。会声会影2024旗舰版,作为一款集先进技术与用户友好界面设计…

常用API(正则表达式、爬取、捕获分组和非捕获分组 )

1、正则表达式 练习——先爽一下正则表达式 正则表达式可以校验字符串是否满足一定的规则,并用来校验数据格式的合法性。 需求:假如现在要求校验一个qq号码是否正确。 规则:6位及20位之内,0不能在开头,必须全部是数字…

30.哀家要长脑子了!---栈与队列

1.388. 文件的最长绝对路径 - 力扣(LeetCode) 其实看懂了就还好 用一个栈来保存所遍历过最大的文件的绝对路径的长度,栈顶元素是文件的长度,栈中元素的个数是该文件目录的深度,非栈顶元素就是当时目录的长度 检查此…

Qt 5前后调色板差异变化

Qt 5之前: QPalette palette;//调色板 设置背景颜色 palette.setColor(QPalette::Backgound, color...);Qt 5之后: 由原有的 Background 模式 更新为 Window 模式 QPalette palette;//调色板 设置背景颜色 palette.setColor(QPalette::Window, color..…

10.SpringBoot 统一处理功能

文章目录 1.拦截器1.1在代码中的应用1.1.1定义拦截器1.1.2注册配置拦截器 1.2拦截器的作用1.3拦截器的实现 2.统一数据返回格式2.1 为什么需要统⼀数据返回格式?2.2 统⼀数据返回格式的实现 3.统一异常处理4.SpringBoot专业版创建项目无Java8版本怎么办?…

nodejs安装配置

nodejs安装 打开nodejs官网(https://nodejs.org/en/download/package-manager),参考安装步骤操作。 更新镜像源 输入以下命令,将npm的镜像源设置为淘宝镜像。网上资料中,淘宝镜像地址多为https://registry.npm.taobao.org,这个…

【MATLAB源码-第67期】基于麻雀搜索算法(SSA)的无人机三维地图路径规划,输出最短路径和适应度曲线。

操作环境: MATLAB 2022a 1、算法描述 麻雀搜索算法(Sparrow Search Algorithm, SSA)是一种新颖的元启发式优化算法,它受到麻雀社会行为的启发。这种算法通过模拟麻雀的食物搜索行为和逃避天敌的策略来解决优化问题。SSA通过模拟…

【C++】:vector容器的基本使用

目录 🍒1,vector的介绍🍒2,vector的使用🐯2.1 vector的构造🦁2.2 vector iterator 的使用🌽2.3 vector 空间增长问题🍓2.4 vector 增删查改🐯2.5 vector 访问及遍历&…

雷军-2022.8小米创业思考-9-爆品模式:产品力超群,具有一流口碑,最终实现海量长销的产品。人人都向往;做减法;重组创新;小白模式

第九章 爆品模式 小米方法论的第三个关键词,就是一切以产品为出发点,打造爆品模式。 大多数人对“爆品”的着眼点仅在于“爆”,也就是产品卖得好。希望产品大卖这没有错,但是“爆”是“品”的结果,爆品是打造出来的&…

【附代码】@hydra.main 没有返回值,如何解决函数返回?

hydra.main 是一个 Python 装饰器,通常与 Hydra 深度学习框架一起使用。它的作用是标识 Hydra 配置文件中的主函数。在 Hydra 中,主函数是一个负责组织整个程序执行流程的函数。这个装饰器告诉 Hydra 这个函数是主函数,但并不要求它有返回值。…

闲话 .NET(7):.NET Core 能淘汰 .NET FrameWork 吗?

前言 虽然说,目前 .NET FrameWork 上的大部分类都已经移植到 .NET Core 上,而且 .NET FrameWork 也已经停止了更新,未来必然是 .NET Core 的天下,但要说现在 .NET Core 就能淘汰 .NET FrameWork,我觉得为时尚早&#…

知识付费已达天花板,太多的割韭菜案例了!

一张图片在网上传播,照片有点讽刺,里面两个人:一个人是OpenAI首席执行官萨姆奥特曼(Sam Altman),一位是自称清华博士的网络大V李先生,他们被并称为“AI界两大巨头”。 不过贡献不同&#xff0c…

【AD21】钻孔文件的输出

钻孔文件包含了所有需要在PCB上钻孔的位置、孔径和类型(如通孔、盲孔、埋孔)的详细信息。板厂可以使用这个文件来控制钻孔机进行精确钻孔。 在PCB源文件页面,菜单栏中点击文件->制造输出->NC Drill Files。 在弹出的新界面&#xff0c…

Linux 信号量

Linux 信号量 一、信号量的基本概念1. 计数信号量(Counting Semaphore)2. 二进制信号量(Binary Semaphore) 二 、使用场景1. 信号量需要用到的库系统V IPC头文件 2. 代码演示1. 头文件和结构体定义2. 主函数3. 创建/获取共享内存4…

Webpack性能调优:从加载器到插件的全面优化

Webpack 是一个模块打包工具,它将项目中的各种资源(JavaScript、CSS、图片等)转换成一个或多个浏览器可识别的输出文件。优化 Webpack 的性能主要涉及减少构建时间、减小输出文件大小和提高应用加载速度。 2500G计算机入门到高级架构师开发资…

解析Spring Bean对象的作用域机制

1. 作用域范围 1. singleton单例:在整个SpringBoot应用中,只创建bean的一个实例; 2. propotye多例:每次注入或者通过Spring应用上下文获取的时候,都会创建一个新的bean实例; 3. request请求:一次http请求,…

C++240527

定义自己的命名空间 my_sapce&#xff0c;在 my_sapce 中定义 string 类型的变量 s1&#xff0c;再 定义一个函数 完成 对字符串的逆置 。 #include <iostream>//导入 标准命名空间&#xff0c;cout 和 endl 标识符 存在于标准命名空间中 using namespace std;//定义了自…

springboot+vue+mybatis基于java web的公益网站的设计与实现+jsp+PPT+论文+讲解+售后

现代经济快节奏发展以及不断完善升级的信息化技术&#xff0c;让传统数据信息的管理升级为软件存储&#xff0c;归纳&#xff0c;集中处理数据信息的管理方式。本公益网站就是在这样的大环境下诞生&#xff0c;其可以帮助管理者在短时间内处理完毕庞大的数据信息&#xff0c;使…

AJ-Report一次排错处理

山重水复疑无路&#xff0c;柳暗花明又一村...... 新项目需要选型开源的AJ-Report&#xff0c;计划再次基础上进行二开。 官网地址&#xff1a; AJ-Report: AJ-Report是一个完全开源&#xff0c;拖拽编辑的可视化设计工具。三步快速完成大屏&#xff1a;配置数据源---->写…