k近邻算法_K近邻(knn)算法是如何完成分类的?

摘要:K近邻算法是机器学习中的一个非常基础的算法。本文通过自生成数据,通过绘图的方式演示KNN算法的思路,让你不看数学公式就看了解什么是KNN算法。

关键词:KNN算法

1 生成一个二分类的数据集

本文很多内容参考文献[1]。

先生成一个两个类别的数据集,然后修改这个数据集中的一些数据(提高分类难度、或者有一些杂质数据),最后再剔除一些数据使得数据不那么均衡,但也不能差距太大(主要还是希望进一步接近现实数据)。为了能够可视化我们的数据,这里生成的数据为二维的,也就是一条数据具有两个特征

from sklearn.datasets import make_blobsimport matplotlib.pyplot as pltimport numpy as npdef makeTwoClassData():    X, y = make_blobs(centers=2, random_state=4, n_samples=30)    y[np.array([7, 27])] = 0   # 生成错误数据    mask = np.ones(len(X), dtype=np.bool)  # 得到一个与数据集大小同的全一矩阵    mask[np.array([0, 1, 5, 26])] = 0      # 剔除这些索引数据    X, y = X[mask], y[mask]                # 选出剔除数据后的数据    return X, y

(其中涉及的模块,参数,如有不懂的百度或留言评论)
将生成的数据可视化:

X, y = makeTwoClassData()# 绘图plt.scatter(X[y==0][:,0], X[y==0][:,1], marker='o', s=50)plt.scatter(X[y==1][:,0], X[y==1][:,1], marker='^', s=50)plt.legend(['Class 0', 'Class 1'], loc=4)plt.xlabel("First feature")plt.ylabel("Second feature")plt.show()
024b9ded8ad214576d5bd36b69fb684c.png

2 k近邻算法原理介绍

k紧邻算法是一种监督学习算法,算法的思想是这样子的:我们已经有了一堆具有标记的数据DDD,例如我们生成的有两个特征的数据,我们的任务是利用这些已有的数据预测新的数据xxx属于哪个类别,这个新的数据类型也理所当然与已有的数据集是一致的,下一步要做的就是计算这一条需要预测类别数据与已有数据之间的距离(这里距离通常是欧氏距离,也不排除还有其他计算方法),然后选择距离最小的前k条已有的数据,根据这k条数据的类别判定(判定方式可使用哪个类别多选择哪个方式)数据xxx属于哪个类别。(希望这些废话你能够理解)

下面让用代码和画图的方式辅助你了解。

构建几个需要预测的数据

# 选取测试点X_test = np.array([[8.2, 3.66214339], [9.9, 3.2], [11.2, .5]])

绘制不同个邻居数据的分类图:

from sklearn.metrics import euclidean_distancesfrom sklearn.neighbors import KNeighborsClassifierdef plot_knn_classification(X, y, X_test, n_neighbors):    plt.figure()    dist = euclidean_distances(X, X_test)  # 计算训练数据与测试数据之间的距离    closest = np.argsort(dist, axis=0)  # 从dist计算结果根据值的进行排序,并返回索引    # 绘制箭头    for x, neighbors in zip(X_test, closest.T):        for neighbor in neighbors[:n_neighbors]:            plt.arrow(x[0], x[1], X[neighbor, 0] - x[0], X[neighbor, 1] - x[1], head_width=0, fc='k', ec='k')    # 原始数据图形    plt.scatter(X[y==0][:,0], X[y==0][:,1], marker='o', s=50, label="training class 0")    plt.scatter(X[y==1][:,0], X[y==1][:,1], marker='^', s=50, label="training class 1")    plt.xlabel("First feature")    plt.ylabel("Second feature")    # 预测值    clf = KNeighborsClassifier(n_neighbors=n_neighbors).fit(X, y)  # 训练得到模型    y_pre = clf.predict(X_test)    plt.scatter(X_test[y_pre==0][:, 0], X_test[y_pre==0][:, 1], marker='*', s=50, c='red', label="test_pre 0")    plt.scatter(X_test[y_pre==1][:, 0], X_test[y_pre==1][:, 1], marker='*', s=50, c='black', label="test_pre 1")    plt.legend()# 绘制相邻1个点的情况plot_knn_classification(X, y, X_test, 1)# 绘制相邻3个点的情况plot_knn_classification(X, y, X_test, 3)
846400ff7728f967db5924ecc40fb429.png
6e81c5a20e63cb10a168440d190c0f49.png

上面的图分类已经很明了,无需多言。下面我们使用sklearn来构建一个KNN分类器(上面已经构建了)。

3 使用sklearn构建KNN分类器

只需要几步就可以了,不过需要知道相关参数。如下:

from sklearn.model_selection import train_test_split# 数据集划分X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)# 构建模型,并训练clf = KNeighborsClassifier(n_neighbors=3)clf.fit(X_train, y_train)# 预测print("Test set prediction:{}".format(clf.predict(X_test)))"""Test set prediction:[1 0 1 0 1 0 0]"""

查看模型分类正确率:

print("Test set accuracy:{:.2f}%".format(clf.score(X_test,y_test)*100))"""Test set accuracy:85.71%"""

是不是很简单,几步就搞定了。现在能够分类了,那么这个分类器的决策边界是什么样的呢?

4 看看KNN的决策边界是什么样的

绘制决策边界还是相对麻烦的,这里提供一下相关代码:

def plot_2d_separator(classifier, X, fill=False, ax=None, eps=None, alpha=1, cm='viridis', linewidth=None, threshold=None, linestyle="solid"):    if eps is None:        eps = X.std() / 2.    # 获取当前子图    if ax is None:        ax = plt.gca()    # 特征1最值浮动    x_min, x_max = X[:, 0].min() - eps, X[:, 0].max() + eps    # 特征2最值浮动    y_min, y_max = X[:, 1].min() - eps, X[:, 1].max() + eps    # 在两个特征之间均匀生成1000个点    xx = np.linspace(x_min, x_max, 1000)    yy = np.linspace(y_min, y_max, 1000)    X1, X2 = np.meshgrid(xx, yy)  # 构建网格点矩阵, shape 1000*1000    X_grid = np.c_[X1.ravel(), X2.ravel()] # 构建坐标点, 则有1000^2个坐标点,即100万个点    chunk_size = 10000    Y_result_chunks = []    for x_chunk in np.array_split(X_grid, np.arange(chunk_size, X_grid.shape[0], chunk_size, dtype=np.int32),axis=0):        # predict_proba返回的是一个 n 行 k 列的数组, 第 i 行 第 j 列上的数值是模型预测 第 i 个预测样本为某个标签的概率,并且每一行的概率和为1。        Y_result_chunks.append(classifier.predict_proba(x_chunk)) # 分批预测构造的点的结果, 每批1万个数据    decision_values = np.concatenate(Y_result_chunks)[:, 1]  # 将list中的结果拼接起来, 然后选取一个列别的预测值    levels = [.5] if threshold is None else [threshold]    fill_levels = [0] + levels + [1]  # 填充    # 开始绘制边界(类似于等高线)    ax.contourf(X1, X2, decision_values.reshape(X1.shape), levels=fill_levels, alpha=alpha, cmap=cm)    # 设置坐标轴范围以及对应的数字    ax.set_xlim(x_min, x_max)    ax.set_ylim(y_min, y_max)    ax.set_xticks(())    ax.set_yticks(())fig, axes = plt.subplots(1, 3, figsize=(10, 3))for n_neighbors, ax in zip([1, 3, 9], axes):    clf = KNeighborsClassifier(n_neighbors=n_neighbors).fit(X, y)    # 绘制决策边界    plot_2d_separator(clf, X, fill=True, eps=0.5, ax=ax, alpha=0.4)    # 原始数据图形    ax.scatter(X[y==0][:,0], X[y==0][:,1], marker='o', s=50, label="class 0")    ax.scatter(X[y==1][:,0], X[y==1][:,1], marker='^', s=50, label="class 1")    ax.set_title("{} neighbor(s)".format(n_neighbors))    ax.set_xlabel("feature 0")    ax.set_ylabel("feature 1")axes[0].legend(loc=3)

决策边界图像如下:

e3231780613f7571309afba948cc5201.png

5 用现实中的数据来说话

当然上面的例子使用的自己构建的数据,并且数据还比较少,现在我们使用sklearn自带的数据来分类,使用现实世界的乳腺癌数据集进行knn分类。其操作如下:

from sklearn.datasets import load_breast_cancercancer = load_breast_cancer()X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, stratify=cancer.target, random_state=66)training_accuracy = []test_accuracy = []# n_nighbors取值从1-10neighbors_settings = range(1, 11)for n_neighbors in neighbors_settings:    # 构建模型    clf = KNeighborsClassifier(n_neighbors=n_neighbors)    clf.fit(X_train, y_train)    # 记录训练精度    training_accuracy.append(clf.score(X_train, y_train))    # 记录泛化精度    test_accuracy.append(clf.score(X_test, y_test))plt.plot(neighbors_settings, training_accuracy, label="training accuracy")plt.plot(neighbors_settings, test_accuracy, label="test accuracy")plt.ylabel("Accuracy")plt.xlabel("n_neighbors")plt.legend()
f972f902ab1d0067f268bddccd1d89f8.png

总结

从上面的图形可以看出,并不是选择k越大越好,也不是越小越好,这里选择的就是6最好。其实你慢慢就会发现,我们开始要根据训练的一些参数曲线,去调整模型的参数啦,这在后面的文章会做进一步的介绍。当然本部分内容是参考《Python机器学习基础教程》内容并结合自己的理解写出,所以我还是推荐​一下这本书,或者可以在订阅号“AIAS编程有道”中回复“Python机器学习基础教程”获取电子档后决定​是否要购买,建议购买正版书籍。​

Reference

[1]【机器学习】K近邻(knn)算法是如何完成分类的?: https://piqiandong.blog.csdn.net/article/details/106751155

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/434284.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

登录不上_《盗贼之海》登录不上?还在傻傻等待,快来让我教教你

大家都对这款海盗题材的游戏《盗贼之海》有兴趣了吧,相信大家都入手了它,但是也有很多朋友在入手后遇见了很多问题,别怕,今天干货来了,手把手教你。保证你流畅游戏,快人一步。我看见很多朋友都在问&#xf…

苹果X可以升级5G吗_苹果x可以用5g网络吗

随着5G网络的逐渐商用,越来越多5G原型机和量产机都即将推出,那么苹果iPhone X能够支持5G网络吗?下面就为您带来苹果iPhone x可以用5G网络吗的相关介绍,希望以上的介绍能够帮助到您。苹果x可以用5g网络吗1、iPhone X并不支持5G网络…

提交显示成功但是没有看到文件_如何向RTThread提交一个BSP?

RT-Thread今天的快速发展和所取得成绩,离不开所有开发者的持续贡献和社区小伙伴的竭力支持。一、前言今年6月,我在一款智能混合型的FPGA芯片上,完成了RT-Thread的移植,并向RT-Thread提交了一个完整的BSP,后续又根据审查…

WinForm中使用WPF的控件

在WinForm中可以使用WPF中的控件,或者由WPF创建的自定义控件; 步骤1:创建WinForm工程; 步骤2:在WinForm工程的解决方案资源管理器中,在刚刚创建的WinForm解决方案中新建或者添加现有的WPF用户控件工程&…

docker php composer 使用_「PHP编程」如何使用Docker制作自己的LNMP/LAMP镜像

LNMP和LAMP是PHP常用的两种运行环境,L代表Linux,N代表Nginx,A代表Apache,M代表Mysql,P代表PHP。在文章《「PHP编程」安装开发环境太烦?告诉你几个简单方法,分分钟搞定》中我们介绍了&#xff0c…

中天数相减获得差_Power BI 了解DAX中LASTDATE和MAX之间的区别

许多刚开始使用DAX的小伙伴在使用LASTDATE搜索某个时间段内的最后日期。或者他们使用NEXTDAY检索给定日期之后的日期。尽管这些函数可以实现它们所承诺的功能,但它们并不打算在简单的表达式中使用。相反,它们是设计用于时间智能计算的表函数。错误地使用…

python gif_python 将png图片格式转换生成gif动画

先看知乎上面的一个连接 用Python写过哪些【脑洞大开】的小工具? 这个哥们通过爬气象网站的气象雷达图,生成一个gif的动态图。非常有趣且很实用,那咱也实现下。 我们先实现一个从GIF提取帧的代码 我们这有个gif代码如下: from PIL…

HTTP代理原理以及HTTP隧道技术

通过HTTP协议与代理服务器建立连接,协议信令中包含要连接到的远程主机的IP和端口号,如果有需要身份验证的话还需要加上授权信息,服务器收到信令后首先进行身份验证,通过后便与远程主机建立连接,连接成功之后会返回给客…

goland环境配置_Goland辅助工具goimports和gomodules

1、goimports工具goimports工具是Go官方提供的一种工具,它能够为我们自动格式化 Go 语言代码并对所有引入的包进行管理,包括自动增删依赖的包引用、将依赖包按字母序排序并分类。我们在使用Goland IDE的时候,建议使用goimports工具。它具备包…

石头剪刀布python代码_python实现石头剪刀布程序

本文实例为大家分享了python实现石头剪刀布的具体代码,供大家参考,具体内容如下 概述: 如果你和我一样是一个有着其他语言基础的编程者,那我想这个小程序对于你来说是小case。由于本人初学Python,就先拿这个熟悉熟悉一…

ubuntu/wireshark --Lua: Error during loading: [string /usr/share/wireshark/init.lua]:45问题解决

错误如下: 解决方案:修改init.lua 直接运行wireshark的话会报错: Lua: Error during loading: [string "/usr/share/wireshark/init.lua"]:45: dofile has been disabled 要对其进行修改,终端运行 sudo gedit /usr…

ubuntu下IP、DNS配置

一、配置ip ubuntu的网络配置信息放在 /etc/network/interfaces 中,如果配置动态获取ip,则在上述文件中加入以下内容:auto eth0iface eth0 inet dhcp如果配置静态ip,则添加如下内容:auto eth0 iface eth0 inet statica…

python向空列表添加列表_Python列表核心知识点汇总

千里之行,始于足下。要练成一双洞悉一切的眼睛,还是得先把基本功扎扎实实地学好。今天带大家仔细温习一下Python的列表。温故而知新,不亦说乎。当然,温习的同时也要发散思考,因为有些看似无关紧要的、约定俗成的语言习…

sharepoint2010的弹出等待提示的对话框

根据MSDN的资料。我做了个测试&#xff0c;代码如下&#xff1a; <% Assembly Name"$SharePoint.Project.AssemblyFullName$" %> <% Assembly Name"Microsoft.Web.CommandUI, Version14.0.0.0, Cultureneutral, PublicKeyToken71e9bce111e9429c" …

java中输出值保留四位小数_Java工程师(3).变量和数据类型

变量什么是变量变量是内存中的一块存储空间&#xff0c;用于保存Java程序准备使用的数据。可以为变量赋予一个简短并易于记忆的名字方便我们使用变量的值。int 变量的声明因为经常要保存一些数据&#xff0c;所以变量是很常用的。使用变量必须先声明变量&#xff1a;int 变量的…

扫描路径_npj: 纳米团簇表面的自动扫描—吸附位点和扩散路径

海归学者发起的公益学术平台分享信息&#xff0c;整合资源交流学术&#xff0c;偶尔风月金属纳米团簇常用于催化&#xff0c;因具有较高的分散性&#xff0c;应用领域不断扩大。与较大的金属纳米颗粒相比&#xff0c;其固有活性通常要高出数倍。这种高出的催化活性主要归因于其…

pjsip的编译及简单使用

1.下载下载地址&#xff1a;http://www.pjsip.org/download.htm我下载的是pjproject-1.12.zip2.编译将下载的文件解压后&#xff0c;目录下有pjproject-vs8.sln&#xff0c;可以直接使用vs2005打开&#xff0c;目录下的readme.txt文件中有编译说明&#xff0c;关于windows下的注…

IOS之导航控制器与表视图

7.1 导航控制器 7.2 创建第一级控制器 7.3 第一个二级控制器 7.4 第一个三级控制器 7.5 第二个二级表控制器 7.6 第三个二级表控制器 7.7 第四个二级表控制器 7.8 第五个二级表视图控制器 7.8 第六个二级表视图控制器 7.1 导航控制器 关于导航控制器和表视图 导航控制器和表视图…

gin redis 链接不上_Redis 高并发问题,及解决方案!

&#xff08;一&#xff09;redis技术的使用&#xff1a;redis真的是一个很好的技术&#xff0c;它可以很好的在一定程度上解决网站一瞬间的并发量&#xff0c;例如商品抢购秒杀等活动。。。redis之所以能解决高并发的原因是它可以直接访问内存&#xff0c;而以往我们用的是数据…

任务管理平台_软件品质评测系统任务分发管理平台

testkuaibao|软件测试自学公众号1●为什么需要任务分发平台●在一个基本的评测系统中我们有了评测执行工具、评测数据、评测环境就能进行一次评测任务的执行&#xff0c;但现在是大数据时代&#xff0c;我们更多的需求是针对大量数据进行评测。比如在输入法评测中我们有10000个…