机器学习理论梳理2 : KNN K近邻分类模型

本文主要梳理KNN,K近邻模型的基本原理。

从机器学习的大分类来看,K近邻模型属于监督学习中的一种判别式模型,常用于分类问题。初始的数据集中,包含了已经分类标签好的数据。一句话来说,K近邻模型就是通过计算实例与现有数据集中所有数据的数学距离,从中挑选出K个最近的例子。在这K个例子中,占据大多数的分类就是新的实例的分类。

在这里插入图片描述
在使用K近邻法时,需要注意的就是定义好数学意义上的距离(一般使用欧拉距离)以及选取合适的K值。这个方法作为分类器的优势在于实现简单,没有先行的假设,但其局限性也很明显,随着样本以及数据量的上升,运算成本也是同比例地增加。

有两种主要的思路,来加速K近邻法的运算。首先我们可以利用PCA主成分分析,或者LDA线性判别分析来对原始数据进行降维处理,降维后再计算向量之间的距离就可以提高效率。

其次,在实现过程中,我们放弃计算新的实例和每一个数据集中的例子的距离,而是先计算各个分类中所有已知数据的平均值,通过新的实例与这个平均值之间的距离来进行分类,虽然一定程度牺牲了分类的准确性提高了不可避免的误差,但却可以大幅度加速我们算法运行的速度。
dE(x,c)=(x−μc)T(x−μc)d_E(x,c) = (x-\mu_c)^T(x-\mu_c) dE(x,c)=(xμc)T(xμc)
其中,x 为新的实例,μc\mu_cμc 是类的中心点,x 被分类为与他欧拉距离最近的类,每个类由他的中心点(平均值)来表示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/386792.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

docker安装配置gitlab详细过程

1、方法一 1 docker pull beginor/gitlab-ce:11.0.1-ce.0 2、方法二 如果服务器网路不好或者pull不下来镜像,只能在其它网路比较好的机器上pull下来镜像,导出成一个文件, 再下载上传到网路不好的机器上,然后再从文件中导出来&am…

集合对偶律:分别用图文证明

集合几个法则: 求证: 注:右上角C表示此集合的补集/余集 语言描述:A 并 B的补集 A的补集 交 B的补集 A交B的补集 A的补集 并 B的补集 文字证明:(思路:证明两个集合相等,可证两集合…

keras实现嘴唇图像autoencoder

本文分享了我在silent speech 项目过程中实现的基于嘴唇图像数据集的autoencoder自编码器。输入输出都是64∗6464*6464∗64的嘴唇灰度图。自编码器由编码解码两个部分构成,同时实现了利用checkpoint在每个epoch运算时,自动保存测试集loss更小的模型。 数…

historyReverser array reverse

historyReverser & array reverse "use strict";/**** author xgqfrms* license MIT* copyright xgqfrms** description historyReverser* augments Reverse 逆向 / Recursive 递归* example* link**/const historyReverser (datas [], text , debug false)…

pip国内加载速度慢解决方法

在国内使用pip安装包时有时会发现安装速度非常慢,甚至连接不上源。 为了加快pip的下载速度,我们可以主动使用 -i命令来切换到国内源。 下面放出实测好用的国内源 : 清华:https://pypi.tuna.tsinghua.edu.cn/simple 阿里云:http:…

oracle--导出、导入blob类型的字段

oracle--导出、导入blob类型的字段 blob是oracle中的一个数据类型,保存的是压缩后的二进制形式的大数据。 数据迁移如果涉及到blob字段,都不好处理,因为无法用常规方法进行操作,如:使用select查看该字段,…

深度学习分布式训练小结

分布式训练本质上是为了加快模型的训练速度,面对较为复杂的深度学习模型以及大量的数据。单机单GPU很难在有限的时间内达成模型的收敛。这时候就需要用到分布式训练。 分布式训练又分为模型并行和数据并行两大类。 1. 数据并行 数据并行在于将不同batch的数据分别…

MAC配置JCO,与找不到sapjco3异常

①到jco官网下载jco压缩包,解压 ②把libsapjco3.jnilib 放到一个文件夹中 把该路径配置到环境变量中 ③项目运行有可能会出现异常:找不到 sapjco3 ; 第一种解决方式:配置虚拟机参数:-Djava.library.path之前环境变量路…

Java高并发之BlockingQueue

前言碎语 当系统流量负载比较高时,业务日志的写入操作也要纳入系统性能考量之内,如若处理不当,将影响系统的正常业务操作,之前写过一篇《spring boot通过MQ消费log4j2的日志》的博文,采用了RabbitMQ消息中间件来存储抗…

IP通信基础回顾2(第三周)

1.TCP报文 序号字段占4个字节。TCP连接中传送的数据流中每一个字节都编上一个序号。序号字段的值则是本报文段所发送的数据第一个字节的序号。 确认序号占4个字节。是期望收到的对方的下一个报文段字节胡序号。首部长度占4个字节。指出TCP首部长度在20-60字节之间,所…

ThreadPoolExecutor线程池 + Queue队列

1:BlockingQueue继承关系 java.util.concurrent 包里的 BlockingQueue是一个接口, 继承Queue接口,Queue接口继承 Collection BlockingQueue----->Queue-->Collection 图: 队列的特点是:先进先出(FIFO…

linux基础文件管理软硬链接

一、文件系统的基本结构 1、文件和目录被组成一个单根倒置树目录结构 2、文件系统从根目录下开始,用“/”表示 3、根文件系统(rootfs):root filesystem文件名区分大小写 4、以 . 开头的文件为隐藏文件 5、路径用/隔离 6文件有两类…

mybatis动态更新xml文件后热部署,不重启应用的方法

mybatis应用程序,由于是半自动化的sql, 有大量的sql是在xml文件中配置的,而在开发程序的过程中,通常需要边写sql变调试应用。但在默认情况下,xml文件里配置的sql语句是被放入到缓存中去了,每次更改有sql语句的xml文件&…

下拉插件 (带搜索) Bootstrap-select 从后台获取数据填充到select的 option中 用法详解...

今天收到了客户的需求,要求在新增停车场ID的时候要从数据库查出来对应的停车场名称然后显示在界面上。保存的时候按照停车场ID进行保存。 自己首先把后台的部分写完了,测试了接口数据。成功的拿到了ajax数据。 接下来,自己用了select下拉标签…

Linux自有服务(2)-Linux从入门到精通第六天(非原创)

文章大纲 一、设置主机名二、chkconfig三、ntp服务四、防火墙服务五、rpm管理(重点)六、cron/crontab计划任务(重点)七、学习资料下载八、参考文章 自有服务,即不需要用户独立去安装的软件的服务,而是当系统…

营销-营销方式:营销方式

ylbtech-营销-营销方式:营销方式营销方式是指营销过程中所有可以使用的方法。包括服务营销、体验营销、知识营销、情感营销、教育营销、差异化营销、直销、网络营销等。要有好的营销方式首先要创造行之有效的营销工具。但这并不意味着要把预算的75%都花在印制宣传资…

Kibana可视化管理页面详细使用说明

Kibana可视化管理页面详细使用说明 使用浏览器访问 ip:5601 默认端口,进入首页 Discover:日志管理视图 主要进行搜索和查询 Visualize:统计视图 构建可视化的图表 Dashboard:仪表视图 将构…

OO_BLOG3_规格化设计(JML学习)

目录 JML语言学习笔记理论基础应用工具链情况JMLUnit/JMLUnitNGUNIT3 作业分析作业 3-1 实现两个容器类Path和PathContainer作业 3-2 实现容器类Path和数据结构类Graph作业 3-3 实现容器类Path,地铁系统类RailwaySystem规格撰写的心得与体会最后,衷心感谢…

CMU Database Systems - Sorting,Aggregation,Join

Sorting 排序如果可在内存里面排,用经典的排序算法就ok,比如快排 问题在于,数据表中的的数据是很多的,没法一下都放到内存里面进行排序 所以就需要用到,外排,多路并归排序 看下最简单的,2路并归…

springboot线程池的使用和扩展

实战环境 windowns10;jdk1.8;springboot 1.5.9.RELEASE;开发工具:IntelliJ IDEA; 实战源码 本次实战的源码可以在我的GitHub下载,地址:gitgithub.com:zq2599/blog_demos.git,项目主…