机器学习|KNN和Kmeans

KNN和Kmeans

KNN

在这里插入图片描述
KNN-K个最近的邻居,而K是可人先预设出来的。
所谓近朱者赤,近墨者黑。
可以选取离当前最近的K个样本来作为辅助判断,因为本样本和最近的K个样本应该是处于一种相似的状态。
以下是一个苹果和梨的识别任务。
图上会出现一个未知的事物,可以结合和根据以往已经出现在图上的数据来对这个未知事物进行判断。
在这里插入图片描述
可以选取离这个样本最近的K个样本进行判断,比如上图,让K=3,离样本最近的3个样本有两个梨子,1个苹果。那么当前样本可能会被判断为梨子。
而关于最近的近也有不同的衡量来源,比如说曼哈顿距离和欧式距离。

K的选取

如果说K选取过小,则最近的样本的影响相对较大,若这个最近样本是一个特殊的样本,将被容易带偏。
如果说K选取过大,则如果样本数本身不够大的情况下,容易将偏远样本的信息也囊括进来,容易受到相关影响。

KNN算法的应用

在这里插入图片描述
比如在推荐算法中,可以将用户和他在空间上相近的角色进行比对,从而得到相近的信息,来作为当前用户的特征,从而结合这个特征找到符合的商品来进行推送。
在这里插入图片描述
由于KNN一个新样本,需要和其他样本进行计算。计算本身会带来损耗。同时计算本身是受到K的大小和特征维度的影响。

Kmeans

在这里插入图片描述
KNN是通过周围K个水果来认出当前水果。
在这里插入图片描述
而SVM可以通过划分好的直线来将水果区分开,只需看水果落入的是哪一个范围,就可认为是哪一种水果。(实际处理中可能涉及到软间隔的影响)
而不管是KNN还是SVM,都是建立在已有标签的样本的数据之上。(KNN中的K个样本是需要知道这K个样本到底是啥,而SVM需要知道一些具有标签的样本,从而来画出能够区分开的线)
在这里插入图片描述
而只知道样本分布,不知道样本具体是啥的时候就需要用到Kmeans。
可以人为设置具体要分为几类,从而让Kmeans确认出最终各个点的归属。
打个比方,就好像有一片居民居住地,作为城市规划的专家,你要设置几个村中心,并将哪些人划分到这个村落中去来进行管理。
如果这个人居住地和某个村中心A相距比另一个村中心B来得更远,那么这个人应该被划分到村中心B中去。
也就是说,可以先认为离谁近就可以归于谁。

Kmeans步骤

可以粗略归纳为——选取样本中心->各点计算距离来归于某一个样本中心->不断迭代,直至样本中心稳定。
在这里插入图片描述
首先在图中随机找到两个点来作为样本中心(因为K=2,所以挑两个点)。
然后每一个点计算与这两个样本点的距离,从而来进行归类。
然后每一个点都计算出来到底归于哪一个类。
然后可以将类的点再取平均来作为这个类新的样本中心。
然后所有点再与新的样本中心进行计算,迭代,直至新的样本中心,没有再发生改变。
则可认为基本稳定。
在这里插入图片描述
所以Kmeans相对简单,容易上手,是一种无监督学习(不需要样本带有标签,只需要知道样本的分布即可,打标签是需要成本的,相关的工作可以在boss上面找到数据标注员的工作)。
而Kmeans也有缺点,比如效果并不一定比有监督学习来得好,并且效果比较依赖K的选取。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/718320.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【软件设计师】通俗易懂的去了解算法的时间复杂度

🐓 时间复杂度 常用排序的时间复杂度 时间频度 算法需要花费的时间,和它语句执行的次数是成正比的,所以会把一个算法种语句执行次数称为语句频度和时间频度、记作T(n)。 定义 时间复杂度就是找到一个无限接近时间频度T(n)同数量级的函数&am…

mirthConnect忽略HTTPS SSL验证

mirthConnect SSL忽略验证 1、下载https网站证书 点击不安全---->证书无效 2、查看mirth 秘钥库口令 在mirthConnect 的conf目录下面keystore.storepass 3、导入证书到本地 在jdk的bin目录下面执行 keytool -importcert -file "下载的网站证书路径" -keysto…

CV论文--2024.3.4

1、Deep Networks Always Grok and Here is Why 中文标题:深度网络总是让人摸不着头脑,原因如下 简介:本文探讨了深度神经网络(DNN)中一种称为"延迟泛化"或"Grokking"的现象。在接近零的训练误差…

如何用Elementor创建WordPress会员网站

在下面的文章中,我们将向您展示如何使用Elementor和MemberPress在WordPress中轻松构建会员网站。这篇文章将涵盖WordPress会员网站设置过程、会员资格和受保护内容创建、重要页面和登录表单设计、电子邮件通知管理、报告等。 目录 什么是WordPress会员网站&#x…

【go从入门到精通】go基本类型和运算符用法

大家好,这是我给大家准备的新的一期专栏,专门讲golang,从入门到精通各种框架和中间件,工具类库,希望对go有兴趣的同学可以订阅此专栏。 --------------------------------------------------------------------------…

.NET高级面试指南专题十四【 观察者模式介绍,最常用的设计模式之一】

简介: 观察者模式(Observer Pattern)是一种行为型设计模式,其目的是定义了一种一对多的依赖关系,当一个对象的状态发生变化时,所有依赖于它的对象都会得到通知并自动更新。 原理: 在观察者模式中…

从零开始搭建web组态

成果展示:by组态[web组态插件] 一、技术选择 目前只有两种选择,canvas和svg Canvas: 是一个基于像素的渲染引擎,使用JavaScript API在画布上绘制图像,它的优点包括: Canvas渲染速度快,适合处理大量图像和…

TIOBE 2024榜单启示:程序员如何把握未来编程趋势与机遇

程序员如何选择职业赛道? 程序员的职业赛道就像是一座迷宫,有前端的美丽花园,后端的黑暗洞穴,还有数据科学的神秘密室。你准备好探索这个充满挑战和机遇的迷宫了吗?快来了解如何选择职业赛道吧! 方向一…

CSS中如何解决 1px 问题?

1px 问题指的是:在一些 Retina屏幕 的机型上,移动端页面的 1px 会变得很粗,呈现出不止 1px 的效果。原因很简单——CSS 中的 1px 并不能和移动设备上的 1px 划等号。它们之间的比例关系有一个专门的属性来描述: window.devicePix…

重构笔记系统:Docker Compose在微服务架构中的应用与优化

虽然我的笔记系统的开发是基于微服务的思想,但是在服务的配置和编排上感觉还是不太合理,具体来说,在开发上的配置和在生产上的配置差别太大。现在规模小,后面规模变大,估计这一块会成为系统生长的瓶颈。 因此&#xff…

跨时钟信号处理方法

1. 背景 现在的芯片(比如SOC,片上系统)集成度和复杂度越来越高,通常一颗芯片上会有许多不同的信号工作在不同的时钟频率下。比如SOC芯片中的CPU通常会工作在一个频率上,总线信号(比如DRAM BUS)会…

python+Django+Neo4j中医药知识图谱与智能问答平台

文章目录 项目地址基础准备正式运行 项目地址 https://github.com/ZhChessOvO/ZeLanChao_KGQA 基础准备 请确保您的电脑有以下环境:python3,neo4j 在安装目录下进入cmd,输入指令“pip install -r requirement.txt”,安装需要的python库 打…

猫为什么挑食?可以改善、预防猫咪挑食的主食冻干分享

现在的猫咪主人都把自家的小猫当成了心头的宝贝,呵护备至。最令人头疼的就是猫咪挑食不吃猫粮,猫为什么挑食?遇到这类情况怎么办呢?今天,我要分享一个既能确保猫咪不受苦,又能有效改善挑食问题的方法。 一、…

vue api封装

api封装 由于一个项目里api是很多的,随处都在调,如果按照之前的写法,在每个组件中去调api,一旦api有改动,遍地都要去改,所以api应该也要封装一下,将api的调用封装在函数中,将函数集…

C++实现简易版http server

mini服务器简介 mini服务器功能 1.实现了GET和POST方法的HTTP request和HTTP respond的构建和发送,使服务器可以完成基本通信功能。 2.使用了线程池技术,使服务器可以一次接收更多的链接和加快了服务器处理数据的速度。 3.实现了简易的CGI&#xff0…

【MATLAB源码-第155期】基于matlab的OFDM系统多径信道LS,LMMSE,SVD三种估计算法的比较误码率对比仿真。

操作环境: MATLAB 2022a 1、算法描述 OFDM(Orthogonal Frequency Division Multiplexing,正交频分复用)是一种高效的无线信号传输技术,广泛应用于现代通信系统,如Wi-Fi、LTE和5G。OFDM通过将宽带信道划分…

jmeter 按流量阶梯式压测数据库

当前版本: jmeter 5.6.3mysql 5.7.39 简介 JMeter 通过 BZM - Arrivals Thread Group 来模拟并发到达的用户流量、按时间加压,可以有效地帮助测试人员评估系统在高压力和高并发情况下的性能表现。 文章目录如下 1. 下载插件 2. 界面说明 3. 测试步骤…

云计算 2月26号 (进程管理和常用命令)

一、权限扩展 文件权限管理之: 隐藏权限防止root误删除 文件属性添加与查看 [rootlinux-server ~]# touch file1 file2 file3 1.查看文件属性 [rootlinux-server ~]# lsattr file1 file2 file3 ---------------- file1 ---------------- file2 ---------------- f…

UDP协议和TCP协议详解

文章目录 应用层自定义协议 传输层udp协议TCP协议1.确认应答2.超时重传3.连接管理建立连接, 三次握手断开连接, 四次挥手tcp的状态 4.滑动窗口5.流量控制6.拥塞控制7.延时应答8.携带应答9.面向字节流10.异常情况 应用层 自定义协议 客户端和服务器之间往往要进行交互的是“结构…

Eigen-约简,访问和广播

约简化,访客和广播 一、约简化1. 标准计算2. 布尔约减 二、访问三、部分约简1. 将部分约减与其他业务相结合 四、广播1. 将广播与其他业务相结合 一、约简化 在Eigen中,约简化是一个接受矩阵或数组并返回单个标量值的函数。最常用的约简方法之一是.sum(…