机器学习|KNN和Kmeans

KNN和Kmeans

KNN

在这里插入图片描述
KNN-K个最近的邻居,而K是可人先预设出来的。
所谓近朱者赤,近墨者黑。
可以选取离当前最近的K个样本来作为辅助判断,因为本样本和最近的K个样本应该是处于一种相似的状态。
以下是一个苹果和梨的识别任务。
图上会出现一个未知的事物,可以结合和根据以往已经出现在图上的数据来对这个未知事物进行判断。
在这里插入图片描述
可以选取离这个样本最近的K个样本进行判断,比如上图,让K=3,离样本最近的3个样本有两个梨子,1个苹果。那么当前样本可能会被判断为梨子。
而关于最近的近也有不同的衡量来源,比如说曼哈顿距离和欧式距离。

K的选取

如果说K选取过小,则最近的样本的影响相对较大,若这个最近样本是一个特殊的样本,将被容易带偏。
如果说K选取过大,则如果样本数本身不够大的情况下,容易将偏远样本的信息也囊括进来,容易受到相关影响。

KNN算法的应用

在这里插入图片描述
比如在推荐算法中,可以将用户和他在空间上相近的角色进行比对,从而得到相近的信息,来作为当前用户的特征,从而结合这个特征找到符合的商品来进行推送。
在这里插入图片描述
由于KNN一个新样本,需要和其他样本进行计算。计算本身会带来损耗。同时计算本身是受到K的大小和特征维度的影响。

Kmeans

在这里插入图片描述
KNN是通过周围K个水果来认出当前水果。
在这里插入图片描述
而SVM可以通过划分好的直线来将水果区分开,只需看水果落入的是哪一个范围,就可认为是哪一种水果。(实际处理中可能涉及到软间隔的影响)
而不管是KNN还是SVM,都是建立在已有标签的样本的数据之上。(KNN中的K个样本是需要知道这K个样本到底是啥,而SVM需要知道一些具有标签的样本,从而来画出能够区分开的线)
在这里插入图片描述
而只知道样本分布,不知道样本具体是啥的时候就需要用到Kmeans。
可以人为设置具体要分为几类,从而让Kmeans确认出最终各个点的归属。
打个比方,就好像有一片居民居住地,作为城市规划的专家,你要设置几个村中心,并将哪些人划分到这个村落中去来进行管理。
如果这个人居住地和某个村中心A相距比另一个村中心B来得更远,那么这个人应该被划分到村中心B中去。
也就是说,可以先认为离谁近就可以归于谁。

Kmeans步骤

可以粗略归纳为——选取样本中心->各点计算距离来归于某一个样本中心->不断迭代,直至样本中心稳定。
在这里插入图片描述
首先在图中随机找到两个点来作为样本中心(因为K=2,所以挑两个点)。
然后每一个点计算与这两个样本点的距离,从而来进行归类。
然后每一个点都计算出来到底归于哪一个类。
然后可以将类的点再取平均来作为这个类新的样本中心。
然后所有点再与新的样本中心进行计算,迭代,直至新的样本中心,没有再发生改变。
则可认为基本稳定。
在这里插入图片描述
所以Kmeans相对简单,容易上手,是一种无监督学习(不需要样本带有标签,只需要知道样本的分布即可,打标签是需要成本的,相关的工作可以在boss上面找到数据标注员的工作)。
而Kmeans也有缺点,比如效果并不一定比有监督学习来得好,并且效果比较依赖K的选取。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/718320.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入Spring Boot核心技术:代码实战解析

第一章:揭开Spring Boot自动配置的面纱 自动配置原理 让我们首先通过一个简化的Spring Boot应用启动类来直观感受自动配置的工作原理: java import org.springframework.boot.SpringApplication; import org.springframework.boot.autoconfigure.Sprin…

【软件设计师】通俗易懂的去了解算法的时间复杂度

🐓 时间复杂度 常用排序的时间复杂度 时间频度 算法需要花费的时间,和它语句执行的次数是成正比的,所以会把一个算法种语句执行次数称为语句频度和时间频度、记作T(n)。 定义 时间复杂度就是找到一个无限接近时间频度T(n)同数量级的函数&am…

小脑萎缩患者生活指南:守护你的每一步

亲爱的读者朋友们,今天我们要聊一聊一个特殊但非常重要的群体——小脑萎缩患者。在这个充满挑战的旅程中,我们将一起探索如何用爱和智慧为患者打造一个更加安全、舒适的生活环境。 小脑萎缩是指小脑细胞逐渐减少,导致小脑体积缩小的一种病症…

全量知识系统问题及SmartChat给出的答复 之16 币圈生态链和行为模式

Q.42 币圈生态链和行为模式 我认为,上面和“币”有关的一系列概念和技术,按设计模式的划分 ,整体应该都属于行为模式,而且应该囊括行为模式的所有各个方面。 而行为又可以按照三种不同的导向(以目的或用途为导向、过…

互联网摸鱼日报(2024-03-04)

互联网摸鱼日报(2024-03-04) 36氪新闻 Sora来了,你又焦虑了吗? 最前线|安踏首家球鞋集合店落地北京三里屯 一位中国遥感科学家,决定“跨界”拯救濒危动物野骆驼 | 最前线 本周双碳大事:工信部等七部门发文推动制造…

mirthConnect忽略HTTPS SSL验证

mirthConnect SSL忽略验证 1、下载https网站证书 点击不安全---->证书无效 2、查看mirth 秘钥库口令 在mirthConnect 的conf目录下面keystore.storepass 3、导入证书到本地 在jdk的bin目录下面执行 keytool -importcert -file "下载的网站证书路径" -keysto…

LeetCode每日一题【c++版】- leetcode 225.用队列实现栈

题目描述 请你仅使用两个队列实现一个后入先出(LIFO)的栈,并支持普通栈的全部四种操作(push、top、pop 和 empty)。 实现 MyStack 类: void push(int x) 将元素 x 压入栈顶。int pop() 移除并返回栈顶元素…

Python中按指定数量分割列表字符串的方法

引言 处理列表数据时,有时我们需要将一个包含长字符串的列表分割成按照特定长度的小字符串的多个列表。这在文本处理、批量数据处理或者当我们需要将数据分块进行并行处理时非常常见。Python作为一个强大的编程语言,提供了很多方便的方法来实现这一功能…

CV论文--2024.3.4

1、Deep Networks Always Grok and Here is Why 中文标题:深度网络总是让人摸不着头脑,原因如下 简介:本文探讨了深度神经网络(DNN)中一种称为"延迟泛化"或"Grokking"的现象。在接近零的训练误差…

使用ssh密钥提交、拉取代码的介绍

网络世界中的数据并不安全 网络中无时无刻有大量的数据传输,传输过程中需要经过各种网络设备和物理媒介你的数据可能会在传输的某一个环节被一个“中间人”拦截,造成泄密,甚至会篡改你的数据,让你发出错误的信息 SSH 为 Secure …

MySQL 5.5、5.6、5.7的主从复制改进

主从复制面临的问题 MySQL一直以来的主从复制都是被诟病,原因是: 1、主从复制效率低 早期mysql的复制是通过将binlog语句异步推送到从库。从库启动一个IO线程将接收到的数据记录到relaylog中;另外启动一个SQL线程负责顺序执行relaylog中的语句实现对数据的拷贝。 这里的…

如何用Elementor创建WordPress会员网站

在下面的文章中,我们将向您展示如何使用Elementor和MemberPress在WordPress中轻松构建会员网站。这篇文章将涵盖WordPress会员网站设置过程、会员资格和受保护内容创建、重要页面和登录表单设计、电子邮件通知管理、报告等。 目录 什么是WordPress会员网站&#x…

【go从入门到精通】go基本类型和运算符用法

大家好,这是我给大家准备的新的一期专栏,专门讲golang,从入门到精通各种框架和中间件,工具类库,希望对go有兴趣的同学可以订阅此专栏。 --------------------------------------------------------------------------…

与字体有关的CSS

隐藏多余字体 text-overflow: ellipsis (多余文本显示省略号) 需要配合overflow使用 -webkit-box-orient: vertical; display: -webkit-box; -webkit-line-clamp: number (超出多少行显示省略号) 强制显示一行 whi…

.NET高级面试指南专题十四【 观察者模式介绍,最常用的设计模式之一】

简介: 观察者模式(Observer Pattern)是一种行为型设计模式,其目的是定义了一种一对多的依赖关系,当一个对象的状态发生变化时,所有依赖于它的对象都会得到通知并自动更新。 原理: 在观察者模式中…

从零开始搭建web组态

成果展示:by组态[web组态插件] 一、技术选择 目前只有两种选择,canvas和svg Canvas: 是一个基于像素的渲染引擎,使用JavaScript API在画布上绘制图像,它的优点包括: Canvas渲染速度快,适合处理大量图像和…

TIOBE 2024榜单启示:程序员如何把握未来编程趋势与机遇

程序员如何选择职业赛道? 程序员的职业赛道就像是一座迷宫,有前端的美丽花园,后端的黑暗洞穴,还有数据科学的神秘密室。你准备好探索这个充满挑战和机遇的迷宫了吗?快来了解如何选择职业赛道吧! 方向一…

linux时间校准(ntpdate)

在Linux中,可以使用ntpdate命令来进行时间校准。 首先,打开终端并输入以下命令安装ntpdate工具 yum install ntpdate 然后,运行以下命令来同步系统的时间与网络上的NTP服务器 ntpdate time.nist.gov 若要设置定期自动更新时间,可…

CSS中如何解决 1px 问题?

1px 问题指的是:在一些 Retina屏幕 的机型上,移动端页面的 1px 会变得很粗,呈现出不止 1px 的效果。原因很简单——CSS 中的 1px 并不能和移动设备上的 1px 划等号。它们之间的比例关系有一个专门的属性来描述: window.devicePix…

重构笔记系统:Docker Compose在微服务架构中的应用与优化

虽然我的笔记系统的开发是基于微服务的思想,但是在服务的配置和编排上感觉还是不太合理,具体来说,在开发上的配置和在生产上的配置差别太大。现在规模小,后面规模变大,估计这一块会成为系统生长的瓶颈。 因此&#xff…