聚类算法学习

聚类是一种非监督学习方法

在一个典型的监督学习中,我们有一个有标签的训练集,我们的目标是找到能够区分正
样本和负样本的决策边界,在这里的监督学习中,我们有一系列标签,我们需要据此拟合一 个假设函数。与此不同的是,在非监督学习中,我们的数据没有附带任何标签,我们拿到的 数据就是这样的:

在这里我们有一系列点,却没有标签。因此,我们的训练集可以写成只有 x(1),x(2)…..一直 到 x(m)。我们没有任何标签 y。因此,图上画的这些点没有标签信息。也就是说,在非监督 学习中,我们需要将一系列无标签的训练数据,输入到一个算法中,然后我们告诉这个算法, 快去为我们找找这个数据的内在结构给定数据。我们可能需要某种算法帮助我们寻找一种结 构。图上的数据看起来可以分成两个分开的点集(称为簇),一个能够找到我圈出的这些点集的算法,就被称为聚类算法。

K-均值算法
K-均值是最普及的聚类算法,算法接受一个未标记的数据集,然后将数据聚类成不同的 组。
K-均值是一个迭代算法,假设我们想要将数据聚类成 n 个组,其方法为:

  • 首先选择 K 个随机的点,称为聚类中心(cluster centroids);
  • 对于数据集中的每一个数据,按照距离 K 个中心点的距离,将其与距离最近的中心点关
    联起来,与同一个中心点关联的所有点聚成一类。
  • 计算每一个组的平均值,将该组所关联的中心点移动到平均值的位置。
  • 重复步骤 2-4 直至中心点不再变化。

算法分为两个步骤,第一个 for 循环是赋值步骤,即:对于每一个样例 i,计算其应该属
于的类。第二个 for 循环是聚类中心的移动,即:对于每一个类 k,重新计算该类的质心。

K-均值算法也可以很便利地用于将数据分为许多不同组,即使在没有非常明显区分的组 群的情况下也可以。下图所示的数据集包含身高和体重两项特征构成的,利用 K-均值算法将
数据分为三类,用于帮助确定将要生产的 T-恤衫的三种尺寸。

优化目标

K-均值最小化问题,是要最小化所有的数据点与其所关联的聚类中心点之间的距离之和, 因此 K-均值的代价函数(又称畸变函数 Distortion function)为:

随机初始化
在运行 K-均值算法的之前,我们首先要随机初始化所有的聚类中心点,下面介绍怎样 做:
1. 我们应该选择 K< m,即聚类中心点的个数要小于所有训练集实例的数量
2. 随机选择 K 个训练实例,然后令 K 个聚类中心分别与这 K 个训练实例相等

K-均值的一个问题在于,它有可能会停留在一个局部最小值处,而这取决于初始化的情
况。

为了解决这个问题,我们通常需要多次运行 K-均值算法,每一次都重新进行随机初始 化,最后再比较多次运行 K-均值的结果,选择代价函数最小的结果。这种方法在 K 较小的时 候(2–10)还是可行的,但是如果 K 较大,这么做也可能不会有明显地改善。

选择聚类数
没有所谓最好的选择聚类数的方法,通常是需要根据不同的问题,人工进行选择的。选
择的时候思考我们运用 K-均值算法聚类的动机是什么,然后选择能最好服务于该目的标聚 类数。

当人们在讨论,选择聚类数目的方法时,有一个可能会谈及的方法叫作“肘部法则”。 关于“肘部法则”,我们所需要做的是改变 K 值,也就是聚类类别数目的总数。我们用一个 聚类来运行 K 均值聚类方法。这就意味着,所有的数据都会分到一个聚类里,然后计算成本 函数或者计算畸变函数 J。K 代表聚类数字。

我们可能会得到一条类似于这样的曲线。像一个人的肘部。这就是“肘部法则”所做的, 让我们来看这样一个图,看起来就好像有一个很清楚的肘在那儿。好像人的手臂,如果你伸 出你的胳膊,那么这就是你的肩关节、肘关节、手。这就是“肘部法则”。你会发现这种模 式,它的畸变值会迅速下降,从 1 到 2,从 2 到 3 之后,你会在 3 的时候达到一个肘点。在 此之后,畸变值就下降的非常慢,看起来就像使用 3 个聚类来进行聚类是正确的,这是因为 那个点是曲线的肘点,畸变值下降得很快,K 等于 3 之后就下降得很慢,那么我们就选 K 等 于 3。当你应用“肘部法则”的时候,如果你得到了一个像上面这样的图,那么这将是一种 用来选择聚类个数的合理方法。

但也有可能不会有很明显的结果,只是平缓的下降,这样肘部法则就失效了。

我们也可以通过商业上的考虑来决定分类数
例如,我们的 T-恤制造例子中,我们要将用户按照身材聚类,我们可以分成 3 个尺寸 S,M,L 也可以分成 5 个尺寸 XS,S,M,L,XL,这样的选择是建立在回答“聚类后我们制造的 T-恤 是否能较好地适合我们的客户”这个问题的基础上作出的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493858.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

斯坦福大学:极限工况下的无人驾驶路径跟踪|厚势汽车

来源&#xff1a; 同济智能汽车研究所责任编辑&#xff1a;啜小雪文章译自 2017 年美国控制年会的会议论文原标题&#xff1a;Path-Tracking for Autonomous Vehicles at the Limit of Friction原作者&#xff1a;Vincent A. Laurense, Jonathan Y. Gohand J. Christian Gerdes…

SQLite DBHelp

c#连接SQLite SQLite这个精巧的小数据库&#xff0c;无需安装软件&#xff0c;只需要一个System.Data.SQLite.DLL文件即可操作SQLite数据库。SQLite是一个开源数据库&#xff0c;现在已变得越来越流行&#xff0c;它的体积很小&#xff0c;被广泛应用于各种不同类型的应用中。S…

手写数字识别实现

本文主要实现手写数字识别&#xff0c;利用多类逻辑回归与神经网络两种方法实现 Multi-class Classification 数据源 There are 5000 training examples in ex3data1.mat, where each training example is a 20 pixel by 20 pixel grayscale image of the digit. Each pixe…

Science:若DTC基因检测达2%成年人群,几乎所有人的身份或将无所遁形

来源&#xff1a;测序中国摘要&#xff1a;直接面向消费者&#xff08;DTC&#xff09;的基因检测不仅仅是有趣那么简单&#xff0c;它的有用性随着样本数据库的积累&#xff0c;会逐渐显露出来。消费级基因检测&#xff0c;即直接面向消费者&#xff08;DTC&#xff09;的基因…

降维算法学习

降维的动机 首先,让我们谈论降维是什么。作为一种生动的例子,我们收集的数据集,有许多, 许多特征,我绘制两个在这里。 假设我们未知两个的特征 x1:长度:用厘米表示;X2,是用英寸表示同一物体的长度。 所以,这给了我们高度冗余表示,也许不是两个分开的特征 x1 和 X2,这两个…

年龄大了学Java是爱好还是转型?

年龄大了学Java是爱好还是转型&#xff1f; 一、前言 35岁&#xff0c;好像年龄也不小了&#xff0c;工作也有十年多了&#xff0c;一直搞编程&#xff0c;也已经做过几年研发管理。较多使用的是Delphi语言&#xff0c;对这门语言曾经一度的情有独钟。那是我十年前的一…

人类为什么更聪明 | 人脑神经元关键结构差异被揭示

来源&#xff1a;DeepTech深科技人脑中&#xff0c;数以千计的神经元间电信号交替传送不断&#xff0c;而长短不一的树突&#xff08;神经元胞体延伸&#xff09;在神经元信息整合中起到了关键作用&#xff0c;由此我们的大脑细胞才能正常反应运作。而这次&#xff0c;MIT 的神…

机器学习之异常检测

问题的动机 什么是异常检测呢?为了解释这个概念,让我举一个例子吧: 假想你是一个飞机引擎制造商,当你生产的飞机引擎从生产线上流出时,你需要进行 QA (质量控制测试),而作为这个测试的一部分,你测量了飞机引擎的一些特征变量,比如引擎 运转时产生的热量,或者引擎的振动等等。…

美国《科技与未来城市报告》对中国智慧城市建设的启示

作者&#xff1a;王波、甄峰、卢佩莹来源&#xff1a;科技导报在全球范围内&#xff0c;美国一直引领信息通信技术等科技领域的发展。2008 年全球金融危机后&#xff0c;美国IBM 公司在《智慧地球&#xff1a;下一代领导人议程》主题报告中首次提出“智慧地球”理念&#xff0c…

SVM实现邮件分类

首先学习一下svm分类的使用。 主要有以下步骤&#xff1a; Loading and Visualizing DatajTraining Linear SVM Implementing Gaussian KernelTraining SVM with RBF Kernel 选择最优的C, sigma参数 画出边界线 线性keneral实现 C 1; model svmTrain(X, y, C, linear…

机器学习之推荐系统

我们从一个例子开始定义推荐系统的问题。 假使我们是一个电影供应商,我们有 5 部电影和 4 个用户,我们要求用户为电影打分。 基于内容的推荐系统 在一个基于内容的推荐系统算法中,我们假设对于我们希望推荐的东西有一些数据,这 些数据是有关这些东西的特征。 在我们的例子…

低潮过后,未来医疗可穿戴市场将如何发展?

来源&#xff1a;资本实验室在过去几年中&#xff0c;以智能手表为代表的可穿戴设备市场从快速爆发&#xff0c;并吸引全球厂商趋之若鹜&#xff1b;到如今平缓发展&#xff0c;众多厂商黯然离场&#xff0c;经历了一轮过山车般的炒作周期。但可穿戴设备市场难道只是看上去很美…

大规模机器学习

如果我们有一个低方差的模型,增加数据集的规模可以帮助你获得更好的结果。我们应 该怎样应对一个有 100 万条记录的训练集? 以线性回归模型为例,每一次梯度下降迭代,我们都需要计算训练集的误差的平方和, 如果我们的学习算法需要有 20 次迭代,这便已经是非常大的计算代价。 …

中国半导体:存储器能否打破海外垄断?

来源&#xff1a;中金公司摘要&#xff1a;根据WSTS的统计&#xff0c;全球存储器行业营收2017年达到1319亿美元&#xff0c;占半导体行业收入的30.1%&#xff0c;过去五年(2012-2017)年复合增长率高达37%。▌全球市场概览:千亿美金市场&#xff0c;寡头竞争&#xff0c;IDM模式…

hdu 4588 Count The Carries

思路&#xff1a;容易发现二进制表示的数的最低位规律是01010101……&#xff1b;接着是001100110011……&#xff1b;接着是&#xff1a;0000111100001111…… 这样我们发现每一位的循环节是2^(i1)&#xff0c;前2^i是0&#xff0c;后面的是1.这样就可以算出每一位1出现的次数…

数字图像处理入门

图像是指能在人的视觉系统中产生视觉印象的客观对象&#xff0c;包括自然景物、拍摄到的图片、用数学方法描述的图形.图像的要素有儿何要素〈刻画对象的轮廓、 形状等〉和非几何要素&#xff08;刻画对象的颜色、 材质等〉。 什么是数字图像 简单地说&#xff0c; 数字图像就…

马化腾六年后知乎再提问:未来十年哪些基础科学突破会影响互联网科技产业?...

来源&#xff1a;量子位“未来十年哪些基础科学突破会影响互联网科技产业&#xff1f;产业互联网和消费互联网融合创新&#xff0c;会带来哪些改变&#xff1f;”昨天午夜时分&#xff0c;一个新问题出现在知乎。略微不同之处在于&#xff0c;这个问题的提出者ID是ponyma&#…

2018 中国开源年度报告发布,阿里系独占鳌头

来源&#xff1a;网络大数据摘要&#xff1a;指南针团队使用网络爬虫与 GitHub 数据 API 获取开源代码库的数据如原代码、项目信息、项目的静态信息如项目名称、起始日期等、与动态信息如fork数、客户给与的星数等众多项目相关的信息储存在本地数据结构中。第二篇 数据篇2.1 指…

图像处理中的matlab使用

图像的矩阵表示 类和图像类型 虽然使用的是整数坐标&#xff0c; 但 MATLAB 中的像素值&#xff08;亮度&#xff09;并未限制为整数。 表 1-1 列出了 MATLAB 和图像处理工具箱为描述像素值而支持的各种类。 表中的前 8 项是数值型的数据类&#xff0c;第 9 项称为字符类&…

AI洞观 | 一文读懂2018安博会四大趋势

来源&#xff1a; 网易智能10月23-26日&#xff0c;2018年安博会在北京顺义举行。这是全球规模最大&#xff0c;最具影响力的安防展会之一&#xff0c;据安博会官方介绍&#xff0c;本次展会总面积超过10万平方米&#xff0c;展位数突破5000个&#xff0c;云集了国内外上千家安…