使用scikit中的聚类

这是一次数据实验。基于七月算法邹博讲义和scikit-lean官网。

聚类:就是对大量未知标注的数据集,按数据的内在相似性将数据划分为多个类别,使得类别内的数据相似性较大而类别间的相似性较小。

1 k-means算法
 参数:聚类的数目
 描述:k-means将 包含N个样本量的数据集X,分到不相交的聚类C中。每个聚类由样本的平均值决定,通常这个平均值被称为质心(中心点)。k-means算法就是要寻找质心,使得簇内平方和最小。k-均值通常被称为劳埃德算法。
ni=0minμjc(μjxi)2
 步骤:假定输入样本X=x1,x2,x3...xn,输入聚类数目k。
 1 选择初始的k个类别中心μ1,μ2,...μk
 2 对于每个样本xi,将其标记为距离类别中心最近的类别,labeli=argmin1jk||xiμj||
 3 将每个类别中心更新为 所有属于这个类别的样本的均值μj=1|Cj|iCjxi
 4 重复步骤2 和 3 ,直到符合退出条件。
 5 退出条件可以是:一定的迭代次数;簇中心变化率;最小平方误差。
 注意:
 0 k-means最后获得的是局部最优解。
 1 前提假设聚类是凸的,并且是同质的(各向同性的)。在遇到细长的形状、不规则流形状的时候是无效的。
 2 衡量数据相似度的计算方法有很多:欧氏距离、杰卡德相似系数、余弦相似度、Pearson相似系数、Hellinger距离等。
 3 高纬度灾难,当样本维数很高的时候,计算量很大,这时候可以先用PCA,之后再调用k-means。
 4 算法效果高度依赖初始簇中心点的选择。在scikit-learn中可以使用k-means++选择质心,这样选择质心相互距离会比较远,好于随机选择。
 5 在scikit-learn有一个参数:n_jobs,可以指定处理器个数。默认值是1;n_jobs=-1,使用所有的处理器;n_jobs=-2,有一个处理器不使用。并行处理在X 系统下会出问题。
 6 对异常点(噪音)的处理能力差。
Mini Batch K-Means
MiniBatchKMeans是KMeans的变种。不同之处是每次从样本集中随机选择一小部分样本进行计算,以减少运行时间。

试验
 1执行iris.data看效果。不同的聚类数目,不同的迭代次数。(我显然理解不了这个效果)。
 2 执行digitsdateset。比较了初始值选用:k-means++,random,pca选择的主成分三种方法的效果。

聚类效果评价
 1 Adjusted Rand index(ARI)
 2 Mutual Information based scores(AMI)
 3 homogeneity
 4 completeness
 5 V-measure
 6 Fowlkes-Mallows scores
 7 Silhouette Coefficient
 8 Calinski-Harabaz Index
继续试验
 1文本聚类

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/425042.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

概率中比较重要的知识

-什么是协方差? 就是衡量两个随机变量(X,YX,YX,Y)之间相关性的量,取多个两个量的样本,通过判断他们大小变化关系,判断这两个量是正相关还是负相关或无相关。 记做:Cov(X,Y)E[(X−E(X))(Y−E(Y)…

MySQL学习(三)

-- 计算字段 -- 拼接字段 SELECT CONCAT(vend_name, (,vend_country,)) FROM Vendors ORDER BY vend_name;SELECT CONCAT(vend_name,vend_country) FROM Vendors ORDER BY vend_name;-- CONCAT(str1,str2,...) 拼接查询的值 SELECT CONCAT(vend_name,vend_country) FROM Vendo…

[Leetcode][第114题][JAVA][二叉树展开为链表][递归][迭代]

【问题描述】[中等] 【解答思路】 1. 前序遍历 将二叉树展开为单链表之后,单链表中的节点顺序即为二叉树的前序遍历访问各节点的顺序。因此,可以对二叉树进行前序遍历,获得各节点被访问到的顺序。 由于将二叉树展开为链表之后会破坏二叉树的…

第三十八期:美国数据隐私保护法案来临,明年1月生效,现仅2%企业合规

2018 年美国加州通过消费者隐私法案(CCPA),缓冲一年多后,将于 2020 年 1 月生效。届时,类似于欧盟的法案,CCPA 将对所有和美国加州居民有业务的数据商业行为进行监管。 依然在应付欧盟数据保护法案(GDPR)的…

二元随机变量

本章记录  1二元随机变量的定义  2二元离散型随机变量的定义、联合概率分布律、边际分布律、条件分布律  3二元离散型随机变量联合概率分布律函数、边际分布函数、条件分布函数  4二元连续型随机变量的定义、联合概率密度函数、边际密度函数、条件密度函数 二元随机变…

深度学习:什么是backbone,benchmark,baseline

backbone:骨干网络,比如alexnet,ZFnet,VGG,googlenet... benchmark:性能指标,比如accuracy,内存消耗,模型复杂度,或者在性能上很有代表性的算法框架。 base…

6.mysql 锁机制

概述 定义: 锁是计算机协调多个进程或者线程并发访问某一资源的机制 在数据库中,除传统的计算资源(如CPU,RAM,IO等)的争用以外,数据也是一种供许多用户共享的资源。如何保证数据并发 访问的一致性、有效性是所有数据库…

第三十九期:原生图数据库的15条规则

不妨看一下原生图形数据库的15条规则。就像复杂的系统网格或空中交通管制图,图形数据库用节点和连接组成的网络(名为标记属性图)来表示。节点显示为圆形或正方形,代表人员、产品、公司或订单等实体。 就像复杂的系统网格或空中交通管制图,图形…

[周赛第200场][Leetcode][第5477题][第5478题][JAVA][双指针][贪心]

【问题描述】[中等]5477. 排布二进制网格的最少交换次数 【解答思路】 贪心 限制条件 第一行要求末尾的0要尽量多 计算每行最后有几个0遍历交互 符合条件 第i行的末尾0的数量为n-i-1 统计交换次数第i行的末尾0的数量小于n-i-1,不符合条件 时间复杂度&#xff1a…

ubuntu异常关机,断电重启后进入紧急模式,挂载磁盘SSD失败了怎么办?(Failed mount on XXX)

解决方案: 进入/etc/fstab中保留你所有的除了必要的系统分区挂载点,这里保存了所有开机引导的时候自动挂载到linux文件系统里的设备还有分区信息,当系统启动的时候,系统会在这里读取信息并挂载到相应目录下。所有的磁盘硬盘SSD挂…

476 Number Complement

问题:给定一个整数,返回它的补数。补数的是将原数据的二进制表示反转。例如 5 的二进制位是 101,反转之后是:010,也就是整数2。所以输入5,返回2.。输入1,返回0。  思路:取反操作是…

设单链表中存放n个字符,试设计一个算法,使用栈推断该字符串是否中心对称...

版权声明:本文为博主原创文章。未经博主同意不得转载。vasttian https://blog.csdn.net/u012860063/article/details/28281631 转载请注明出处:http://blog.csdn.net/u012860063 问题:设单链表中存放n个字符,试设计一个算法&#…

6项目启动

项目启动概述

[Leetcode][第415题][JAVA][字符串相加][双指针]

【问题描述】[简单] 【解答思路】 1. 双指针 从两个字符串最后开始处理 对齐字符串添加当前位 int c abcnt; cnt为进位超过长度的补“0” 要注意最后有可能需要处理溢出位 时间复杂度:O(max(M,N)) 空间复杂度:O(1) public String addStrings(String nu…

Leetcode 1559二维网格图中探测环 技巧DFS|剪枝

二维网格图中探测环 给你一个二维字符网格数组 grid ,大小为 m x n ,你需要检查 grid 中是否存在 相同值 形成的环。 一个环是一条开始和结束于同一个格子的长度 大于等于 4 的路径。对于一个给定的格子,你可以移动到它上、下、左、右四个方…

LVM--逻辑卷管理

一、分区fdisk /dev/sdb #以下将硬盘/dev/sdb划分为两个主分区(不建扩展分区):/dev/sdb1、/dev/sdb2,类型为Linux、Linux LVM [rootvm-centos7 ~]# fdisk /dev/sdbCommand (m for help): n #按"n"键新建一个分区 Partition ty…

401 binary watch

文章题目来源于leetcode,解法学习了讨论去的解法。  问题:有一种二进制LED表。上面的4个LED灯表示小时,下面6个LED灯表示分钟。给定一个int值,写出可能表示的时间。例如输入1, Input: n 1 Return: [“1:00”, “2…

7立项申请

项目诞生的驱动因素 系统服务请求书 识别需求提出项目建议书 项目建议书内容 项目的可行性研究 如何进行项目的可行性研究 市场可行性研究 市场可行性分析注意事项 捕捉用户需求是一件困难的事 三个苹果改变世界 经济可行性 收益与成本 投入产出分析 投资分析期 纯收入 技术可行…

【数据结构与算法】数组与链表

数组的定义和特性 数组(Array)是一种线性表数据结构。它用一组连续的内存空间,来存储一组具有相同类型的数据。 线性表(Linear List):数组、链表、队列、栈 非线性表:树 图 连续的内存空间和相…

1558. 得到目标数组的最少函数调用次数 二进制|思维

得到目标数组的最少函数调用次数 给你一个与 nums 大小相同且初始值全为 0 的数组 arr ,请你调用以上函数得到整数数组 nums 。 请你返回将 arr 变成 nums 的最少函数调用次数。 答案保证在 32 位有符号整数以内。 示例 1: 输入:nums […