K-means和DBSCAN

K-means和DBSCAN

diannao/2025/7/2 9:41:46/文章来源:https://blog.csdn.net/weixin_47151388/article/details/137950257

目录

一、K-means和DBSCAN之间的主要区别

二、DBSCAN聚类算法

2.1DBSCAN聚类算法实现点集数据的聚类

2.2DBSCAN聚类算法实现鸢尾花数据集的聚类

三、K-means聚类算法

3.1K-means聚类算法实现随机数据的聚类

3.2K-means聚类算法实现鸢尾花数据集的聚类

一、K-means和DBSCAN之间的主要区别

1.聚类原理：

K-means：K-means是一种基于距离的聚类算法，它将数据点划分为K个簇，通过最小化数据点与所属簇的质心之间的平方距离来确定聚类结果。K-means假设聚类簇为凸形，并且簇的大小差异较小。

DBSCAN：DBSCAN是一种基于密度的聚类算法，它通过确定数据点的密度来划分聚类。DBSCAN将高密度区域视为聚类，并能够识别出噪声点和孤立点。相比于K-means，DBSCAN对聚类簇的形状没有预设要求，可以发现任意形状的聚类簇。

2.聚类数量：

K-means：K-means需要预先指定聚类的数量K。这是因为K-means是一个划分式聚类方法，需要事先确定聚类簇的数量，然后将数据点划分为K个簇。

DBSCAN：DBSCAN不需要预先指定聚类的数量。它根据数据点的密度来决定聚类的形状和数量，可以自动发现不同大小和形状的聚类簇。

3.处理噪声和孤立点：

K-means：K-means对噪声和孤立点敏感。它会将这些数据点分配到离它们最近的聚类簇中，即使这些数据点在实际中并不属于任何簇。

DBSCAN：DBSCAN能够有效地处理噪声和孤立点。它将这些数据点标记为噪声或边界点，不归属于任何聚类簇。

4.参数选择：

K-means：K-means需要事先指定聚类的数量K，这需要一定的先验知识或通过试验和评估来确定最佳的K值。

DBSCAN：DBSCAN需要调整两个关键参数：领域半径(eps)和最小样本数(min_samples)。这些参数的选择可以影响聚类结果，需要根据数据集的特点进行调优。

二、DBSCAN聚类算法

2.1DBSCAN聚类算法实现点集数据的聚类

代码：

from sklearn import datasets
import numpy as np
import random
import matplotlib.pyplot as plt
import time
import copydef find_neighbor(j, x, eps):N = list()for i in range(x.shape[0]):temp = np.sqrt(np.sum(np.square(x[j] - x[i])))  # 计算欧式距离if temp <= eps:N.append(i)return set(N)def DBSCAN(X, eps, min_Pts):k = -1neighbor_list = []  # 用来保存每个数据的邻域omega_list = []  # 核心对象集合gama = set([x for x in range(len(X))])  # 初始时将所有点标记为未访问cluster = [-1 for _ in range(len(X))]  # 聚类for i in range(len(X)):neighbor_list.append(find_neighbor(i, X, eps))if len(neighbor_list[-1]) >= min_Pts:omega_list.append(i)  # 将样本加入核心对象集合omega_list = set(omega_list)  # 转化为集合便于操作while len(omega_list) > 0:gama_old = copy.deepcopy(gama)j = random.choice(list(omega_list))  # 随机选取一个核心对象k = k + 1Q = list()Q.append(j)gama.remove(j)while len(Q) > 0:q = Q[0]Q.remove(q)if len(neighbor_list[q]) >= min_Pts:delta = neighbor_list[q] & gamadeltalist = list(delta)for i in range(len(delta)):Q.append(deltalist[i])gama = gama - deltaCk = gama_old - gamaCklist = list(Ck)for i in range(len(Ck)):cluster[Cklist[i]] = komega_list = omega_list - Ckreturn clusterX1, y1 = datasets.make_circles(n_samples=2000, factor=.6, noise=.02)
X2, y2 = datasets.make_blobs(n_samples=400, n_features=2, centers=[[1.2, 1.2]], cluster_std=[[.1]], random_state=9)
X = np.concatenate((X1, X2))
eps = 0.08
min_Pts = 10
begin = time.time()
C = DBSCAN(X, eps, min_Pts)
end = time.time()
plt.figure()
plt.scatter(X[:, 0], X[:, 1], c=C)
plt.show()

结果：

2.2DBSCAN聚类算法实现鸢尾花数据集的聚类

代码：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.cluster import DBSCAN
from sklearn.decomposition import PCA# 加载鸢尾花数据集
iris = load_iris()
X = iris.data# 使用PCA进行数据降维
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)# 使用DBSCAN进行聚类
dbscan = DBSCAN(eps=0.4, min_samples=3)
labels = dbscan.fit_predict(X_pca)# 绘制聚类结果
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=labels)
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.title('DBSCAN Clustering on Iris Dataset')
plt.show()

结果：

三、K-means聚类算法

3.1K-means聚类算法实现随机数据的聚类

代码：

import torch
import math
import matplotlib.pyplot as pltdef dis(a, b):return math.sqrt((a[0] - b[0]) * (a[0] - b[0]) + (a[1] - b[1]) * (a[1] - b[1]))X = torch.randn(2000) * 100
y = torch.randn(2000) * 100
C = torch.zeros(2000)K = 5
CentPoint = []for i in range(K):CentPoint.append([torch.randint(-100, 100, (1,)).item(),torch.randint(-100, 100, (1,)).item()])print(CentPoint)
for p in range(10):NewPoint = [[0, 0] for i in range(K)]for i in range(len(X)):mDis = 1e9mC = 0for j in range(len(CentPoint)):cp = CentPoint[j]D = dis([X[i].item(), y[i].item()], cp)if mDis > D:mDis = DmC = jC[i] = mCNewPoint[mC][0] += X[i].item()NewPoint[mC][1] += y[i].item()for i in range(K):CentPoint[i][0] = NewPoint[i][0] / 2000CentPoint[i][1] = NewPoint[i][1] / 2000print(CentPoint)cc = list(C)
for i in range(len(X)):if cc[i] == 0:plt.plot(X[i].item(), y[i].item(), 'r.')elif cc[i] == 1:plt.plot(X[i].item(), y[i].item(), 'g.')elif cc[i] == 2:plt.plot(X[i].item(), y[i].item(), 'b.')elif cc[i] == 3:plt.plot(X[i].item(), y[i].item(), color='pink', marker='.')elif cc[i] == 4:plt.plot(X[i].item(), y[i].item(), color='orange', marker='.')for CP in CentPoint:plt.plot(CP[0], CP[1], color='black', marker='X')plt.show()

3.2K-means聚类算法实现鸢尾花数据集的聚类

代码:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA# 加载鸢尾花数据集
iris = load_iris()
X = iris.data# 使用PCA进行数据降维
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)# 使用K-means进行聚类
kmeans = KMeans(n_clusters=3, random_state=0)
labels = kmeans.fit_predict(X_pca)# 绘制聚类结果
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=labels)
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], marker='x', color='red', label='Centroids')
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.title('K-means Clustering on Iris Dataset')
plt.legend()
plt.show()

结果：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/1302.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

014Node.js时间格式包silly-datetime安装与使用

014Node.js时间格式包silly-datetime安装与使用

下载： https://www.npmjs.com/网站上下载silly-datetime 安装 npm i silly-datetime --save var sd require(silly-datetime);console.log(new Date()); //2024-04-18T04:40:38.505Zvar dsd.format(new Date(), YYYY-MM-DD HH:mm);console.log(d); //2024…

阅读更多...

未加权的相位解包裹算法DCT-0基础入门（含matlab代码和详细教程解析）

未加权的相位解包裹算法DCT-0基础入门（含matlab代码和详细教程解析）

后面会更新c++ 的代码！ phi = phase_unwrap(psi, weight) % get the wrapped differences of the wrapped valuesdx = [zeros([size(psi,1),1]), wrapToPi(diff(psi, 1, 2)), zeros([size(psi,1),1])];dy = [zeros([1,size(psi,2)]); wrapToPi(diff(psi, 1, 1)); zeros([1,s…

阅读更多...

idea在controller或者service使用ctrl+alt+b进入方法后，如何返回到进入前的那一层

idea在controller或者service使用ctrl+alt+b进入方法后，如何返回到进入前的那一层

idea在controller或者service使用ctrlaltb进入方法后，如何返回到进入方法的最外层解决方案使用 ctrlalt ← /→← /→ 键盘上的左右键盘

阅读更多...

jQuery 选择器有几种，分别是什么

jQuery 选择器有几种，分别是什么

jQuery选择器是用于“选择”（或查找）HTML元素的强大工具。jQuery选择器基于元素的名称、ID、类、类型、属性等进行选择。以下是jQuery选择器的几种主要类型，以及它们的详细代码示例： 基本选择器： 元素选择器&#xff1…

阅读更多...

2024.4.20力扣每日一题——组合总和

2024.4.20力扣每日一题——组合总和

2024.4.20 题目来源我的题解方法一回溯题目来源力扣每日一题；题序：39 我的题解方法一回溯以每一个位置开始深搜，直到target等于0或者小于0或者遍历完结束。关键在于：注意去重巧妙方法：传入一个index&#x…

阅读更多...

stm32中断发送接收数据

stm32中断发送接收数据

配置hal库 1配置时钟 2配置uart 3打开中断程序结构 uart中断函数中断接收和发送函数 HAL_UART_Receive_IT()：启动中断驱动的接收过程，当接收到指定数量的字节后会产生中断，并调用HAL_UART_RxCpltCallback()回调函数。 HAL_StatusTypeD…

阅读更多...

Qt ：如何解决重载引起的歧义

Qt ：如何解决重载引起的歧义

一、引子在Qt中编写代码，进行信号和槽函数的连接时，如果采用新的语法，如： connect(ui->doubleSpinBox, &QDoubleSpinBox::valueChanged,this,&App::minValueChanged);当你准备快乐编译时，突然被背刺。卧槽…

阅读更多...

【Redis(6)】Redis集群模式配置示例

【Redis(6)】Redis集群模式配置示例

Redis的三种高可用方案对比参考上一篇博客：深入理解Redis三种高可用方案，以做出明智的选择，下面要探讨的是三种方案其中的一种。在构建高性能缓存系统时，Redis以其卓越的速度和灵活性成为首选。然而，传统的哨兵模式和…

阅读更多...

STL分解

STL分解

效果图 ref：时序数据分析的利器——STL分解 - 知乎 (zhihu.com)

阅读更多...

2024化工制造企业数字化白皮书

2024化工制造企业数字化白皮书

来源：蓝凌研究院中国石油和化学工业联合会发布2023年中国石油和化工行业经济运行情况。数据显示，2023年，我国石化行业实现营业收入15.95万亿元， 同比下降1.1%，利润总额8733.6亿元，行业经济运行总体呈现低…

阅读更多...

2024蓝桥杯每日一题（数学期望）

2024蓝桥杯每日一题（数学期望）

备战2024年蓝桥杯 -- 每日一题 Python大学A组试题一：收集卡牌试题二：爬树的甲壳虫试题三：绿豆蛙的归宿试题四：扑克牌试题一：收集卡牌【题目描述】小林在玩一个抽卡游戏，其…

阅读更多...

MySQL-笔记-06.数据高级查询

MySQL-笔记-06.数据高级查询

目录 6.1 连接查询 6.1.1 交叉连接（cross join） 6.1.2 内连接（inner join） 6.1.3 外连接（outer join） 6.1.3.1 左外连接（left [outer] join） 6.1.3.2 右外连接（rig…

阅读更多...

LeetCode 1378、1277、2944

LeetCode 1378、1277、2944

1378 二级排序，compare函数必须是static的 class Solution { public:struct node {int val;int priority;};static bool compare(const node &n1, const node &n2) {if (n1.priority n2.priority) {return n1.val < n2.val;}return n1.priority < n…

阅读更多...

VSCode 目录折叠展开、缩进深度设置

VSCode 目录折叠展开、缩进深度设置

1、VSCode 目录折叠展开设置运行 Visual Studio Code ，按 Ctrl ，打开设置输入Explorer:Compact Folders，取消勾选或者在设置文件上添加 "explorer.compactFolders": false2、VSCode 目录缩进深度设置输入Workbench Tree:…

阅读更多...

【C# 数据结构-队列】

【C# 数据结构-队列】

在C#中，队列（Queue）是一种先进先出（First In First Out，FIFO）的数据结构，允许添加（Enqueue）和移除（Dequeue）元素。队列类在.NET Framework的Syste…

阅读更多...

Navicat Premium 16最新版激活 mac/win

Navicat Premium 16最新版激活 mac/win

Navicat Premium 16 for Mac是一款专业的多连接数据库管理工具。它支持连接多种类型的数据库，包括MySQL、MongoDB、Oracle、SQLite、SQL Server、PostgreSQL等，可以同时连接多种数据库，帮助用户轻松地管理和迁移数据。 Navicat Premium 16 fo…

阅读更多...

1.PROXY-代理内容

1.PROXY-代理内容

SwitchyOmega，浏览器插件（edge，火狐插件库都是存在的），安装后的样式 1.安装 2.设置我们常用的功能，主要是设置一个代理ip访问学习网站入github等，或者docker服务等 3.启动代理 4.验证 https…

阅读更多...

LLMs之Llama3：Llama 3的简介、安装和使用方法、案例应用之详细攻略

LLMs之Llama3：Llama 3的简介、安装和使用方法、案例应用之详细攻略

LLMs之Llama3：Llama 3的简介、安装和使用方法、案例应用之详细攻略导读：2024年4月18日，Meta 重磅推出了Meta Llama 3，本文章主要介绍了Meta推出的新的开源大语言模型Meta Llama 3。模型架构 Llama 3 是一种自回归语言模型&#x…

阅读更多...

移动端双验证码登录实现

移动端双验证码登录实现

说明：本文介绍如何用图形验证码短信验证码实现移动端登录思路； 分析通过手机号图形验证码手机验证码实现登录的时序图如下： 说明： （1）用户进入登录界面，出现图形验证码，可点击图形…

阅读更多...

探索Java设计模式：享元模式

探索Java设计模式：享元模式

探索Java设计模式：深入理解与实践享元模式享元模式（Flyweight Pattern）是一种结构型设计模式，它通过共享对象来有效地支持大量细粒度对象的复用，从而降低系统内存占用，提高性能。在Java编程中&#xff0c…

阅读更多...

最新文章