聚类算法篇章总结

主要的距离计算方法包括:

  1. 最短距离法(通过样本数值之间的距离计算,然后将距离值最小的样本进行合并的过程)
  2. 最长距离法
  3. 中间距离法
  4. 重心法(重心聚类法:将两个聚类中心点的距离定义为两个类的重心距离,而类的重心为属于该类的样本的平均值)
  5. 离差平方和法
  6. 类平均距离法(动态聚类法:利用类平均值法对数据进行聚类的方法属于动态聚类的方法,也称逐步聚类法)

常见的聚类算法:

  1. K-Means算法:初始选择K个点作为中心聚类点,将N个点分别于K个点计算距离,选择自己最近的点作为自己的中心点,不断地更新中心聚集法,不足:在K-Means算法执行过程中,通过随机的方式初始质心,也只有初始时通过随机方式产生的质心才是实际需要聚簇集合中心的点,而后面通过不断迭代产生的新的质心很可能并不是在聚簇中的点。
  2. K-Means++算法:在K_Means算法的基础上,为了改进初始点的选择,而K-Means++算法则是在选择初始中心之前,对所有数据进行一次计算,使得选择的初始化聚类中心之间的聚类尽可能的远。
  3. K-Medoids(中心点)聚类算法:实质是对K-Means算法的优化和改进。
  4. ISODATA聚类算法:和K-Means类似,但是属于无监督的聚类分析方法。
  5. 基于密度的DBSCAN算法:是一种基于密度的聚类算法,思想是以某点为核心点的基础上,若在指定半径范围内拥有超过指定的点的数量,则形成一个聚簇。
  6. 基于BIRCH算法的聚类分析:它可以在任何给定的内存下运行,主要用于处理超大规模的数据集,它是一个基于距离的层次聚类,综合了层次凝聚和迭代的重定位方法。算法的过程是将待分类的数据插入到一棵树中,并且原始数据都在叶子结点上,它的主要思想是通过扫描数据库,建立一个初始存放于内存中的聚类特征树,然后对聚类特征树的叶节点加以聚类。算法的核心是聚类特征(CF)和聚类特征树(CFT)。

 

层次聚类:https://blog.csdn.net/sinat_29957455/article/details/80146093

距离的定义方法:

  1. 1. 欧氏距离

    2. 曼哈顿距离

    3. 切比雪夫距离

    4. 闵可夫斯基距离

    5. 标准化欧氏距离

    6. 马氏距离

    7. 夹角余弦

    8. 汉明距离

    9. 杰卡德距离 & 杰卡德相似系数

    10. 相关系数 & 相关距离

    11. 信息熵

距离计算:https://www.cnblogs.com/soyo/p/6893551.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/508998.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

socket网络编程多线程

#!/usr/bin/env python #-*-coding:utf-8-*- #多进程 import threading import time def thfun():s0for i in range(30):sitime.sleep(0.1)print(s)class MyThread(threading.Thread):def run(self):s0for i in range(30):sitime.sleep(0.1)print(s)if __name____main__:#ths[t…

学习之道

对待人生的任何事情都要:抓大放小,要事为先 对于一个以前从来没有接触过java的人,java无疑是庞大的,似乎每个领域都可以拓展开来都是一片开阔地,每一个领域要想深入接触到每一个细节所耗费的精力都是巨大的。这个时候大…

socket网络编程ftp

#!/usr/bin/env python #-*-coding:utf-8-*- #ftp客户端 import os import socket import threading import socketserver#下载文件 def get_file(host,port,filepath):ssocket.socket()s.connect((host,port))filepathos.path.join(.,bakc,filepath)fopen(filepath,wb)dataTr…

python类似于java的重写toString方法

python类中的特殊方法: __str__(self)用来重写 people类: class People:所有员工的基类#构造函数def __init__(self, user_id, user_name):self.user_id user_idself.user_name user_name#析构函数def __del__(self):class_name self.__class__.__n…

socket网络编程实现远程备份

#!/usr/bin/env python #-*-coding:utf-8-*- #GUI设计与构建 客户端建立from tkinter import * from tkinter.ttk import * import socket import struct#启动服务 def start(host,port):pass#我的控件 class MyFrame(Frame):def __init__(self,root):super().__init__(root)se…

python正则表达式使用

模板代码: import re #python 自1.5版本增加了re模块,它提供了Perl风格的正则表达式模式 print(re.match(www, www.baidu.com).span()) #在起初位置匹配 line "Cats are smarter than dogs" matchObj re.match( r(.*) are (.*?) .*, line,…

Q-学习,马克尔决策过程:强化学习

马尔可夫决策过程 马尔可夫决策过程是基于马尔可夫过程理论的随机动态系统的最优决策过程。马尔可夫决策过程是序贯决策的主要研究领域。它是马尔可夫过程与确定性的动态规划相结合的产物,故又称马尔可夫型随机动态规划,属于运筹学中数学规划的一个分支…

python对象使用

模板代码: class People:所有员工的基类#构造函数def __init__(self, user_id, user_name):self.user_id user_idself.user_name user_name#析构函数def __del__(self):class_name self.__class__.__name__print(class_name, 销毁)def get_info(self):print(&qu…

机器学习——决策树算法

机器学习——决策树算法原理及案例 标签: 机器学习决策树信息增益基尼指数模型评估 2016-05-04 15:31 43984人阅读 评论(1) 收藏 举报 分类: 机器学习(10) 版权声明:本文为博主原创文章,未经博主允许不…

python运算符重载

重载符模板代码: class Vector:def __init__(self, a, b):self.a aself.b bdef __str__(self):return Vector (%d, %d) % (self.a, self.b)def __add__(self, other):return Vector(self.a other.a, self.b other.b) v1 Vector(2, 10) v2 Vector(5, -2) prin…

机器学习——决策树的实现

#!/usr/bin/env python #-*-coding:utf-8-*- #决策树的建立,训练测试, from sklearn.feature_extraction import DictVectorizer import csv from sklearn import preprocessing from sklearn import tree from sklearn.externals.six import StringIO#读…

python练习代码保存

#codingutf-8 print(中国人) """ Python 保留字:and, exec, not, assert, finally, or, break, for, pass, class, from, print, continue, global, raise, def, if, return, del, import, try, elif, in, while, else, is, with, except, lambda, …

邻近算法(KNN算法)

邻近算法 锁定本词条由“科普中国”百科科学词条编写与应用工作项目 审核 。邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本…

python机器学习常用包下载安装以及使用案例汇总

python安装教程(Windows系统,python3.7为例) https://blog.csdn.net/weixin_40844416/article/details/80889165 在pycharm中切换python版本的方法 https://blog.csdn.net/sgfmby1994/article/details/77876873 Windows下零基础scikit-learn安装(这种方式…

KNN算法的实现

#!/usr/bin/env python #-*-coding:utf-8-*- #knn 的具体实现 import csv import random import math import operator #导入数据集 文件名,split区分那个集 def loadDataset(filename,split,trainintset[],testSet[]):with open(filename,rb) as csvfile:linescsv.…

python机器学习常用包

总结了一些常用的工具: Numpy | 必用的科学计算基础包,底层由C实现,计算速度快。Pandas | 提供了高性能、易用的数据结构及数据分析工具。 seaborn | 数据可视化 NLTK | 自然语言工具包,集成了很多自然语言相关的算法和资源。Sta…

支持向量机(SVM)算法

支持向量机(SVM)算法支持向量机(support vector machine)是一种分类算法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计…

python文件操作以及相对路径和绝对路径问题

绝对路径: PROJECT_ROOT os.path.dirname(os.path.realpath(__file__))#获取项目根目录path os.path.join(PROJECT_ROOT,"data\\edge\\0_fuse.txt") #文件路径edgeMap np.loadtxt(path)相对路径: path "./data/edge/98_fuse.txt&quo…

支持向量机(SVM)的实现

#!/usr/bin/env python #-*-coding:utf-8-*- #支持向量积的使用,建立超平面 from sklearn import svmx[[2,0],[1,1],[2,3]]y[0,0,1] clfsvm.SVC(kernellinear) #kernellinear线性核函数clf.fit(x,y)print(clf)print(clf.support_vectors_) #支持向量 print(clf.supp…