DBSCAN聚类算法学习笔记
一些概念名词
MinPts:聚类在一起的点的最小数目,超过这一阈值才算是一个族群
核心点:邻域内数据点超过MinPts的点
边界点:落在核心点邻域内的点称为边界点
噪声点:既不是核心点也不是边界点的点
图示过程:
开始,选取一点,看邻域范围内是否达到MinPts,达到就加入簇,图示标为红,没达到就判断下一个
落在核心点邻域内的点称为边界点,如图标黄色的点
本例子有一个噪声点
划分点后,将距离不超过邻域半径的核心点及其所属边界点聚成一个簇
基于密度的聚类算法,可以根据样本分布的紧密程度决定,同一类别的样本之间是紧密相连的,不同类别样本联系是比较少的
优点是DBSCAN算法不需要事先指定聚类的数量,而是通过样本密度来聚合在一起,对于复杂的分布(比如自动驾驶场景下的点云,含有车、行人、骑行者等,有些目标在空间上还很靠近)及离群点产生的结果比K-Means更加合理
缺点是如果样本集的密度不均匀、聚类间距差相差很大时,聚类质量较差;
而且算法较复杂,需要针对距离阈值(邻域范围)和领域样本阈值(MinPts)进行调参才能产生较好的效果
参考资料:
1、https://www.jianshu.com/p/dd6ce77bfb8a
2、DBSCAN聚类 动画演示 https://www.bilibili.com/video/BV114411M7ci/?share_source=copy_web&vd_source=fffc779375536f749de4104fe5c56d3a
3、http://t.csdnimg.cn/avicU