Q:什么是硬聚类,什么是软聚类?
如果一个样本只能属于一个类,则称为硬聚类(hard clustering);
如果一个样本可以属于多个类,则称为软聚类(soft clustering)。
Q:聚类和分类的区别?
聚类 | 分类 | |
学习类型 | 无监督学习方法 不需要事先标记的数据 通过发现数据中的模式或结构来组织数据。 | 监督学习方法 需要依赖已标记的数据集来训练模型 以便能够对新的未知数据进行预测和分类。 |
数据依赖性 | 聚类不依赖于预先定义的类别或标签 而是根据样本间的相似度或距离进行分组。 | 分类需要明确知道各个类别的信息 并且每个待分类项都必须有一个对应的类别。 |
算法应用范围 | 适用于探索性数据分析 如市场细分、社交网络分析等场景,帮助发现隐藏的数据结构和模式。 | 常应用于具有明确目标的预测问题 如垃圾邮件检测、图像识别和疾病诊断等领域。 |
结果解释 | 聚类的结果通常是数据的分组或集群,没有明确的标签 组内的对象相互之间是相似的,而不同组中的对象是不同的。 | 分类的结果是明确地将数据点划分到预定义的标签或类别中 每个类别都有明确的意义。</ |