【SCAU数据挖掘】数据挖掘期末总复习题库简答题及解析—

【SCAU数据挖掘】数据挖掘期末总复习题库简答题及解析——上

1.K-Means

假定我们对A、B、C、D四个样品分别测量两个变量，得到的结果见下表。

利用K-Means方法将以上的样品聚成两类。为了实施均值法(K-Means)聚类，首先将这些样品随意分成两类(A、B)和(C、D)。请详细给出每次聚类的中心坐标，计算样品到中心坐标的欧氏平方距离。

第一步:按要求取K=2，为了实施均值法聚类，我们将这些样品随意分成两类(A、B)和(C、D)，然后计算这两个聚类的中心坐标(见下表)。中心坐标是通过原始数据计算得来的。

聚类中心坐标一

第二步:计算某个样品到各类中心的欧氏平方距离，然后将该样品分配给最近的一类对于样品有变动的类，重新计算它们的中心坐标，为下一步聚类做准备。先计算A到两个类的平方距离:

d²(A,(AB))=(5-2)²+(3-2)²=10

d²(A,(CD))= (5 + 1)²+ (3 + 2)²= 61

由于A到(4、B)的距离小于到(C、D)的距离，因此A不用重新分配。计算B到两类的平方距离

d²(B,(AB))=(-1-2)²+(1-2)²=10

d²(B,(CD))=(-1 + 1)²+(1 + 2)²=9

由于B到(4、B)的距离大于到(C、D)的距离，因此B要分配给(C、D)类，得到新的聚类是(A)和(B、C、D)。更新中心坐标如下表所示。

聚类中心坐标二

第三步:再次检查每个样品，以决定是否需要重新分类。计算各样品到各中心的距离平方，结果如下表所示。

样本到中心的距离平方

到现在为止，每个样品都已经分配给距离中心最近的类，聚类过程到此结束。最终得到K=2的聚类结果是4独自成一类，B、C、D聚成一类。

输出结果

应用场景

分类

离散的类别标签

（有限个离散变量）

用于将事物或数据样本分配到一个或多个预定义的类别中，比如识别图片中的动物种类。分类的目标是构建一个模型，该模型能够基于输入的特征来预测数据样本所属的类别。

回归

连续的数值

（连续变量）

通常用于预测一个连续性的数值，比如预测股票价格。目标是找到一个函数，能够基于输入的特征来预测一个连续的数值。

假设某城市过去10年中7月份的平均温度按递增序排列，结果为24℃、28.9℃、28.9℃、29℃、29.1℃、29.1℃、29.2℃、29.2℃、29.3℃和29.4℃。假定平均温度服从正态分布，由两个参数决定：均值和标准差。假设数据分布在这个区间（以平均标准差）之外，该数据对象即为离群点。

(1)利用最大似然估计求均值和标准差。

均值（μ）的估计：

其中 n=10，xi 是每个样本的温度值。

将给定的温度值代入公式，得到：
μ=(24+2×28.9+29+2×29.1+2×29.2+29.3+29.4)/10=28.61

标准差（σ）的估计：
由于样本数量 n=10，我们使用样本标准差的无偏估计：

将给定的温度值和计算得到的均值代入公式，得到标准差 s 的值。

s=sqrt([(24-28.61)^2+(28.9-28.61)^2+...+(29.4-28.61)^2]/9)约等于1.63

(2)寻找上述10个对象中的所有离群点。

根据题目，离群点定义为数据对象落在平均值加减一个标准差之外的值。即，离群点不在区间

(μ^−σ^,μ^+σ^)=(28.61−1.63,28.61+1.63)=(26.98,30.24) 内。

由于 μ=28.61 和 s≈1.63，我们可以发现所有给定的温度值中24℃不在区间 (26.98,30.24) 内。

K均值和K中心点算法都可以进行有效的聚类。
(1)概述K均值和K中心点的优缺点。

	优点	缺点
K均值法	聚类时间短。当结果簇密集且簇间区别明显，效果较好。能对大数据集进行高效划分。	必须先指定聚类簇的个数。只适用于数值属性聚类，对噪声和异常数据很敏感，对于不同的初始值，结果可能不同。不适合发现非凸面形状的簇。
K中心点法	对于非凸数据集也能较好聚类效果，且对于噪声点影响比较小	算法效率相对K-均值法较低，还有可能出现簇中心点初始化不佳，导致聚类结果不埋想的情况。