【SCAU数据挖掘】数据挖掘期末总复习题库简答题及解析——上

1.K-Means

假定我们对A、B、C、D四个样品分别测量两个变量,得到的结果见下表。

样品

变量

X1X2

A

5

3

B

-1

1

C

1

-2

D

-3

-2

利用K-Means方法将以上的样品聚成两类。为了实施均值法(K-Means)聚类,首先将这些样品随意分成两类(A、B)和(C、D)。请详细给出每次聚类的中心坐标,计算样品到中心坐标的欧氏平方距离

解:

        第一步:按要求取K=2,为了实施均值法聚类,我们将这些样品随意分成两类(A、B)和(C、D),然后计算这两个聚类的中心坐标(见下表)。中心坐标是通过原始数据计算得来的。

聚类中心坐标一

聚类

中心坐标

X1X2

(A、B)

2

2

(C、D)

-1

-2

        第二步:计算某个样品到各类中心的欧氏平方距离,然后将该样品分配给最近的一类对于样品有变动的类,重新计算它们的中心坐标,为下一步聚类做准备。先计算A到两个类的平方距离:

d²(A,(AB))=(5-2)²+(3-2)²=10

d²(A,(CD))= (5 + 1)²+ (3 + 2)²= 61

由于A到(4、B)的距离小于到(C、D)的距离,因此A不用重新分配。计算B到两类的平方距离

d²(B,(AB))=(-1-2)²+(1-2)²=10

d²(B,(CD))=(-1 + 1)²+(1 + 2)²=9

由于B到(4、B)的距离大于到(C、D)的距离,因此B要分配给(C、D)类,得到新的聚类是(A)和(B、C、D)。更新中心坐标如下表所示。

 聚类中心坐标二

聚类

中心坐标

X1X2

(A)

5

3

(B、C、D)

-1

-1

        第三步:再次检查每个样品,以决定是否需要重新分类。计算各样品到各中心的距离平方,结果如下表所示。

样本到中心的距离平方

聚类

样本到中心的距离平方

A

B

C

D

(A)

0

40

41

89

(B、C、D)

52

4

5

5

到现在为止,每个样品都已经分配给距离中心最近的类,聚类过程到此结束。最终得到K=2的聚类结果是4独自成一类,B、C、D聚成一类。

2.试分析回归与分类的区别。

输出结果

应用场景

分类

离散的类别标签

(有限个离散变量)

用于将事物或数据样本分配到一个或多个预定义的类别中,比如识别图片中的动物种类。分类的目标是构建一个模型,该模型能够基于输入的特征来预测数据样本所属的类别。

回归

连续的数值

(连续变量)

通常用于预测一个连续性的数值,比如预测股票价格。目标是找到一个函数,能够基于输入的特征来预测一个连续的数值。

3.基于正态分布的离群点检测

假设某城市过去10年中7月份的平均温度按递增序排列,结果为24℃、28.9℃、28.9℃、29℃、29.1℃、29.1℃、29.2℃、29.2℃、29.3℃和29.4℃。假定平均温度服从正态分布,由两个参数决定:均值和标准差。假设数据分布在这个区间(以平均标准差)之外,该数据对象即为离群点。

(1)利用最大似然估计求均值和标准差。

均值(μ)的估计:

其中 n=10,xi​ 是每个样本的温度值。

将给定的温度值代入公式,得到:
μ=(24+2×28.9+29+2×29.1+2×29.2+29.3+29.4)/10=28.61

标准差(σ)的估计:
由于样本数量 n=10,我们使用样本标准差的无偏估计:

将给定的温度值和计算得到的均值代入公式,得到标准差 s 的值。

s=sqrt([(24-28.61)^2+(28.9-28.61)^2+...+(29.4-28.61)^2]/9)约等于1.63

(2)寻找上述10个对象中的所有离群点。

根据题目,离群点定义为数据对象落在平均值加减一个标准差之外的值。即,离群点不在区间 

(μ^​−σ^,μ^​+σ^)=(28.61−1.63,28.61+1.63)=(26.98,30.24) 内。

由于 μ=28.61 和 s≈1.63,我们可以发现所有给定的温度值中24℃不在区间 (26.98,30.24) 内。

4.K均值与K中心点

K均值和K中心点算法都可以进行有效的聚类。
(1)概述K均值和K中心点的优缺点。

优点

缺点

K均值法

聚类时间短。当结果簇密集且簇间区别明显,效果较好。能对大数据集进行高效划分。

必须先指定聚类簇的个数。只适用于数值属性聚类,对噪声和异常数据很敏感,对于不同的初始值,结果可能不同。不适合发现非凸面形状的簇。

K中心点法

对于非凸数据集也能较好聚类效果,且对于噪声点影响比较小

算法效率相对K-均值法较低,还有可能出现簇中心点初始化不佳,导致聚类结果不埋想的情况。


(2)概述这两种方法与层次聚类方法相比较有何优缺点。

层次聚类方法(AGNES)是一种分层聚类的方法,将教据点分层次进行聚类,也就是在保留所有数据点的前提下,从最小单元开始进行聚类,然后逐步合并相近的类别,最后形成n个。

        优点是没有预先设定需要聚类的数量,能够处理复杂的数据结构,相对于K-均值、K-中心点更能反映出数据分布的全貌,尤其是在不平凡分布的数据上表现更加突出。
        缺点是AGNES算法计算量较大,在大规模数据集上效率较低,且聚类结果可能受到簇合并顺序的影响。

5.Apriori算法:通过限制候选产生发现频繁项集

数据表中有5个事物,设min_sup=60%,min_conf=80%,并有下表所示信息。

TID

购买的商品

T100

{M,O,N,K,E,Y}

T200

{D,O,N,K,E,Y}

T300

{M,A,K,E}

T400

{M,U,C,K,Y}

T500

{C,O,O,K,I,E}

请用Apriori算法找出频繁项集。

置信度(min_conf)是在找到频繁项集之后,用于生成关联规则时的一个参数,不用理会。

依题得min_sup=0.6*5=3,计算所有单项集的计数得到支持度计数大于等于3的频繁1-项集:

m    3
o    3
n    2
k    5
e    4
y    3
d    1
a    1
u    1
c    2
i    1

频繁 1- 顶集: M,O,K,E,Y

然后根据频繁1-项集,找出支持度技术大于等于3的频繁2-项集:

mo    1
mk    3
me    2
my    2
ok    3
oe    3
oy    2
ke    4
ky    3
ey    2

频繁 2- 项集: {M,K},{O,K},{O,E} ,{K,Y},{K,E}

再根据频繁2-项集,找出支持度技术大于等于3的频繁3-项集:

oke    3
key    2

频繁 3- 项集: {O,K,E}

故,用Apriori算法找出的频繁项集有频繁 1- 顶集: M,O,K,E,Y;  频繁 2- 项集: {M,K},{O,K},{O,E} ,{K,Y},{K,E};  频繁 3- 项集: {O,K,E}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/852134.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【星海随笔】ELK优化

ELS 再遇到大的日志文件的时候不会自动进行清理的,我们可以通过 logrotate 转储工具进行操作。 该命令是基于 Cron 实现,由系统执行,当然也可以手动进行执行例如 logrotate -f configfile# more /etc/logrotate.confweekly // 默认每一周执行一次rotate轮转工作 r…

打造专属 Switch 模拟游戏机

文章目录 2种方案Switch版RetroArchLakka系统 整体性能对比:Lakka更优核心是否兼容:并不兼容整合2种方案:共享游戏ROM和配置、资源等文件夹存储空间优化添加模拟器核心Switch版RetroArchLakka 添加游戏添加特殊类型模拟游戏示例(尤…

msf原生shellcode迁移进程后如何获取攻击者ip

msf原生shellcode迁移进程后如何获取攻击者ip仅为ip及端口 木有图,看一下就晓得了 偶尔看到了这个问题,做了一些倒推测试之后得出来的结果 倒推过程 shellcode msf生成一段shellcode,产生的一组16进制数据 msfvenmon -p windows/meterpret…

Ubuntu下使用`sysbench`来测试CPU性能

使用 sysbench 来测试 CPU 性能是一个常见的方法。sysbench 是一个模块化的跨平台基准测试工具,常用于评估系统的各个组件(例如 CPU、内存、I/O 子系统等)的性能。 下面是如何使用 sysbench 来测试 CPU 性能的基本步骤: 1. 安装…

车载电子电气架构 - 智能座舱技术及功能应用

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证明自己,无利益不试图说服别人,是精神上的节…

论文解读——《I2EDL: Interactive Instruction Error Detection and Localization》

一、研究背景 视觉与语言导航(VLN)是一个AI领域的研究任务,旨在开发能够按照自然语言指令在三维空间中导航到指定位置的智能体。这项任务与人类的日常活动——如按照口头指示到达某个地点——十分相似,对于推动人机交互的自然性和…

【学习笔记9】一些遇到的如何写code的问题

一、计算e(x): import math result math.exp(x)import numpy as np result np.exp(x)二、matplotlib.pyplot坐标无法显示中文: plt.rcParams[font.family] [sans-serif] plt.rcParams[font.sans-serif] [SimHei]三、matplotlib.pyplot横纵坐标无法…

【智能算法应用】基于混合粒子群-蚁群算法的多机器人多点送餐路径规划问题

目录 1.算法原理2.数学模型3.结果展示4.参考文献5.代码获取 1.算法原理 【智能算法】粒子群算法(PSO)原理及实现 配餐顺序: 采用混合粒子群算法 || 路径规划: 采用蚁群算法 2.数学模型 餐厅送餐多机器人多点配送路径规划&…

配置应用程序的服务和请求处理管道 为啥要在starup而不再program中配置呢

配置应用程序的服务和请求处理管道通常在Startup类中完成,而不是在Program类中,主要基于以下原因: 关注点分离: Program.cs主要关注于应用程序的启动和宿主的构建。它负责初始化应用程序的主机,并设置基本的配置和启动…

linux系统——wget命令

wget命令可以用于下载指定的url地址文件,支持断点续传,支持ftp,http协议下载,在下载普通文件时,即使网络出现故障,依然会不断尝试下载 wget命令直接加url地址 使用-o参数可以将下载文件改名,-c…

【AI】DeepStream(11):deepstream-app源码详解(03)解析配置文件

【AI】AI学习目录汇总 上一篇:【AI】DeepStream(10):deepstream-app源码详解(02)配置文件格式详解 1、简述 deepstream-app的 txt 配置文件,为INI格式,使用 GLib 的 GKeyFile 来解析INI格式的配置文件。 2、解析 application 2.1 配置参数 [application] // 性能测…

python 循环导入(circular imports)解决方法

在 Python 中,大部分人都应该都遇到过循环导入的问题。 循环导入是指两个文件各自尝试导入另一个文件(模块),当一个模块没有完全初始化时会导致失败。解决这种情况的最好方法是将代码分层组织,这样导入的关系就会自然…

Java基础 - 多线程

多线程 创建新线程 实例化一个Thread实例,然后调用它的start()方法 Thread t new Thread(); t.start(); // 启动新线程从Thread派生一个自定义类,然后覆写run()方法: public class Main {public static void main(String[] args) {Threa…

AXI Quad SPI IP核中的STARTUPEn原语参数

启动STARTUPEn Primitive (原语)参数在 FPGA的主 SPI模式下非常有用。当你启用这个参数时,对于 7 系列设备,STARTUPE2 原语会被包含在设计中;而对于 UltraScale™ 设备,则是 STARTUPE3 原语。这些原语在 FP…

CentOS手工升级curl记

笔者一台服务器装有 CentOS 7.9 系统,运行 curl -V 查询 curl 的版本是 7.29,这个老版本的 curl 不支持 HTTP/2 协议。为了使 curl 能连接HTTP/2,curl 必须升级到至少7.46.0版本以上。查询 curl的官网得知当前最新版本是 8.8.0,然…

【ZZULIOJ】1104: 求因子和(函数专题)

题目描述 输入正整数n&#xff08;2<n<1000&#xff09;&#xff0c;计算并输出n的所有正因子(包括1&#xff0c;不包括自身)之和。要求程序定义一个FacSum ()函数和一个main()函数&#xff0c;FacSum ()函数计算并返回n的所有正因子之和&#xff0c;其余功能在main()函…

Kubernetes(K8s)从入门到精通系列之十九:Operator模式

Kubernetes K8s从入门到精通系列之十九&#xff1a;Operator模式 一、动机二、Operators in Kubernetes三、Operator示例四、部署Operator五、使用Operator六、编写自己的operator Operator 是 Kubernetes 的软件扩展&#xff0c;它利用自定义资源来管理应用程序及其组件。 Ope…

49. 简单数字加密

Description 实现一个加密函数&#xff0c;对输入的4位数字进行加密&#xff0c;并输出加密结果。加密规则如下&#xff1a; 对每一位数字都利用该数字对应的ASCII编码加上5&#xff0c;然后用除以10的余数代替该数字。将第一位和第四位交换&#xff0c;第二位和第三位交换。…

【智能算法应用】基于粒子群算法的多尺度Retinex图像去雾方法

目录 1.算法原理2.粒子群算法的多尺度Retinex图像去雾方法3.结果展示4.参考文献5.代码获取 1.算法原理 【智能算法】粒子群算法&#xff08;PSO&#xff09;原理及实现 多尺度Retinex算法 在Retinex算法中&#xff0c;雾化图像的形成可以总结为入射光和反射光的乘积: I ( x…

第 3 章:Spring Framework 中的 AOP

第 3 章&#xff1a;Spring Framework 中的 AOP 讲完了 IoC&#xff0c;我们再来聊聊 Spring Framework 中的另一个重要内容——面向切面编程&#xff0c;即 AOP。它是框架中众多功能的基础&#xff0c;例如声明式事务就是依靠 AOP 来实现的。此外&#xff0c;Spring 还为我们…