【SCAU数据挖掘】数据挖掘期末总复习题库判断题及解析

1.离群点可以是合法的数据对象或者值。( ✓)

解析:离群点(Outliers)通常是与数据集中其他数据显著不同的数据点,但它们可以是合法的数据值。这些值可能是由于测量误差、数据录入错误、数据分布的自然属性等原因产生的。


3.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。(x )

解析:关联规则挖掘(Association Rule Mining)的目标是发现数据项之间有趣的关联或关系。这通常涉及两个关键指标:支持度(Support)和置信度(Confidence)。支持度衡量项集在数据集中出现的频率,而置信度衡量如果购买了项集X,那么也购买项集Y的可能性。仅仅满足最小支持度是不够的,通常还需要满足一定的置信度阈值。


4.K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动确定。(x )

解析:K均值(K-means)是一种基于划分的聚类算法,但它不是基于密度的。在K均值中,簇的个数(即K的值)是用户预先设定的,而不是由算法自动确定的。算法会迭代地将数据点分配到最近的簇中心,并更新簇中心的位置,直到达到某种收敛条件。


5.如果一个对象不属于任何簇,那么该对象是基于聚类的离群点。(✓ )

解析:在聚类分析中,如果一个对象与任何簇的相似性都很低,或者它与所有簇的距离都大于某个阈值,那么该对象通常被视为离群点。这些离群点可能是由于噪声、异常值或数据分布的自然属性产生的。


6.数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好地完成描述数据、预测数据等任务。( ✓)

解析:数据挖掘确实旨在从大量数据中识别出隐藏的、有效的、新颖的、并可能具有实际用途的模式或规则,以便更好地描述数据、预测未来趋势或做出决策。


7.数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。(✓ )

解析:数据挖掘的焦点是在现有数据集上应用各种技术来发现模式和关系,而不是如何收集数据。虽然数据质量对数据挖掘的结果至关重要,但数据采集策略本身不是数据挖掘的直接目标。


8.用于分类的离散化方法之间的根本区别在于是否使用类信息。(✓ )

解析:在分类任务中,离散化(也称为数据分箱或量化)是将连续属性转换为离散值的过程。不同的离散化方法可能会基于不同的标准或算法来执行此操作,其中一个关键的区别在于是否利用已知的类信息来指导离散化过程。


9.特征提取技术并不依赖于特定的领域。(x )

解析:许多特征提取技术是针对特定类型的数据或特定领域的问题而设计的。例如,在图像处理中,可能会使用与在文本分析或时间序列分析中完全不同的特征提取方法。


10.定量属性可以是整数值或者是连续值。(✓ )

解析:定量属性(也称为数值属性或度量属性)表示的是可以被测量或计数的数量。这些属性可以是整数值(如计数、编号等),也可以是连续值(如身高、体重、温度等)。


11.利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。( ✓)

解析:在关联规则学习(如Apriori算法)中,先验原理(也称为反单调性)是一个关键概念,它指出如果一个项集不是频繁的,那么它的所有超集(即包含它的项集)也一定不是频繁的。这个原理用于减少在查找频繁项集时需要检查的候选项集的数量。


12.先验原理可以表述为:如果一个项集是频繁的,则包含它的所有项集也是频繁的。(X )

频繁的子集频繁,非频繁的超集非频繁


13.分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。( ✓)

解析:分类和回归是监督学习的两种主要类型。分类的输出是离散的类别标签,而回归的输出是连续值,通常用于预测数量


14.贝叶斯法是一种在已知后验概率类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。(✗ )

解析:


15.分类模型的误差大致分为两种:训练误差和泛化误差。(✓ )

解析:训练误差是模型在训练数据上的误差,而泛化误差是模型在新数据(即未见过的数据)上的误差。这两个误差都是评估模型性能的重要指标。


16.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。(× )

解析:在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越好,而不是越差。聚类的目标就是将相似的对象聚集在一起,同时使得不同簇之间的对象尽可能不同。因此,簇内相似性高和簇间差异大是聚类效果好的表现。


17.给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。( ×)

解析:给定由两次运行K均值产生的两个不同的簇集,误差的平方和(SSE,Sum of Squared Errors)最小的那个应该被视为较优。SSE是各样本点到其所在簇中心的距离的平方和,它衡量了聚类结果的好坏。SSE越小,说明样本点与其所在簇中心的距离越近,即聚类效果越好


18.线性回归模型由于自身的局限性只能描述变量间的线性关系。( ×)

解析:

21.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。( ×)


22.基于模型的聚类与基于分割的聚类相比,对数据分布有更好的描述性。(✓ )

解析:基于模型的聚类与基于分割的聚类相比,通常确实对数据分布有更好的描述性。基于模型的聚类方法(如基于概率模型的聚类)会假设数据服从某种分布(如高斯分布),并试图找到最佳拟合该分布的模型参数。这种方法能够更深入地理解数据的内在结构和分布。


23.具有较高的支持度的项集具有较高的置信度。( ×)

解析:具有较高的支持度的项集不一定具有较高的置信度。在关联规则挖掘中,支持度衡量的是项集在数据集中出现的频率,而置信度衡量的是当一个项集出现时,另一个项集也出现的概率。高支持度只说明项集在数据集中很普遍,但不一定说明它们之间有很强的关联关系(即高置信度)。


24.利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。(✓ )

解析:Apriori原理指出,如果一个项集不是频繁的,那么它的所有超集也不是频繁的。这可以大大减少需要检查的候选项集的数量,从而提高频繁项集挖掘的效率。


25.可以利用概率统计方法估计数据的分布参数,再进一步估计待测试数据的概率,以此来实现贝叶斯分类。(✓ )

解析:贝叶斯分类器是基于贝叶斯定理与特征条件独立假设的分类方法。它首先根据训练数据估计出每个类别的先验概率和每个特征在每个类别下的条件概率,然后利用这些概率和贝叶斯定理计算出待测试数据属于各个类别的后验概率,并选择后验概率最大的类别作为预测结果。


26.数据库中某属性缺失值比较多时,数据清理可以采用忽略元组的方法。(X )


27.逻辑回归等同于一个使用交叉熵loss,且没有隐藏层的神经网络。(✓ )

解析:逻辑回归确实等同于一个使用交叉熵loss,且没有隐藏层的神经网络。逻辑回归模型通过计算输入特征的加权和,然后应用Sigmoid函数将结果映射到0和1之间,从而得到二分类的概率。这种模型可以看作是神经网络的一种简化形式,其中没有隐藏层,并使用交叉熵作为损失函数


28.朴素贝叶斯分类器不存在数据平滑问题。( ×)

解析:朴素贝叶斯分类器存在数据平滑问题。当使用朴素贝叶斯分类器时,如果某个特征在训练集中没有出现过(即概率为0),那么该特征在预测时会导致整个概率乘积为0,从而影响分类结果。为了解决这个问题,通常会采用数据平滑技术,如拉普拉斯平滑(Laplace smoothing),将所有词的出现次数初始化为一个非零值(如1),并将分母相应地增加一个常量(如2)。


29.分类和回归都可用于预测,分类的输出是连续数值,而回归的输出是离散的类别值。( ×)

解析:分类的输出是离散的类别值,而回归的输出是连续数值。分类算法用于将数据集中的数据分为几个预定义的类别之一,而回归算法则用于预测一个连续值。


30.皮尔逊相关系数可用来判断X和Y之间的因果关系。(✓ )

31.样品是数据对象的别名。(✓ )

解析:样品(或样本)通常是数据对象的别名,特别是在统计学和机器学习中。它们指的是从总体中抽取出来的用于分析或研究的个体或观测值。


32.杰卡德系数用来度量非对称的二进制属性的相似性。( ✓)


33.K均值聚类的核心目标是将给定的数据集划分为K个簇,并给出每个数据对应的簇中心点。( ✓)

解析:K均值聚类的核心目标是将给定的数据集划分为K个簇,并给出每个簇的中心点(质心)。这些中心点是通过迭代计算每个簇中所有点的平均值来得到的。


35.离散属性总是具有有限个值。(× )


36.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。( X)

解析:仅仅满足最小支持度并不足以形成关联规则。关联规则还需要满足最小置信度。关联规则挖掘过程是发现满足最小支持度和最小置信度的所有项集代表的规则。


37.聚类是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。( X)

解析:描述的是分类过程,而不是聚类过程。聚类是一个无监督的学习过程,它将相似的对象分组到不同的簇中,而不需要预先定义的类或标签。因此,这个陈述是错误的。


39.K-Means++能够解决初始点影响聚类效果的问题。(√ )

解析:K-Means++是K均值算法的一个改进版本,它通过更智能地选择初始质心点来减少初始点选择对聚类结果的影响。

40.聚类分析可以看作一种非监督的分类。(√ )

解析:聚类分析是一种无监督的学习过程,其中相似的对象被分组到不同的簇中,而不需要预先定义的类或标签。因此,它可以被看作是一种非监督的分类。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/853839.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring框架的原理及应用详解(六)

本系列文章简介: 在当今的软件开发世界中,随着应用复杂性的不断增加和技术的快速发展,传统的编程方式已经难以满足快速迭代、高可扩展性和易于维护的需求。为此,开发者们一直在寻求更加高效、灵活且易于管理的开发框架&#xff0c…

[DDR4] DDR4 相对 DDR3差异与优势

依公知及经验整理,原创保护,禁止转载。 传送门: 总目录 1 差异总览 出处: https://www.kingston.com.cn/en/memory/ddr4-overview Description 描述DDR3DDR4Advantage 优势电压1.5V1.2V降低内存功耗需求容量512Mb-8Gb4Gb-16Gb更大的 DIMM 容量数据速率800Mb/s – 2133Mb/s1…

C#——结构和类问题总结

C#——结构和类问题总结 前言一、结构体是什么?1)定义2)特点 二、类(对象)是什么?1)定义2)特点 三、两者的差异性与选择环境?1)差异性2)选择环境 …

推荐一款WPF绘图插件OxyPlot

开始 使用 NuGet 包管理器添加对 OxyPlot 的引用(如果要使用预发布包,请参阅下面的详细信息)向用户界面添加PlotView在代码中创建一个PlotModel绑定到你的属性PlotModelModelPlotView例子 您可以在代码存储库的文件夹中找到示例。/Source/Examples NuGet 包 最新的预发布包由…

前端工程师不是软件工程师?

在当前的技术生态系统中,前端工程师与软件工程师这两个角色经常被混淆。尽管它们在某些方面有重叠,但实际上存在显著的差异。尤其是在前端工程师培训班出身的背景下,这种差异更为明显。本文将探讨为什么前端工程师不应被简单地归类为软件工程…

CyberDAO:引领Web3时代的DAO社区文化

致力于Web3研究和孵化 CyberDAO自成立以来,致力于推动Web3研究和孵化,吸引了来自技术、资本、商业、应用与流量等领域的上千名热忱成员。我们为社区提供多元的Web3产品和商业机会,触达行业核心,助力成员捕获Web3.0时代的红利。 目…

C语言---------深入理解指针

目录 一、字符指针 二、指针数组: 三、数组指针: 1、定义: 2、&数组名和数组名区别: 3、数组指针的使用: 四、数组参数,指针参数: 1、一维数组传参: 2、二维数组传参&am…

后端防接口被刷

1)防火墙 防火墙也是互联网安全攻防中重要的屏障,我们通过配置访问规则,可以限制只有被允许的IP才可以进行访问。 防火墙还可以识别和阻止DDoS攻击,通过识别并过滤恶意流量请求,防火墙可以有效的防御,保护…

模拟电子技术基础(二)--PN结

PN结的本质 芯片都是由硅晶体制成,单个硅原子最外层有带有4个电子 在纯硅当中这些电子会两两形成共价键,此时周围形成非常稳定的八电子结构 在一个回路中,灯泡不亮,不导通,因为电池无法吸引其中的电子离开&#xff0c…

面向对象程序设计》第5章 多态(选择 判断 填空)

1-1 在类的定义中,前面有virtual关键字的成员函数就是虚函数。 T F | 参考答案 答案 T 2分 1-2 通过基类指针调用基类和派生类中的同名虚函数时,若该指针指向一个基类的对象,那么被调用的是基类的虚函数。 T F | 参考答案 答案 T 2分 1-3 通过基类指针调用…

Zombie Animations Set

僵尸动画合集,包括成对攻击/抓取、各种移动方式、爬行、击中反应、死亡动画等。 生产说明 动画总数:99(包括22个位置变化) 配对动画:36 攻击次数:6次 爬网:9 命中反应:6 空转:14 行程2 跑步次数:9次 短跑:2 匝数:3 步行次数:12次 免责声明 任何游戏玩法蓝图都不包…

【JavaScript】MDN

一、初识 1.1 基础 1.1.1 语言速成课 1.1.1.1 变量 ​ 变量是存储值的容器。首先用let关键字声明一个变量,后面跟着你给变量的名字 ​ 变量命名区分大小写 ​ 分号在JavaScript中是用来分隔语句的,但是如果语句后面有一个换行符(或者在{block}中只…

力扣每日一题 6/16 字符串 + 随机一题 动态规划/数学

博客主页:誓则盟约系列专栏:IT竞赛 专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ 521.最长特殊序列 I【简单】 题目: 给你两个字符串 a 和 b&am…

【猫狗分类】Pytorch VGG16 实现猫狗分类4-开始训练

背景 现在,我们已经完成了,数据集的清洗,标签的制作,也把VGG16的模型建立好了。那接下来,我们应该把数据,放到我们搭建的vgg16的模型里面,让模型针对这些猫和狗的图片,去进行训练&a…

面试题 17.17. 多次搜索

链接&#xff1a;. - 力扣&#xff08;LeetCode&#xff09; 题解&#xff1a; class Solution { private:struct Trie {Trie() {end false;index -1;next.resize(26);}bool end;int index;std::vector<std::unique_ptr<Trie>> next;};void insert_trie(int in…

5.3.2_1 线索二叉树的概念

&#x1f44b; Hi, I’m Beast Cheng &#x1f440; I’m interested in photography, hiking, landscape… &#x1f331; I’m currently learning python, javascript, kotlin… &#x1f4eb; How to reach me --> 458290771qq.com 喜欢《数据结构》部分笔记的小伙伴可以…

接口和抽象类:如何使用普通类模拟接口和抽象类

目录 1.引言 2.抽象类和接口的定义与区别 3.抽象类和接口存在的意义 4.模拟实现抽象类和接口 5.抽象类和接口的应用场景 1.引言 在面向对象编程中&#xff0c;抽象类和接口是两个经常被提及的语法概念&#xff0c;也是面向对象编程的四大特性&#xff0c;以及很多设计模式…

借报告Team ID错误谈谈Mac app文件签名与公证

文章目录 目的起因流程熟悉本地证书、认证证书申请在钥匙串中创建要公证app的profile(公证的时候会用到)程序打包后App文件进行app签名压缩打包公证公证变化在WWDC19, 苹果在MacOS 10.14之后引入了公证(Notarization)这一机制来提升安全性. 主要分以下几步新的公证workflow公…

使用KVM制作镜像

资源列表 操作系统 IP Centos7&#xff0c;桌面版 192.168.10.57 安装KVM 安装软件包 yum -y install qemu-kvm qemu-kvm-tools qemu-img bridge-utils libvirt virt-install virt-manager 检查有否支持虚拟化 grep -e vmx -e svm /proc/cpuinfo #VMX是英特尔版本&…

【CT】LeetCode手撕—88. 合并两个有序数组

目录 题目1- 思路2- 实现⭐88. 合并两个有序数组——题解思路 2- ACM实现 题目 原题连接&#xff1a;88. 合并两个有序数组 1- 思路 模式识别 模式1&#xff1a;两个有序数组合并 ——> 双指针模式2&#xff1a;返回结果填充到 nums1[mn] ——> 需要开辟新的数组空间 …