数据仓库实验三:分类规则挖掘实验

目录

    • 一、实验目的
    • 二、实验内容和要求
    • 三、实验步骤
      • 1、创建数据库和表
      • 2、决策树分类规则挖掘
        • (1)新建一个 Analysis Services 项目 jueceshu
        • (2)建立数据源视图
        • (3)建立挖掘结构 DST.dmm
        • (4)部署决策树挖掘项目并浏览结果
      • 3、朴素贝叶斯分类规则挖掘
        • (1)建立挖掘结构 Bayes.dmm
        • (2)部署朴素贝叶斯挖掘项目并浏览结果
    • 四、实验结果分析
    • 五、实验总结体会


一、实验目的

  通过本实验,进一步理解决策树算法、朴素贝叶斯算法进行分类的原理,并掌握利用Sql Server等工具平台进行分类规则挖掘的方法,掌握挖掘结构、挖掘模型的基本概念,能够使用数据挖掘向导创建数据挖掘结构和模型,掌握数据挖掘设计器的使用方法,掌握模型查看器方法 ,理解分类规则挖掘常用的参数含义和设置方法。

二、实验内容和要求

  针对实际需求,构建格式规范的数据集,并能够借助于SQL Server、Weka、SPSS等工具平台,利用决策树(Decision tree)算法、朴素贝叶斯(Naïve Bayes)算法进行分类和预测,正确分析实验结果,完成实验报告。

三、实验步骤

  以下以SQL Server作为工具,完成数据集的构建和分类规则的挖掘(利用决策树分类、朴素贝叶斯分类算法)。——以下内容,仅供参考!

1、创建数据库和表

在SSMS中建立DM数据库(模拟不同群体、不同收入、不同信誉的人群是否购买计算机的事实),分别设计DST表(用于建立分类模型的事例表)、DST1表(用于预测的事例表)。DST表的结构和内容如下所示。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
DST1表的结构和DST表相同,被用于预测/验证,DST1的内容如下:

在这里插入图片描述

DST1有3条记录,其中“是否购买计算机”列为空,待预测后确定。

2、决策树分类规则挖掘

在 Sql Server Business Intelligence Development Studio (BIDS) 采用如下步骤,基于决策树挖掘分类规则。

在这里插入图片描述

(1)新建一个 Analysis Services 项目 jueceshu

定义数据源DM.ds,对应的数据库为前面建立的DM数据库。

在这里插入图片描述

(2)建立数据源视图

定义数据源视图DM.dsv,它包含DST表,用于基于决策树建立分类模型;
定义数据源视图DM1.dsv,它包含DST1表,基于建立的决策树分类模型进行预测。

数据源视图DM.dsv:

在这里插入图片描述
数据源视图DM1.dsv:

在这里插入图片描述

(3)建立挖掘结构 DST.dmm

新建挖掘结构,在“创建数据挖掘结构”页面的“您要使用何种数据挖掘技术?”选项下,选中列表中的“Microsoft决策树”。

在这里插入图片描述
选择数据源视图为DM。

在“指定表类型”页面上,在DST表的对应行中选中“事例”复选框,并单击下一步按钮。

在这里插入图片描述
在“指定定型数据”页面中,将“编号”列设为键列,把“是否购买计算机”设为可预测列,把其它所有列设为输入列。

在这里插入图片描述
在“创建测试集”页面上,“测试数据百分比”选项的默认值为30%,将该选项更改为0.

在这里插入图片描述
在完成向导页面的“挖掘结构名称”和“挖掘模型名称”中,都输入DST。

在这里插入图片描述
单击“挖掘模型”选项卡,右击“Microsoft_Decision_Trees”选项,在出现的快捷菜单中选择“设置算法参数”命令。将COMPLEXITY_PENALTY,MINIMUM_SUPPORT,SCORE_METHOD,SPLIT_METHOD等参数值进行适当设置。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

(4)部署决策树挖掘项目并浏览结果

先处理(部署)、再浏览。

在这里插入图片描述

在挖掘模型查看器中,浏览决策树分类的结果。

在这里插入图片描述
上面已经建立了决策树分类模型。接下来,就可以利用这个分类模型,对DST1表中3个数据样本的“是否购买计算机”列的值进行预测,步骤如下:

① 单击“挖掘模型预测”选项卡,再单击“选择输入表”对话框中的“选择事例表”命令,指定DM1数据源视图中的DST1表。

在这里插入图片描述
② 保持默认的字段连接关系,将DST1表中的各个列拖放到下方的列表中,选中“是否购买计算机”字段前面的“源”,从下拉列表中选择“DST”选项,而其它字段的数据直接来源于DST1表,只有“是否购买计算机”字段是采用前面训练样本集得到的决策树模型来进行预测的。

在这里插入图片描述
③ 在任一空白处右击,并在下拉菜单中选择“结果”,出现如下所示的分类结果。

在这里插入图片描述

3、朴素贝叶斯分类规则挖掘

  朴素贝叶斯分类的应用,还是基于DM数据库的DST和DST1表,DST用于训练,DST1用于预测,过程此处不再进行描述(预测结果与前面的决策树预测的结果相同),请同学们自行模索。

在这里插入图片描述

具体步骤与决策树分类规则挖掘类似:

(1)建立挖掘结构 Bayes.dmm

在这里插入图片描述

在这里插入图片描述

(2)部署朴素贝叶斯挖掘项目并浏览结果

在这里插入图片描述
查看“挖掘模型”:

在这里插入图片描述
点击“挖掘模型查看器”:

在这里插入图片描述
点击“挖掘模型预测”:

在这里插入图片描述
查看预测结果:

在这里插入图片描述
预测结果和决策树预测结果相同。

四、实验结果分析

1、决策树

在这里插入图片描述

在这里插入图片描述 在这里插入图片描述

学生中,有87.5%购买计算机;非学生中,58.33%购买计算机。由此可见,学生购买计算机的概率比较大。

在这里插入图片描述 在这里插入图片描述 在这里插入图片描述

在非学生中,收入“高”的有75%购买计算机;收入“中”的有50%购买计算机;收入“低”的有25%购买计算机。由此可见,收入越高,购买计算机的概率越高。

2、依赖关系网络

在这里插入图片描述

“学生”和“是否购买计算机”是强关联规则。

在这里插入图片描述

五、实验总结体会

  在挖掘数据仓库中的分类规则实验前,需要对数据进行预处理和清洗,确保数据的质量和完整性,数据的完整性和准确性直接影响了挖掘结果的可信度。这包括去除重复值、处理缺失值和异常值等。
  选择合适的特征对于挖掘有效规则至关重要。使用特征选择技术来排除不相关或冗余的特征,以及特征提取技术来创建新的、更有信息量的特征。用特征选择算法来确定最相关的特征,以提高分类模型的准确性和效率。根据实验的目标和数据的特点,选择适合的分类模型。常用的分类算法包括决策树、朴素贝叶斯、支持向量机等。可以通过交叉验证等方法来评估模型的性能。
  决策树是一种基于树形结构的分类算法,通过对特征进行逐步划分来进行决策。易于理解和解释,可视化效果好。适用于离散型和连续型数据,处理分类和回归问题都有效。对数据的预处理要求相对较低,对异常值和缺失值有一定的鲁棒性。可以处理大规模数据集,对于非线性关系的数据有较好的适应能力。能够输出清晰的规则,便于理解和应用。
  朴素贝叶斯是一种基于贝叶斯定理的概率分类算法,假设特征之间相互独立。计算简单,适用于大规模数据集。主要用于文本分类和情感分析等任务,对于高维度数据和稀疏数据表现较好。需要注意处理连续型数据和处理缺失值的方法。训练和预测速度快,对于数据量大、特征维度高的情况下表现优秀。对于噪声数据有一定的鲁棒性。
  在实验结束后,需要对分类模型进行评估。常用的评估指标包括准确率、召回率、F1值等。同时,可以使用混淆矩阵来分析分类结果的详细情况。对于实验结果,需要进行解释和分析。可以通过特征重要性分析、规则提取等方法来理解分类模型的决策过程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/6501.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

43 单例模式

目录 1.什么是单例模式 2.什么是设计模式 3.特点 4.饿汉和懒汉 5.峨汉实现单例 6.懒汉实现单例 7.懒汉实现单例(线程安全) 8.STL容器是否线程安全 9.智能指针是否线程安全 10.其他常见的锁 11.读者写者问题 1. 什么是单例模式 单例模式是一种经典的&a…

线性数据结构-手写队列-哈希(散列)Hash

什么是hash散列? 哈希表的存在是为了解决能通过O(1)时间复杂度直接索引到指定元素。这是什么意思呢?通过我们使用数组存放元素,都是按照顺序存放的,当需要获取某个元素的时候,则需要对数组进行遍历,获取到指…

【skill】onedrive的烦人问题

Onedrive的迷惑行为 安装Onedrive,如果勾选了同步,会默认把当前用户的数个文件夹(桌面、文档、图片、下载 等等)移动到安装时提示的那个文件夹 查看其中的一个文件的路径: 这样一整,原来的文件收到严重影…

吴恩达2022机器学习专项课程C2(高级学习算法)W1(神经网络):2.1神经元与大脑

目录 神经网络1.初始动机*2.发展历史3.深度学习*4.应用历程 生物神经元1.基本功能2.神经元的互动方式3.信号传递与思维形成4.神经网络的形成 生物神经元简化1.生物神经元的结构2.信号传递过程3.生物学术语与人工神经网络 人工神经元*1.模型简化2.人工神经网络的构建3.计算和输入…

Java与Go: 生产者消费者模型

什么是生产者消费者模型 生产者-消费者模型(也称为生产者-消费者问题)是一种常见的并发编程模型,用于处理多线程或多进程之间的协同工作。该模型涉及两个主要角色:生产者和消费者,一个次要角色:缓冲区。 生…

18 内核开发-内核重点数据结构学习

课程简介: Linux内核开发入门是一门旨在帮助学习者从最基本的知识开始学习Linux内核开发的入门课程。该课程旨在为对Linux内核开发感兴趣的初学者提供一个扎实的基础,让他们能够理解和参与到Linux内核的开发过程中。 课程特点: 1. 入门级别&…

办公数据分析利器:Excel与Power Query透视功能

数据分析利器:Excel与Power Query透视功能 Excel透视表和Power Query透视功能是强大的数据分析工具,它们使用户能够从大量数据中提取有意义的信息和趋势,可用于汇总、分析和可视化大量数据。 本文通过示例演示Power Query透视功能的一个小技…

Linux专栏08:Linux基本指令之压缩解压缩指令

博客主页:Duck Bro 博客主页系列专栏:Linux专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ Linux基本指令之压缩解压缩指令 编号:08 文章目录 Linu…

Spring Boot与OpenCV:融合机器学习的智能图像与视频处理平台

🧑 作者简介:阿里巴巴嵌入式技术专家,深耕嵌入式人工智能领域,具备多年的嵌入式硬件产品研发管理经验。 📒 博客介绍:分享嵌入式开发领域的相关知识、经验、思考和感悟,欢迎关注。提供嵌入式方向…

【模板】二维前缀和

原题链接:登录—专业IT笔试面试备考平台_牛客网 目录 1. 题目描述 2. 思路分析 3. 代码实现 1. 题目描述 2. 思路分析 二维前缀和板题。 二维前缀和:pre[i][j]a[i][j]pre[i-1][j]pre[i][j-1]-pre[i-1][j-1]; 子矩阵 左上角为(x1,y1) 右下角(x2,y2…

PG控制文件的管理与重建

一.控制文件位置与大小 逻辑位置:pgpobal 表空间中 物理位置:$PGDATA/global/pg_control --pg_global表空间的物理位置就在$PGDATA/global文件夹下 物理大小:8K 二.存放的内容 1.数据库初始化的时候生成的永久化参数,无法更改…

brpc中http2 grpc协议解析

搭建gRPC服务 | bRPC https://blog.csdn.net/INGNIGHT/article/details/132657099 global.cpp http2_rpc_protocol.cpp ParseH2Message解析frame header信息 ParseResult H2Context::ConsumeFrameHead( 这个是固定长度的9字节帧头部,length是,3*8bit…

Mysql技能树学习

查询进阶 别名 MySQL支持在查询数据时为字段名或表名指定别名&#xff0c;指定别名时可以使用AS关键字。 BETWEEN AND条件语句 mysql> SELECT * FROM t_goods WHERE id BETWEEN 6 AND 8; 查询特定数据 &#xff08;CASE&#xff09; select name,case when price <…

Linux 麒麟系统安装

国产麒麟系统官网地址&#xff1a; https://www.openkylin.top/downloads/ 下载该镜像后&#xff0c;使用VMware部署一个虚拟机&#xff1a; 完成虚拟机创建。点击&#xff1a;“开启此虚拟机” 选择“试用试用开放麒麟而不安装&#xff08;T&#xff09;”&#xff0c;进入op…

Cisco Firepower FTD生成troubleshooting File

在出现故障时&#xff0c;需要采集信息 FMC上需要采集对应FTD设备的troubleshooting file system -->health -->monitor 选择相应的FTD&#xff0c;右侧点 generate Generate 4 右上角小红点点开 选择里面的task,就可以看到进度&#xff0c;差不多要10分钟以上 5 完成后…

基于51单片机的交通灯设计—可调时间、夜间模式

基于51单片机的交通灯设计 &#xff08;仿真&#xff0b;程序&#xff0b;原理图&#xff0b;设计报告&#xff09; 功能介绍 具体功能&#xff1a; 1.四方向数码管同时显示时间&#xff1b; 2.LED作红、绿、黄灯 3.三个按键可以调整红绿灯时间&#xff1b; 4.夜间模式&am…

IDEA上文件换行符、分隔符(Line Separator)LF,CR,CRLF错乱影响Git上传Github或Gitee代码

IDEA上文件换行符、分隔符(Line Separator)LF&#xff0c;CR&#xff0c;CRLF错乱影响Git上传Github或Gitee代码 指定目录 然后就可以上传了 OK 一定注意更改Line Separator的文件目录 如果是target目录下的文件,是不能修改为LF的,把target文件删除,再重载一次main文件,就…

FFmpeg学习记录(二)—— ffmpeg多媒体文件处理

1.日志系统 常用的日志级别&#xff1a; AV_LOG_ERRORAV_LOG_WARNINGAV_LOG_INFOAV_LOG_DEBUG #include <stdio.h> #include <libavutil/log.h>int main(int argc, char *argv[]) {av_log_set_level(AV_LOG_DEBUG);av_log(NULL, AV_LOG_DEBUG, "hello worl…

【软考高项】三十一、成本管理4个过程

一、规划成本管理 1、定义、作用 定义&#xff1a;确定如何估算、预算、管理、监督和控制项目成本的过程作用&#xff1a;在整个项目期间为如何管理项目成本提供指南和方向 应该在项目规划阶段的早期就对成本管理工作进行规划&#xff0c;建立各成本管理过程的基本框架&…

RKNN Toolkit2 工具的使用

RKNN Toolkit2 是由瑞芯微电子 (Rockchip) 开发的一套用于深度学习模型优化和推理的工具。它主要面向在瑞芯微SoC上进行AI应用开发&#xff0c;但也可以用于PC平台进行模型的转换、量化、推理等操作。它支持将多种深度学习框架的模型&#xff08;如Caffe, TensorFlow, PyTorch等…