数据挖掘 关联规则分析

好久没学宋老师的数据挖掘了,今天补一下

###第一题
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori, association_rules#                               文件中没有列名  文件中的数据按空格分隔
df = pd.read_csv("mushroom.dat", header=None, sep=' ')# 提取只有毒蘑菇的数据
ind = (df.iloc[:, 0]==2) # 设置筛选条件
df = df.loc[ind] # 对数据进行筛选
# print(df)df= df.iloc[:,:-1].values.tolist() # 将数据集先转换为数组再转换为列表,确保数据的格式和结构得到正确地转换# # 使用TransactionEncoder进行编码
te = TransactionEncoder() # 将数据集转换为一种适合于使用 Apriori 算法进行频繁项集挖掘的交易矩阵格式
te_ary = te.fit(df).transform(df)# 先拟合数据再进行数据格式的转换
# print(te_ary)
df = pd.DataFrame(te_ary, columns=te.columns_)# 进行频繁项集挖掘
freq_itemsets = apriori(df, min_support=0.6)# 打印结果
print(freq_itemsets)###第二题
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori, association_ruleste = TransactionEncoder()
df = pd.read_excel("cancer.xls")# 将数据集进行分箱
#                                                                                                                  使左区间闭合
df["肝气郁结证型系数"] = pd.cut(df["肝气郁结证型系数"], [0, 0.179, 0.258, 0.35, 0.504], labels=["A1", "A2", "A3", "A4"],include_lowest=True)
df["热毒蕴结证型系数"] = pd.cut(df["热毒蕴结证型系数"], [0, 0.15, 0.296, 0.485, 0.78], labels=["B1", "B2", "B3", "B4"],include_lowest=True)
df["冲任失调证型系数"] = pd.cut(df["冲任失调证型系数"], [0, 0.201, 0.288, 0.415, 0.61], labels=["C1", "C2", "C3", "C4"],include_lowest=True)
df["气血两虚证型系数"] = pd.cut(df["气血两虚证型系数"], [0, 0.172, 0.251, 0.357, 0.552], labels=["D1", "D2", "D3", "D4"],include_lowest=True)
df["脾胃虚弱证型系数"] = pd.cut(df["脾胃虚弱证型系数"], [0, 0.154, 0.256, 0.375, 0.526], labels=["E1", "E2", "E3", "E4"],include_lowest=True)
df["肝肾阴虚证型系数"] = pd.cut(df["肝肾阴虚证型系数"], [0, 0.178, 0.261, 0.353, 0.607], labels=["F1", "F2", "F3", "F4"],include_lowest=True)
# 转换数据
df = df.values.tolist()
# 使数据符合TransactionEncoder
te_ary = te.fit(df).transform(df)df = pd.DataFrame(te_ary, columns=te.columns_)
# 进行频繁项集挖掘
#                                           使用列名而不是列索引使数据呈现更直观
fre_itemset = apriori(df, min_support=0.06, use_colnames=True)# 进行关联规则挖掘
# association_rules:生成关联规则
# "confidence"是用于衡量关联规则强度的指标之一,它表示当一个项集出现时另一个项集也同时出现的概率。
# min_threshold=1:只有完全确凿的关联规则会被返回
# support_only=False:除了置信度之外,还会计算支持度等指标
rules = association_rules(fre_itemset, metric='confidence', min_threshold=1, support_only=False)
# 获取关联规则的后项,包括项集、支持度、置信度、Lift等
consequents = rules['consequents']
#                         检查每个集合是否包含元素H4
idx = consequents.apply(lambda x: 'H4' in set(x))
# 挑选出符合关联规则的集合
aim_rules = rules[idx]
print(aim_rules)# 项集:单个项集(Singleton Itemset):包含单个物品或特征的集合,例如 {苹果}、{橙子}、{香蕉} 等。
#      频繁项集(Frequent Itemset):在数据集中频繁出现的项集,也就是经常以某种组合出现的物品集合。频繁项集的发现是关联规则挖掘的重要任务之一,它能够揭示数据中的潜在模式和关联关系。
# 支持度:支持度是衡量某个项集在整个数据集中出现的频率,通过支持度可以确定哪些项集是频繁的
# 置信度:置信度可以理解为在包含项集 X 的事务中,同时包含项集 Y 的比例。

Apriori具体的实现的方法我还不会,等我以后水平达到了进行深入的学习后,就发出来

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/143463.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ubuntu安装Python环境(使用VSCode)

想在Ubuntu上安装Python环境,选择了VSCode,而不想多装Anaconda等环境,最后参考了这篇博客: python入门开发:ubuntu下搭建python开发环境(vscode)

Linux文件系统之inode

文章目录 1. 磁盘1.1 认识磁盘1.2 磁盘物理构造1.3 磁盘逻辑结构 2. 文件系统3. 如何理解目录 1. 磁盘 1.1 认识磁盘 文件 内容 属性,而文件是存储在磁盘上,那么可以理解为磁盘上存储的文件 存储的文件内容 存储的文件属性。 文件的内容采用的是块式…

kube-bench-CIS基准的自动化扫描工具学习

仓库地址:GitHub - aquasecurity/kube-bench: Checks whether Kubernetes is deployed according to security best practices as defined in the CIS Kubernetes Benchmark kube-bench,检查 Kubernetes 是否根据 CIS Kubernetes 基准中定义的安全最佳实践部署,下载…

应用协议安全:Rsync-common 未授权访问.

应用协议安全:Rsync-common 未授权访问. Rsync 是 Linux 下一款数据备份工具,支持通过 rsync 协议、ssh 协议进行远程文件传输。其中 rsync 协议默认监听 873 端口,如果目标开启了 rsync 服务,并且没有配置 ACL 或访问密码&#…

Redis05-集群方案

目录 Redis集群方案 主从复制 主从复制的基本原理 主从复制的工作流程 乐观复制 主从复制的优势 哨兵机制 哨兵的关键作用 服务状态监控 哨兵选举Master规则 分片集群 分片集群中的数据读写 数据写入 数据读取 一致性哈希和客户端分片 Redis集群方案 微服务时代…

TDengine 与煤科院五大系统实现兼容性互认,助力煤矿智能化安全体系搭建

近日,涛思数据与煤炭科学技术研究院(以下简称煤科院)已完成数个产品兼容互认证工作,经双方共同严格测试,涛思数据旗下物联网、工业大数据平台 TDengine V3.X 与煤炭科学技术研究院旗下煤矿复合灾害监测监控预警系统、煤…

Elasticsearch docker-compose 使用 Logstash 从 JSON 文件中预加载数据

在我们创建 Elasticsearch 进行开发时,最简单的办法就是在本地使用 docker-compose 来一键部署一个 Elasticsearch 集群。有时,特别是在准备测试环境时,开发人员希望从一开始就创建包含一些测试数据的数据库容器。我们可以使用 Logstash 来很…

JavaScript + setInterval实现简易数据轮播效果

项目场景: 根据不同分类数据,实现数据TOP榜轮播。比如,这里有20种类型,满足这20种类型下的TOP详情数据轮播渲染。 问题描述 提示:重点是后端接口无法满足全量分类的TOP排行数据量,这里只能前端根据不同分类…

什么是自动化测试框架?

无论是在自动化测试实践,还是日常交流中,经常听到一个词:框架。之前学习自动化测试的过程中,一直对“框架”这个词知其然不知其所以然。 最近看了很多自动化相关的资料,加上自己的一些实践,算是对“框架”…

Oracle 监控的指标有哪些和oracle巡检的内容

日常监控指标: 性能指标: 查询响应时间CPU利用率内存利用率磁盘 I/O 活动网络吞吐量 空间管理: 表空间使用率数据文件增长情况Undo 表空间使用率临时表空间使用率 会话和连接: 活跃会话数等待事件监控连接数和连接池效率 数据库对…

使用python电脑轻量级控制手机—adb命令和手机投屏

文章目录 一、通过无线连接手机和电脑二、使用adb命令轻量级控制手机二、使用scrcpy控制手机 通过电脑控制手机有多种方式如appnium等,本文介绍的是两种轻量级的方案,使用adb命令刚和手机投屏。 一、通过无线连接手机和电脑 1、手机设置 开发者选项—us…

使用 MATLAB HDL Coder 和 FPGA 快速实现自动白平衡(AWB)

使用 MATLAB HDL Coder 和 FPGA 快速实现自动白平衡(AWB) 在此项目中,我们将使用 MATLAB Simulink 和 HDL 编码器创建自定义 IP -- AWB。 MATLAB 设计 自动白平衡模块的设计是使用 HDL Coder 在 MATLAB 和 Simulink 中创建的。HDL Coder能够生…

11.15 知识总结(模板层、模型层)

一、 模板层 1.1 过滤器 1.什么是过滤器? 过滤器类似于python的内置函数,用来把变量值加以修饰后再显示。 2. 语法 1、 {{ 变量名|过滤器名 }} 2、链式调用:上一个过滤器的结果继续被下一个过滤器处理 {{ 变量名|过滤器1|过滤器2 }} 3、有的过…

idea中搭建Spring boot项目(借助Spring Initializer)

创建新项目 启动端口 在项目配置文件application.properties中写入 #启动端口server.port8088编写测试方法 创建控制类文件夹–>便于规范我们新建一个controller包–>建一个HelloWorld.class package com.example.hellospringboot.controller;import org.springframew…

Linux下MSSQL (SQL Server)数据库无法启动故障处理

有同事反馈一套CentOS7下的mssql server2017无法启动需要我帮忙看看,启动报错情况如下 检查日志并没有更新日志信息 乍一看mssql-server服务有问题,检查mssql也确实没有进程 既然服务有问题,那么我们用一种方式直接手工后台启动mssql引擎来…

arcgis--填充面域空洞

方法一:使用【编辑器】-【合并工具】进行填充。首选需要在相同图层中构造一个填充空洞的面域,然后利用【合并】工具进行最后填充。 打开一幅含有空洞的矢量数据,如下: 打开【开始编辑】-【构造工具】-【面】进行覆盖空洞的面域的…

时间序列预测实战(九)PyTorch实现LSTM-ARIMA融合移动平均进行长期预测

一、本文介绍 本文带来的是利用传统时间序列预测模型ARIMA(注意:ARIMA模型不属于机器学习)和利用PyTorch实现深度学习模型LSTM进行融合进行预测,主要思想是->先利用ARIMA先和移动平均结合处理数据的线性部分(例如趋势和季节性&#xff09…

[html] 动态炫彩渐变背景

废话不多说&#xff0c;直接上源码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>ZXW-NUDT: 动态炫…

CF1324F题解

题目大意 给出一颗 n n n个节点的无根树&#xff0c;每个节点有一个颜色 a u a_u au​&#xff0c;如果 a u 0 a_u0 au​0则为黑色&#xff0c;否则为白色。 对于每个节点 u u u&#xff0c;选出一个包含 u u u的联通子图&#xff0c;设子图中白点个数为 c n t 1 cnt_1 cnt1…

如何在 macOS 中删除 Time Machine 本地快照

看到这个可用82GB&#xff08;458.3MB可清除&#xff09; 顿时感觉清爽&#xff0c;之前的还是可用82GB&#xff08;65GB可清除&#xff09;&#xff0c;安装个xcode都安装不上&#xff0c;费解半天&#xff0c;怎么都解决不了这个问题&#xff0c;就是买磁盘情理软件也解决不了…