【数据分析】在Python中,使用apriori算法挖掘药材的频繁项集,并挖掘关联规则

本文代码及数据下载

文章目录

  • 使用Pandas和Mlxtend进行关联分析:从药物处方数据到关联规则
    • 开始之前
    • 加载和准备数据
    • 发现频繁项集
    • 生成关联规则
    • 美化输出
    • 保存结果到Excel
    • 绘制关联规则网络图

使用Pandas和Mlxtend进行关联分析:从药物处方数据到关联规则

关联规则分析是一个用于发现变量之间相互关联或相互依赖性的有用工具,它在市场分析、生物信息学、产品推荐、医疗诊断等领域有广泛的应用。

在本教程中,我们将探讨如何使用Python的pandasmlxtend库从药物处方数据中发现频繁项集和生成关联规则。

开始之前

确保你已经安装了pandasmlxtend库。如果没有,你可以通过以下pip命令安装:

pip install pandas mlxtend

加载和准备数据

首先,我们使用pandas库读取处方数据。这里我们假设有一个名为处方与对应的药物(用于频繁项集与关联分析).xlsx的Excel文件,包含了药物处方的数据集。

import pandas as pd# 示例数据集
data = pd.read_excel(r'处方与对应的药物(用于频繁项集与关联分析).xlsx')df = pd.DataFrame(data)

发现频繁项集

使用mlxtend.frequent_patterns中的apriori方法可以帮助我们找到频繁项集。这里,min_support参数是我们用来定义项集出现频率的最小阈值。在本例中,我们设置为0.01,意味着所有出现频率至少为1%的项集都会被考虑。

from mlxtend.frequent_patterns import apriorifrequent_itemsets = apriori(df, min_support=0.01, use_colnames=True)print(frequent_itemsets)

生成关联规则

一旦我们有了频繁项集,就可以使用association_rules方法来生成关联规则。这里,我们通过设置metricconfidencemin_threshold为0.1,来找出至少有10%置信度的规则。

from mlxtend.frequent_patterns import association_rulesrules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.1)

美化输出

默认情况下,antecedentsconsequents列会以frozenset对象的形式呈现。为了更友好的展示,我们可以通过应用lambda函数,将它们转换为逗号分隔的字符串。

rules['antecedents'] = rules['antecedents'].apply(lambda x: ', '.join(list(x)))
rules['consequents'] = rules['consequents'].apply(lambda x: ', '.join(list(x)))

保存结果到Excel

最后,我们将关联规则保存到一个Excel文件中。这样不仅可以方便地查看这些规则,而且还避免了frozenset对象的直接输出问题。

rules.to_excel('关联规则分析结果.xlsx', index=False)

打印部分关联规则以供预览:

print(rules[['antecedents', 'consequents', 'support', 'confidence', 'lift']])

至此,我们完成了从加载数据、发现频繁项集到生成和保存关联规则的整个过程。

绘制关联规则网络图

因为Python中并没有很方便的接口直接绘制,所以作者自行实现了一个函数,以网络的形式可视化了各个中药材的置信度的强度。

代码量相对大,请看这篇文章

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/734280.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis的HyperLogLog原理介绍

Redis 的 HyperLogLog 数据结构实现了一种基于概率的基数估算算法,用于在占用极小内存的情况下估算一个集合中不重复元素(唯一值)的数量。以下是 HyperLogLog 算法的基本原理: 哈希函数: HyperLogLog 使用一个强散列函…

小程序网页view多行文本超出隐藏或显示省略号

实现效果: 限制两行,超出即显示省略号 实现:话不多说,展示代码 关键代码 .box{ width:100rpx; overflow:hidden; text-overflow: ellipsis;//超出省略号 display:-webkit-box; -webkit-line-clamp: 2;//显…

RabbitMQ - 03 - Work消息模型

目录 部署demo项目 什么是Work消息模型 实现Work消息模型 1.创建队列 2.生产者代码 3.消费者代码 4.配置yml 部署demo项目 通过消息队列demo项目进行练习 相关配置看此贴 http://t.csdnimg.cn/hPk2T 注意 生产者消费者的yml文件也要配置好 什么是Work消息模型 工作…

Arcgis小技巧【20】——属性表有东西,缩放至图层却看不到?

一、问题分析 这是一个看似正常的要素类数据,打开它的属性表,里面有一行要素: 说明这不是空数据。 回到地图界面,在图层列表中,右键单击,点击【缩放至图层】。 使用过这个功能的应该知道,点击…

快速上手:使用Hexo搭建并自定义个人博客

🌟 前言 欢迎来到我的技术小宇宙!🌌 这里不仅是我记录技术点滴的后花园,也是我分享学习心得和项目经验的乐园。📚 无论你是技术小白还是资深大牛,这里总有一些内容能触动你的好奇心。🔍 &#x…

Linux常用操作命令-防火墙常用操作

一、防火墙常用操作 1、查看防火墙的状态; systemctl status firewalld 2、启动防火墙 systemctl start firewalld.service 3、开启某个端口,如8081端口,输入命令 firewall-cmd --zonepublic --add-port8088/tcp --permanent 4、删除某个…

Linux第74步_“设备树”下的LED驱动

使用新字符设备驱动的一般模板,以及设备树,驱动LED。 1、添加“stm32mp1_led”节点 打开虚拟机上“VSCode”,点击“文件”,点击“打开文件夹”,点击“zgq”,点击“linux”,点击“atk-mp1”&am…

AHU 数据库 实验四

【实验名称】 实验4 数据库的嵌套查询和集合查询 【实验目的】 1. 理解并掌握子查询的概念和作用; 2. 掌握DBMS 实现嵌套查询的基本方法和应用; 3. 掌握DBMS 实现集合查询的基本方法和应用; 4. 学习、掌握并熟练…

selenium-java 通过配置xml文件并发运行类或者方法

1、打开idea允许某个class类,可以在控制台看到运行路径的下的配置文件如下图: 2、将路径复制到本地路径中找到temp-testng-customsuite.xml文件 3、复制该文件到项目的根目录下,可以修改文件名称,如下图 4、如图所示,通…

Unity UGUI之InputField(TMP)基本了解

Unity的InputField组件是用于在Unity中创建可供用户输入文本的输入框的UI组件。通过InputField组件,可以让用户在运行时输入文本,比如用户名、密码、搜索关键字等。其中TMP版本的InputField是基于TextMeshPro的InputField组件,提供了更多的文…

C++字符串操作【超详细】

零.前言 本文将重点围绕C的字符串来展开描述。 其中,对于C/C中字符串的一些区别也做出了回答,并对于C的(string库)进行了讲解,最后我们给出字符串的不同表达形式。 开发环境: VS2022 一.字符串常量跟字…

运维随录实战(12)之node版本管理工具nvm

1,下载安装nvm 可以去其 github 主页下在,地址为 github.com/coreybutler…会看到有很多个文件可供选择: 这里稍做下解释: nvm-noinstall.zip: 这个是绿色版本,不需要安装,但是使用之前需要配置环境变量;nvm-setup.zip:推荐下载这个包,无需配置就可以使用;Source …

Rust 的 std::error::Error

std::error::Error 是 Rust 标准库中的一个 trait,它定义了一个通用的错误处理接口。在 Rust 中,错误处理是一个重要的部分,而 Error trait 使得不同类型的错误可以以一种统一的方式被处理。 Error trait 的定义 Error trait 定义非常简单&…

Git版本工具学习

目录 版本控制git配置工作区域文件状态git对象模型基础命令.gitignore忽略文件IDEA集成Git 版本控制 本地版本控制:在本地记录每一次版本更新。 集中版本控制:版本数据都保存在单一服务器,不联网就看不到版本信息。SVN 分布式版本控制&…

虚函数与纯虚函数有什么区别?

总的来说有两点区别: 1.虚函数的作用主要是矫正指针(口语化的说法) 2.虚函数不一定要重新定义,纯虚函数一定要定义(口语化的说法) 1). 虚函数的作用主要是矫正指针,使得基类的指针…

w7安装高版本nodejs

Win7系统可直接安装的最高nodejs版本为13.14,以为要换系统了,不过,网上找到了方法可以安装高版本 我是配置好环境变量后开始操作的(因为之前试了其他方法,没成功,环境变量就留下了) 新建变量NO…

Java中常用的集合及方法(3)

1、List(接上级--常用方法示例补充) 1.4 常用的方法 1.4.2 LinkedList(JDK8) LinkedList是Java中一个实现了List接口和Deque接口的类,它采用链表结构存储数据,支持高效的插入和删除操作。 LinkedList中…

3647. 惠民工程,并查集

市政府“惠民工程”的目标是在全市 n 个居民点间之架设煤气管道(但不一定有直接的管道相连,只要能间接通过管道可达即可)。很显然最多可架设 n(n−1)/2 条管道,然而实际上要连通 n 个居民点只需架设 n−1 条管道就可以了。现请你编…

win10阿里云实现内网穿透#frp

win10&阿里云实现内网穿透#frp 文章目录 win10&阿里云实现内网穿透#frp一、什么是内网穿透?下载frp 二、云服务端部署frps三、本地部署frpc 一、什么是内网穿透? 内网穿透是一种网络技术,它允许外部网络用户通过互联网访问局域网&am…

【Java核心能力】RateLimiter 限流底层原理解析

欢迎关注公众号(通过文章导读关注:【11来了】),及时收到 AI 前沿项目工具及新技术的推送! 在我后台回复 「资料」 可领取编程高频电子书! 在我后台回复「面试」可领取硬核面试笔记! 文章导读地址…