【频繁模式挖掘】FP-Tree算法(附Python实现)

一、实验内容简介

该实验主要使用频繁模式和关联规则进行数据挖掘,在已经使用过Apriori算法挖掘频繁模式后,这次使用FP-tree算法来编写和设计程序,依然使用不同规模的数据集来检验效果,最后分析和探讨实验结果,看其是否达到了理想的效果。本实验依然使用Python语言编写。

二、算法说明

首先简单介绍频繁模式关联规则

  • 频繁模式一般是指频繁地出现在数据集中的模式。

  • 关联规则是形如X→Y的蕴涵表达式,其中X和Y是不相交的项集,即X∩Y=∅。关联规则的强度可以用它的支持度(support)和置信度(confidence)来度量。计算公式如下:

  • 支持度:support(A=>B)=P(A∪B),表示A和B同时出现的概率。

  • 置信度:confidence(A=>B)=support(A∪B)/support(A),表示A和B同时出现的概率占A出现概率的比值。

  • 强关联规则是指达到了最小支持度和最小置信度的关联规则。

然后再介绍FP-Tree算法

2000年,Han Jiawei等人提出了基于频繁模式树(Frequent Pattern Tree, FP—Tree)的发现频繁模式的算法FP-Growth。其思想是构造一棵FP-Tree,把数据集中的数据映射到树上,再根据这棵FP-Tree找出所有频繁项集。

FP-Growth算法是指,通过两次扫描事务数据集,把每个事务所包含的频繁项目按其支持度降序压缩存储到FP-Tree中。在以后发现频繁模式的过程中,不需要再扫描事务数据集,而仅在FP-Tree中进行查找即可。通过递归调用FP-Growth的方法可直接产生频繁模式,因此在整个发现过程中也不需产生候选模式。由于只对数据集扫描两次,因此FP-Growth算法克服了Apriori算法中存在的问题,在执行效率上也明显好于Apriori算法。

image-20240407103431324

上图为FP-Tree示意图,展示了该数据结构的构成方式。

三、算法分析与设计

了解完算法的基本原理后,现在开始真正实现该算法。首先需要读取最小支持度,读取数据集。这里的数据集可大可小,我用Python中的字典来表示数据

这里的数据存储格式与之前写Apriori算法时一样,使用字典来存储。然后由用户来输入支持度和置信度(因为这次还要挖掘关联规则,所以增加了置信度输入)。

作为FP-Tree的基础,首先构建树节点。一个节点有四个基本属性,分别节点名称、出现次数、双亲节点和孩子节点。因为这里不是二叉树,树的孩子节点个数不确定,因此用字典来存储,大小可控。

class Node:def __init__(self, value, parent, count=0):self.value = valueself.parent = parentself.count = countself.children = {}def addChild(self, child):self.children.update(child)def __init__(self, value, parent, count=0):

前置准备完成后,开始实现FP-Tree算法。FP-Tree算法可大致分为构建项头表、构建FP-Tree、利用条件模式基挖掘频繁模式和关联规则几步。把这几步集成到一个类中,这样避免了大量函数传参操作,思路更清晰。

首先构建项头表,先扫描一遍数据集挖掘频繁1项集,挖掘出来的数据按支持度降序排列,并按此顺序重新排列原数据集的数据,对于不符合要求的数据直接删除。

    def first_scan(self):"""生成项头表,整理数据"""Dict = dict()for i in self.data.values():for j in i:if j not in Dict.keys():Dict.update({j: 1})else:Dict[j] += 1self.first_list = list(Dict.items())self.first_list.sort(key=lambda l: l[1], reverse=True)for i in range(len(self.first_list) - 1, 0, -1):if self.first_list[i][1] < self.support * len(self.data):continueelse:rubbish = [self.first_list[j][0] for j in range(i + 1, len(self.first_list))]self.first_list = self.first_list[:i + 1]break# 将原来的数据重新按支持度排序并剔除非频繁1项集sort_refer = [i[0] for i in self.first_list]for i in self.data.values():for j in i:if j in rubbish:i.remove(j)i.sort(key=lambda l: sort_refer.index(l))# 添加频繁1项集self.pinfan.extend([list(i) for i in self.first_list])# 整理项头表self.value_list = [i[0] for i in self.first_list]temp = {}for i in self.first_list:temp.update({i[0]: []})self.first_list = temp

然后构建FP-Tree。这里的过程就比较复杂了,简要说明步骤。第二次遍历数据集,从上往下构建分支,每次若遇到之前没出现的节点,就新建一个新节点,同时更新FP-Tree和项头表,若遇到之前已经出现的节点,则该节点的次数加一。特殊的根节点不需要存储任何数据,只需要存储孩子节点。

    def first_scan(self):"""生成项头表,整理数据"""Dict = dict()for i in self.data.values():for j in i:if j not in Dict.keys():Dict.update({j: 1})else:Dict[j] += 1self.first_list = list(Dict.items())self.first_list.sort(key=lambda l: l[1], reverse=True)for i in range(len(self.first_list) - 1, 0, -1):if self.first_list[i][1] < self.support * len(self.data):continueelse:rubbish = [self.first_list[j][0] for j in range(i + 1, len(self.first_list))]self.first_list = self.first_list[:i + 1]break# 将原来的数据重新按支持度排序并剔除非频繁1项集sort_refer = [i[0] for i in self.first_list]for i in self.data.values():for j in i:if j in rubbish:i.remove(j)i.sort(key=lambda l: sort_refer.index(l))# 添加频繁1项集self.pinfan.extend([list(i) for i in self.first_list])# 整理项头表self.value_list = [i[0] for i in self.first_list]temp = {}for i in self.first_list:temp.update({i[0]: []})self.first_list = temp

然后基于FP-Tree同时挖掘频繁模式和关联规则。利用项头表,从支持度低的元素到支持度高的元素,找到该元素在FP-Tree的所有位置,然后自底向上读取其所有祖先节点(除了根节点),同时把出现的次数都改为该元素所对应节点的次数。挖掘出结果后,先剔除掉不满足支持度要求的项,再通过两两组合挖掘出频繁2项集,然后递归挖掘出频繁多项集。同时两两组合算出条件概率与置信度比较,挖掘出1对1的关联规则。

这里涉及到的操作最为复杂,代码量也最大,分了三个方法来实现。

# 详见附录
def find(self):
def cal(self, Dict: dict, delete=False, length=1):
def rules(self, Dict: dict):

四、测试结果

写完代码后,就又到了测试环节。分别测试正确性和性能。在测试性能的时候也会与Apriori算法做比较,以更好地感受到FP-Tree算法的高效性。

首先验证正确性。我使用了教材上的数据集来验证。

img

先给定0.5的支持度和0.75的置信度:

img

经过验证是正确的,再给定0.2的支持度和0.5的置信度:

img

可以看到输出结果大大增加,经过验证也是正确的。

接下来就要扩大数据集的容量了,这样才能分析算法的性能。这里再次使用随机变量来模拟大量的数据:

img

在这里,arr和data2都可以修改,arr可以修改其中的元素来改变权重,data2可以修改数量,这里统一使用0.5作为支持度,0.75作为置信度。

首先用100000的数据来测试:

img

可以看到,一共花了0.288秒。相比其他条件相同下的Apriori算法是1.7秒。

然后把数据量变为1000000来试试:

img

一共花了2.845秒,相比同期Apriori算法一共花了15.58秒。

然后把数据量变为10000000来试试:

img

一共花了28.054秒,相比同期Apriori算法一共花了171.1秒。

最后再把数据量变为一亿,下图是最终结果。

img

差不多跑了8分钟,同期Apriori算法半个小时也没跑出来。可以看出,两个算法所耗费的时间都随时间呈线性增长,但FP-Tree算法显然效率比Apriori算法高得多。

五、分析与探讨

测试完算法后,来分析它的性能,思考FP-Tree算法的优势和缺陷。与Apriori算法相比,FP-Tree算法改进了Apriori算法的I/O瓶颈,巧妙的利用了树结构。Apriori的核心思路是用两个长度为l的频繁项集去构建长度为l+1的频繁项集,而FP-growth则稍有不同。它是将一个长度为l的频繁项集作为前提,筛选出包含这个频繁项集的数据集。用这个数据集构建新的FP-tree,从这个FP-tree当中寻找新的频繁项。如果能找到,那么说明它可以和长度为l的频繁项集构成长度为l+1的频繁项集。然后,我们就重复这个过程。

FP-Tree算法无论从复杂度还是实现难度还是具体技术点来看都比Apriori算法更复杂,但复杂度提高此带来的好处则是更高的效率和更好的性能。二者均为频繁模式挖掘的经典算法,都有必要学习和掌握,期待未来还能不断开发出挖掘频繁模式更加高效的算法。

附录:源代码

# 使用FP-tree实现频繁模式和关联规则挖掘
import itertools
import random
from time import time# 构建树的节点
class Node:def __init__(self, value, parent, count=0):self.value = valueself.parent = parentself.count = countself.children = {}def addChild(self, child):self.children.update(child)# 构建FP-tree
class FP_tree:def __init__(self, data, support, confidence):self.data = dataself.first_list = []self.value_list = []self.support = supportself.confidence = confidenceself.tree = Noneself.pinfan = []self.rule = []def first_scan(self):"""生成项头表,整理数据"""Dict = dict()for i in self.data.values():for j in i:if j not in Dict.keys():Dict.update({j: 1})else:Dict[j] += 1self.first_list = list(Dict.items())self.first_list.sort(key=lambda l: l[1], reverse=True)for i in range(len(self.first_list) - 1, 0, -1):if self.first_list[i][1] < self.support * len(self.data):continueelse:rubbish = [self.first_list[j][0] for j in range(i + 1, len(self.first_list))]self.first_list = self.first_list[:i + 1]break# 将原来的数据重新按支持度排序并剔除非频繁1项集sort_refer = [i[0] for i in self.first_list]for i in self.data.values():for j in i:if j in rubbish:i.remove(j)i.sort(key=lambda l: sort_refer.index(l))# 添加频繁1项集self.pinfan.extend([list(i) for i in self.first_list])# 整理项头表self.value_list = [i[0] for i in self.first_list]temp = {}for i in self.first_list:temp.update({i[0]: []})self.first_list = tempdef build_tree(self):"""建立FP-tree:return:fp-tree"""root = Node('root', None)parent = rootfor i in self.data.values():for j in i:# 更新树和项头表head = self.first_listif j not in parent.children.keys():node = Node(j, parent, 1)temp = {j: node}parent.addChild(temp)head[j].append(node)else:parent.children[j].count += 1parent = parent.children[j]parent = rootself.tree = rootdef find(self):"""利用建立好的树挖掘频繁模式"""for i in self.value_list[::-1]:i_dict = {}for j in self.first_list[i]:k = jcount = j.countwhile k != None:if k.value not in i_dict.keys():i_dict[k.value] = countelse:i_dict[k.value] += countk = k.parentdel i_dict['root']self.cal(i_dict, True)def cal(self, Dict: dict, delete=False, length=1):if delete:# 预处理,删去支持度低的项d = Dict.copy()for i, j in d.items():if j < self.support * len(self.data):del Dict[i]if length == 1:self.rules(Dict)# 递归挖掘频繁模式if length <= len(Dict):l = list(Dict.keys())pinfan = [l[0], Dict[l[0]]]del l[0]result = itertools.combinations(l, length)for i in result:p = pinfan.copy()for j in i:p.insert(-1, j)if Dict[j] < p[-1]:p[-1] = Dict[j]p[0:-1] = p[-2::-1]self.pinfan.append(p)self.cal(Dict, length=length + 1)def rules(self, Dict: dict):"""只生成1对1的关联规则:param Dict:数据源"""if len(Dict) > 1:l = list(Dict.keys())for i in l[1:]:if min(Dict[l[0]], Dict[i]) / Dict[l[0]] > self.confidence:self.rule.append(f"{l[0]}=>{i}")def __str__(self):"""输出频繁模式:return: 所有的频繁模式"""print("1对1的关联规则:" + str(self.rule))self.pinfan.sort(key=lambda l: (len(l), l[-1]), reverse=True)return "所有的频繁模式:" + str(self.pinfan)if __name__ == '__main__':data = {1: ['牛奶', '鸡蛋', '面包', '薯片'],2: ['鸡蛋', '爆米花', '薯片', '啤酒'],3: ['牛奶', '面包', '啤酒'],4: ['牛奶', '鸡蛋', '面包', '爆米花', '薯片', '啤酒'],5: ['鸡蛋', '面包', '薯片'],6: ['鸡蛋', '面包', '啤酒'],7: ['牛奶', '面包', '薯片'],8: ['牛奶', '鸡蛋', '面包', '黄油', '薯片'],9: ['牛奶', '鸡蛋', '黄油', '薯片'],10: ['鸡蛋', '薯片']}arr = ['牛奶', '面包', '鸡蛋', '馒头', '包子', '饼干']support = float(input('请输入最小支持度:'))confidence = float(input('请输入最小置信度:'))data2 = {i: [random.choice(arr) for j in range(10)] for i in range(100000)}begin = time()f = FP_tree(data2, support, confidence)f.first_scan()f.build_tree()f.find()print(f)print("总花费时间为%.3f秒" % (time() - begin))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/800519.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

初学python记录:力扣2009. 使数组连续的最少操作数

题目&#xff1a; 给你一个整数数组 nums 。每一次操作中&#xff0c;你可以将 nums 中 任意 一个元素替换成 任意 整数。 如果 nums 满足以下条件&#xff0c;那么它是 连续的 &#xff1a; nums 中所有元素都是 互不相同 的。nums 中 最大 元素与 最小 元素的差等于 nums.…

C# Solidworks二次开发:向量相关的数学函数API使用(第二讲)

大家好&#xff0c;今天要讲的是关于向量相关的API&#xff0c;之前讲的不再进行介绍&#xff0c;想了解的可以看我之前的文章&#xff1a; C# Solidworks二次开发&#xff1a;向量相关的数学函数API的使用介绍_solidworks二次开发中矩阵变换函数-CSDN博客下面介绍向量其它的相…

C# Solidworks二次开发:涉及主框架相关API详解(第二讲)

大家好&#xff0c;今天要介绍的是和主框架Frame相关的几个API&#xff0c;之前我也在一篇文章中提过一些&#xff0c;没看过的家人可以看一下&#xff1a; C# Solidworks二次开发&#xff1a;获取主窗口API和创建新活动窗口API详解_solidworks二次开发c#-CSDN博客 下面介绍一…

【C++初阶】第九站:vector的介绍及使用

前言&#xff1a; &#x1f3af;个人博客&#xff1a;Dream_Chaser &#x1f388;博客专栏&#xff1a;C &#x1f4da;本篇内容&#xff1a;vector的介绍及使用 ​ 目录 一、vector的介绍 二、vector的使用 1.vector的定义 2.vector iterator(迭代器)的使用 begin和end(…

Spring Boot:数据库的整合

Spring Boot 前言Spring Boot 整合 JDBCSpring Boot 整合 Druid 数据源Spring Boot 整合 MyBatisSpring Boot 整合 JPA 前言 在 Spring Boot &#xff1a;Web开发之视图模板技术的整合 文章中&#xff0c;介绍了 Spring Boot 整合视图模板技术。然而&#xff0c;仅仅整合视图模…

.net框架和c#程序设计第二次测试

一、实验内容 1、设计一个用户登录页面webform1.aspx&#xff0c;效果如下图所示&#xff1a; 2、点击webform1.aspx中“还未注册”连接进入register.aspx&#xff0c;注册页面效果如下图所示&#xff1a;点击用户注册信息到usershow.aspx页面&#xff0c;并显示注册的用户信息…

思迈特:“人工智能+”浪潮里,国产BI到了关键时刻

作为首个“AI程序员”&#xff0c;Devin最近参与了一系列工作&#xff0c;包括在人力资源外包平台Upwork完成编程工作&#xff1b;潜入一家明星创业公司内部群交流&#xff0c;为公司CTO调整代码方案等。这让整个软件工程行业大受震撼&#xff0c;程序员留言“刷屏”。 “AI…

机器视觉学习(十二)—— 绘制图形

目录 一、绘制函数参数说明 1.1 cv2.line(&#xff09;绘制直线 1.2 cv2.rectangle&#xff08;&#xff09;绘制矩形 1.3 cv2.circle&#xff08;&#xff09; 绘制圆形 1.4 cv2.ellipse&#xff08;&#xff09;绘制椭圆 1.5 cv2.polylines&#xff08;&#xff09;绘制…

第十三届蓝桥杯b组做题笔记

&#xff08;7&#xff09;积木画 题目&#xff1a; 小明最近迷上了积木画, 有这么两种类型的积木, 分别为 &#xfffd;I 型&#xff08;大小为 2 个单位面积) 和 &#xfffd;L 型 (大小为 3 个单位面积): 同时, 小明有一块面积大小为 2&#xfffd;2N 的画布, 画布由 2&am…

【学习】软件测试中为什么要进行接口测试?

接口测试是软件开发过程中不可或缺的一环&#xff0c;它主要是对软件系统中各个模块之间的接口进行测试&#xff0c;以验证它们是否能够正确地交互和协作。接口测试的目的是确保软件系统的各个部分能够无缝地协同工作&#xff0c;从而提高整个系统的质量和稳定性。 一、什么是接…

JavaSE-10笔记【多线程1(+2024新)】

文章目录 1.进程与线程2.并发与并行3.线程的调度模型4.实现线程4.1 第一种方式&#xff1a;继承Thread4.2 第二种方式&#xff1a;实现Runnable接口4.3 t.start()和t.run()的本质区别&#xff1f;4.4 线程常用的三个方法 5.线程的生命周期&#xff08;把生命周期图背会&#xf…

蓝桥杯 历届真题 双向排序【第十二届】【省赛】【C组】

资源限制 内存限制&#xff1a;256.0MB C/C时间限制&#xff1a;1.0s Java时间限制&#xff1a;3.0s Python时间限制&#xff1a;5.0s 改了半天只有60分&#xff0c;还是超时&#xff0c;还不知道怎么写&#xff0c;后面再看吧┭┮﹏┭┮ #include<bits/stdc.h> …

在线聊天使用说明

功能 支持世界聊天没有人数限制支持个人聊天支持群聊(没开放)支持通讯录支持添加好友支持添加群(没开放)支持emoji表情后期会支持发送图片现在还不支持 现有问题可能样式兼容还有点问题, 以后有时间在处理, 目前能正常聊天 入口 聊天入口: https://huanmin.top/#/chat 功…

必知必会!使用NumPy对数组进行拆分

使用NumPy对数组进行拆分是一种高效且灵活的数据处理方式。NumPy提供了多种函数&#xff0c;如numpy.split(), numpy.hsplit(), 和 numpy.vsplit()&#xff0c;使得数组可以根据不同的需求进行拆分。这些函数能够精确控制拆分的数量和位置&#xff0c;满足不同的数据处理和分析…

2024/4/1—力扣—按摩师

代码实现&#xff1a; 思路&#xff1a;打家劫舍题 int massage(int *nums, int numsSize) {if (nums NULL || numsSize 0) {return 0;}if (numsSize 1) {return nums[0];}int dp[numsSize];memset(dp, 0, sizeof(dp));dp[0] nums[0];dp[1] (nums[0] < nums[1] ? nums…

【NLP】多标签分类【下】

文章目录 简介个人博客与相关链接1 实验数据与任务说明2 模型介绍2.1 TransformerTransformer能做什么&#xff1f; 2.2 Hugging FaceHugging Face的Transformers库社区支持和资源预训练模型的应用 2.3 T5模型&#xff08;Text-To-Text Transfer Transformer&#xff09;T5的核…

时间系列预测总结

转载自&#xff1a;https://mp.weixin.qq.com/s/B1eh4IcHTnEdv2y0l4MCog 拥有一种可靠的方法来预测和预测未来事件一直是人类的愿望。在数字时代&#xff0c;我们拥有丰富的信息&#xff0c;尤其是时间序列数据。 时间序列是指基于时间刻度维度&#xff08;天、月、年等&…

【THM】Protocols and Servers 2(协议和服务器 2

介绍 协议和服务器房间涵盖了许多协议: 远程登录HTTP协议文件传输协议邮件传输协议POP3IMAP实现这些协议的服务器会受到不同类型的攻击。仅举几例,请考虑: 嗅探攻击(网络数据包捕获)中间人 ( MITM ) 攻击密码攻击(身份验证攻击)漏洞从安全的角度来看,我们始终需要思考…

用API技术为数据安全“上保险”——双重保障

&#x1f50d;API在数据安全领域的核心地位 随着数字化进程的狂飙突进&#xff0c;应用程序接口&#xff08;API&#xff09;已化身为企业内部、不同平台间以及用户交互的关键纽带。它们不仅是数据流动与共享的驱动引擎&#xff0c;更是守护数据安全的重要防线。其中&#xf…

端口敲击守护程序之DC-9

总结 getwebshell : 发现SQL注入 → 登录系统 → 疑似文件包含 → FUZZ参数 → 文件包含读取守护程序 → 敲击打开SSH端口 → 利用泄露账号密码登录 提 权 思 路 : 发现3个用户 → 登录获取密码字典 → 再次爆破获取第4个用户 → sudo文件发现 → 存在root权限写入功能 → pa…