简单关联规则算法例题-9个顾客的编号为(T1,T2,T3,T4,T5,T6,T7,T8,T9),每一个顾客购买的商品记录{{I1,I2,I5}...},并使用python实现简单关联规则

题目: 简单关联规则算法例题-9个顾客的编号为(T1,T2,T3,T4,T5,T6,T7,T8,T9),每一个顾客购买的商品记录{{I1,I2,I5},{I2,I4},{I2,I3},{I1,I2,I4},{I1,I3},{I2,I3},{I1,I3},{I1,I2,I3,I5},{I1,I2,I3}},求频繁项集;并用python语言实现
解:

1.理论解答

1.1候选1-项集C1为:

项集数支持度计数
{I1}6
{I2}7
{I3}6
{I4}2
{I5}2

由于最小支持度为2/9=22%,因此最小支持度系数为2,将小于最小支持度系数的去掉,得到1-L1:

1.2 频繁1-项集 1-L1

频繁项集支持度计数
{I1}6
{I2}7
{I3}6
{I4}2
{I5}2

1.3 候选2-项集C2为:

项集数支持度计数
{I1,I2}6
{I1,I3}7
{I1,I4}6
{I1,I5}2
{I2,I3}2
{I2,I4}2
{I2,I5}2
{I3,I4}0
{I3,I5}1
{I4,I5}0

将小于最小支持度系数去掉后,得到2-L2:

1.4 频繁2-项集2-L2

频繁项集支持度计数
{I1,I2}6
{I1,I3}7
{I1,I4}6
{I1,I5}2
{I2,I3}2
{I2,I4}2
{I2,I5}2

1.5 候选3-项集C3为:

项集数支持度计数
{I1,I2,I3}2
{I1,I2,I5}2
{I1,I3,I5}1
{I2,I3,I4}0
{I2,I3,I5}1
{I2,I4,I5}1

将小于最小支持度系数去掉后,得到3-L3:

1.6 频繁3-项集3-L3

频繁项集支持度计数
{I1,I2,I3}2
{I1,I2,I5}2

随后进行候选4项集,已经找不到大于等于最小支持度系数的项集,算法结束,最终得到的频繁项集和所对应的支持度计数为:

频繁项集支持度计数
{I1}6
{I2}7
{I3}6
{I4}2
{I5}2
{I1,I2}6
{I1,I3}7
{I1,I4}6
{I1,I5}2
{I2,I3}2
{I2,I4}2
{I2,I5}2
{I1,I2,I3}2
{I1,I2,I5}2

2.python代码实现:

2.1 获取数据集

data_set = [['I1', 'I2', 'I5'], ['I2', 'I4'], ['I2', 'I3'], ['I1', 'I2', 'I4'], ['I1', 'I3'], ['I2', 'I3'],['I1', 'I3'], ['I1', 'I2', 'I3', 'I5'], ['I1', 'I2', 'I3']]

可根据实际情况换成其他数据集。

2.2 定义最小支持度和最小置信度

min_sup = 0.2
min_con = 0.8

2.3. 封装程序需要的各个函数

(1)获取下一个频繁项集

# 获取下一个频繁项集
def get_next_fre_item_set(data_set, fre_item_set, can_item_len, min_sup_num):fre_items = list(fre_item_set.keys())next_fre_item_set = {}for i in range(len(fre_items) - 1):for j in range(i + 1, len(fre_items)):tempi = set()if isinstance(fre_items[i], str):tempi.add(fre_items[i])else:tempi = set(list(fre_items[i]))tempj = set()if isinstance(fre_items[j], str):tempj.add(fre_items[j])else:tempj = set(list(fre_items[j]))tempi.update(tempj)if len(tempi) > can_item_len:continueif tempi in list(set(item) for item in next_fre_item_set.keys()):continuefor record in data_set:if tempi.issubset(set(record)):if tempi in list(set(item) for item in next_fre_item_set.keys()):next_fre_item_set[tuple(tempi)] += 1else:next_fre_item_set[tuple(tempi)] = 1for key in list(next_fre_item_set.keys()):if next_fre_item_set[key] < min_sup_num:del next_fre_item_set[key]if len(list(next_fre_item_set.keys())) < 1:return Noneelse:return next_fre_item_set

(2)获取所有的频繁项集

# 获取频繁项集
def get_fre_item_sets(data_set, min_sup):num_record = len(data_set)min_sup_num = min_sup * num_recordfre_item_sets = []fre_item_sets.append({})# 统计每个元素的频次for record in data_set:for item in record:if item in fre_item_sets[0].keys():fre_item_sets[0][item] += 1else:fre_item_sets[0][item] = 1# 删除低于最小支持度的项for item in list(fre_item_sets[0].keys()):if fre_item_sets[0][item] < min_sup_num:del fre_item_sets[0][item]can_item_len = 2while True:if len(fre_item_sets[can_item_len - 2]) < 2:breakelse:next_fre_item_set = get_next_fre_item_set(data_set, fre_item_sets[can_item_len - 2], can_item_len,min_sup_num)if next_fre_item_set == None:breakelse:fre_item_sets.append(next_fre_item_set)can_item_len += 1return fre_item_sets

(3) 计算置信度

# 计算置信度
def calculate_confidence(fre_item_sets, subset, fre_item):len_mother = len(subset)len_son = len(fre_item)mother_key = Noneson_key = Noneif len_mother == 1:mother_key = subset[0]else:mother_keys = list(fre_item_sets[len_mother - 1].keys())for i in range(len(mother_keys)):if set(subset) == set(mother_keys[i]):mother_key = mother_keys[i]breakson_keys = list(fre_item_sets[len_son - 1].keys())for i in range(len(son_keys)):if set(fre_item) == set(son_keys[i]):son_key = son_keys[i]breakreturn fre_item_sets[len_son - 1][son_key] / fre_item_sets[len_mother - 1][mother_key]

(4)获取关联规则

# 获取关联规则
def get_association_rules(fre_item_sets, min_con):def subsets(itemset):N = len(itemset)subsets = []for i in range(1, 2 ** N - 1):tmp = []for j in range(N):if (i >> j) % 2 == 1:tmp.append(itemset[j])subsets.append(tmp)return subsetsassociation_rules = []for i in range(1, len(fre_item_sets)):fre_item_set = fre_item_sets[i]for fre_item in list(fre_item_set.keys()):tmp = {}all_subsets = subsets(fre_item)for s1 in range(len(all_subsets) - 1):for s2 in range(s1 + 1, len(all_subsets)):subset1 = all_subsets[s1]subset2 = all_subsets[s2]if len(subset1) + len(subset2) == len(fre_item) and len(set(subset1) & set(subset2)) == 0:confidence = calculate_confidence(fre_item_sets, subset1, fre_item)if confidence > min_con:temp = str(subset1) + ' > ' + str(subset2)tmp[temp] = confidenceconfidence = calculate_confidence(fre_item_sets, subset2, fre_item)if confidence > min_con:temp = str(subset2) + ' > ' + str(subset1)tmp[temp] = confidenceif tmp.keys():association_rules.append(tmp)return association_rules

2.4 使用以上函数进行关联规则的提取

(1)获取频繁项集并打印

fre_item_sets = get_fre_item_sets(data_set, min_sup)for i in fre_item_sets:print(i)

打印出的频繁项集如下,字典的value为出现的频次如下图所示:
在这里插入图片描述
(2)根据频繁项集获取关联规则

association_rules = get_association_rules(fre_item_sets, min_con)
for i in association_rules:print(i)

打印出的关联规则如下,字典的value为置信度如下图所示:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/569106.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ASP.NET AJAX (Atlas) 拖放(Drag Drop)功能6种实现方法总结

在Ajax程序中实现传统桌面程序中异常简单的拖放功能却并不是件容易的事情。然而Web上的拖放功能又如此的让人痴迷&#xff0c;所以几乎每个成熟的Ajax类库都提供了自己的一套实现拖放的封装&#xff0c;ASP.NET AJAX (Atlas) 自然也不例外。本文将总结并简要分析ASP.NET AJAX (…

python实现决策树-数据集如下图所示,根据我们对决策树的理解,设计一棵决策树,并输入{Age:36,Salary:H,STU:No,Credit:OK} 测试数据,是否与预期结果一致?

题目&#xff1a;数据集如下图所示&#xff0c;根据我们对决策树的理解&#xff0c;设计一棵决策树&#xff0c;并输入{Age:36,Salary:H,STU:No,Credit:OK} 测试数据&#xff0c;是否与预期结果一致&#xff1f;注意&#xff0c;不允许直接调用Sklearn提供的决策树方法 决策树算…

047 一维数据的格式化和处理

目录 一、概述二、数据组织的维度2.1 从一个数据到一组数据2.2 维度&#xff1a;一组数据的组织形式2.3 一维数据2.4 二维数据2.5 多维数据2.6 高维数据2.7 数据的操作周期三、一维数据的表示3.1 如果数据间有序&#xff1a;使用列表类型3.2 如果数据间无序&#xff1a;使用集合…

jupyter中中文显示不正常_jupyter画图中文显示乱码问题解决办法

问题&#xff1a;为什么Jumpy中运行图片无法正常显示中文字体&#xff1f; 在使用jumpy运行可视化代码时&#xff0c;发现图片无法正常显示中文符号&#xff0c;在尝试网上诸多方法后&#xff0c;发现只需加一行代码即可解决 解决方法&#xff1a; 可以查看一下代码中是否存…

如何合理的定义用户流失——流失多少天算流失

关于流失用户&#xff0c;我们首先想到的是选择怎样的时间跨度才能准确定义玩家为一个流失用户。通常在游戏中&#xff0c;会有对流失玩家召回活动&#xff0c;假如流失玩家的流失期限定义太短&#xff0c;比如3天未登录游戏&#xff0c;即算流失&#xff1b;这样虽然能够覆盖更…

如何使jupyter notebook自动补全代码和生成不同级别的标题

在我们使用jupyter notenook去编写程序时&#xff0c;在这个交互式的笔记本上使用python语言去进行数据分析&#xff0c;十分方便。但当分析的内容有点多时&#xff0c;我们能清楚的看清该步内容处于第几级目录下&#xff0c;使分析的逻辑清晰明了。因此接下来&#xff0c;我们…

K近邻法(KNN)原理小结

K近邻法(k-nearest neighbors,KNN)是一种很基本的机器学习方法了&#xff0c;在我们平常的生活中也会不自主的应用。比如&#xff0c;我们判断一个人的人品&#xff0c;只需要观察他来往最密切的几个人的人品好坏就可以得出了。这里就运用了KNN的思想。KNN方法既可以做分类&…

python 解决print数组/矩阵无法完整输出的问题

问题描述&#xff1a; 当数组/矩阵过大则只会显示其中一部分&#xff0c;中间则会自动用省略号代替&#xff0c;而我们想要去查看数组/矩阵的具体内容时&#xff0c;则需要将省略号代替的部分展示出来&#xff1a; 解决方法&#xff1a; 直接在import numpy 加上下面一句代码即…

SpringBoot学习笔记2

九&#xff1a;创建父工程 注意&#xff1a;打包方式选择为pom 将创建SpringBoot常用的依赖和插件放在父工程的pom.xml,如下&#xff1a; 1 <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance" …

Windows下更改默认的python环境

Windows下更改默认的python环境1.查找python所在的路径2.高级系统设置3.编辑path变量1.查找python所在的路径 打开电脑中的cmd&#xff0c;输入where python&#xff0c;得到电脑中所有python环境的路径 2.高级系统设置 此电脑——>属性——>高级系统设置——>环境…

理解Silverlight的路径填充规则

这个可以扩展到矢量图中路径的填充规则&#xff0c;因为所有矢量图都采用这个规则来填充封闭路径的内部&#xff0c;在这里只以Silverlight为例。 在网上找了很久关于填充规则的介绍&#xff0c;经过了几天的阅读和自己理解还有亲自尝试&#xff0c;现在终于能说出过所以然来了…

Jquery复习(七)之尺寸

jQuery 尺寸 方法 jQuery 提供多个处理尺寸的重要方法&#xff1a; width() height() innerWidth() innerHeight() outerWidth() outerHeight() jQuery 尺寸 jQuery width() 和 height() 方法 width() 方法设置或返回元素的宽度&#xff08;不包括内边距、边框或外边距&am…

更改默认安装位置到其他盘

1 同时按住Win R键&#xff0c;出现如下界面&#xff0c;在输入框中输入regedit&#xff0c;点击确定。 2 此时会进入到注册表编辑器界面&#xff0c;按如下路径选择&#xff1a;计算机\HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion 将所有默认路径&#xf…

如何启用SQL Server 2008的FILESTREAM特性

如何启用SQL Server 2008的FILESTREAM特性 今天安装SQL Server 2008的时候没有注意&#xff0c;忘记了启用FILESTREAM特性&#xff0c;因为默认情况下FILESTREAM是禁用的。安装完成后&#xff0c;再导入一个.bak的备份数据库时提示FILESTREAM feature is disabled&#xff0c;到…

网络开发必备的HTTP协议知识

一、什么是HTTP协议 HTTP协议是一种应用层协议&#xff0c;HTTP是HyperText Transfer Protocol(超文本传输协议)的英文缩写。HTTP可以通过传输层的TCP协议在客户端和服务器之间传输数据。HTTP协议主要用于Web浏览器和Web服务器之间的数据交换。我们在使用IE或Firefox浏览…

----uni-app之解决HBuilderX安装less成功运行时提示未安装----

转载于:https://www.cnblogs.com/zjy850984598/p/11238777.html

win7系统cocos2dx 3.4 绑定自定义类到Lua

Cocos2d-x 3.0开始使用bindings-generator来生成c类的lua绑定。bindings-generator基于tolua&#xff0c;通过配置tools/tolua中的ini文件以及运行genbindings.py就可以自动生成c类的绑定&#xff0c;具体的步骤在cocos2d-x-3.4\tools\tolua\README.mdown文件中&#xff0c;文档…

jQuery无任何标示获取td在表格中的行数和列数

当td没有任何标示时&#xff0c;在jQuery中实现获取其在表格中的行和列&#xff1a;<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN""http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns"http://www.w…

Dojo实现Tabs页报错(二)

转载于:https://www.cnblogs.com/riasky/p/3481643.html

mongo DB for C#

(1)Download the MongoDB C#驱动. http://www.nuget.org/packages/mongocsharpdriver/. (2) Add Reference to C# 驱动 DLLs 1MongoDB.Bson.dll 2MongoDB.Driver.dll 3MongoDB.Driver.Core.dll 或者 Nuget 下载 VS 2012/13 TOOLS -> Library Package Manager –> Manage …