【机器学习】 关联规则Apriori和mlxtend——推荐算法

引入:

啤酒与尿布的故事
关联规律挖掘:从交易数据中发现:买了X 还会买Y 的规则
关联规律挖掘‘购物篮分析’Market Basket Analysis(MBA)
关联规律->应用于推荐系统

在这里插入图片描述

1. 关联规则代码演示

使用的是mlxtend.frequent_patterns.Apriori()

import numpy as np
import pandas as pdfrom mlxtend.frequent_patterns import apriori,association_rules
#TransactionEncoder 事务,编码
#事务:表示事件
#(比如每次去商场购买东西是一次事务,而实际购买到的东西就是项集)
from mlxtend.preprocessing import TransactionEncoder 
te = TransactionEncoder()
X =te.fit_transform(data)
colmns = te.columns_
df = pd.DataFrame(X,columns=colmns)
df.astype(np.uint8)
尿布橙汁甜菜莴苣葡萄酒豆奶
0000101
1101110
2110011
3100111
4110101
data=[['豆奶','莴苣'],['莴苣','尿布','葡萄酒','甜菜'],['豆奶','尿布','葡萄酒','橙汁'],['莴苣','豆奶','尿布','葡萄酒'],['莴苣','豆奶','尿布','橙汁']]result =apriori(df,min_support=0.6,use_colnames=True)
result 
supportitemsets
00.8(尿布)
10.8(莴苣)
20.6(葡萄酒)
30.8(豆奶)
40.6(尿布, 莴苣)
50.6(尿布, 葡萄酒)
60.6(尿布, 豆奶)
70.6(莴苣, 豆奶)

关联规则

条目 —》另一些条目之间有关联的

根据关联性强,进行推荐

推荐系统(小公司:分类,)

关联规则的三个计算:
支持度 support
置信度 confidence
提升度 lift

公式计算如下:

在这里插入图片描述

association_rules(result,min_threshold=0.5)
antecedentsconsequentsantecedent supportconsequent supportsupportconfidenceliftleverageconviction
0(尿布)(莴苣)0.80.80.60.750.9375-0.040.8
1(莴苣)(尿布)0.80.80.60.750.9375-0.040.8
2(尿布)(葡萄酒)0.80.60.60.751.25000.121.6
3(葡萄酒)(尿布)0.60.80.61.001.25000.12inf
4(尿布)(豆奶)0.80.80.60.750.9375-0.040.8
5(豆奶)(尿布)0.80.80.60.750.9375-0.040.8
6(莴苣)(豆奶)0.80.80.60.750.9375-0.040.8
7(豆奶)(莴苣)0.80.80.60.750.9375-0.040.8

探究关联规则的原始代码

import numpy as np 
def createC1(dataSet):C1 = []for transaction in dataSet:for item in transaction:if not [item] in C1:C1.append([item]) #store all the item unrepeatlyC1.sort()#return map(frozenset, C1)#frozen set, user can't change it.return list(map(frozenset, C1))def scanD(D,Ck,minSupport):
#参数:数据集、候选项集列表 Ck以及感兴趣项集的最小支持度 minSupportssCnt={}for tid in D:#遍历数据集for can in Ck:#遍历候选项if can.issubset(tid):#判断候选项中是否含数据集的各项#if not ssCnt.has_key(can): # python3 can not supportif not can in ssCnt:ssCnt[can]=1 #不含设为1else: ssCnt[can]+=1#有则计数加1numItems=float(len(D))#数据集大小retList = []#L1初始化supportData = {}#记录候选项中各个数据的支持度for key in ssCnt:support = ssCnt[key]/numItems#计算支持度if support >= minSupport:retList.insert(0,key)#满足条件加入L1中supportData[key] = supportreturn retList, supportDatadef aprioriGen(Lk, k): #组合,向上合并#creates Ck 参数:频繁项集列表 Lk 与项集元素个数 kretList = []lenLk = len(Lk)for i in range(lenLk):for j in range(i+1, lenLk): #两两组合遍历L1 = list(Lk[i])[:k-2]; L2 = list(Lk[j])[:k-2]L1.sort(); L2.sort()if L1==L2: #若两个集合的前k-2个项相同时,则将两个集合合并retList.append(Lk[i] | Lk[j]) #set unionreturn retListdef apriori(dataSet, minSupport = 0.5):C1 = createC1(dataSet)D = list(map(set, dataSet)) #python3L1, supportData = scanD(D, C1, minSupport)#单项最小支持度判断 0.5,生成L1L = [L1]k = 2while (len(L[k-2]) > 0):#创建包含更大项集的更大列表,直到下一个大的项集为空Ck = aprioriGen(L[k-2], k)#CkLk, supK = scanD(D, Ck, minSupport)#get LksupportData.update(supK)L.append(Lk)k += 1return L, supportDatadef generateRules(L, supportData, minConf=0.7):#频繁项集列表、包含那些频繁项集支持数据的字典、最小可信度阈值bigRuleList = [] #存储所有的关联规则for i in range(1, len(L)):  #只获取有两个或者更多集合的项目,从1,即第二个元素开始,L[0]是单个元素的# 两个及以上的才可能有关联一说,单个元素的项集不存在关联问题for freqSet in L[i]:H1 = [frozenset([item]) for item in freqSet]#该函数遍历L中的每一个频繁项集并对每个频繁项集创建只包含单个元素集合的列表H1if (i > 1):#如果频繁项集元素数目超过2,那么会考虑对它做进一步的合并rulesFromConseq(freqSet, H1, supportData, bigRuleList, minConf)else:#第一层时,后件数为1calcConf(freqSet, H1, supportData, bigRuleList, minConf)# 调用函数2return bigRuleListdef calcConf(freqSet, H, supportData, brl, minConf=0.7):#针对项集中只有两个元素时,计算可信度prunedH = []#返回一个满足最小可信度要求的规则列表for conseq in H:#后件,遍历 H中的所有项集并计算它们的可信度值conf = supportData[freqSet]/supportData[freqSet-conseq] #可信度计算,结合支持度数据if conf >= minConf:print (freqSet-conseq,'-->',conseq,'conf:',conf)#如果某条规则满足最小可信度值,那么将这些规则输出到屏幕显示brl.append((freqSet-conseq, conseq, conf))#添加到规则里,brl 是前面通过检查的 bigRuleListprunedH.append(conseq)#同样需要放入列表到后面检查return prunedHdef rulesFromConseq(freqSet, H, supportData, brl, minConf=0.7):#参数:一个是频繁项集,另一个是可以出现在规则右部的元素列表 Hm = len(H[0])if (len(freqSet) > (m + 1)): #频繁项集元素数目大于单个集合的元素数Hmp1 = aprioriGen(H, m+1)#存在不同顺序、元素相同的集合,合并具有相同部分的集合Hmp1 = calcConf(freqSet, Hmp1, supportData, brl, minConf)#计算可信度if (len(Hmp1) > 1):    #满足最小可信度要求的规则列表多于1,则递归来判断是否可以进一步组合这些规则rulesFromConseq(freqSet, Hmp1, supportData, brl, minConf) 
data=[['豆奶','莴苣'],['莴苣','尿布','葡萄酒','甜菜'],['豆奶','尿布','葡萄酒','橙汁'],['莴苣','豆奶','尿布','葡萄酒'],['莴苣','豆奶','尿布','橙汁']] 
L, supportData = apriori(data,minSupport = 0.5)
# 频繁项集
display(L)
#计算
display(supportData)

[[frozenset({‘葡萄酒’}), frozenset({‘尿布’}), frozenset({‘豆奶’}), frozenset({‘莴苣’})],
[frozenset({‘尿布’, ‘豆奶’}),
frozenset({‘尿布’, ‘莴苣’}),
frozenset({‘尿布’, ‘葡萄酒’}),
frozenset({‘莴苣’, ‘豆奶’})],
[]]

{frozenset({‘莴苣’}): 0.8,
frozenset({‘豆奶’}): 0.8,
frozenset({‘尿布’}): 0.8,
frozenset({‘甜菜’}): 0.2,
frozenset({‘葡萄酒’}): 0.6,
frozenset({‘橙汁’}): 0.4,
frozenset({‘莴苣’, ‘豆奶’}): 0.6,
frozenset({‘尿布’, ‘葡萄酒’}): 0.6,
frozenset({‘莴苣’, ‘葡萄酒’}): 0.4,
frozenset({‘尿布’, ‘莴苣’}): 0.6,
frozenset({‘葡萄酒’, ‘豆奶’}): 0.4,
frozenset({‘尿布’, ‘豆奶’}): 0.6,
frozenset({‘尿布’, ‘莴苣’, ‘豆奶’}): 0.4}

 generateRules(L,supportData,minConf=0.8)

[(frozenset({‘葡萄酒’}), frozenset({‘尿布’}), 1.0)]

核心思想简单来说就是 :
1、发现频繁项集过程为
①扫描(扫描所有数据)
②计数(计算各个候选集的支持度)
③比较(选出适合条件的频繁项集)
④产生频繁集
⑤连接、再剪枝产生候选集

2、产生关联规则。过程:根据前面提到的置信度的定义,关联规则的产生如下:
①对于每个频繁项集L,产生L的所有非空子集。
②对于L的每个非空子集S,如果P(L)/P(S)>=min_conf,则输出规则“Sa L-S”。(L-S表示在项集中除去S子集的项集。)

Apriori缺点:
①由频繁k-1项集进行自连接生成的候选频繁k项集数量巨大
②在验证候选频繁k项集的时候需要对整个数据库进行扫描,非常耗时。

更多推荐算法参考:
史上最全机器学习算法(源于逼乎)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/456083.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

预防和检测如日中天?事件响应表示不服

近些年,企业安全工作的关注点,一直聚焦在如何预防黑客攻击。但是,频发的大型跨国企业的数据泄露事件表明,即使是对网络安全更为重视,同时也投入了更多成本的金融业,也明白了“无论做了怎样的安全防护&#…

python中的内部函数和闭包函数

内部函数 在函数内部声明的函数就是内部函数。 格式: def 函数名():局部变量...def 内部函数名():Python功能代码...示例: def funName():name dragon#定义一个内部函数def inner():print(我是内部函数)‘’‘注释: 1.内部函数的本质就是局…

【机器学习】K-Means(非监督学习)学习及实例使用其将图片压缩

非监督学习之k-means K-means通常被称为劳埃德算法,这在数据聚类中是最经典的,也是相对容易理解的模型。算法执行的过程分为4个阶段。 1、从数据中选择k个对象作为初始聚类中心; 2、计算每个聚类对象到聚类中心的距离来划分; 3、再次计算…

CloudCC CRM:物联网必将成为CRM的推动力

CRM热门话题背后的主要推动力包括云、社交、移动和大数据,CloudCC CRM认为物联网必将成为CRM的推动力,也就是传感器将事物连接到互联网,创建之前我们从未想到的新型服务。 社交:在销售、市场和客户服务部门,营销人员正…

关于Video Renderer和Overlay Mixer

原文作者: 陆其明 整理日期: 2004/12/27 大家知道,Video Renderer (VR)是接收RGB/YUV裸数据,然后在显示器上显示的Filter。为提高计算机画图性能,根据你计算机显卡的能力,VR会优先使用DirectDraw以及Overlay表面;如果…

【tensorflow】tensorflow -gpu安装及jupyter环境更改

tensorflow -gpu安装 首先,安装Anoconda 1. 官网下载点我:2.安装 点击 python 3.6 version自动下载x64版,下载好之后,然后安装。 如图,打上勾之后,一路next3.打开终端 1)输入conda –-version …

张震博士:SDT是未来安防发展方向

如何挖掘安防大数据价值是未来发展方向 发展实践证明,科技强警已经成为未来发展的必然选择,发展科技强警,必须用技术实力说话。作为科技强警的重要组成部分,安防视频非常重要,但是,目前,安防视频…

关于虚拟机第二块网卡eth1(仅主机模式)的配置问题

这里发生了一个想不明白的事情,我的真机的网卡上面并没有192.168.100.0网段的网卡 但是我在虚拟机上面添加了一块网卡(仅主机模式)eth1 并配置为192.168.100.60(配置文件已经写好) 开机却能用eth1连接上xhell&#xff…

【机器学习】朴素贝叶斯介绍及实例--对短信进行二分类 使用多项式分布

贝叶斯 首先什么是贝叶斯? 一个例子,现分别有 A、B 两个容器,在容器 A 里分别有 7 个红球和 3 个白球,在容器 B 里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,且是红球,问这…

H.264码流结构

a、对照:H.263的码流结构H.263定义的码流结构是分级结构,共四层。自上而下分别为:图像层(picture layer)、块组层(GOB layer)、宏块层(macroblock layer)和块层(block layer)。 PSC TR PTYPE PQUANT CPM PSBI TRB DBQUANT PEI PSPARE PEI…

Gartner分享物联网和智慧城市最新数据

主题为“移我所想 Mobile is me”的2016世界移动大会上海展正在上海如火如荼的举行,Gartner也在第一时间分享了最新的市场数据,包括企业级用户最为关注的物联网和智慧城市的调查预测报告,下面就一起来看看吧! 智慧城市与物联网 物…

python中格式化字符串

format格式字符串 语法: 它通过{}和:来代替%。 注意: 字符串的format函数可以接受无限个参数,位置可以不按顺序,可以不用或者用多次,不过2.6不能为空{},2.7才可以。 “映射”示例 通过位置 In [1]: {0},{…

让360安全浏览器默认使用谷歌内核

浏览器默认内核的指定只需在head标签中添加一行代码即可&#xff1a; 若页面需默认用极速核&#xff0c;增加标签&#xff1a;<meta name"renderer" content"webkit"> 若页面需默认用ie兼容内核&#xff0c;增加标签&#xff1a;<meta name"…

作业帮电脑版在线使用_作业帮:创新科技驱动在线教育新模式

10月15日&#xff0c;在线教育领军企业作业帮在中国校长大会在线教育论坛上&#xff0c;独家发布《学习的真相&#xff1a;全国K12学情大数据及学习洞察》&#xff0c;宣布已推出作业帮直播课“名师大招”课程体系&#xff0c;集中展示多款面向K12人群的教育黑科技和硬件产品。…

【机器学习】DBSCAN聚类算法—优于Kmean—(理论+图解+python代码)

一、前言 二、DBSCAN聚类算法 三、参数选择 四、DBSCAN算法迭代可视化展示 五、常用的评估方法&#xff1a;轮廓系数 六、用Python实现DBSCAN聚类算法 一、前言 去年学聚类算法的R语言的时候&#xff0c;有层次聚类、系统聚类、K-means聚类、K中心聚类&#xff0c;最后呢…

H264白皮书

理论上我是知道一点点的mpeg4的&#xff0c;但是貌似忘记了&#xff0c;本来要重新看mpeg4&#xff0c;结果有人告诉我h264肯定比mpeg4要好&#xff0c;结果就被派去看h264了&#xff0c;看完了一个什么白皮书以后&#xff0c;只好替h264吹嘘一下了&#xff1a; 1。Intra pred…

python中的内建函数

内建函数 以下是目前我们已经渗透过的内建函数: 类型相关 int() 创建或者将其他数据转化为整型float() 创建或者将其他数据转化为浮点型bool() 创建或者将其他数据转化为布尔型complex() 创建或者将其他数据转化为复数str() 创建或者将其他数据转化为字符串list() 创建或…

卡巴斯基:风险无国界 网络安全从业者要与小网民保持一致

“互联网没有国界&#xff0c;每个国家碰到的问题基本上是类似的。对于网络犯罪这件事&#xff0c;并不针对哪个国家&#xff0c;任何有弱点、有机会的地方&#xff0c;黑客都会去。”卡巴斯基公司CEO尤金卡巴斯基在接受未来网&#xff08;微信公众号lovek618&#xff09;记者采…

js/jquery循环提取table单元格值

<table id"tbitem"><tr><td>测试数据1</td></tr><tr><td>测试数据2</td></tr><tr><td>测试数据3</td></tr><tr><td>测试数据4</td></tr><tr><td&g…

windows无法访问指定设备路径或文件_完全免费的文件数据恢复工具:Microsoft Windows File Recovery...

意外删除文件的经历是大多数人都遇到过&#xff0c;但是幸运的是有一种“后悔药”可以吃&#xff0c;因为我们可以使用一些【数据恢复软件】以找回一些已删除的文件。市面上有很多这类型的软件&#xff0c;例如EasyRecovery、DiskGenius、Recuva 等软件。但是&#xff0c;功能强…