关联规则分析
- 1.简单来说-关联规则
- 2.经典关联规则挖掘-Apriori
1.简单来说-关联规则
关联规则–通过量化的数字描述物品甲的出现 对 物品乙的出现 有多大影响。
最早是为了发现超市销售数据库中不同的商品之间的关联关系:哪组商品可能会在一次购物中同时购买。
广泛应用于–购物篮数据,生物信息学,医疗诊断,网页挖掘和科学数据分析。
关联规则举例:
-
购买面包的用户很有可能会购买牛奶,面包≥牛奶面包\geq 牛奶面包≥牛奶,面包为前项,牛奶为后项。面包降价销售,适当提高牛奶的售价。这一关联规则,可能会增加超市的整体利润。
-
“啤酒与尿布”–最常听到的例子
关联规则分析: 找出数据集中各项之间的关联关系。
发现关联规则的算法 为 无监督学习算法–Apriori,Eclat,FP-Tree,灰色关联法
2.经典关联规则挖掘-Apriori
Apriori–挖掘频繁项集,核心思想:通过连接产生候选项与其支持度,通过剪枝生成频繁项集。
基本概念:
- 关联规则的支持度–项集A和B同时发生的概率:p(A∩B)p(A\cap B)p(A∩B)
- 关联规则的置信度–项集A发生,则项集B发生的概率:p(B∣A)p(B|A)p(B∣A)
- 最小支持度/最小置信度–一条规则有效的最小阈值,专家确定。
- 项集–包含项目的集合{牛奶,麦片,糖}是一个三项集
- 支持度计数:事物集中包含项目集A的事物的个数。
依据公式计算相应的概率就可以了,就是概念的理解。