[机器学习] Apriori算法

适用场合

Apriori算法包含两部分内容:1,发现频繁项集 2,挖掘关联规则。

通俗地解释一下,就是这个意思:1.发现哪些项目常常同时出现 2.挖掘这些常常出现的项目是否存在“如果A那么B”的关系。

举个例子:网店购物订单常常会出现这样一种情况:那就是某几种物品常常一起买。比如锅和铲子、手机和手机壳等就会常常出现在同一个订单中,因此挖掘出哪些项目常常同时出现就是1中的问题。再进一步,对于这些常常出现的频繁项集,如果能挖掘出“若A则B”的更强关系,那就更好了。比如买了手机的常常会再买个手机壳,但是反过来不成立。

发现频繁项集

发现频繁项集最直观的想法,就是想办法对所有的项目进行全组合,也就是产生2n种,然后对这些不同的种类挨个计算出现最频繁的组合。但是这种方法的搜索空间太大,速度非常慢。Apriori定理可以很大程度上缩小搜索空间,其内容是:任一频繁项集的所有非空子集也必须是频繁的,也就是说,任何一个非频繁项集的超集一定也是非频繁项集。这样就可以直接删除所有包含非频繁项集的集合,很大程度上减少了搜索空间。

转载了一张图,非常明晰地说明了其中的道理:

(图片来源:http://www.jianshu.com/p/00103435ef89)

挖掘关联规则

挖掘关联规则是以频繁项集为基础的。假设我们已经找到了几个频繁项集,现在要找到其中是否蕴含“若A则B”的因果关系。

要想计算是否存在因果关系,很直观的想法就是计算条件概率P(B|A),看看在A条件下B的概率是否足够高。

术语

假设项集有A,B。

有了上述的铺垫,现在引入术语定义:

支持度(support):P(AB),A和B同时出现概率。越大越频繁。

置信度(confidence):P(B|A),条件概率。越大说明因果越强。

提升度(lift):P(B|A)/P(B),有A这个条件和没有A这个条件时,B出现的概率之比。

实现

 

转载于:https://www.cnblogs.com/chengyuanqi/p/7352807.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/487792.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为发布《自动驾驶网络解决方案白皮书》

来源:华为近日,全球分析师大会HAS 2020期间,华为面向全球发布《自动驾驶网络解决方案白皮书》,系统阐述未来网络架构、运维架构和其关键技术,通过网元、网络和云端的三层AI能力协同,使能网络走向极简超宽、…

linux服务器运维操作命令,Windows和Linux系统服务器运维基本操作指令

原标题:Windows和Linux系统服务器运维基本操作指令服务器总归是机械化设备,在运行过程中难免会出现一些问题,遇到这些问题怎么办?请运维人员代维修?即使请也会造成,运维人员维护不及时和成本太高的问题&…

百度大脑城市白皮书

来源 | 百度智能云(转载请注明来源)编辑 | 蒲蒲5月18日,百度智能云在大会上正式发布《百度城市大脑白皮书》。白皮书结合未来我国智慧城市发展重点,深入分析研究了我国智慧城市发展的背景和发展中的机遇,重点阐述了百度…

Python开发基础--- 进程间通信、进程池、协程

进程间通信 进程彼此之间互相隔离,要实现进程间通信(IPC),multiprocessing模块支持两种形式:队列和管道,这两种方式都是使用消息传递的。 进程队列queue 不同于线程queue,进程queue的生成是用mu…

linux中sed命令用例,Linux中使用sed命令或awk命令修改常规配置文件

一、方案:Linux中使用sed命令或awk命令修改常规配置文件二、步骤:1、假设有一个a.txt,内容如下:#!/bin/bashaabbbccc#ddd2、如果想要把里面的内容bbb23输出成bbb55,可以这样做:sed s/bbb23/bbb55/g a.txt说…

python数据分析笔记中panda(2)

1 将手机号码分开为运营商,地区和号码段 1 from pandas import read_csv;2 3 df read_csv("H:\\pythonCode\\4.6\\data.csv");4 5 6 #转换成字符数据 方便用slice7 df[tel] df[tel].astype(str);8 9 #字符的抽取:根据已知列数…

刘忠范院士:新型研发机构建设成了口号

来源:科学网作者 | 郑金武编辑 | 宗华排版 | 华园● 刘忠范认为,如果只是单纯地再建一两所研究机构,在机制、理念上与现有的高校和研究院所没有差别,那就是在“1000”的基础上再加“1”,对现有的科研格局不会带来任何改…

linux属性表示的文件,Linux基础入门:文件和目录属性的含义

比如 :[rootistester isTester]# lltotal 12drwxr-xr-x 2 root root 4096 May 21 17:58 21Day-rw-r-xr-- 1 root root 6 May 14 16:04 idoxu.ini-rw-r--r-- 1 root root 0 May 21 17:12 istester.ini-rw-r--r-- 1 root root 10 May 14 16:02 README.md解释&…

一线工程师如何看待《没了美国的EDA软件,我们就不能做芯片了》

来源:真视界这些天看了不少讲国内EDA情况的帖子,有客观的也有极其离谱的,作为一名从业十余年的芯片设计工程师,我以一线从业者的角度来谈谈我们在实际工作中的EDA软件使用情况究竟是怎样的吧。先回答个很常见的问题:没…

2015Cocos游戏开发大赛作品——人鱼塞壬

***************************************转载请注明出处:http://blog.csdn.net/lttree******************************************** 消失了一个月,干啥去了捏? 就是做这个游戏了(事实上 考试课设北京。。。) 游戏背…

柳叶刀发布陈薇团队新冠疫苗试验结果:安全,能诱导免疫反应

来源:腾讯新闻客户端自媒体论文称,研究显示,前述以腺病毒Ad5为载体的新冠疫苗,在给志愿者接种后28天时,显示出免疫原性和人体耐受性。在健康成年人中,对SARS-CoV-2的体液免疫反应,在接种疫苗后第…

UE4从4.15移植到4.16

如果是旧版本的工程需要移植到4.16,有几个地方需要修改: 假设RC是工程名,修改如下(三个CS文件) 类似的,插件也需要这样修改 转载于:https://www.cnblogs.com/AnKen/p/7365806.html

c语言Linux用线程创建文件,Linux环境下C语言线程创建---简单代码

在Linux环境下用C语言编写线程创建。//file name: pthreadtext.c#include #include //线程头文件//pthread不是linux下的默认的库,也就是在链接的时候,无法找到phread库中哥函数的入口地址,于是链接会失败//在gcc编译的时候,附加要…

自动驾驶发展到了哪个阶段?七大应用场景走进现实

来源: 智车科技2020年初,新冠疫情突发,百度、京东、美团等在各地提供无人配送、无人清扫服务。在抗击疫情的过程中,自动驾驶商业化得到了很好的实践验证。当自动驾驶技术渐渐走入现实场景,那么我们不禁要问这项技术究竟…

2016 博客导读总结 amp; 个人感悟

此文着笔之时。2017已经在眼前了。预计等我写完,2017已经到了。二次编辑于2017年1月1日早11点。 关于2016的感悟。十二月初就想写,当时认为是有点太早了,只是却思绪如泉涌。 且那时候才刚刚申请到博客专家(訪问量刚刚过5W&#x…

IBM 向云转型、大幅裁员、连 Watson 和 AI 团队也未能幸免

来源:云头条IBM提前30天通知成千上万名员工被裁,可领取90天的薪水,至少在美国是这样,而服务部门首当其冲。IBM正在大举裁员,数量众多的与云计算业务无关的员工被告知他们在蓝色巨人的时间到头了。这个IT巨头在回复IT外…

linux网络包截获,用C实现截获网络数据包

现在进入第二步,捕获数据包。从第20行开始,我们进入了一个死循环,while(1),在第24行,recvfrom(sock, buffer, sizeof buffer, 0, (struct sockaddr *)&from, &fromlen),这个函数要做的就是接收数据…

自动驾驶的实现之路——几大关键传感器应用解析

来源:MEMS随着近两年来智慧汽车、车联网等等概念的兴起,汽车自动驾驶的各种科技进展不断占据媒体版面,引起了全球的关注和各国政府的支持。对于大部分人来说, “吃着火锅唱着歌”轻轻松松地直达目的地绝对是美好的愿望&#xff0c…

探索“植物人”语言能力和意识水平

来源:脑科学与智能技术卓越创新中心2020年5月25日,中国科学院脑科学与智能技术卓越创新中心(神经科学研究所)、中国科学院灵长类神经生物学重点实验室王立平研究组与复旦大学附属华山医院神经外科毛颖/吴雪海团队在《自然-神经科学…

探臻实录 | 戴琼海:搭建脑科学与人工智能的桥梁

来源:探臻科技评论人工智能作为21世纪最具有影响力的技术,正在包括诸如机器人、语言识别、图像识别、自然语言处理等诸多领域发挥着重要作用。脑科学被誉为“人类科学最后的前沿”,认识脑的奥秘是对人类的终极挑战。而更重要的是,…