Apriori 与 FP-growth 算法

关联规则挖掘:Apriori 与 FP-growth 算法

    • 关联规则挖掘概述
    • Apriori 算法
      • 基本原理
      • 应用实例
    • FP-growth 算法
      • 基本原理
      • 应用实例
    • 其他机器学习算法:
    • 机器学习实战工具安装和使用

关联规则挖掘是数据挖掘领域中的一个重要任务,旨在发现数据集中不同项之间的关联关系。Apriori 算法和 FP-growth 算法是两种常用的关联规则挖掘算法,它们在挖掘频繁项集和关联规则方面有着不同的优势和特点。

关联规则挖掘概述

关联规则挖掘是一种无监督学习方法,通过分析数据集来发现其中的潜在关联规则。在关联规则挖掘中,常用的概念包括支持度、置信度和频繁项集:

  • 支持度(Support):指某个项集在数据集中出现的频率,用于衡量项集的频繁程度。
  • 置信度(Confidence):指在某个条件下规则发生的概率,用于衡量关联规则的可信程度。
  • 频繁项集:指支持度大于等于最小支持度阈值的项集。

Apriori 算法

基本原理

Apriori 算法是一种用于挖掘频繁项集的经典算法。其基本原理是通过一种逐层搜索的迭代方法,从频繁项集的性质出发,生成频繁项集。具体步骤如下:

  1. 扫描事务数据库,找出所有的频繁1项集,记为L1。
  2. 利用L1生成候选2项集,然后通过最小支持度阈值筛选出频繁2项集,记为L2。
  3. 使用L2生成候选3项集,通过最小支持度阈值筛选出频繁3项集,记为L3,以此类推,直到不能再找到任何频繁k项集。
  4. 根据频繁项集生成关联规则,并根据最小置信度阈值筛选出满足条件的关联规则。

Apriori 算法的一个重要性质是任意频繁项集的所有非空子集也必须是频繁的,这一性质保证了算法的有效性和完整性。

应用实例

  • 编写 Apriori.py 代码
    def createC1(dataSet):C1 = []for transaction in dataSet:for item in transaction:if [item] not in C1:C1.append([item])C1.sort()return list(map(frozenset, C1))def scanD(D, Ck, minSupport):ssCnt = {}for tid in D:for can in Ck:if can.issubset(tid):ssCnt[can] = ssCnt.get(can, 0) + 1numItems = float(len(D))retList = []supportData = {}for key in ssCnt:support = ssCnt[key] / numItemsif support 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/702920.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

面试精选-前端

1、防抖 防抖 (Debouncing) 的含义是指在一定时间内,多次触发同一个事件,只执行最后一次操作。例如,当我们在搜索框中输入关键词时,输入框会不断触发oninput事件,如果每次输入都去请求服务器获取数据,会造…

idea集成git(实用篇)

0.Git常用命令 Git常用命令-CSDN博客 1.下载git Git - Downloads 一路傻瓜式安装即可(NEXT) 2.软件测试 在Windows桌面空白处,点击鼠标右键,弹出右键菜单 Git软件安装后,会在右键菜单中增加两个菜单 Git GUI He…

Go编译到linux运行出现 cannot execute binary file

1.初学Go就在windows上写了个"Hello,World!",在windown上编译了一下,生成了可执行文件。运行无问题 go build text.go .\text.exe Hello,World!2.但是按照网上的教程进行生成linux的可执行文件时出现报错 set CGO_ENABLED0 set GOOSlinux set GOARCHam…

程序媛的mac修炼手册-- 2024如何彻底卸载Python

啊,前段时间因为想尝试chatgpt的API,需要先创建一个python虚拟环境来安装OpenAI Python library. 结果,不出意外的出意外了,安装好OpenAI Python library后,因为身份认证问题,根本就没有获取API key的权限…

Git命令操作

什么是Git? Git是⼀个免费的,开源的分布式版本控制软件系统 git区域 存储区域:Git软件⽤于存储资源得区域。⼀般指得就是.git⽂件夹 ⼯作区域:Git软件对外提供资源得区域,此区域可⼈⼯对资源进⾏处理。 暂存区&am…

Escalate_Linux(3)--通过读取密码文件shadow来破解root用户的口令实现提权

通过读取密码文件shadow来破解root用户的口令实现提权 通过读取密码文件/etc/shadow来破解root用户的口令 ls -l /etc/shadow 普通用户无查看shadow权限 echo "cat /etc/shadow" >/tmp/ls ​ chmod 755 /tmp/ls ​ export PATH/tmp:$PATH ​ /home/user5/script…

Ubuntu中Python包的寻找路径

文章目录 一、Pyhon包的查找位置二、某个Python特定包的查找位置参考 一、Pyhon包的查找位置 ▶ [~]$ python -m site sys.path [/home/wangji,/usr/lib/python310.zip,/usr/lib/python3.10,/usr/lib/python3.10/lib-dynload,/home/wangji/.local/lib/python3.10/site-packag…

[C++]c++冒泡排序示例

冒泡排序是一种计算机科学领域的较简单的排序算法,这篇文章主要介绍了c冒泡排序示例,需要的朋友可以参考下 冒泡排序(Bubble Sort),是一种计算机科学领域的较简单的排序算法。它重复地走访过要排序的数列,一次比较两个…

019 Spring Boot+Vue 电影院会员管理系统(源代码+数据库+文档)

部分代码地址: https://github.com/XinChennn/xc019-cinema 一、系统介绍 cinema项目是一套电影院会员管理系统,使用前后端分离架构开发包含管理员、会员管理、会员卡管理、电影票、消费记录、数据统计等模块 二、所用技术 后端技术栈: …

RabbitMQ-消息队列:优先级队列、惰性队列

20、优先级队列 在我们系统中有一个订单催付的场景,我们的客户在天猫下的订单,淘宝会及时将订单推送给我们,如果在用户设定的时间内未付款那么就会给用户推送一条短信提醒,很简单的一个功能对吧。 但是,天猫商家对我…

Apache Flume:分布式日志收集系统

什么是Apache Flume? Apache Flume 是一个分布式、可靠、高可用的服务,用于高效收集、聚合和移动大量日志数据。它的主要目标是将日志数据从源头传输到中央数据存储,如Hadoop的HDFS。Flume 是为了可靠地处理日志数据而设计的,它有…

【数据结构】周末作业

1.new(struct list_head*)malloc(sizeof(struct list_head*)); if(newNULL) { printf("失败\n"); return; } new->nextprev->next; prev->nextnew; return; 2.struct list_head* pprev->next; prev->nextp->next; p->next->prevpr…

【Java程序员面试专栏 算法思维】一 高频面试算法题:排序算法

一轮的算法训练完成后,对相关的题目有了一个初步理解了,接下来进行专题训练,以下这些题目就是汇总的高频题目,本篇主要聊聊排序算法,包括手撕排序算法,经典的TOPK问题以及区间合并,所以放到一篇Blog中集中练习 题目关键字解题思路时间空间快速排序双指针+递归+基准值分…

一种基于道路分类特性的超快速车道检测算法

摘要: 本文介绍了一种新颖、简单但有效的车道检测公式。 车道检测是自动驾驶和高级驾驶员辅助系统 (ADAS) 的基本组成部分,在实际高阶驾驶辅助应用中,考虑车道保持、转向、限速等相关的控制问题,这种方式通常是通过受限的车辆计算…

MATLAB环境下基于图像处理的视网膜图像血管分割

预防糖尿病对每个人的健康至关重要,而糖尿病的早期症状在眼底视网膜血管会有所体现,如静脉血管扩张、轻度弯曲等。高血压作为常见疾病,在中国有多达2.45亿的患者。高血压的病情也会在眼底视网膜血管上有所体现,如交叉压迫征等反映…

鸿蒙开发【WebGL】简单了解

WebGL的全称为Web Graphic Library(网页图形库),主要用于交互式渲染2D图形和3D图形。目前HarmonyOS中使用的WebGL是基于OpenGL裁剪的OpenGL ES,可以在HTML5的canvas元素对象中使用,无需使用插件,支持跨平台。WebGL程序是由JavaScr…

UE5 C++ TPS开发 学习记录(六)

这节课学习了如何创建插件,在Build.cs内使用模块和创建OnlineSubsystem // Fill out your copyright notice in the Description page of Project Settings. #pragma once #include "CoreMinimal.h" #include "Subsystems/GameInstanceSubsystem.h" #incl…

前端页面可视化大屏适配方案

无论窗口缩放&#xff0c;屏幕放大缩小&#xff0c;我们的可视化界面都可以按照设计图比例正常展示&#xff0c;不会出现字体模块爆出&#xff0c;或者拉伸问题。这就是我想要的适配方案。 html <div id"appRef"><div>html页面</div> </div&g…

iOS高级理论:Block的应用

Block 是 Objective-C 和 Swift 中的一种语言特性&#xff0c;可以用来封装一段代码并在需要时执行。在 iOS 开发中&#xff0c;Block 被广泛应用于以下场景&#xff1a; 一、异步任务处理 Block 可以用于异步任务的处理&#xff0c;例如网络请求、文件读写等。通过在 Block …

基础复习(IDA调试器)

1.选择IDA调试后端 在顶部有一个下拉菜单&#xff0c;选择调试器后端位置 很多用户实际上使用的是Windows版本的IDA&#xff0c;该IDA可以直接调试Windows下32bit和64bit的程序 2.本地调试启动方法 载入IDA后&#xff0c;程序实际上在对程序内置的一个字符串进行base64解码…