数据挖掘之关联规则

“啤酒和尿布的荣誉”

概念

  • 项 item:单个的事物个体 ,I={i1,i2…im}是所有项的集合,|I|=m是项的总数
  • 项集(item set)/模式(pattern):项的集合,包含k个项的项集称为k-项集
  • 数据集(data set)/数据库(data base):D={T1,T2,…Tn}是与任务相关的数据库事务/记录/交易的集合,每个事务有一个标识符,称作TID。|D|=n为数据集中包含的事务总数。
  • 支持度support :项集的出现频率(0~1)/比例(绝对数)
  • 置信度/可信度(confidence):在D中的那些包含A的事务中,B也同时出现的条件概率P(B|A)=P(AB)/P(A)
  • 频繁项集(frequent itemset)/模式(pattern):项集的支持度>=最小支持度(min support)
  • 关联规则(association rules):关联规则是形如A=>B的蕴含式,具有支持度s=support(A ∪ \cup B),c=confidence(A=>B)=P(B|A)=support(A ∪ \cup B)/support(A)
  • 强规则:同时满足最小支持度和最小置信度的规则称作强规则。关联规则发掘分为两步:
    • 找出所有频繁项集
    • 产生强规则

例子

在这里插入图片描述

结论与注意事项

1.非频繁项集的超集都是非频繁的
support(y)<=support(x)<min_sup
y=x ∪ \cup 其他
2.频繁项集的子集是频繁的

1.强规则不一定有价值
2.相关分析:corr(A,B)=P(A ∪ \cup B)/P(A)P(B)
正相关>1,负相关<1,独立=1

问题分类

根据规则中所处理的值的类型分类:

  • 布尔关联规则(boolean association rule):规则考虑的关联是项的在与不在
  • 量化关联规则(quantitative association rule):规则描述的是量化的项或属性之间的关联

根据规则中所涉及的数据维数分类:

  • 单维关联规则(single-dimensional association rule) :规则中的项或属性每个只涉及一个维
  • 多维关联规则(multi-dimensional association rule):规则涉及多维度

根据规则中所涉及的抽象层分类:

  • 单层关联规则(single-level association rule):规则不考虑项的分层
  • 多层关联规则(multi-level association rule):考虑项的分层 buys(X,milk)=>buys(X,food)

频繁模式挖掘的分类:

  • 频繁模式挖掘
  • 交互挖掘
  • 增量挖掘
  • 效用频繁模式挖掘
  • 最大频繁模式挖掘
  • 频繁闭合模式挖掘
  • 并行/分布式挖掘

经典算法

基于候选项生成与测试(candidate generation and test)

非频繁项集的超集都是非频繁的
代表作:apriori(1994)

基于分治的模式增长(pattern growth)

采用分而治之的方法:频繁项集的子集是频繁的
代表作:FP-growth(2000)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/761484.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux快速入门,上手开发 02.VMware的安装部署

倘若穷途末路&#xff0c;那便势如破竹 —— 24.3.21 一、VMware的作用 在Windows或IOS系统下&#xff0c;给本地电脑安装VMware虚拟机&#xff0c;用来在虚拟机上安装Linux系统&#xff0c;避免重复资源的浪费&#xff0c;可以在虚拟机上搭建Linux系统进行学习 二、VMware的安…

树莓派夜视摄像头拍摄红外LED灯

NoIR相机是一种特殊类型的红外摄像头&#xff0c;其名称来源于"No Infrared"的缩写。与普通的彩色摄像头不同&#xff0c;NoIR相机具备红外摄影和低光条件下摄影的能力。 一般摄像头能够感知可见光&#xff0c;并用于普通摄影和视频拍摄。而NoIR相机则在设计上去除了…

Python基础----函数(持续更新中)

函数 函数的定义 函数是组织好的&#xff0c;可以重复使用的&#xff0c;用来实现单一的&#xff0c;或相关的代码段 函数&#xff1a;可以自己定义&#xff0c;也可以调用python中的第三方函数&#xff0c;print() 函数非调用不执行 自定义函数 1、函数以关键字 def 开头&…

C语言疑难题:杨辉三角形、辗转相除求最大公约数、求π的近似值、兔子问题、打印菱形

杨辉三角形&#xff1a;打印杨辉三角形的前10行 /* 杨辉三角形&#xff1a;打印杨辉三角形的前10行 */ #include<stdio.h> int main(){ int i,j; int a[10][10]; printf("\n"); for(i0;i<10;i){ a[i][0]1; a[i][i]1; …

PSNR/SSIM/LPIPS图像质量评估三件套(含代码)

在图像质量评估上&#xff0c;有三个重要指标&#xff1a;PSNR&#xff0c;SSIM&#xff0c;LPIPS。本文提供简易脚本分别实现。 PSNR&#xff0c;峰值信噪比&#xff0c;是基于MSE的像素比较低质量评估&#xff0c;一般30dB以上质量就不错&#xff0c;到40dB以上肉眼就很难分…

Java例子

例题1 – 需要有 6中解决方式. 铁道部发布了一个售票任务&#xff0c;要求销售1000张票&#xff0c;要求有3个窗口来进行销售&#xff0c;请编写多线程程序来模拟这个效果 &#xff08;该题涉及到线程安全&#xff0c;https://www.jb51.net/article/221008.htm&#xff09;   …

compose学习

compose学习链接 Alertdialog | 你好 Compose

委托复习【C#】

原因&#xff1a; 主窗体内&#xff0c;新建子窗体后&#xff1b; 主窗体可以调用子窗体的【属性】【方法】等&#xff1b; 但是子窗体内无法调用主窗体的【属性】【方法】。 解决办法&#xff1a; 只有全局的属性和方法&#xff0c;才能被任意调用。 所以&#xff0c;2个窗体相…

零基础学python:10、 函数的基础3

函数 1. 生成式 列表生成式即List Comprehensions,是Python内置的非常简单却强大的可以用来创建list的生成式。 #需求:生成一个1~10的整数列表 list1 = list(range(1,11)) print(list1) #[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]#需求:生成列表:[1*1, 2*2, 3*3, 4*4, 5*5, 6*6, …

C# WinForms应用程序中,FileSystemWatcher使用监视文件系统更改

在C# WinForms应用程序中&#xff0c;FileSystemWatcher 类用于监视文件系统更改&#xff0c;例如文件的创建、删除、修改以及目录的更改。以下是一个使用 FileSystemWatcher 的简单示例&#xff0c;展示了如何在WinForms应用程序中设置和使用它&#xff1a; 首先&#xff0c;…

ROS机器人入门第一课:ROS快速体验——python实现HelloWorld

文章目录 ROS机器人入门第一课&#xff1a;ROS快速体验——python实现HelloWorld一、HelloWorld实现简介&#xff08;一&#xff09;创建工作空间并初始化&#xff08;二&#xff09;进入 src 创建 ros 包并添加依赖 二、HelloWorld(Python版)&#xff08;二&#xff09;进入 r…

Java JDK8新日期API

一、 JDK8 中增加了一套全新的日期时间 API&#xff0c;这套 API 设计合理&#xff0c;是线程安全的。 java.time – 包含值对象的基础包java.time.chrono – 提供对不同的日历系统的访问java.time.format – 格式化和解析时间和日期java.time.temporal – 包括底层框架和扩展…

考研数学老师怎么选❓看这一篇就够了

张宇、汤家凤、武忠祥、李永乐、杨超、王式安、方浩这些老师都有自己擅长的细分 比如张宇老师&#xff0c;杨超&#xff0c;汤家凤&#xff0c;武忠祥老师的高数讲的很好&#xff0c;李永乐老师是线代的神&#xff0c;王式安、方浩概率论讲的很好&#xff0c;所以对于不同的学…

【文末附gpt升级4.0方案】FastGPT详解

FastGPT知识库结构讲解 FastGPT是一个基于GPT模型的知识库&#xff0c;它的结构可以分为以下几个部分&#xff1a; 1. 数据收集&#xff1a;FastGPT的知识库是通过从互联网上收集大量的文本数据来构建的。这些数据可以包括维基百科、新闻文章、论坛帖子等各种类型的文本。 2…

【openCV】手写算式识别

OpenCV 机器学习库提供了一系列 SVM 函数和类来实现 SVM 模型的训练和预测&#xff0c;方便用户实现自己的 SVM 模型&#xff0c;并应用于分类问题。本文主要介绍使用 openCV 实现手写算式识别的工作原理与实现过程。 目录 1 SVM 模型 1.1 SVM 模型介绍 1.2 SVM 模型原理 2…

在DelayMS加入bsp_Idle,把单片机延时空闲利用起来

在单片机应用中&#xff0c;使用延时函数 DelayMS() 会导致程序在延时期间无法执行其他任务&#xff0c; 这可能影响系统对一些响应时间要求较高的任务的处理。 为了提高系统的响应速度和利用单片机的空闲时间&#xff0c;可以在延时函数中加入 bsp_Idle() 函数&#xff0c; 以…

3.21系统栈、数据结构栈、栈的基本操作、队列、队列的基本操作------------》

栈 先进后出、后进先出 一、系统栈 大小&#xff1a;8MB 1、局部变量 2、未经初始化为随机值 3、代码执行到变量定义时为变量开辟空间 4、当变量的作用域结束时回收空间 5、函数的形参和返回值 6、函数的调用关系、保护现场和恢复现场 7、栈的增长方向&#xff0c;自高…

5.1.5、【AI技术新纪元:Spring AI解码】HuggingFace Chat

HuggingFace 推理端点允许您在云中部署和提供机器学习模型,使其可以通过 API 访问。 入门 关于 HuggingFace 推理端点的更多详细信息可以在此处找到。 先决条件 添加 spring-ai-huggingface 依赖项: <dependency><groupId>org.springframework.ai</groupId…

【Linux进程的状态】

目录 看Linux源码中的说法 如何查看进程状态&#xff1f; 各个状态的关系 僵尸进程 举个栗子 现象 僵尸进程的危害 孤儿进程 举个栗子 现象 进程的优先级 基本概念 为什么要有进程优先级&#xff1f; 查看系统进程 进程的大致属性 进程优先级vs进程的权限 Linu…

[Semi-笔记] 2023_TIP

目录 概要一&#xff1a;Conservative-Progressive Collaborative Learning&#xff08;保守渐进式协作学习&#xff09;挑战&#xff1a;解决&#xff1a; 二&#xff1a;Pseudo Label Determination for Disagreement&#xff08;伪标签分歧判定&#xff09;挑战&#xff1a;…