大数据关联规则算法

  1. 关联性(Association)

    • 定义:指一个变量能够提供有关另一个变量的信息。
    • 特点:关联性是一个广泛的概念,它可以包括直接的、间接的、强的或弱的联系。
  2. 相关性(Correlation)

    • 定义:指两个变量同时上升或下降的趋势
    • 特点:相关性通常用相关系数来量化,如皮尔逊相关系数,它可以测量变量之间的线性关系强度和方向。
    • 误区:相关性意味着关联性,而不是因果关系;
  3. 因果关系(Causality)

    • 定义:指一个变量(原因)直接影响另一个变量(结果)。
    • 特点:因果关系需要通过实验或统计方法来验证,例如随机对照试验(RCT)或使用因果推断模型。
    • 误区:因果关系意味着关联,而不是相关性
      在这里插入图片描述

关联

  • 定义:关联是两个或者多个变量之间存在着的某种规律,这种规律是可被发现的并且是有意义的。

关联规则(Association Rules)挖掘

  • 定义:挖掘负责找出给定数据集中数据项之间隐藏的关联关系,描述数据之间的密切度是关联分析的主要目的。
  • 用途:关联规则用于描述相关联的事物之间同时有规律发生的知识模式。
应用场景
  • 优化货架商品摆放:根据商品之间的关联性,优化超市或商场的商品摆放。
  • 交叉销售或捆绑销售:利用商品之间的关联性,进行捆绑销售或交叉销售。
  • 搜索词推荐:根据用户的搜索习惯,推荐相关搜索词。
  • 识别异常:发现数据中的异常模式,如信用卡欺诈检测。
相关概念
  • 项目(Item):交易数据库中的一个字段,对超市的交易来说一般是指一次交易中的一个物品,如:牛奶
  • 事务(Transaction):某个客户在一次交易中,发生的所有项目的集合:如{牛奶,面包,啤酒}
  • 项集(Item Set):包含若干个项目的集合(一次事务中的),一般会大于0个
  • 支持度(Support):项集{X,Y}在总项集中出现的概率
  • 频繁项集(Frequent Itemset):某个项集的支持度大于设定阈值(人为设定或者根据数据分布和经验来设定),即称这个项集为频繁项集。
  • 置信度(Confidence):在先决条件X发生的条件下,由关联规则{X->Y }推出Y的概率
    (给定X发生的条件下,Y发生的概率。)
  • 提升度(Lift):表示含有X的条件下同时含有Y的概率,与无论含不含X含有Y的概率之比,用于衡量关联规则的强度。

    在这里插入图片描述

Apriori算法

  • 提出者:Rakesh Agrawal 和 Ramakrishnan Srikant。
  • 提出时间:1994年。
  • 基本思想:基于支持度连接剪枝技术,有效控制候选项集的增长。
关联规则挖掘目的
  • 目的:找出数据集中项与项之间的关系,用于市场分析、商品推荐等。
  • 别称:购物篮分析,主要用于零售业中分析顾客的购买模式。
应用案例:啤酒和尿布
  • 故事背景:美国妇女让丈夫下班后购买尿布,丈夫往往会同时购买啤酒。
  • 商业应用:将啤酒和尿布摆放在一起,增加顾客同时购买这两种商品的机会。
  • 结果:提高了啤酒和尿布的销量,成为商家推崇的营销策略。

Apriori 算法利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。在这个算法中 Agrawal 给出了一个关于频繁模式的著名性质-Apriori 性质。

Apriori性质
  • Apriori性质:频繁项集的所有非空子集也必须是频繁的。
  • 推论1:非频繁项集的超集一定是非频繁项集。
  • 推论2:强关联规则的子规则也是强关联规则。

Apriori算法步骤

  1. 产生频繁项集

    • 第一阶段
      • 所有单独的项作为候选项集 ( C1 )。
      • 剔除支持度小于最小支持度阈值的项,形成频繁1-项集 ( L1 )。
    • 第二阶段
      • ( L1 ) 通过自连接形成候选项集 ( C2 )。
      • 扫描数据库,剔除支持度小于阈值的项,形成频繁2-项集 ( L2 )。
    • 后续阶段
      • 重复自连接和剔除过程,形成更高阶的候选项集 ( C3, C4, \ldots ) 直到无法找到新的频繁项集。
  2. 产生关联规则

    • 利用频繁项集 ( L ) 产生关联规则。
    • 满足可信度大于min_conf 的频繁项集产生强关联规则
    • 由于规则基于频繁项集产生,自动满足最小支持度 ( min_sup )。
      在这里插入图片描述

Apriori算法实例

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

生成频繁项集阶段
  1. 分割与分布数据

    • MapReduce库将数据集D水平划分为n个数据块,然后发送到m个节点。
  2. 格式化数据块

    • 数据块格式化为<Tid, list>对,其中Tid是事务标识符,list是事务中的项目列表。
  3. 执行Map任务

    • Map函数扫描每条记录,生成局部频繁1-项集和局部频繁k-项集。
  4. 运行Combiner函数

    • 可选的Combiner函数在Map任务后执行,合并Map输出,减少网络传输。
  5. 执行Reduce任务

    • Reduce任务接收Map端输出,合并局部频繁项集,生成全局候选频繁项集。
  6. 再次扫描D

    • Map方法读取D中的记录,验证是否存在于全局候选频繁项集中,使用Combiner函数进行局部汇总。
  7. 合并Reduce函数输出

    • 合并Reduce输出,与最小支持度阈值比较,输出满足条件的频繁项集。
  • MapReduce框架:通过分布式计算,优化了频繁项集的生成过程。
  • Map任务:生成局部频繁项集,类似于词频统计。
  • Combiner函数:减少网络传输,提高效率,本地合并Map输出。
  • Reduce任务:合并全局候选频繁项集,生成最终频繁项集。
  • 两次扫描:第一次用于生成候选频繁项集,第二次用于验证和汇总。
    在这里插入图片描述
生成关联规则阶段
  1. 文本文件切分

    • 将文本文件的每一行作为单独的切分处理。
    • 形成键值对<key1, value1>,其中key1 代表该行的偏移量,value1 代表一行文本(频繁项集中的一项)
  2. Map函数处理

    • Map函数扫描每对<key1, value1>
    • 对每个频繁项集调用规则生成函数,产生所有可能的规则。
    • 规则包括支持度和置信度,输出为<key2, value2>,其中key2是频繁项集中的一项,value2是该项对应的所有规则(包括支持度和可信度)。。
  3. Reduce函数规约

    • Reduce函数接收Map函数的所有输出。
    • 对每个频繁项集的规则进行规约,筛选出满足最小置信度阈值的强关联规则。
    • 将最终的关联规则<rule, conf>对存储到HDFS(Hadoop分布式文件系统)。
  • Map任务:处理文本文件,为每个频繁项集生成候选规则。
  • Reduce任务:筛选有效规则,存储最终结果。
  • 规则评估:评估规则的支持度和置信度,确保规则的有意义性和实用性。
  • 存储结果:将生成的关联规则存储在分布式文件系统中,便于后续的访问和分析。
    在这里插入图片描述
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/30408.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI视频智能监管赋能城市管理:打造安全有序的城市环境

一、方案背景 随着城市化进程的加速和科技的飞速发展&#xff0c;街道治安问题日益凸显&#xff0c;治安监控成为维护社会稳定和保障人民安全的重要手段。当前&#xff0c;许多城市已经建立了较为完善的治安监控体系&#xff0c;但仍存在一些问题。例如&#xff0c;监控设备分…

window 卸载应用商店程序

# 使用Get-AppxPackage获取所有应用程序 # 使用Remove-AppxPackage PythonSoftwareFoundation.Python.3.12_3.12.1264.0_x64__qbz5n2kfra8p0

【Linux 基础】目录结构

Linux 的目录结构&#xff08;也称为文件系统结构&#xff09;是组织文件和目录的一种逻辑方式。每个文件和目录在文件系统中都有一个唯一的位置或路径。 Linux文件系统是整个操作系统的基础架构&#xff0c;对于系统的稳定运行、数据安全以及用户操作便捷性至关重要&#xff0…

webhook-k8s API和apimachinery版本高于Client-go

1. 问题 使用go mod tidy 存在丢弃的版本 go: downloading github.com/josharian/intern v1.0.0 go: finding module for package k8s.io/api/flowcontrol/v1alpha1 go: simple-webhook/types importsk8s.io/client-go/rest tested byk8s.io/client-go/rest.test importsk8s.…

场外个股期权通道业务是什么意思?

今天带你了解场外个股期权通道业务是什么意思&#xff1f;场外个股期权业务是指在沪深交易所之外进行的个股期权交易。它是一种非标准化的合约&#xff0c;不在交易所内进行交割。 场外个股期权通道业务&#xff0c;是指投资者通过与场外个股期权机构通道签订合约&#xff0c;购…

uni-app中使用富文本rich-text个人经验

rich-text是在uni-app一个内置组件&#xff0c;用于高性能地渲染富文本内容。先贴一下官方的属性列表&#xff1a; 先说一下“selectable” 长按选择区域复制&#xff0c;这个我在APP项目中 不起作用&#xff0c;可能像文档说的&#xff0c;只支持“百度小程序”吧。在APP端起作…

CUDA系列-Mem-9

这里写目录标题 Static Architecture.Abstractions provided by CUSW_UNIT_MEM_MANAGERMemory Object (CUmemobj) Memory Descriptor(CUmemdesc)Memory Block(CUmemblock)Memory BinsSuballocations in Memory BlockFunctional description Memory Manager 你可能觉得奇怪&…

使用SQLite

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 与许多其他数据库管理系统不同&#xff0c;SQLite不是一个客户端/服务器结构的数据库引擎&#xff0c;而是一种嵌入式数据库&#xff0c;它的数据库就…

Centos 配置安装Mysql

linux安装配置mysql的方法主要有yum安装和配置安装两种&#xff0c;由于yum安装比较简单&#xff0c;但是会将文件分散到不同的目录结构下面&#xff0c;配置起来比较麻烦&#xff0c;这里主要研究一下配置安装mysql的方法 1、环境说明 centos 7.9 mysql 5.7.372、环境检查 …

反激式开关电源是如何工作的

反激的变压器可以看作一个带变压功能的电感&#xff0c;是一个buck-boost电路。 反击式开关变压器 反激式开关电源是指使用反激高频变压器隔离输入输出回路的开关电源。“反激”指的是在开关管接通的情况下&#xff0c;当输入为高电平时输出线路中串联的电感为放电状态&#x…

ABAP-03基础数据类型

基本数据类型 数据类型默认大小&#xff08;byte&#xff09;有效大小初始值说明示例C11-65535SPACE文本字符&#xff08;串&#xff09;‘Name’N11-65535‘00…0’数字文本‘0123’T66‘000000’时间(HHMMSS)‘123010’D88‘00000000’日期(yyyymmdd)‘20090901’I4-231~232…

算法基础精选题单 动态规划(dp)(递推+线性dp)(个人题解)

前言&#xff1a; 一些简单的dp问题。 正文&#xff1a; 题单&#xff1a;237题】算法基础精选题单_ACM竞赛_ACM/CSP/ICPC/CCPC/比赛经验/题解/资讯_牛客竞赛OJ_牛客网 (nowcoder.com) 递推&#xff1a; NC235911 走楼梯&#xff1a; #include<bits/stdc.h> using na…

在k8s上部署一个简单的应用

部署一个简单的应用 实验目标&#xff1a; 部署一个简单的 web 应用&#xff0c;比如 Nginx 或者一个自定义的 Node.js 应用。 实验步骤&#xff1a; 创建一个 Deployment。创建一个 Service 来暴露应用。验证应用是否可以通过 Service 访问。 今天我们来做一下昨天分享的可…

Debian12的#!bash #!/bin/bash #!/bin/env bash #!/usr/bin/bash #!/usr/bin/env bash

bash脚本开头可写成 #!/bin/bash , #!/bin/env bash , #!/usr/bin/bash , #!/usr/bin/env bash #!/bin/bash , #!/usr/bin/bash#!/bin/env bash , #!/usr/bin/env bash Debian12的 /bin 是 /usr/bin 的软链接, /sbin 是 /usr/sbin 的软链接, (Debian12默认没有ll命令,用的ls …

Python的pandas读取excel文件中的数据

一、前言 hello呀&#xff01;各位铁子们大家好呀&#xff0c;我是一个在软件测试行业摸爬滚打十几年的老江湖了&#xff0c;今天呢来和大家聊一聊用Python的pandas读取excel文件中的数据。 二、读取Excel文件 使用pandas的read_excel()方法&#xff0c;可通过文件路径直接读…

Techviz:XR协作工作流程,重塑远程电话会议新形式

在当今快速发展的数字环境中&#xff0c;无缝远程协作的需求正在成为企业多部门协同工作的重中之重&#xff0c;尤其是对于制造业、建筑和设计等行业的专业人士而言&#xff0c;这一需求更加迫切。传统的远程电话会议协作形式存在着延滞性&#xff0c;已经渐渐跟不上当今快节奏…

项目三OpenStack基础环境配置与API使用

任务一 了解OpenStack基础环境配置 1.1 •数据库服务器 1.2 •消息队列服务 •AMQP系统的组成 任务二 了解并使用OpenStack API 2.1 •什么是RESTful API • RESTful API 是目前比较成熟的 一套Internet应用程序的API软件架构 。 • 表现 层&#xff08; Representation …

汽车IVI中控开发入门及进阶(三十一):视频知识扫盲

有效的视频资源管理需要集成许多不同的底层技术,共同为用户提供给定应用程序的最佳体验。其中许多技术是从早期电视广播中使用的技术演变而来的。其他方法,如用于通过网络流式传输视频的压缩方法,相对较新且不断发展。 以下详细概述了与图形和视频处理和传输相关的一些基本…

云上宝库:三大厂商对象存储安全性及差异性比较

前言 看了几家云厂商的对象存储&#xff0c;使用上有相似也有差异&#xff0c;聊聊阿里云、腾讯云、京东云三家对象存储在使用中存在的风险以及防护措施。 0x01 云存储命名 阿里云对象存储OSS(Object Storage Service)&#xff0c;新用户免费试用三个月&#xff0c;存储包容…

安装idea后配置的全局配置

1、打开IDEA应用&#xff1a;Customize→All settings...&#xff0c;如果启动IDEA后&#xff0c;默认打开的是之前的项目&#xff0c;可以关闭当前项目&#xff1a;File→Close Project&#xff0c;就退到全局配置界面了。 2、打开全局配置界面&#xff1a;Editor→File Encod…