数据挖掘原理与算法_技术分享|大数据挖掘算法之FPGrowth算法

d156ba6c52e85539bc3e87adb2ebb165.png

程一舰

数据技术处

      我们常说我们生活在信息时代,实际上,我们更多的还是生活在数据时代。因为从过去到现在累积了大量的数据,对数据的挖掘和分析也仅是从最近几年大数据和人工智能技术的发展而兴起。我们对现有数据价值的利用还远低于数据本身拥有的价值。随着数据在党的十九届四中全会中与劳动、资本、土地、知识、技术、管理等一起被列为生产要素,数据价值的挖掘将会越来越深入。数据挖掘在《Data Mining》一书中的解释就是从大量数据中挖掘有趣模式和知识的过程。既然未来已来,我们就要顺应时代发展,掌握必备技能。

    在前面我们介绍了一种简单的挖掘商品关联性算法。今天要介绍的是更高效的FP-Growth算法(FP指的是Frequent Pattern),它可以用到搜索词提醒,常用词,挖掘强关联性商品,商品推荐等领域上。挖掘商品关联系或者词语之间的关联性,需要做的事是构造各种商品组合然后分析出这种组合是否是高频率出现。Apriori算法每产生一种组合都要遍历一次数据库来判断当前组合是否是高频记录,这个在大量数据面前是很耗时间。

一、原理介绍

与Apriori算法相比,FP-Growth算法更进一步,通过将交易数据巧妙的构建出一颗FP树,然后在FP树中递归的对频繁项进行挖掘。FP-Growth算法仅仅需要两次扫描数据库,第一次是统计每个商品的频次,用于剔除不满足最低支持度的商品,然后排序得到FreqItems。第二次,扫描数据库构建FP树。还是以之前Apriori的例子来一步步的详细分析FP树的构建,和频繁项的递归挖掘。

8bb9b474f4f0d6885f68c448138db325.png

首先,找出频繁1项集,支持度为50%

ID集合{1,2,3,5},所以在剔除ID=4和6后,对每条订单的商品序列按照商品出现的频率进行重新排序,得到如下:

16a9cfb4781f2cfbd602d2292cd7c6d6.png

然后,构建FP-Tree

68db6d06f8056a08dd0965291df3db88.png

如果我们想获取谁的频繁模式,只需要找到该节点并上溯寻找到所有节点即可,举个例子,找到2的频繁项集候选集,可以得到两个个路径;根据这个FP-Tree,挖掘频繁模式就是通过递归的获取节点的子树的过程。子树构建方式如下:新建一个新的FP树,然后遍历树中所有的待挖掘节点,往上找,直到root节点,然后把当前路径上的非根节点添加到subTree中,每个节点的频次为当前遍历节点的频次。

我们以2节点为例,找到2节点的路径{2,1,3}和{2,3},每个路径的频率等于该路径中2节点的频率,因此

2-1-3=>3

2-3=>1

然后我们构建新的subTree:

d4c4f4090382673706229eeb149dae98.png

所以根据指出度为50%,我们可以得到{2},{2,3},{2,3,1}都是频繁模式,例如{2,1,3}总共出现3次,3/5=0.6 = 60% 大于我们要求的支持度50%;{2}和{2,3}都出现4次,其他的依次类推;

二、验证

我们通过Spark的MLlib中提供的数据挖掘算法FP-Growth来验证一下我们的结果

2f8bc7bd7fbc4d51d730fcc5e93a244f.png

通过结果可以看出我们的计算是对的

2b27b7bb98956323eba02e6b54036739.png

三、适用场景

除了跟Apriori算法一样,用来进行一些关联商品推荐,FP-Tree还可以用于这样的场景:输入一个单词或者单词的一部分,推断出你可能要搜索的查询词项,比如在百度输入“xxx大学”开始查询时,会出现诸如“xxx大学为什么还不放假”之类的推荐结果。

FP-Growth又称为FP-增长算法,它比Apriori算法要快,它基于Apriori构建,但在完成相同任务时采用了一些不同的技术。不同于Apriori算法的”产生-测试”,这里的任务是将数据集存储在一个特定的称做FP树的结构之后发现频繁项集或者频繁项对,即常在一块出现的元素项的集合FP树,这种做法是的算法的执行速度要快于Apriori,通常性能要好两个数量级以上。

四、总结

数据挖掘中关于关联规则或者频繁模式挖掘类的算法,也是我们日常生活中经常用到的算法。数据挖掘还有很多有趣的算法, 这些算法能让我们更好的从数据从挖掘价值信息。同时,大数据平台也将一如既往的为各种数据挖掘类应用提供算力支持,为我行金融科技发展打造坚持的大数据平台支撑。

6fc74749a246e58aa8e602bc189ae466.gif

6646ec79671a9d5eb4d8810d6e9af76f.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/346320.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

neo4j数据浏览器_Neo4j:在Neo4j浏览器的帮助下探索新数据集

neo4j数据浏览器在查看新的Neo4j数据库时,我发现遇到的一件困难就是确定其中包含的数据的结构。 我习惯于关系数据库,在该数据库中您可以轻松获取表列表和外键,以便您将它们相互连接。 传统上,使用Neo4j时很难做到这一点&#x…

mfc中怎么集成文件_怎么把几个pdf合并并打印在一份文件中?

a为什么我们要把pdf文件合并呢?当然我们要知道什么是pdf文件才能进行更多的操作,Pdf是我们许多人都会用到的一种存储文件的格式,它的内容基本是以图像的形式表现,所以我们在播放和打印的时候可以不用担心出现格式错乱的问题。PDF格…

php中日期选择代码,实现JS日期时间选择器

这次给大家带来实现JS日期时间选择器,实现JS日期时间选择器的注意事项有哪些,下面就是实战案例,一起来看一下。flatpickr 是一个轻量级、注重精益、由 UX 驱动和可扩展的 JavaScript 日期时间选择器。下载 演示 GitHubflatpickr 不依赖于任何…

php steam 第三方登录,Steam第三方登录

Steam第三方登录Laravel PHP7.3前端登录界面if(isset($steamprofile))window.οnlοadfunction(){var steamprofile {!!$steamprofile!!};var steamid {{$steamid}};if(steamid){$.post(/ajax/SocilaAuthLogin,{data:{userdata:steamprofile,type:steamLogin},},function(dat…

setitimer 创建两个定时器_UE4 Timer(定时器)相关源码分析

前言文章属于旧有文章搬运, 之前在csdn上面2019.11.6修改Timer是定时器, 用途:延时执行事件周期性执行事件参考官方文档Using TimersTimer可以...Timer能...Timer...... 编不下去了, 自己百度谷歌吧(手动狗头)TimerManagerTimer的管理类是FTimerManager, 是一个全局的Timer管理…

is array php,PHP 源码 — is_array 函数源码分析

php 中的 is_arrayphp 中的 is_array,它的签名是 is_array ( mixed $var ) : bool实现的源码在\ext\standard\type.c中可以找到PHP_FUNCTION(is_array)所处的位置,大概位于 273 行。在 PHP 中,这个系列的函数,是由很多个&#xff…

apache mahout_使用Apache Mahout创建在线推荐系统

apache mahout最近, 我们一直在为Yap.TV实施推荐系统:您可以在安装应用程序并转到“ Just for you”标签后才能看到它的运行情况。 我们以Apache Mahout为基础进行建议。 Mahout是一个“可扩展的机器学习库”,包含使用协作过滤算法的基于用户…

Java应用程序的简单令牌认证

“我喜欢编写身份验证和授权代码。” 〜从来没有Web开发人员。 厌倦了一次又一次地建立相同的登录屏幕? 尝试使用Okta API进行托管身份验证,授权和多因素身份验证。 JSON Web令牌已Swift成为保护Web应用程序安全的标准,并取代了Cookie和会话…

matlab中rb代表什么意思,你知道“川藏线上”女游客举着“求RB”的牌子是啥意思吗?暗语啊!...

现在穷游好像一种旅行圈的时髦,很多人都想着穷游能够锻炼人的意志,能够促进人与人的交流与合作,能够在路上遇到不一样的精彩,能够发现人性与真善美。现在穷游的人不在少数,尤其是在川藏线上,想要穷游入藏的…

华为主题锁屏壁纸换不掉_华为手机总多出莫名的照片?那是因为这3个设置没关闭,赶紧自查...

随着华为在科技、5G以及数码领域的表现越来越好,使用华为手机的人也越来越多。不知道你在使用华为手机的过程中,有没有这样的感觉,华为手机总是多出莫名其妙的照片,即使删除了下次还会出现。如果有这样的情况,可能是手…

php nginx 域名重定向,Nginx默认虚拟主机、用户认证、域名重定向

Nginx默认虚拟主机定义默认虚拟主机配置文件,在http下面加入include vhost/*.conf在/usr/local/nginx/conf/下创建目录#mkdir vhost/ //创建vhost目录#cd vhost/ //进入目录#vim aaa.com.conf //编辑文件server{listen 80 default_server; // 有这个标记的就是默认虚拟主机serv…

Java:使用SingletonStream获得性能

仅具有一个元素的Java流有时会在应用程序中造成不必要的开销。 了解如何使用SingletonStream对象并为其中某些此类流获得十倍的性能,并了解如何同时简化代码。 背景 Java 8中的Stream库是有史以来Java语言最强大的功能之一。 一旦您开始了解它的多功能性和所产生的…

php调用pdf2html,php html2pdf

*安装composer运行html2pdf时,readme里面建议按照composer-setup.exe安装过程中出现openssl的问题,在php.ini中开启相应extension即可,路径写绝对路径,否则按默认路径找不到在html2pdf的文件路径下,cmd运行composer in…

JDK 11:新的默认收集方法toArray(IntFunction)

“ JDK 11 Early-Access发行说明 ”表明JDK 11的Early Access Build 20在Collection接口上包括一个新的默认方法 ,该方法 “允许将集合的元素转移到所需运行时类型的新创建的数组中”。 这个新的默认方法 [ Collection.toArray(IntFunction) …

获取清空textarea的文字内容_运用|你会做 词云图(文字云) 吗?

词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。今天,兰色就分享一下词云图的做法。制作步骤:1、打开词云图网站打开网页https://wordart…

如何在Spring Boot App中集成H2数据库

你好朋友, 在本教程中,我们将尝试探索如何在Spring Boot应用程序中与H2数据库集成。 在进行检查之前,让我们了解有关H2数据库的一些基础知识,如下所述,然后我们将讨论H2数据库与Spring Boot的集成。 什么是H2数据库…

python在路径里添加变量_想学Python?那就先从头开始吧!

作为人工智能和大数据时代最具竞争力的 Python 语言,越来越多的出现在各大编程热搜排行榜上。首先你要了解什么是python了解Python语言Python是一种解释型, 面向对象, 动态数据类型的高级程序设计语言.Python由Guido van Rossum(荷兰) 于1989…

ant 走马灯面板指示显示不出来_触摸屏报警信息显示设置方法

人机界面(HMI)是自动化设备中非常常用的器件,用于替代操作面板上的实体按钮或者显示指示。人机界面的适用极大的减小了设备操作面板的尺寸,提升了设备的整体美观度。随着自动化设备的自动化程度的提高,也对设备的报警信息提出了更高的要求。如…

oracle bbed 使用,Oracle BBED使用 四步快速启动Oracle BBED

Oracle BBED使用,四步快速启动Oracle BBED,环境:Oracle 10g RHEL 5.8,介绍:BBED全称为数据块浏览和编辑。用于对Oracle blo环境:Oracle 10g RHEL 5.8介绍:BBED全称为数据块浏览和编辑。用于对Or…

linux内核4.4和4.5,[图]Linux Kernel 4.5系列第4个维护版本发布

Greg Kroah-Hartman表示:“我今天宣布了Linux 4.5.4内核,所有Linux 4.5内核系列用户必须尽快升级。已经升级的4.5.y git tree能够在git://git.kernel.org/pub/scm/linux/kernel/git/stable/linux-stable.git linux-4.5.y中获取,也能通过访问h…