pagerank数据集_从小白视角理解数据挖掘十大算法

关注上方“数据挖掘工程师”,选择星标,

关键时间,第一时间送达!

e7eb25eb772103c5434dab77cc645393.png作者 | 雪山飞猪链接 | https://www.cnblogs.com/chenqionghe/p/12301905.html编辑 | 深度学习这件小事本文仅作技术交流,如有侵权,请联系删除

   算法分类

连接分析:PageRank关联分析:Apriori分类算法:C4.5,朴素贝叶斯,SVM,KNN,Adaboost,CART聚类算法:K-Means,EM   一、PageRank当一篇论文被引用的次数越多,证明这篇论文的影响力越大。一个网页的入链越多,入链越优质,网页的质量越高原理网页影响力=阻尼影响力+所有入链集合页面的加权影响力之和
  • 一个网页的影响力:所有入链的页面的加权影响力之和

  • 一个网页对其他网页的影响力贡献为:自身影响力/出链数量

  • 用户并不都是按照跳转链接的方式来上网,还有其他的方式,比如直接输入网址访问,

  • 所以需要设定阻尼因子,代表了用户按照跳转链接来上网的概率

比喻说明1、微博一个人的微博粉丝数不一定等于他的实际影响力,还需要看粉丝的质量如何。如果是僵尸粉没什么用,但如果是很多大V或者明星关注,影响力很高。2、店铺的经营顾客比较多的店铺质量比较好,但是要看看顾客是不是托。3、兴趣在感兴趣的人或事身上投入了相对多的时间,对其相关的人事物也会投入一定的时间。那个人或事,被关注的越多,它的影响力/受众也就越大。关于阻尼因子1、通过你的邻居的影响力来评判你的影响力,但是如果不能通过邻居来访问你,并不代表你没有影响力,因为可以直接访问你,所以引入阻尼因子的概念2、海洋除了有河流流经,还有雨水,但是下雨是随机的3、提出阻尼系数,还是为了解决某些网站明明存在大量出链(入链),但是影响力却非常大的情形。
  • 出链例子:hao123导航网页,出链极多入链极少

  • 入链例子:百度谷歌等搜索引擎,入链极多出链极少。

   二、Apriori(关联分析)关联关系挖掘,从消费者交易记录中发掘商品与商品之间的关联关系原理1.支持度某个商品组合出现的次数与总次数之间的比例5次购买,4次买了牛奶,牛奶的支持度为4/5=0.85次购买,3次买了牛奶+面包,牛奶+面包的支持度为3/5=0.62.置信度购买了商品A,有多大概率购买商品B,A发生的情况下B发生的概率是多少买了4次牛奶,其中2次买了啤酒,(牛奶->啤酒)的置信度为2/4=0.5买了3次啤酒,其中2次买了牛奶,(啤酒->牛奶)的置信度为2/3-0.673.提升度衡量商品A的出现,对商品B的出现 概率提升的程度提升度(A->B)=置信度(A->B)/支持度(B)提升度>1,有提升;提升度=1,无变化;提升度<1,下降4.频繁项集项集:可以是单个商品,也可以是商品组合频繁项集是支持度大于最小支持度(Min Support)的项集计算过程1、从K=1开始,筛选频繁项集。2、在结果中,组合K+1项集,再次筛选3、循环1,2步。直到找不到结果为止,K-1项集的结果就是最终结果。扩展:FP-Growth 算法Apriori 算法需要多次扫描数据库,性能低下,不适合大数据量FP-growth算法,通过构建 FP 树的数据结构,将数据存储在 FP 树中,只需要在构建 FP 树时扫描数据库两次,后续处理就不需要再访问数据库了。比喻说明啤酒和尿不湿摆在一起销售沃尔玛通过数据分析发现,美国有婴儿的家庭中,一般是母亲在家照顾孩子,父亲去超市买尿不湿。父亲在购买尿不湿时,常常会顺便搭配几瓶啤酒来犒劳自己,于是,超市尝试推出了将啤酒和尿不湿摆在一起的促销手段,这个举措居然使尿不湿和啤酒的销量都大幅增加。   三、AdaBoost原理简单的说,多个弱分类器训练成为一个强分类器。将一系列的弱分类器以不同的权重比组合作为最终分类选择计算过程1、初始化基础权重2、奖权重矩阵,通过已的分类器计算错误率,选择错误率最低的为最优分类器3、通过分类器权重公式,减少正确样本分布,增加错误样本分布,得到新的权重矩阵和当前k轮的分类器权重4、将新的权重矩阵,带入上面的步骤2和3,重新计算权重矩阵5、迭代N轮,记录每一轮的最终分类器权重,得到强分类器比喻说明1、利用错题提升学习效率做正确的题,下次少做点,反正都会了做错的题,下次多做点,集中在错题上随着学习的深入,做错的题会越来越少2、合理跨界提高盈利苹果公司,软硬结合,占据了大部分的手机市场利润,两个领域的知识结合起来产生新收益   四、C4.5(决策树)决策就是对于一个问题,有多个答案,选择答案的过程就是决策。C4.5算法是用于产生决策树的算法,主要用于分类C4.5使用信息增益率做计算(ID3算法使用信息增益做计算)原理C4.5选择最有效地方式对样本集进行分裂,分裂规则是分析所有属性的信息增益率信息增益率越大,意味着这个特征分类的能力越强,我们就要优先选择这个特征做分类比喻说明挑西瓜拿到一个西瓜,先判断它的纹路,如果很模糊,就认为这不是好瓜,如果它清晰,就认为它是一个好瓜,如果它稍稍模糊,就考虑它的密度,密度大于某个值,就认为它是好瓜,否则就是坏瓜。   五、CART(决策树)CART:Classification And Regression Tree,中文叫分类回归树,即可以做分类也可以做回归。什么是分类树、回归树?分类树:处理离散数据,也就是数据种类有限的数据,输出的是样本的类别 。回归树:可以对连续型的数值进行预测,输出的是一个数值,数值在某个区间内都有取值的可能。回归问题和分类问题的本质一样,都是针对一个输入做出一个输出预测,其区别在于输出变量的类型原理CART分类树与C4.5算法类似,只是属性选择的指标是基尼系数。基尼系数反应了样本的不确定度,基尼系数越小,说明样本之间的差异性小,不确定程度低。分类是一个不确定度降低的过程,CART在构造分类树的时候会选择基尼系数最小的属性作为属性的划分。CART 回归树采用均方误差或绝对值误差为标准,选取均方误差或绝对值误差最小的特征比喻说明分类:预测明天是阴、晴还是雨回归:预测明天的气温是多少度   六、朴素贝叶斯(条件概率)朴素贝叶斯是一种简单有效的常用分类算法,计算未知物体出现的条件下各个类别出现的概率,取概率最大的分类原理假设输入的不同特征之间是独立的,基于概率论原理,通过先验概率P(A)、P(B)和条件概率推算出后概率出P(A|B)P(A):先验概率,即在B事件发生之前,对A事件概率的一个判断。P(B|A):条件概率,事件 B 在另外一个事件 A 已经发生条件下的发生概率P(A|B):后验概率,即在B事件发生之后,对A事件概率的重新评估。比喻说明给病人分类
症状职业疾病
打喷嚏护士感冒
打喷嚏农夫过敏
头痛建筑工人脑震荡
头痛建筑工人感冒
打喷嚏教师感冒
头痛教师脑震荡
给定一个新病人,是一个打喷嚏的建筑工人,计算他患感冒的概率   七、SVMSVM:Support Vector Machine,中文名为支持向量机,是常见的一种分类方法,最初是为二分类问题设计的,在机器学习中,SVM 是有监督的学习模型。什么是有监督学习和无监督学习 ?有监督学习:即在已有类别标签的情况下,将样本数据进行分类。无监督学习:即在无类别标签的情况下,样本数据根据一定的方法进行分类,即聚类,分类好的类别需要进一步分析后,从而得知每个类别的特点。原理找到具有最小间隔的样本点,然后拟合出一个到这些样本点距离和最大的线段/平面。硬间隔:数据是线性分布的情况,直接给出分类软间隔:允许一定量的样本分类错误。核函数:非线性分布的数据映射为线性分布的数据。比喻说明1.分隔桌上一堆红球和篮球用一根线将桌上的红球和蓝球分成两部分2.分隔箱子里一堆红球和篮球用一个平面将箱子里的红球和蓝球分成两部分   八、KNN(聚类)机器学习算法中最基础、最简单的算法之一,既能分类也能回归,通过测量不同特征值之间的距离来进行分类。原理计算待分类物体与其他物体之间的距离,对于K个最近的邻居,所占数量最多的类别,预测为该分类对象的类别计算步骤1、根据场景,选取距离计算方式,计算待分类物体与其他物体之间的距离2、统计距离最近的K个邻居3、对于K个最近的邻居,所占数量最多的类别,预测为该分类对象的类别比喻说明近朱者赤,近墨者黑   九、K-Means(聚类)K-means是一个聚类算法,是无监督学习,生成指定K个类,把每个对象分配给距离最近的聚类中心原理1.随机选取K个点为分类中心点2.将每个点分配到最近的类,这样形成了K个类3.重新计算每个类的中心点。比如都属于同一个类别里面有10个点,那么新的中心点就是这10个点的中心点,一种简单的方式就是取平均值。比喻说明1.选老大大家随机选K个老大,谁离得近,就是那个队列的人(计算距离,距离近的人聚合在一起)随着时间的推移,老大的位置在变化(根据算法,重新计算中心点),直到选出真正的中心老大(重复,直到准确率最高)2.Kmeans和Knn的区别Kmeans开班选老大,风水轮流转,直到选出最佳中心老大Knn小弟加队伍,离那个班相对近,就是那个班的   十、EM(聚类)EM 的英文是 Expectation Maximization,所以 EM 算法也叫最大期望算法,也是聚类算法的一种。EM和K-Means的区别:
  1. EM是计算概率,KMeans是计算距离。

  2. EM属于软聚类,同一样本可能属于多个类别;而K-Means属于硬聚类,一个样本只能属于一个类别。所以前者能够发现一些隐藏的数据。

原理先估计一个大概率的可能参数,然后再根据数据不断地进行调整,直到找到最终的确认参数比喻说明菜称重。很少有人用称对菜进行称重,再计算一半的分量进行平分。大部分人的方法是:1、先分一部分到碟子 A 中,再把剩余的分到碟子 B 中2、观察碟子 A 和 B 里的菜是否一样多,哪个多就匀一些到少的那个碟子里3、然后再观察碟子 A 和 B 里的是否一样多,重复下去,直到份量不发生变化为止。到这里,10大算法都已经说完了,其实一般来说,常用算法都已经被封装到库中了,只要new出相应的模型即可。- end -
推荐阅读7个免费的PDF文献资源网站,再也不用为搜索文献发愁了!

机器学习丨15个最流行的GitHub机器学习项目

SQL | 开发人员必学的几点 SQL 优化点

Hive SQL50道练习题

Hive使用必知必会系列

天秀!GitHub 硬核项目:动漫生成器让照片秒变手绘日漫风!!!

SQL |  数据分析面试必备SQL语句+语法

?关注数据挖掘工程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/552167.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

filter过滤器_JavaWeb之 Filter(过滤器)

FIlter作用过滤器JavaWeb三大组件之一&#xff0c;它与Servlet很相似&#xff01;不它过滤器是用来拦截请求的&#xff0c;而不是处理请求的。当用户请求某个Servlet时&#xff0c;会先执行部署在这个请求上的Filter&#xff0c;如果Filter“放行”&#xff0c;那么会继承执行用…

mysql python连接时、指定的ip地址被转接了_pythonmysql.connector模块使用了错误的IP地址...

我在使用python时遇到了一个问题mysql.connector脚本中的模块。当我从脚本运行连接到运行mysql v8的docker容器时&#xff0c;它试图连接到错误的IP地址。下面是示例函数&#xff1a;import mysql.connectordef connect():db mysql.connector.connect(host"172.17.0.2&qu…

css两张图片怎么合在一起_web前端入门到实战:纯CSS实现两个球相交的粘粘效果...

这是一个纯粹利用CSS所做出来的效果&#xff0c;这个效果说穿了就是一个图像处理的原理&#xff0c;做法跟Photoshop里头的几乎一模一样&#xff0c;只是一个用图层和色版来制作&#xff0c;一个则是用CSS&#xff08;把div当成图层思考就好了&#xff09;。从PhotoShop开始一开…

java 位运算取8位_Java 9 AOT 试用:仅支持 64 位 Linux和java.base 模块编译

Java 9 引入了 aot 编译方式&#xff0c;能够将 class 文件直接编译成可执行二进制文件。目前 Java 9 的 early access 版本已经提供了编译工具&#xff0c;让我们来看看它的功能吧。注意&#xff1a;按照 JEP 295 描述&#xff0c;目前版本的 AOT&#xff0c;仅支持 64 位 Lin…

mysql semisync 恢复_mysql半同步复制(semi_sync_replication)搭建及使用

mysql半同步复制(semi_sync_replication)搭建及使用google为mysql开发了一个补丁一个基于半同步的补丁&#xff0c;应用与mysql5.0。回来mysql打上了该补丁&#xff0c;并在5.5版本中使用。半同步复制的理念是什么呢&#xff1f;在数据库更改操作执行前&#xff0c;确保更改操作…

python怎么做回归分析_如何在Python中进行二维回归分析?

这是使用scipy.optimize.curve_fit拟合表面的示例Python代码,它使原始数据生成3D散点图,对错误进行3D散点图绘制,绘制表面图和轮廓图.更改它以使用您自己的数据和功能,您应该已完成. import numpy, scipy import scipy.optimize import matplotlib from mpl_toolkits.mplot3d i…

友元关系可以继承_私生子也有继承权!非婚生子女的继承关系如何认定?

阅读本文前&#xff0c;请您先点击上面的“蓝色字体”&#xff0c;再点击“关注”&#xff0c;这样您就可以继续免费收到文章了。每天都会有分享&#xff0c;都是免费订阅&#xff0c;请您放心关注。注&#xff1a;本文转载自网络&#xff0c;不代表本平台立场&#xff0c;仅供…

mysql100多个字段如何优化_MySQL 调优/优化的 100 个建议

MySQL是一个强大的开源数据库。随着MySQL上的应用越来越多&#xff0c;MySQL逐渐遇到了瓶颈。这里提供 101 条优化 MySQL 的建议。有些技巧适合特定的安装环境&#xff0c;但是思路是相通的。我已经将它们分成了几类以帮助你理解。MySQL监控MySQL服务器硬件和OS(操作系统)调优&…

python时间序列预测不连续怎么办_python – 不连续的时间序列在x轴上绘制日期

我获得了几个月的数据,但在几个月之间缺失了.如果我将整个数据集绘制在一个绘图中(其间有很多空白空间),这看起来很奇怪. 我写了一个小例子脚本来展示它是如何工作的(基于&#xff1a; Python/Matplotlib – Is there a way to make a discontinuous axis?) 问题&#xff1a;我…

普罗米修斯监控java项目_java学到什么程度可以出去实习?

把基础的知识学完&#xff0c;然后再学个框架&#xff0c;比如常见的SSH&#xff0c;SSM之类的&#xff0c;自己能用这个框架做个简单的项目&#xff0c;就可以了简单的来说就是把下方的视频教程学完就可以找工作了&#xff08;需要完整的资料可以找up&#xff09;Java零基础初…

mysql中 唯一约束的关键字是_mysql的约束

在mysql设计表中,有个概念叫做约束什么是约束约束英文&#xff1a;constraint约束实际上就是表中数据的限制条件约束种类mysql的约束大概分为以下几种:非空约束(not null)唯一性约束(unique)主键约束(primary key) PK外键约束(foreign key) FK检查约束(目前MySQL不支持、Oracle…

python 容器类型_Python容器类型公共方法总结

以下公共方法支持列表&#xff0c;元组&#xff0c;字典&#xff0c;字符串。 内置函数 Python 包含了以下内置函数&#xff1a; 函数 描述 备注 len(item) 计算容器中元素个数 del(item) 删除变量 del 有两种方式 max(item) 返回容器中元素最大值 如果是字典&#xff0c;只针对…

叉乘点乘混合运算公式_小学36年级必须掌握的数学公式和概念口诀,替孩子收藏一下!...

小学数学需要记住的知识点还是比较多的&#xff0c;看到这些知识点&#xff0c;很多孩子都觉得枯燥&#xff0c;不愿意用心去记。如果我们把一种新的、有趣的记忆方法教给孩子&#xff0c;孩子也会变得有兴趣&#xff0c;因为兴趣是最好的老师。一、20以内进位加法看大数&#…

python图像数独_Python图像识别+KNN求解数独的实现

Python-opencvKNN求解数独最近一直在玩数独&#xff0c;突发奇想实现图像识别求解数独&#xff0c;输入到输出平均需要0.5s。整体思路大概就是识别出图中数字生成list&#xff0c;然后求解。输入输出demo数独采用的是微软自带的Microsoft sudoku软件随便截取的图像&#xff0c;…

上位机与1200组态步骤_西门子1200的HSC的应用实例!

高速计数器寻址CPU 将每个高速计数器的测量值&#xff0c;存储在输入过程映像区内&#xff0c;数据类型为 32 位双整型有符号数&#xff0c;用户可以在设备组态中修改这些存储地址&#xff0c;在程序中可直接访问这些地址&#xff0c;但由于过程映像区受扫描周期影响&#xff0…

cmd代码表白_手把手教你把Python代码转成exe

【文末有福利】很多刚入门的盆友都有疑惑怎么把Python代码转成可执行的exe&#xff1f;&#xff0c;这里行哥统一解决一下这个问题1.在cmd里安装pyintsaller包2.在cmd里输入打包成exe的命令3.问题总结4. pyintsaller --help5. end1.在cmd里安装pyintsaller包第一步安装将Python…

searchview 点击后被覆盖_03实战Jacoco统计代码覆盖

本篇内容主要介绍&#xff1a;在gradle项目中添加jacoco来了解工程的代码覆盖情况。自动化的统计代码覆盖情况&#xff0c;有助于将焦点问题可视化&#xff0c;从而决定什么时候采取什么动作进行改进。Jacoco可以方面的添加在测试执结束&#xff0c;进行代码覆盖率的统计。如果…

电脑功耗软件_台式电脑配置详解!

近期有许多做设计的朋友问我&#xff0c;怎么配一台工作用的电脑&#xff0c;今天就给大家介绍一下电脑的各个组成部分。电脑核心配置&#xff0c;一般指CPU、主板、显卡三大件&#xff0c;一般笔记本电脑不需要考虑主板&#xff0c;只需考虑CPU和显卡两大件。1.CPU的选择现在的…

docker mysql优势_前端使用docker有什么优势呢?

那么如果使用docker有什么优势呢&#xff1f;你觉得docker没啥用&#xff0c;自然是因为你没遇到这样的场景&#xff0c;所以就算强行上了docker&#xff0c;也会觉得非常别扭。想了想前端用docker好像确实不是非常必要&#xff0c;npm build以后出来一堆静态文件&#xff0c;扔…

ios python3.0编程软件_ios编程软件-7款学习Python编程的iPhone/iPad应用

Python部落组织翻译&#xff0c;禁止转载&#xff0c;欢迎转发 Python是一种极受欢迎的编程语言&#xff0c;无论你是为机器人还是树霉派编码&#xff0c;都可以使用Python&#xff0e;想学习这门语言&#xff1f;这&#xff17;个APP会对你有帮助&#xff1a; Pythonista 3: 这…