mllib逻辑回归 spark_《Spark大数据分析实战》笔记

写在前面:此书很棒,但需要一定的编程功底,此外强烈建议买书,因为很多架构图、算子列表,我也不会摘抄下来。

67589206d2e31c0dc8f089759b7f2164.png

第一章 简介

1.Spark执行的特点

Hadoop中包含计算框架MapReduce和分布式文件系统HDFS等。

Spark是MapReduce的替代方案,且兼容HDFS, Hive等分布式存储层,融入Hadoop的生态系统,并弥补MapReduce的不足。

①中间结果输出

Spark将执行工作流抽象为通用的有向无环图(DAG)执行计划,可将多Stage的任务串联或并行执行,而无须将Stage的中间结果输出到HDFS中,类似的引擎包括Flink, Dryad, Tez等。

②数据格式和内存布局

RDD: 支持粗粒度的写操作,但对于读操作可精确到每条记录

Spark的特性是能控制不同节点上的分区,用户可自定义分区策略

③执行策略

Spark执行过程中,不同Stage之间须进行Shuffle

Shuffle是链接有依赖的Stage的桥梁,上游Stage输出到下游Stage必须经过Shuffle

Spark Shuffle支持基于Hash或排序的分布式聚合机制。

④任务调度的开销

Spark采用了事件驱动的类库AKKA来启动人物,通过线程池的复用线程来避免系统启动和切换开销

第二章 Spark开发与环境配置

第三章 BDAS简介

1.Spark生态系统BDAS

BDAS是博客里大学提出的基于Spark的数据分析栈。

其框架核心是Spark,同时涵盖Spark SQL, MLBase, MLlib, GraphX, Spark Streaming, 近似查询引擎BlinkDB,内存分布式文件系统Techyon, 资源管理框架Mesos等子项目。

①SQL on Spark

AMPLab将大数据分析负载分为三类:批量数据处理、交互式查、实时流处理

据Spark峰会2014上博客里大学的Big Data Benchmark测试结果,Shark in Memory效率是Hive的100倍,即便On Disk也有10倍于Hive的效率。 作为Shark的进化版本, Spark SQL性能更优于Shark。

SQL经过查询优化其最终转化为一个执行计划树,而Spark SQL还会将这个执行计划树转化为DAG再执行。

整个Catalyst是Spark SQL的调度核心。

②Spark Streaming

Spark Streaming讲数据流以时间片为单位分割成RDD,使用RDD处理每一块数据。

每块数据(RDD)都会生成一个Spark Job进行处理,最终以批处理的方式处理每个时间片的数据。

Spark Streaming将Dstream操作转换为Dstream DAG, 对每个时间片,Dstream DAG产生一个RDD DAG。

之后的操作就回归了Spark主线,Job->JobManager->Spark DAG Scheduler, 最后发给Executor.

③GraphX

GraphX实现了大规模图计算的功能,是常见的图算法在Spark上并行化的实现,同时提供了丰富的API。

GraphX的特点是离线计算,批量处理。基于同步的BSP模型(Bulk Synchronous Parallel Computing Model, 整体同步并行计算模型),这样的优势在于可以提升数据处理的吞吐量和规模,但是会造成速度上稍逊一筹。

目前大规模图处理框架还有基于MPI模型的异步图计算模型GraphLab和同样基于BSP模型的Graph等。

现在和GraphX可以组合使用的分布式图数据库是Neo4J,Neo4J是一个高性能的、菲关系的、具有完全事务特性的、鲁棒的图数据库。

另一个数据库是Titan,Titan是一个分布式的图形数据库,特别为存储和处理大规模图形数据而优化。

GraphX的操作符介绍:本书P46-48

④MLlib

MLlib是构建在Spark上的分布式机器学习库,充分利用了Spark的内存计算和适合迭代型计算的特性,性能得到优化。

MLlib是AMPLab的在研机器学习项目MLBase的底层组件,MLBase收一个机器学习平台,MLI是接口层,提供很多结构,MLlib是底层算法实现层。

K-means 算法浅析

https://zhuanlan.zhihu.com/p/20432322

比knn稍微复杂一些,还没理解更新cluster中心点后,怎样去更新已有的cluster内数据点

(即牧师每一次移动不可能离所有人都更近,有的人发现A牧师移动以后自己还不如去B牧师处听课更近,于是每个居民又去了离自己最近的布道点……)

源码直接看书

第四章 Lamda架构日志分析流水线

TODO

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/573469.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小程序背景图片从服务器获取,小程序之背景图片的加载

说在前面最近由于项目需要所以学了下小程序,也做了一些东西,随后便有了以下的一些总结了,先说说关于如何解决小程序背景图片pc端调试完美不缺,而在真机调试的时候却消失不见的情况。问题描述最近做项目的时候要实现一个导航页面&a…

Ubuntu配置TFTP服务器

TFTP(Trivial File Transfer Protocol,简单文件传输协议)是TCP/IP协议族中的一个用来在客户机与服务器之间进行简单文件传输的协议,提供不复杂、开销不大的文件传输服务。端口号为69。 TFTP基于UDP协议而实现,但是我们也不能确定有…

晶振波形不是正弦波_晶振的分类及其应用

晶振分类虽然多种多样(可以在电子元器件采购平台亿配芯城上查看分类),但是晶振的作用无非是以下2种:1.为系统提供基本的时钟信号。一个系统共用一个晶振,便于各部分保持同步(有些通讯系统的基频和射频虽然使用不同的晶振&#xff…

第三代航空轴承钢产品 css-42l,航空轴承钢的发展及热处理技术(一)

航空轴承钢的发展及热处理技术(一)随着航空航天技术的发展,轴承钢的种类和承溫能力逐渐提高。我国航空航天轴承的热处理技术一直处于发展阶段,但与国外轴承钢的热处理技术相比仍有一定的上升空间。总结国内外航空航天轴承钢及热处理技术的发展&#xff0…

画米老鼠_蔡康永都在买的画你也买得起,村上隆作品收藏大全

疫情爆发已经一个多月了,大家的情绪犹如坐过山车跌宕起伏,从彷徨焦虑迷茫到惊恐绝望,再到现在的翘首以望。在疫情爆发之际,钟南山院士说了一句话特别鼓舞我,他呼吁宅家隔离,待春暖花开之时,我们…

本地服务器的音乐如何才能播放视频文件夹,mx播放器如何添加本地文件 添加本地文件设置方法...

更换播放器皮肤/主题颜色在这个版本中 主题颜色的设置十分丰富 不再拘泥于原来的黑白二色点击“设置”选择“列表”项 修改主题,选择一种自己喜欢的颜色 现在有十五种颜色可以选择用mxplayer播放音乐虽然它的功能包含了播放本地音频 但是实际使用的过程中我们可以发…

hbase本地调试环境搭建

1,前言 想要深入的了解hbase,看hbase源码是必须的。以下描述了搭建hbase本地调试环境的经历 2,安装步骤 2.1,启动hbase 1,安装java和IDE IntelliJ,下载源码等。步骤这里不再描述。 2,从HMaster以…

微信墙服务器地址,一面微信墙的诞生(3) 用户端界面的创建

在用户发表留言之前,需要进入登录状态。在微信平台中,登录应该是一个自动的过程:用户只需要进行一次授权,往后的登录都由后台自己来处理。在 client 文件夹下新建 index.php :登录流程首先要处理自动登录这一流程&…

pg数据库json数据类型_PostgreSQL与开发者起舞—让数据库更好服务于开发

写在前面的话:本文内容有对应50分钟视频讲解,有兴趣可以访问PG与开发者共舞。很多数据库的对比的活动都是基于数据库本身的一些的底层的功能以及纯数据库方面的对比,等等。更多方面数据库是要为应用来服务的,而生产应用的大部分都…

ajax post form上传图片,ajax怎样提交form表单与实现文件上传

这次给大家带来ajax怎样提交form表单与实现文件上传,ajax提交form表单与实现文件上传的注意事项有哪些,下面就是实战案例,一起来看一下。前几天,发现了一些小问题。我在写后台管理页面时,需要上传一张图片。于是我就用…

系统启动 之 Linux系统启动概述(2)

博客:http://blog.csdn.net/younger_china/article/details/51615916 Linu系统启动是一个”冗长乏味”的过程,那么我们现就需要去经历一下这个冗长乏味的生活。我们按照如下流程来分析: 1. 史前时代:BIOS 计算机在上电那一刻几乎是毫无用处的…

python 全文搜索 句子_python新玩法:用python进行文章摘要拿取,只需要一行代码

前言今天为大家介绍一个python算法TextRank,实现从长篇中快速抽取精准摘要。TextRank是一种基于图形的文本处理排序算法。PageRank通常用作其底层的图排序模型。当然,其他的图排序模型也可以与之结合。TextRank算法不需要深入的语言和专业知识,因为它是一…

ajax 赋值 获取,ajax得到的数据赋值给js中的全局变量

在JS函数里面用了AJAX,然后就发现怎么里面都赋值不了给全局变量,原来是异步的问题,如下:我们在用JQuery的Ajax从后台提取数据后想把它赋值给全局变量,但是却怎么都赋不进,为什么呢?原因其实很简…

Django小项目简单BBS论坛

开发一个简单的BBS论坛项目需求:1 整体参考“抽屉新热榜” + “虎嗅网” 2 实现不同论坛版块 3 帖子列表展示 4 帖子评论数、点赞数展示 5 在线用户展示 6 允许登录用户发贴、评论、点赞 7 允许上传文件 8 帖子可被置顶 9 可进行多级评论知识必备&#x…

时间转年月日_编程中常见的时间格式

时间格式前端和后端时经常会遇到各种各样的时间格式,这些格式在编写程序的时候都需要去使用不同的处理方式,这里集中写一下。先说一下各种不同的时间格式。类型名格式说明ISO 8601一般:2020-12-05T05:33:19Z 东八区:2004-05-03T17…

外星人台式机无盘服务器,可以拎走的“台式机” Alienware Area-51m评测

Alienware外星人这个品牌曾经一度是游戏笔记本领域的执牛耳者,自从1996年创立以来,品牌宗旨就是提供最强的PC性能,最有个性的设计和最好的服务。凭借着强悍的配置、创新的黑科技和酷炫的灯效,其一度是业内高端和高品质的代名词。但…

法流程图_世界五大学习方法之西蒙学习法

世界五大学习方法之西蒙学习法摘要:西蒙学习法为6个月可以掌握任何一门学问,它的本质是广义动量定理。广义动量定理通过调整力量、方向、作用点和时间来增加成果。西蒙学习法使用了降低问题难度方法中的一种:拆分。本节分为四个部分&#xff…

git 工具

https://www.kernel.org/pub/software/scm/git/ wget https://www.kernel.org/pub/software/scm/git/git-2.8.4.tar.xz https://git-scm.com/downloads/guis转载于:https://www.cnblogs.com/zengkefu/p/5573634.html

生成word_Word如何生成目录?3个步骤轻松掌握!

在使用Word编写长篇文档时,我们经常会给内容生成一个目录,有了目录,无论是阅读还是查找内容,都非常方便。Word生成目录是一项核心功能,这是每个使用Word的人,必须要掌握的一项技巧。如果你还不会这项技巧&a…

extern C的用法解析

http://www.cnblogs.com/xulei/archive/2006/11/12/558139.html转载于:https://www.cnblogs.com/xunbu7/p/5578681.html