mllib逻辑回归 spark_《Spark大数据分析实战》笔记

写在前面:此书很棒,但需要一定的编程功底,此外强烈建议买书,因为很多架构图、算子列表,我也不会摘抄下来。

67589206d2e31c0dc8f089759b7f2164.png

第一章 简介

1.Spark执行的特点

Hadoop中包含计算框架MapReduce和分布式文件系统HDFS等。

Spark是MapReduce的替代方案,且兼容HDFS, Hive等分布式存储层,融入Hadoop的生态系统,并弥补MapReduce的不足。

①中间结果输出

Spark将执行工作流抽象为通用的有向无环图(DAG)执行计划,可将多Stage的任务串联或并行执行,而无须将Stage的中间结果输出到HDFS中,类似的引擎包括Flink, Dryad, Tez等。

②数据格式和内存布局

RDD: 支持粗粒度的写操作,但对于读操作可精确到每条记录

Spark的特性是能控制不同节点上的分区,用户可自定义分区策略

③执行策略

Spark执行过程中,不同Stage之间须进行Shuffle

Shuffle是链接有依赖的Stage的桥梁,上游Stage输出到下游Stage必须经过Shuffle

Spark Shuffle支持基于Hash或排序的分布式聚合机制。

④任务调度的开销

Spark采用了事件驱动的类库AKKA来启动人物,通过线程池的复用线程来避免系统启动和切换开销

第二章 Spark开发与环境配置

第三章 BDAS简介

1.Spark生态系统BDAS

BDAS是博客里大学提出的基于Spark的数据分析栈。

其框架核心是Spark,同时涵盖Spark SQL, MLBase, MLlib, GraphX, Spark Streaming, 近似查询引擎BlinkDB,内存分布式文件系统Techyon, 资源管理框架Mesos等子项目。

①SQL on Spark

AMPLab将大数据分析负载分为三类:批量数据处理、交互式查、实时流处理

据Spark峰会2014上博客里大学的Big Data Benchmark测试结果,Shark in Memory效率是Hive的100倍,即便On Disk也有10倍于Hive的效率。 作为Shark的进化版本, Spark SQL性能更优于Shark。

SQL经过查询优化其最终转化为一个执行计划树,而Spark SQL还会将这个执行计划树转化为DAG再执行。

整个Catalyst是Spark SQL的调度核心。

②Spark Streaming

Spark Streaming讲数据流以时间片为单位分割成RDD,使用RDD处理每一块数据。

每块数据(RDD)都会生成一个Spark Job进行处理,最终以批处理的方式处理每个时间片的数据。

Spark Streaming将Dstream操作转换为Dstream DAG, 对每个时间片,Dstream DAG产生一个RDD DAG。

之后的操作就回归了Spark主线,Job->JobManager->Spark DAG Scheduler, 最后发给Executor.

③GraphX

GraphX实现了大规模图计算的功能,是常见的图算法在Spark上并行化的实现,同时提供了丰富的API。

GraphX的特点是离线计算,批量处理。基于同步的BSP模型(Bulk Synchronous Parallel Computing Model, 整体同步并行计算模型),这样的优势在于可以提升数据处理的吞吐量和规模,但是会造成速度上稍逊一筹。

目前大规模图处理框架还有基于MPI模型的异步图计算模型GraphLab和同样基于BSP模型的Graph等。

现在和GraphX可以组合使用的分布式图数据库是Neo4J,Neo4J是一个高性能的、菲关系的、具有完全事务特性的、鲁棒的图数据库。

另一个数据库是Titan,Titan是一个分布式的图形数据库,特别为存储和处理大规模图形数据而优化。

GraphX的操作符介绍:本书P46-48

④MLlib

MLlib是构建在Spark上的分布式机器学习库,充分利用了Spark的内存计算和适合迭代型计算的特性,性能得到优化。

MLlib是AMPLab的在研机器学习项目MLBase的底层组件,MLBase收一个机器学习平台,MLI是接口层,提供很多结构,MLlib是底层算法实现层。

K-means 算法浅析

https://zhuanlan.zhihu.com/p/20432322

比knn稍微复杂一些,还没理解更新cluster中心点后,怎样去更新已有的cluster内数据点

(即牧师每一次移动不可能离所有人都更近,有的人发现A牧师移动以后自己还不如去B牧师处听课更近,于是每个居民又去了离自己最近的布道点……)

源码直接看书

第四章 Lamda架构日志分析流水线

TODO

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/573469.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

晶振波形不是正弦波_晶振的分类及其应用

晶振分类虽然多种多样(可以在电子元器件采购平台亿配芯城上查看分类),但是晶振的作用无非是以下2种:1.为系统提供基本的时钟信号。一个系统共用一个晶振,便于各部分保持同步(有些通讯系统的基频和射频虽然使用不同的晶振&#xff…

第三代航空轴承钢产品 css-42l,航空轴承钢的发展及热处理技术(一)

航空轴承钢的发展及热处理技术(一)随着航空航天技术的发展,轴承钢的种类和承溫能力逐渐提高。我国航空航天轴承的热处理技术一直处于发展阶段,但与国外轴承钢的热处理技术相比仍有一定的上升空间。总结国内外航空航天轴承钢及热处理技术的发展&#xff0…

画米老鼠_蔡康永都在买的画你也买得起,村上隆作品收藏大全

疫情爆发已经一个多月了,大家的情绪犹如坐过山车跌宕起伏,从彷徨焦虑迷茫到惊恐绝望,再到现在的翘首以望。在疫情爆发之际,钟南山院士说了一句话特别鼓舞我,他呼吁宅家隔离,待春暖花开之时,我们…

本地服务器的音乐如何才能播放视频文件夹,mx播放器如何添加本地文件 添加本地文件设置方法...

更换播放器皮肤/主题颜色在这个版本中 主题颜色的设置十分丰富 不再拘泥于原来的黑白二色点击“设置”选择“列表”项 修改主题,选择一种自己喜欢的颜色 现在有十五种颜色可以选择用mxplayer播放音乐虽然它的功能包含了播放本地音频 但是实际使用的过程中我们可以发…

hbase本地调试环境搭建

1,前言 想要深入的了解hbase,看hbase源码是必须的。以下描述了搭建hbase本地调试环境的经历 2,安装步骤 2.1,启动hbase 1,安装java和IDE IntelliJ,下载源码等。步骤这里不再描述。 2,从HMaster以…

微信墙服务器地址,一面微信墙的诞生(3) 用户端界面的创建

在用户发表留言之前,需要进入登录状态。在微信平台中,登录应该是一个自动的过程:用户只需要进行一次授权,往后的登录都由后台自己来处理。在 client 文件夹下新建 index.php :登录流程首先要处理自动登录这一流程&…

pg数据库json数据类型_PostgreSQL与开发者起舞—让数据库更好服务于开发

写在前面的话:本文内容有对应50分钟视频讲解,有兴趣可以访问PG与开发者共舞。很多数据库的对比的活动都是基于数据库本身的一些的底层的功能以及纯数据库方面的对比,等等。更多方面数据库是要为应用来服务的,而生产应用的大部分都…

系统启动 之 Linux系统启动概述(2)

博客:http://blog.csdn.net/younger_china/article/details/51615916 Linu系统启动是一个”冗长乏味”的过程,那么我们现就需要去经历一下这个冗长乏味的生活。我们按照如下流程来分析: 1. 史前时代:BIOS 计算机在上电那一刻几乎是毫无用处的…

python 全文搜索 句子_python新玩法:用python进行文章摘要拿取,只需要一行代码

前言今天为大家介绍一个python算法TextRank,实现从长篇中快速抽取精准摘要。TextRank是一种基于图形的文本处理排序算法。PageRank通常用作其底层的图排序模型。当然,其他的图排序模型也可以与之结合。TextRank算法不需要深入的语言和专业知识,因为它是一…

Django小项目简单BBS论坛

开发一个简单的BBS论坛项目需求:1 整体参考“抽屉新热榜” + “虎嗅网” 2 实现不同论坛版块 3 帖子列表展示 4 帖子评论数、点赞数展示 5 在线用户展示 6 允许登录用户发贴、评论、点赞 7 允许上传文件 8 帖子可被置顶 9 可进行多级评论知识必备&#x…

时间转年月日_编程中常见的时间格式

时间格式前端和后端时经常会遇到各种各样的时间格式,这些格式在编写程序的时候都需要去使用不同的处理方式,这里集中写一下。先说一下各种不同的时间格式。类型名格式说明ISO 8601一般:2020-12-05T05:33:19Z 东八区:2004-05-03T17…

外星人台式机无盘服务器,可以拎走的“台式机” Alienware Area-51m评测

Alienware外星人这个品牌曾经一度是游戏笔记本领域的执牛耳者,自从1996年创立以来,品牌宗旨就是提供最强的PC性能,最有个性的设计和最好的服务。凭借着强悍的配置、创新的黑科技和酷炫的灯效,其一度是业内高端和高品质的代名词。但…

法流程图_世界五大学习方法之西蒙学习法

世界五大学习方法之西蒙学习法摘要:西蒙学习法为6个月可以掌握任何一门学问,它的本质是广义动量定理。广义动量定理通过调整力量、方向、作用点和时间来增加成果。西蒙学习法使用了降低问题难度方法中的一种:拆分。本节分为四个部分&#xff…

生成word_Word如何生成目录?3个步骤轻松掌握!

在使用Word编写长篇文档时,我们经常会给内容生成一个目录,有了目录,无论是阅读还是查找内容,都非常方便。Word生成目录是一项核心功能,这是每个使用Word的人,必须要掌握的一项技巧。如果你还不会这项技巧&a…

启动go服务_内网穿透工具 FRP公网服务端、内网客户端快速配置文件说明

内网穿透工具 FRP 公网服务端、内网客户端 frps.ini 、frpc.ini 配置文件常用设置展示及说明公网服务端 frps.ini 配置文件常用设置公网服务端配置文件:frps.ini[common]bind_port 7000# vhost_http_port 参数来设置 HTTP 访问端口,此处示例&#xff1a…

设置dns_2019让你的网速飞起来,你需要……设置正确DNS服务篇

有时候上网明明网络连接正常,但网页访问却很慢?平时会不会经常听到一些老司机说,网络很慢啊可以修改一下DNS啊!什么是DNS?又为什么会对网速产生影响呢?跟着小编的教程一起来学习一下吧~PART 1 什么是DNS&am…

5 随窗口改变大小_C4D默认界面两个关于坐标轴的窗口有什么区别

前言在一开始学习C4D的时候,就有这个疑问,为什么明明物体的属性都有了一个坐标属性的窗口了,还要有一个和坐标相关的窗口在默认的界面呢,后边在使用的过程中才慢慢理解了额外的坐标管理器窗口的作用,这一篇文章我们来看…

MySQL数据查询新人须知

MySQL 是一个开放源码的小型关系型数据库管理系统。 针对不同的用户,MySQL 一共分为两个不同的版本: MySQL Community Server(社区版服务器)。 MySQL Enterprise Server(企业版服务器)。 目前 Internet …

(硬 核)Navicat for MySQL 介 绍( 入 门 须 知 )

Navicat for MySQL 是一款流行的 MySQL 图形化管理工具以下是 Navicat for MySQL 工作界面使用 Navicat for MySQL 连接 MySQL 服务器鼠标左键单击“连接”按钮,出现“新建连接”窗口。分别输入连接名、MySQL 服务器主机地址、服务 端口号、用户名和密码&#xff0c…

小明一家过桥_【练习】用python解决小明一家过桥问题

import randomlist1[] #存放所有遍历的结果#等待过桥的人员bridge1{小明:1,弟弟:3,爸爸:6,妈妈:8,爷爷:12}#过桥后的人员bridge2{}#判断未过桥的人是否空了(全部过完后,程序停止,看总共用了多长时间)len1len(bridge1)print(len1)#while True:print(初始情…