大数据学习(09)--spark学习

文章目录

  • 目录
    • 1.spark介绍
      • 1.1 spark介绍
      • 1.2 scale介绍
      • 1.3 spark和Hadoop比较
    • 2.spark生态系统
    • 3.spark运行框架
      • 3.1 基本概念
      • 3.2 架构的设计
      • 3.3 spark运行基本流程
      • 3.4 spark运行原理
      • 3.5 RDD运行原理
        • 3.5.1 设计背景
        • 3.5.2 RDD概念和特性
        • 3.5.3 RDD之间的依赖关系
        • 3.5.4 stage的划分
        • 3.5.5 RDD的运行过程
    • 4.spark SQL
      • 4.1 shark的介绍
      • 4.2 spark SQL的介绍
    • 5.spark的部署和运行
      • 5.1 三种部署方式
      • 5.2 从Hadoop+Strom 架构转向spark架构
      • 5.3 Hadoop 和spark的统一部署
    • 6.spark编程实践
      • 6.1 spark安装
      • 6.2 启动spark shell
      • 6.3 spark RDD的操作
      • 6.4 spark应用程序

目录

1.spark介绍

1.1 spark介绍

在这里插入图片描述
在这里插入图片描述

spark不仅仅是一个计算框架,而是一个大数据处理的平台,或者说生态。

1.2 scale介绍

在这里插入图片描述

1.3 spark和Hadoop比较

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

spark将运行的中间结果写入内存,而不是如MapReduce那样每次都写入磁盘,所以速度非常快,那么肯定就有疑问,内存相比于磁盘来说,那么小,如何解决大数据的中间结果的存储,spark是采用优先写内存,内存写满后,才往磁盘中写入。

2.spark生态系统

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.spark运行框架

3.1 基本概念

在这里插入图片描述

3.2 架构的设计

在这里插入图片描述
在这里插入图片描述

3.3 spark运行基本流程

在这里插入图片描述

3.4 spark运行原理

在这里插入图片描述

3.5 RDD运行原理

3.5.1 设计背景

在这里插入图片描述

3.5.2 RDD概念和特性

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.5.3 RDD之间的依赖关系

在这里插入图片描述

3.5.4 stage的划分

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.5.5 RDD的运行过程

在这里插入图片描述

4.spark SQL

4.1 shark的介绍

在这里插入图片描述

4.2 spark SQL的介绍

在这里插入图片描述
在这里插入图片描述

5.spark的部署和运行

5.1 三种部署方式

在这里插入图片描述

5.2 从Hadoop+Strom 架构转向spark架构

在这里插入图片描述
在这里插入图片描述

5.3 Hadoop 和spark的统一部署

在这里插入图片描述

6.spark编程实践

参考博客

6.1 spark安装

在这里插入图片描述
在这里插入图片描述

6.2 启动spark shell

在这里插入图片描述

6.3 spark RDD的操作

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6.4 spark应用程序

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/445213.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

探索 Pexpect

概述 通过本系列第一部分 《探索 Pexpect,第 1 部分:剖析 Pexpect 》(请参阅参考资料)的介绍,相信大家已经对 Pexpect 的用法已经有了比较全面的了解,知道 Pexpect 是个纯 Python 语言实现的模块&#xff…

Python的Pexpect详解 [图片]

Pexpect 是一个用来启动子程序并对其进行自动控制的纯 Python 模块。 Pexpect 可以用来和像 ssh、ftp、passwd、telnet 等命令行程序进行自动交互。继第一部分《探索 Pexpect,第 1 部分:剖析 Pexpect 》介绍了 Pexpect 的基础和如何使用后,本…

关系数据库——sql增删改

数据的插入 插入元祖 --1. 表名后没有指定属性列:表示要插入的是一条完整的元组,且属性列属性与表定义中的顺序一致 insert into student values (201215128, 陈东, 18, 男, IS);--2. 在表明后指定要插入数据的表名及属性列,属性列的顺序可…

机器学习中的聚类方法总结

聚类定义 定义 聚类就是对大量未知标注 的数据集,按数据 的内在相似性将数据集划分为多个类别,使 类别内的数据相似度较大而类别间的数据相 似度较小。是无监督的分类方式。 聚类思想 给定一个有N个对象的数据集,构造数据的k 个簇&#x…

学点数学(1)-随机变量函数变换

随机变量函数变换本文介绍一维随机变量函数变换,参考文献:https://wenku.baidu.com/view/619f74ac3186bceb19e8bbd0.html变换TTT作用于随机变量XXX,产生随机变量YYY. T:X−>Y或者写为yT(x)T:X->Y 或者写为 yT(x)T:X−>Y或者写为yT(x…

关系数据库——关系数据语言

关系 域:一组具有相同数据类型的值的集合(即取值范围) 笛卡尔积:域上的一种集合运算。结果为一个集合,集合的每一个元素是一个元组,元组的每一个分量来自不同的域。 基数:一个域允许的不同取值…

Python模块(2)-Numpy 简易使用教程

Numpy模块 简易使用教程1.数组创建2.数组基本属性-维度、尺寸、数据类型3.数组访问-索引、切片、迭代4.数组的算术运算-加减乘除、转置求逆、极大极小5.通用函数-sin,cos,exp,sqrtnp.dot与np.matmul的区别6.数组的合并和分割6.1 np.vstack(),np.hstack()6.2 np.stack()7.list与…

机器学习问题总结(01)

文章目录1.请描述推荐系统中协同过滤算法CF的原理2.请描述决策树的原理、过程、终止条件,以及如何防止过拟合2.1决策树生成算法2.2 剪枝处理(防止过拟合)2.3 停止条件2.4 棵决策树的生成过程2.5 决策树的损失函数3.请描述K-means的原理&#…

pthread_attr_init线程属性

1.线程属性 线程具有属性,用pthread_attr_t表示,在对该结构进行处理之前必须进行初始化,在使用后需要对其去除初始化。我们用pthread_attr_init函数对其初始化,用pthread_attr_destroy对其去除初始化。 1. …

Python实例讲解 -- 解析xml

Xml代码 <?xml version"1.0" encoding"utf-8"?> <info> <intro>信息</intro> <list id001> <head>auto_userone</head> <name>Jordy</name> <number&g…

springboot3——Email

maven导入包&#xff1a; <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-mail</artifactId><version>2.1.6.RELEASE</version></dependency> 参数配置&#xff1a; # MailPrope…

python(22)--面向对象1-封装

python面向对象1面向过程/面向对象2面向对象核心概念-类3类的设计3.1类三要素-类名、属性、方法3.2面向对象基础语法3.2.1查看对象的常用方法3.2.2类定义3.2.3创建类对象3.2.4__init__()方法3.2.5 self参数3.2.6类内置方法和属性_del_()方法--销毁对象_str_()方法--定制化输出对…

机器学习问题总结(02)

文章目录1.stacking模型以及做模型融合的知识1.1 从提交结果中融合1.2 stacking1.3 blending2. 怎样去优化SVM算法模型的&#xff1f;2.1 SMO优化算法2.2 libsvm 和 Liblinear3.现有底层是tensorflow的keras框架&#xff0c;如果现在有一个tensorflow训练好的模型&#xff0c;k…

python对操作系统的目录和文件操作

一、获取当前目录下的特定文件列表>>>import glob,os>>>curdir os.getcwd() #获取当前目录>>>os.chdir(workdir) #设置当前目录>>>dir glob.glob(*.dat) #获取当前目录的dat文件列表>>>os.chdir(curdir) #…

常见漏洞

Cookie without HttpOnly flag set 如果在Cookie上设置了HttpOnly属性&#xff0c;则客户端JavaScript无法读取或设置Cookie的值。 这种措施通过阻止某些客户端攻击&#xff08;例如跨站点脚本&#xff09;&#xff0c;通过阻止它们通过注入的脚本来简单地捕获cookie的值&…

python函数星号参数

2011-09-01 17:35 2人阅读 评论(0) 收藏 编辑 删除 今天有个工作是导出一个函数给脚本用 我自已先要测一下 先要客户端发送一个消息给服务器 看了下C部分的代码,如下 "def onNetMessage(self,playerID, msgName,msgParam):\n" //客户端调用服务器脚本 " …

MachineLearning(3)-流型

流型-manifold在很多机器学习的文章中会见到“嵌入在高维空间的低维流型”这样的字眼&#xff0c;下记录一些重要概念。参考资料&#xff1a;https://blog.csdn.net/sinat_32043495/article/details/789977581.流型 局部具有欧几里得空间性质的空间&#xff08;流型就是一个空间…

C/C++常见面试题(四)

C/C面试题集合四 目录 1、什么是C中的类&#xff1f;如何定义和实例化一个类&#xff1f; 2、请解释C中的继承和多态性。 3、什么是虚函数&#xff1f;为什么在基类中使用虚函数&#xff1f; 4、解释封装、继承和多态的概念&#xff0c;并提供相应的代码示例 5、如何处理内…

机器学习问题总结(03)

文章目录1.struct和class区别&#xff0c;你更倾向用哪个2.kNN&#xff0c;朴素贝叶斯&#xff0c;SVM的优缺点&#xff0c;各种算法优缺点2.1 KNN算法2.2 朴素贝叶斯2.3SVM算法2.4 ANN算法2.5 DT算法3. 10亿个整数&#xff0c;1G内存&#xff0c;O(n)算法&#xff0c;统计只出…

python源代码现成重用大全

Nullege is a search engine for Python source code. http://nullege.com/