10-用PySpark建立第一个Spark RDD

目录

    • RDD概念
    • RDD特点
    • 建立RDD的方式
    • 不同工具建立RDD的方式
      • 使用PySpark Shell(交互环境)建立RDD
      • 使用VSCode编程建立RDD
      • 使用Jupyter Notebook建立RDD
    • 总结


PySpark实战笔记系列第一篇


RDD概念

Apache Spark的核心组件的基础是RDD。所谓的RDD,即弹性分布式数据集(Resiliennt Distributed Datasets),基于RDD可以实现Apache Spark各个组件在多个计算机组成的集群中进行无缝集成,从而能够在一个应用程序中完成海量数据处理。

RDD特点

  • 只读不能修改:只能通过转换操作生成一个新的RDD。
  • 分布式存储:一个RDD通过分区可以分布在多台机器上进行并行数据处理。
  • 内存计算:可以将全部或部分数据缓存在内存中,且可在多次计算过程中重用。
  • 具有弹性:在计算过程中,当内存不足时,可以将一部分数据落到磁盘上处理

建立RDD的方式

  • 用parallelize方法建立RDD:这种方式非常简单,主要用于进行练习或者测试
  • 用range方法建立RDD:这种方式和parallelize方法类似,一般来说主要用于进行测试
  • 使用textFile方法建立RDD:这种方式一般用于在本地临时性地处理一些存储了大量数据的文件。它依赖本地文件系统,因此可以不需要Hadoop环境。
  • 使用HDFS建立RDD:这种方式使用HDFS文件建立RDD,需要依赖Hadoop集群环境,它应该是最常用的一种生产环境下的数据处理方式。它可以针对HDFS上存储的海量数据,进行离线批处理操作。

不同工具建立RDD的方式

使用PySpark Shell(交互环境)建立RDD

在安装完成Spark环境后,就具备了Shell这款工具。其中,Spark Shell是针对Scala语言的,而PySpark Shell则是针对Python语言的。

使用PySpark Shell工具的方式,在命令行输入如下命令:pyspark

PySpark Shell默认会自动创建sc对象和spark对象,因此可以在交互环境中直接进行调用,而无须手动创建。这里,sc对象是SparkContext的实例,而spark对象是SparkSession的实例。

使用VSCode编程建立RDD

在VSCode中以编程方式需要手动创建SparkContext实例。

  • 首先需要用from pyspark import SparkConf, SparkContext导入SparkConf和SparkContext。
  • conf=SparkConf().setAppName(“WordCount”).setMaster("local[**]")**创建了一个SparkConf实例,其中用setAppName设置了本次程序的名称,用setMaster设置了Spark Master的方式为local[]。
  • **sc=SparkContext(conf=conf)**创建SparkContext实例sc,这与PySparkShell默认创建的sc对象类似。
  • SparkContext不能一次运行多个,否则会报ValueError: Cannot run multipleSparkContexts at once; existing SparkContext的错误。因此需要用sc.stop()命令关闭SparkContext实例对象。

需要用pip3 install findspark命令安装findspark,否则可能会提示无法找到pyspark模块的错误:ModuleNotFoundError: No module named ‘pyspark’。

示例界面:

使用Jupyter Notebook建立RDD

编码方式类似VS Code,不过它的好处是

  • 可以对多个代码以文件的形式进行组织,
  • 可以用于编写文档。
  • 更高级的是可以显示图形和运算结果。
  • 因此使用这种基于Web的部署方式,可以让多个客户端同时使用,且可共享代码示例,真正做到图文并茂地进行编程。

总结

** 1.sc对象的两种创建方式:**

"""
方式一:通过SparkConf创建
"""
from pyspark import SparkConf,SparkContext
# 创建SparkContext,即sc对象
conf = SparkConf().setAppName("Demo")\.setMaster("local[*]")
sc = SparkContext(conf=conf)
"""
方式二:通过SparkSession创建
"""
from pyspark.sql import SparkSession
spark = SparkSession.builder \.master("local[*]") \.appName("Demo")	\.getOrCreate();
# 创建SparkContext,即sc对象
sc = spark.sparkContext

2.完整的常用pyspark编程开头示例

根据上述两种sc的创建方式,对应的常用的编程开头方式即在上述样例的开头,加上如下代码:

import findspark
findspark.init()

参考资料:《Python大数据处理库PySpark实战》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/793645.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux 关闭防火墙命令(新手)

关闭防火墙 查看防火墙状态 systemctl status firewalld.service 临时关闭防火墙(重启失效) systemctl stop firewalld.service 永久关闭防火墙 systemctl disable firewalld.servicesudo systemctl enable firewalld,这种方式输入命令…

施耐德 Unity Pro PLC 编程软件介绍

Unity Pro 软件基本介绍 Unity Pro 是施耐德中大型 PLC 的编程软件&#xff08;<–> 对应西门子 Step7&#xff09; 支持的 PLC&#xff1a;施耐德中大型 PLC 中型 PLC&#xff1a;Premium、M340&#xff08;<–> 对应西门子 S7-300、S7-1200&#xff09;大型 PL…

【C++】探索C++中的类与对象(上)

​​ &#x1f331;博客主页&#xff1a;青竹雾色间. &#x1f618;博客制作不易欢迎各位&#x1f44d;点赞⭐收藏➕关注 ✨人生如寄&#xff0c;多忧何为 ✨ C是一种强大的编程语言&#xff0c;其面向对象的特性使得代码结构更加清晰、易于维护和扩展。在C中&#xff0c;类与…

Day83:服务攻防-开发组件安全JacksonFastJson各版本XStreamCVE环境复现

目录 J2EE-组件Jackson-本地demo&CVE 代码执行 (CVE-2020-8840) 代码执行 (CVE-2020-35728&#xff09; J2EE-组件FastJson-本地demo&CVE FastJson < 1.2.24 FastJson < 1.2.47 FastJson < 1.2.80 (利用条件比较苛刻) J2EE-组件XStream-靶场&CVE …

高度不同的流体瀑布css实现方法

商城商品列表 实现瀑布流展示&#xff0c;通过flex或grid实现会导致每行中的列高度一致&#xff0c;无法达到错落有致的感觉&#xff1b; 为此需要用到&#xff1a; CSS columns 属性 columns 属性是一个简写属性&#xff0c;用于设置列宽和列数。 CSS 语法 columns: column-wi…

字节新作:图像生成质量超越DiT

&#x1f31f;每日更新最新高质量论文&#xff0c;关注我&#xff0c;时刻关注最新大模型进展。&#x1f31f; &#x1f4cc; 元数据概览&#xff1a; 标题&#xff1a;Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction作者&#xff1a…

算法设计与分析实验报告java实现(排序算法、三壶谜题、交替放置的碟子、带锁的门)

一、 实验目的 1&#xff0e;加深学生对算法设计方法的基本思想、基本步骤、基本方法的理解与掌握&#xff1b; 2&#xff0e;提高学生利用课堂所学知识解决实际问题的能力&#xff1b; 3&#xff0e;提高学生综合应用所学知识解决实际问题的能力。 二、实验任务 1、排序算法…

【随笔】Git 高级篇 -- 相对引用2(十三)

&#x1f48c; 所属专栏&#xff1a;【Git】 &#x1f600; 作  者&#xff1a;我是夜阑的狗&#x1f436; &#x1f680; 个人简介&#xff1a;一个正在努力学技术的CV工程师&#xff0c;专注基础和实战分享 &#xff0c;欢迎咨询&#xff01; &#x1f496; 欢迎大…

4.4C++

1 #include <iostream> #include <cmath> using namespace std; class A{ private:int a;// 判断一个数是否为质数bool isP(int num) {if (num<2) return false;for (int i2;i<sqrt(num);i) {if (num % i 0) {return false;}}return true;} public:// 构造…

open-cd框架调试记录

源于论文Changer: Feature Interaction Is What You Need forChange Detection 源码位置&#xff1a;open-cd/README.md at main likyoo/open-cd (github.com) 同样是基于MMSegmentation框架的代码&#xff0c;不符合本人编程习惯所以一直也没有研究这东西&#xff0c;近期打…

Linux进程概念(二):进程的基本概念与进程的创建

目录 进程的基本概念 进程控制块-PCB 学前补充 预备知识 创建&#xff08;子&#xff09;进程 创建&#xff08;子&#xff09;进程的原因 理解fork有两个返回值 进程的基本概念 基本概念&#xff1a;程序的一个执行实例&#xff0c;正在执行的程序等 内核层面&#x…

(源码+讲解+部署)基于Spring Boot和Vue的考研教育系统的设计与实现

前言 &#x1f497;博主介绍&#xff1a;✌专注于Java、小程序技术领域和毕业项目实战✌&#x1f497; &#x1f447;&#x1f3fb; 精彩专栏 推荐订阅&#x1f447;&#x1f3fb; 2024年Java精品实战案例《128套》 &#x1f345;文末获取源码联系&#x1f345; &#x1f31f…

打造专业运营团队,武汉星起航引领全球跨境电商未来趋势

近年来&#xff0c;随着全球经济的不断发展&#xff0c;跨境电商作为国际贸易的一种新模式&#xff0c;已然成为推动全球经济增长的新引擎。在这个浩荡的潮流中&#xff0c;武汉星起航以亚马逊自营店铺为依托&#xff0c;凭借丰富的实战运营经验和专业的团队&#xff0c;正积极…

Spring Boot 介绍

1、SpringBoot 介绍 用通俗的话讲&#xff0c;SpringBoot 在Spring生态基础上发展而来&#xff0c;它的发现不是取代Spring&#xff0c;是为了让人们更容易使用Spring。 2、相关依赖关系 Spring IOC/AOP > Spring > Spring Boot > Spring Cloud 3、 SpringBoot工作原…

四信AI智能视频边缘分析盒+传感云平台,开启食品安全智慧监管新模式

方案背景 民以食为天&#xff0c;食品是人类生存必备的物质之一&#xff0c;食品生产安全关乎每个人的生命健康与社会可持续发展。在食品生产过程中&#xff0c;如何实现安全、健康生产是监管机构首要考虑因素&#xff0c;也是当今社会必须共同关注与努力的方向。 监管机构必…

【C++】vector问题解决(非法的间接寻址,迭代器失效 , memcpy拷贝问题)

送给大家一句话&#xff1a; 世界在旋转&#xff0c;我们跌跌撞撞前进&#xff0c;这就够了 —— 阿贝尔 加缪 vector问题解决 1 前言2 迭代器区间拷贝3 迭代器失效问题4 memcpy拷贝问题 1 前言 我们之前实现了手搓vector&#xff0c;但是当时依然有些问题没有解决&#xff…

牛市股票还会亏钱?--外观模式

1.1 牛市股票还会亏钱&#xff1f; 炒股&#xff0c;碰到熊市&#xff0c;亏得一塌糊涂。 "我们公司的人现在都在炒股票&#xff0c;其实大部分人都不太懂&#xff0c;就是因为现在股市行情很火&#xff0c;于是都在跟风呢&#xff01;" 刚入市的人&#xff0c;什么都…

Day84:服务攻防-端口协议桌面应用QQWPS等RCEhydra口令猜解未授权检测

目录 端口协议-口令爆破&未授权 弱口令爆破 FTP&#xff1a;文件传输协议 RDP&#xff1a;Windows远程桌面协议 SSH&#xff1a;Linux安全外壳协议 未授权案例(rsync) 桌面应用-QQ&WPS&Clash QQ RCE 漏洞复现 WPS RCE 漏洞复现 Clas* RCE 漏洞复现 知识点…

【攻防世界】ics-05

php://filter 伪协议查看源码 preg_replace 函数漏洞 1.获取网页源代码。多点点界面&#xff0c;发现点云平台设备维护中心时&#xff0c;页面发生变化。 /?pageindex 输入什么显示什么&#xff0c;有回显。 用php://filter读取网页源代码 ?pagephp://filter/readconvert.…

设计模式 --5观察者模式

观察者模式 观察者模式的优缺点 优点 当一个对象改变的时候 需要同时改变其他对象的相关动作的时候 &#xff0c;而且它不知道有多少具体的对象需要改变 应该考虑使用观察者模式 。观察者模式的工作就是解除耦合 让耦合双方都依赖与抽象 而不是具体 是的各自改变都不会影响另…