RDD的创建 - Python

第1关：集合并行化创建RDD

# -*- coding: UTF-8 -*-
from pyspark import SparkContextif __name__ == "__main__":#********** Begin **********## 1.初始化 SparkContext，该对象是 Spark 程序的入口sc = SparkContext("local", "Simple App")# 2.创建一个1到8的列表ListList = {1,2,3,4,5,6,7,8}# 3.通过 SparkContext 并行化创建 rddrdd = sc.parallelize(List)# 4.使用 rdd.collect() 收集 rdd 的内容。 rdd.collect() 是 Spark Action 算子，在后续内容中将会详细说明，主要作用是：收集 rdd 的数据内容rdd1 = rdd.collect()# 5.打印 rdd 的内容print(rdd1)# 6.停止 SparkContextsc.stop()#********** End **********#

第2关：读取外部数据集创建RDD

# -*- coding: UTF-8 -*-
from pyspark import SparkContextif __name__ == '__main__':#********** Begin **********## 1.初始化 SparkContext，该对象是 Spark 程序的入口sc = SparkContext("local", "Simple App")# 文本文件 RDD 可以使用创建 SparkContext 的textFile 方法。此方法需要一个 URI的 文件（本地路径的机器上，或一个hdfs://，s3a://等URI），并读取其作为行的集合# 2.读取本地文件，URI为：/root/wordcount.txtraw = sc.textFile("/root/wordcount.txt")rdd = raw.map(lambda x:x)# 3.使用 rdd.collect() 收集 rdd 的内容。 rdd.collect() 是 Spark Action 算子，在后续内容中将会详细说明，主要作用是：收集 rdd 的数据内容rdd.collect()# 4.打印 rdd 的内容print(rdd.collect())# 5.停止 SparkContextsc.stop()#********** End **********#

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/148395.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！