《PySpark大数据分析实战》-16.云服务模式Databricks介绍运行案例

📋 博主简介

💖 作者简介：大家好，我是wux_labs。😜
热衷于各种主流技术，热爱数据科学、机器学习、云计算、人工智能。
通过了TiDB数据库专员（PCTA）、TiDB数据库专家（PCTP）、TiDB数据库认证SQL开发专家（PCSD）认证。
通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。
对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Databricks的使用有丰富的经验。
📝 个人主页：wux_labs，如果您对我还算满意，请关注一下吧~🔥
📝 个人社区：数据科学社区，如果您是数据科学爱好者，一起来交流吧~🔥
🎉 请支持我：欢迎大家点赞👍+收藏⭐️+吐槽📝，您的支持是我持续创作的动力~🔥

《PySpark大数据分析实战》-16.云服务模式Databricks介绍运行案例

《PySpark大数据分析实战》-16.云服务模式Databricks介绍运行案例
- 前言
- 创建笔记本
- 运行案例
- 结束语

《PySpark大数据分析实战》-16.云服务模式Databricks介绍运行案例

前言

大家好！今天为大家分享的是《PySpark大数据分析实战》第2章第5节的内容：云服务模式Databricks介绍运行案例。

图书在：当当、京东、机械工业出版社以及各大书店有售！

创建笔记本

Databricks中交互式代码采用笔记本编写并运行。在Workspace菜单下点击鼠标右键，在弹出菜单中选择Create菜单下的Notebook来创建笔记本，如图所示。

在笔记本界面输入笔记本的名称、开发语言、集群，可以创建一个在Cluster1集群下运行的基于Python语言进行开发的笔记本，如图所示。

在笔记本中编写Python代码并点击Run Cell菜单直接运行代码，如图所示。

运行完成可以在笔记本中看到输出结果，如图所示。

Spark版本是3.4.0。
Spark Master地址是spark://10.139.64.4:7077，这与独立集群的master地址一致。
应用名称是Databricks Shell。

点击输出结果中的Spark UI链接，打开Spark Driver Web UI，如图所示。

运行案例

在笔记本中写入WordCount代码，将代码中访问HDFS的文件路径改成访问DBFS的文件路径，修改后的代码如下：

count = sc.textFile("dbfs:/FileStore/tables/words.txt") \
.flatMap(lambda x: x.split(' ')) \
.map(lambda x: (x, 1)) \
.reduceByKey(lambda a,b: a + b).collect()
print(count)