pyspark==windows单机搭建

下载安装JDK17,配置JAVA_HOME

下载安装hadoop-3.3.5并完整替换bin目录,配置HADOOP_HOME

Index of /hadoop/common/hadoop-3.3.5

GitHub - cdarlint/winutils: winutils.exe hadoop.dll and hdfs.dll binaries for hadoop windows

下载spark配置SPARK_HOME

安装pyspark

Demo

遇到错误

org.apache.spark.SparkException: Python worker failed to connect back.

注意要指定python的地址

from pyspark.sql import SparkSession
import time# 创建SparkSession
spark = SparkSession.builder.appName("CSV to DataFrame").getOrCreate()# 读取CSV文件到DataFrame
csv_file_path = "../large_test_file.csv"  # 替换为你的CSV文件路径
df = spark.read.csv(csv_file_path, header=True, inferSchema=True)# 注册临时表以进行SQL查询
df.createOrReplaceTempView("csv_table")
start_time = time.time()
# 使用Spark SQL查询数据
sql_query = """
SELECT max(col_18) as final FROM csv_table
"""
result_df = spark.sql(sql_query)# 显示查询结果
result_df.show()
print(f"datetime 模块测量时间: {time.time() - start_time}")
# datetime 模块测量时间: 0.9699978828430176
# 停止SparkSession
spark.stop()

环境

python3.10

annotated-types==0.7.0
anyio==4.4.0
certifi==2024.2.2
click==8.1.7
cloudpickle==3.0.0
colorama==0.4.6
dask==2024.1.1
dask_sql==2024.3.0
distributed==2024.1.1
dnspython==2.6.1
email_validator==2.1.1
exceptiongroup==1.2.1
fastapi==0.111.0
fastapi-cli==0.0.4
fsspec==2024.5.0
h11==0.14.0
httpcore==1.0.5
httptools==0.6.1
httpx==0.27.0
idna==3.7
importlib_metadata==7.1.0
Jinja2==3.1.4
locket==1.0.0
markdown-it-py==3.0.0
MarkupSafe==2.1.5
mdurl==0.1.2
msgpack==1.0.8
numpy==1.26.4
orjson==3.10.3
packaging==24.0
pandas==2.2.2
partd==1.4.2
prompt_toolkit==3.0.45
psutil==5.9.8
py4j==0.10.9.7
pydantic==2.7.1
pydantic_core==2.18.2
Pygments==2.18.0
pyspark==3.5.1
python-dateutil==2.9.0.post0
python-dotenv==1.0.1
python-multipart==0.0.9
pytz==2024.1
PyYAML==6.0.1
rich==13.7.1
shellingham==1.5.4
six==1.16.0
sniffio==1.3.1
sortedcontainers==2.4.0
starlette==0.37.2
tabulate==0.9.0
tblib==3.0.0
toolz==0.12.1
tornado==6.4
typer==0.12.3
typing_extensions==4.12.0
tzdata==2024.1
tzlocal==5.2
ujson==5.10.0
urllib3==2.2.1
uvicorn==0.30.0
watchfiles==0.22.0
wcwidth==0.2.13
websockets==12.0
zict==3.0.0
zipp==3.19.0

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/18031.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java函数编程-黑马学习笔记

第一章 01合格的函数 函数就是一个规则 合格的函数就是只要你输入相同,无论多少次调用,不论什么时间调用,输出是相同的。 函数可以引用外部的数据,但是需要去保证外部的数据不可变 static关键字修饰的静态方法本质上和函数没…

XDebug配置几件教程,phpstorm实现http请求断点调试

写这篇的文章的初衷:网络上配置XDebug的文章有很多,XDebug也有官方的文档, PhpStorm也有官方的文档,为什么还要写那? 相信不少人,都有一种感觉,虽然教程很多,但是按教程走一遍,自己的确不能正常调试。 问题出在下面几个方面: 1. 对调试过程中,没有一定的认识,因此…

HBase分布式数据库入门到精通

文章目录 HBase分布式数据库入门到精通 一、简单介绍 二、HBase数据模型 三、HBase的架构 四、HBase写操作流程 五、HBase读操作流程 六、HBase minor小合并和major大合并 七、HBase目标表meta表 八、HBase特点 九、HBase的使用场景 HBase分布式数据库入门到精通 一、…

没开玩笑!高速信号不能参考电源网络这条规则,其实很难做到

高速先生成员--黄刚 看到这篇文章的题目,我相信大家心里都呈现出了这么一个场景:高速信号线在L20层,我只要把L19和L21层都铺上完整的地平面,这不就满足了高速信号线不能参考电源平面这条规则了吗?这难道很难做到吗&…

鸿蒙大厂目前政策变现沉淀思考

鸿蒙引擎定制优化 鸿蒙端hotfix: 技术栈太大了,但是鸿蒙需要学习什么呢? 什么最有价值? 这就是接下来需要表达下我的观点: 1、APP开发 2、应用市场技术专员 【游戏、电商重型APP性能的处理 SmartPerf、构建自己的工…

kotlin基础之扩展函数及运算符重载

Kotlin 是一种强大的静态类型编程语言,它特别擅长与 Java 互操作,并提供了许多实用的功能来简化代码和提高可读性。其中,扩展函数和运算符重载是 Kotlin 中的两个强大特性,它们允许你以更加自然和简洁的方式编写代码。 1. 扩展函…

基于SpringBoot的在线文档管理系统源码数据库

基于SpringBoot的在线文档管理系统源码数据库 随着科学技术的飞速发展,社会的方方面面、各行各业都在努力与现代的先进技术接轨,通过科技手段来提高自身的优势,在线文档管理当然也不能排除在外。在线文档管理系统是以实际运用为开发背景&…

JVM、JRE 和 JDK 的区别,及如何解决学习中可能会遇到的问题

在学习Java编程的过程中,理解JVM、JRE和JDK之间的区别是非常重要的。它们是Java开发和运行环境的核心组件,各自扮演不同的角色。 一、JVM(Java Virtual Machine) 定义 JVM(Java虚拟机)是一个虚拟化的计算…

EE trade:如何理解做空黄金

理解做空黄金,其实就是理解卖空操作在黄金市场中的应用。卖空,或称为做空,是指投资者预测某资产(在这个例子中是黄金)的价格会下跌,因此采取的一种投资策略。 下面简要说明做空黄金的过程和相关概念: 借入黄金: 首先…

【problem】解决idea提示Method breakpoints may dramatically slow down debugging

前言 在使用IntelliJ IDEA进行Java开发和调试时,高效和流畅的调试体验对于快速定位和解决问题至关重要。然而,有时我们会遇到因方法断点引起的速度减慢或程序挂起的情况。本文将指导您如何识别并解决这一问题,确保您的调试过程既快速又高效。…

word、excel、ppt文件office在线预览

word、excel、ppt文件在线预览 1.预览地址2.链接属性 1.预览地址 微软office提供在线加载服务: https://view.officeapps.live.com/op/view.aspx?srcxxx.xlsx https://view.officeapps.live.com/op/embed.aspx?srcxxx.xlsx 2.链接属性 src:文件链接&a…

Linux dd命令,希望不常用,但非常有用的命令~

dd 命令在 Linux 中是一个非常强大的工具,用于复制和转换文件。它主要用于低级复制和转换,特别是当涉及块设备(如硬盘分区)时。dd 命令的语法相当灵活,但也因为它的复杂性而有时让新手感到困惑。 程序员秘书 基本语法…

Android 生成正式版密钥库 KeyStore

步骤1:打开生成正式版密钥库设置 点击 Build 菜单,选择 Generate Signed App Bundle or APK: 这是打开后的样子: 步骤2:选择 APK Android App Bundle 是用于上架 Google Play 商店的。 正常情况下选择 APK。 选择…

【面试题】场景考核高频面试

登陆测试用例设计分析 ? 好的,以下是一些常见的登录测试用例设计分析: 1. 输入正确的用户名和密码是否能够成功登录? 2. 输入错误的用户名和密码是否能够正确地验证失败? 3. 如果忘记了密码,是否有重置密…

嵌入式Linux:strerror函数和perror函数

目录 1、strerror函数 2、perror函数 strerror函数和perror函数是C标准库中的两个函数,用于处理和显示错误信息。它们帮助程序员在程序运行过程中了解并诊断错误原因。 strerror函数,返回错误消息字符串,需要程序员自己调用printf等函数来…

Java学习-简单的用户管理系统

用户管理系统 实现基本的用户类,用于抽象出用户的基本信息(编号,姓名,性别,电话,邮件)–Student实现用户工具类,用于实现用户的增、删、改、查–StudentUtils测试类,用于测试使用–StudentTest…

提升(或降低)插入的内容的位置:\raisebox

\raisebox 是 LaTeX 中的一个命令&#xff0c;用于提升&#xff08;或降低&#xff09;插入的内容&#xff08;如文本、图像等&#xff09;的位置。该命令可以用于调整垂直位置&#xff0c;使内容相对于周围内容上下移动。 语法如下&#xff1a; \raisebox{<distance>}…

探秘网页内容提取:教你定位特定标签

新书上架~&#x1f447;全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我&#x1f446;&#xff0c;收藏下次不迷路┗|&#xff40;O′|┛ 嗷~~ 目录 一、引言 二、定位带有ID属性的第二个标签 三、定位具有特定属性值的标签 四、提取含有特…

分类内按规则拆分一行变多行

Excel的A列是分类列&#xff0c;B列是由">"连接起来的多个字符串&#xff0c;可以看成是合并后的明细&#xff1a; AB1IDRule: Condition2470210642217Test3470251569449Doors & Hardware > Door Jambs> 119mm4470251602217Bathroom > Stone Tops &…

Vue 怎么定义插件以及使用这个插件

Vue.js插件是一种增强Vue功能的方式&#xff0c;它允许你向Vue中添加全局功能&#xff0c;比如全局方法、指令、过滤器、混入等 创建Vue插件 export default {install(Vue, options) {// 添加全局方法或属性Vue.myGlobalMethod function() {console.log(全局方法调用, optio…