python分析犯罪数据_使用 SparkSQL 分析纽约市犯罪数据

在实验《使用 SparkSQL 分析纽约市犯罪数据》时候

创建 DataFrame 并注册成表，报错！

sqlContext.createDataFrame(Crimes).registerTempTable("Crimes")

17/11/10 07:55:17 ERROR Executor: Exception in task 0.0 in stage 0.0 (TID 0)

org.apache.spark.api.python.PythonException: Traceback (most recent call last):

File "/opt/spark-1.6.1-bin-hadoop2.6/python/lib/pyspark.zip/pyspark/worker.py", line 111, in main

process()

File "/opt/spark-1.6.1-bin-hadoop2.6/python/lib/pyspark.zip/pyspark/worker.py", line 106, in process

serializer.dump_stream(func(split_index, iterator), outfile)

File "/opt/spark-1.6.1-bin-hadoop2.6/python/lib/pyspark.zip/pyspark/serializers.py", line 263, in dump_stream

vs = list(itertools.islice(iterator, batch))

File "/opt/spark-1.6.1-bin-hadoop2.6/python/pyspark/rdd.py", line 1293, in takeUpToNumLeft

yield next(iterator)

File "", line 1, in

NameError: global name 'P' is not defined

at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRDD.scala:166)

at org.apache.spark.api.python.PythonRunner$$anon$1.(PythonRDD.scala:207)

at org.apache.spark.api.python.PythonRunner.compute(PythonRDD.scala:125)

at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:70)

at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:306)

at org.apache.spark.rdd.RDD.iterator(RDD.scala:270)

at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)

at org.apache.spark.scheduler.Task.run(Task.scala:89)

at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)

at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)

at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)

at java.lang.Thread.run(Thread.java:745)

17/11/10 07:55:17 WARN TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, localhost): org.apache.spark.api.python.PythonException: Traceback (most recent call last):

File "/opt/spark-1.6.1-bin-hadoop2.6/python/lib/pyspark.zip/pyspark/worker.py", line 111, in main

process()

File "/opt/spark-1.6.1-bin-hadoop2.6/python/lib/pyspark.zip/pyspark/worker.py", line 106, in process

serializer.dump_stream(func(split_index, iterator), outfile)

File "/opt/spark-1.6.1-bin-hadoop2.6/python/lib/pyspark.zip/pyspark/serializers.py", line 263, in dump_stream

vs = list(itertools.islice(iterator, batch))

File "/opt/spark-1.6.1-bin-hadoop2.6/python/pyspark/rdd.py", line 1293, in takeUpToNumLeft

yield next(iterator)

File "", line 1, in

NameError: global name 'P' is not defined

at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRDD.scala:166)

at org.apache.spark.api.python.PythonRunner$$anon$1.(PythonRDD.scala:207)

at org.apache.spark.api.python.PythonRunner.compute(PythonRDD.scala:125)

at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:70)

at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:306)

at org.apache.spark.rdd.RDD.iterator(RDD.scala:270)

at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)

at org.apache.spark.scheduler.Task.run(Task.scala:89)

at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)

at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)

at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)

at java.lang.Thread.run(Thread.java:745)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/555688.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

python分析犯罪数据_使用 SparkSQL 分析纽约市犯罪数据

相关文章

计算机硬件四则运算实验,实验一四则运算(INTERNET).pdf

关于海康官网接口文档中：取流URL有效时间为5分钟表述歧义的说明

计算机原理课程设计第二版pdf,计算机组成原理课程设计二.pdf

调用海康视频接口获取预览取流的URL

c if语句多个条件判断顺序_Java中的流程控制语句 (基础篇四)

计算机绘图实训任务书,2012-2cad实训任务书与指导书.pdf

五种常见流媒体协议

git checkout 会把改动带过去吗_原创 | 操作失误不要慌，这个命令给你的Git一次反悔的机会...

计算机指令执行与时序逻辑,时序逻辑系统

三种主流流媒体协议比较

flume连接kafka_日志收集系统架构设计：(flume+zookeeper+kafka+php+mysql )

2020班徽设计图案高中计算机,高铁工程学院举办2020级班徽设计大赛

Web浏览器没有Flash如何播放RTMP协议直播

opencv运动目标跟踪预测_基于Opencv的运动目标的检测和跟踪.pdf

日照职业单招计算机专业,日照职业技术学院单招专业介绍-机电一体化技术

video-js RTMP直播

python实现监控增量_python 日志增量抓取实现方法

中央处理器属于计算机外部设备吗,不属于计算机外部设备的是

EJB到底是什么？（通俗易懂白话文）

cesium 局部加载_Cesium自定义HTML弹窗