长沙多用户商城网站建设/企业培训心得

长沙多用户商城网站建设,企业培训心得,深圳华强北手表各品牌批发,wordpress 文章自定义字段一.实验题目 实验所需要求: centos7虚拟机 pyspark spark python3 hadoop分布式 统计历届春晚的节目数目 统计各个类型节目的数量,显示前10名 统计相声类节目历年的数目。 查询每个演员在春晚上表演节目的数量。 统计每年各类节目的数量&#xff0…

一.实验题目

   实验所需要求:  centos7虚拟机 pyspark spark python3 hadoop分布式

统计历届春晚的节目数目

统计各个类型节目的数量,显示前10名

统计相声类节目历年的数目。

查询每个演员在春晚上表演节目的数量。

统计每年各类节目的数量,打印(节目类型、年份、数量),按照节目类型升序排序,节目类型相同时其次按照年份降序排序

二 实验代码

from pyspark.sql import SparkSession

from pyspark.sql.functions import col, count, desc, asc, split, explode

# 创建 SparkSession

spark = SparkSession.builder \

    .appName("SpringFestivalGalaAnalysis") \

    .getOrCreate()

# 读取 CSV 文件

df = spark.read.csv("party.csv", sep="\t", header=False, inferSchema=True)

# 为 DataFrame 设置列名

columns = ["year", "program_type", "program_name", "performers"]

df = df.toDF(*columns)

# 统计历届春晚的节目数目

total_programs = df.count()

print(f"Total programs: {total_programs}")

# 统计各个类型节目的数量,显示前10名

program_type_counts = df.groupBy("program_type").count().orderBy(col("count").desc()).limit(10)

program_type_counts.show()

# 统计相声类节目历年的数目

xiangsheng_counts = df.filter(col("program_type") == "相声").groupBy("year").count().orderBy("year")

xiangsheng_counts.show()

# 查询每个演员在春晚上表演节目的数量

# 将 performers 字段拆分并展开

performers_df = df.withColumn("performer", explode(split(col("performers"), "、")))

performer_counts = performers_df.groupBy("performer").count().orderBy(col("count").desc())

performer_counts.show()

# 统计每年各类节目的数量,打印(节目类型、年份、数量)

# 按照节目类型升序排序,节目类型相同时其次按照年份降序排序

yearly_program_counts = df.groupBy("program_type", "year").count().orderBy([col("program_type").asc(), col("year").desc()])

yearly_program_counts.show()

# 停止 SparkSession

spark.stop()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/72181.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Manus:成为AI Agent领域的标杆

一、引言 官网:Manus 随着人工智能技术的飞速发展,AI Agent(智能体)作为人工智能领域的重要分支,正逐渐从概念走向现实,并在各行各业展现出巨大的应用潜力。在众多AI Agent产品中,Manus以其独…

算法每日一练 (11)

💢欢迎来到张胤尘的技术站 💥技术如江河,汇聚众志成。代码似星辰,照亮行征程。开源精神长,传承永不忘。携手共前行,未来更辉煌💥 文章目录 算法每日一练 (11)全排列题目描述解题思路解题代码c/c…

《Spring日志整合与注入技术:从入门到精通》

1.Spring与日志框架的整合 1.Spring与日志框架进行整合,日志框架就可以在控制台中,输出Spring框架运行过程中的一些重要的信息。 好处:方便了解Spring框架的运行过程,利于程序的调试。 Spring如何整合日志框架 Spring5.x整合log4j…

《SQL性能优化指南:新手如何写出高效的数据库查询

新手程序员如何用三个月成为SQL高手?万字自学指南带你弯道超车 在数据为王的时代,掌握SQL已成为职场新人的必修课。你可能不知道,仅用三个月系统学习,一个零基础的小白就能完成从数据库萌新到SQL达人的蜕变。去年刚毕业的小王就是…

【Unity】在项目中使用VisualScripting

1. 在packagemanager添加插件 2. 在设置中进行初始化。 Edit > Project Settings > Visual Scripting Initialize Visual Scripting You must select Initialize Visual Scripting the first time you use Visual Scripting in a project. Initialize Visual Scripting …

JConsole 在 Linux 上的使用

JConsole 在 Linux 上的使用指南 1. 启动 JConsole 远程监控 Linux 服务器上的 JVM 进程 1.1 修改 JMX 配置&#xff0c;允许远程访问 在 Linux 服务器 启动 Java 应用时&#xff0c;需要加上 -Djava.rmi.server.hostname<服务器IP>&#xff0c;完整的启动参数如下&am…

个人记录,Unity资源解压和管理插件

就是经典的两个AssetStudio 和 Ripper 没有什么干货&#xff0c;就是记录一下&#xff0c;内容没有很详细 AssetStudio 说错了&#xff0c;AssetStudio比较出名&#xff08;曾经&#xff09;&#xff0c;但好像堕落了 是&#xff0c;AssetBundlExtractor 这个工具有个好处就…

DeepSeek-Open WebUI部署

1.DeepSeek部署-Win版本 2.DeepSeek部署-Linux版本 3.DeepSeek部署-一键部署(Linux版本) 4.DeepSeek部署-进阶版本(LinuxGPU) 5.DeepSeek部署-基于vLLM部署 前面部署了vLLM版本以后&#xff0c;访问它比较麻烦。如何才能更好的实现访问呢&#xff0c;这个就是我们今天要讲的…

(vue)elementUi中el-upload上传附件之后 点击附件可下载

(vue)elementUi中el-upload上传附件之后 点击附件可下载 handlePreview(file) {console.log(file)const fileUrl https://.../zzy/ file.urlconst a document.createElement(a)a.href fileUrla.download file.namea.style.display none// a.setAttribute(download, file.…

SpringBoot——Maven篇

Spring Boot 是一个用于快速开发基于 Spring 框架的应用程序的工具。它具有许多特性&#xff0c;其中一些重要的特性包括&#xff1a; 1. 自动配置&#xff1a;Spring Boot 提供了自动配置的机制&#xff0c;可以根据应用程序的依赖和环境自动配置应用程序的各种组件&#xff…

搭建基于chatgpt的问答系统

一、语言模型&#xff0c;提问范式与 Token 1.语言模型 大语言模型&#xff08;LLM&#xff09;是通过预测下一个词的监督学习方式进行训练的&#xff0c;通过预测下一个词为训练目标的方法使得语言模型获得强大的语言生成能力。 a.基础语言模型 &#xff08;Base LLM&…

leetcode0056. 合并区间 - medium

1 题目&#xff1a;合并区间 官方难度 - 中等 以数组 intervals 表示若干个区间的集合&#xff0c;其中单个区间为 intervals[i] [starti, endi] 。请你合并所有重叠的区间&#xff0c;并返回 一个不重叠的区间数组&#xff0c;该数组需恰好覆盖输入中的所有区间 。 示例 1…

计算机视觉cv2入门之图像的读取,显示,与保存

在计算机视觉领域&#xff0c;Python的cv2库是一个不可或缺的工具&#xff0c;它提供了丰富的图像处理功能。作为OpenCV的Python接口&#xff0c;cv2使得图像处理的实现变得简单而高效。 示例图片 目录 opencv获取方式 图像基本知识 颜色空间 RGB HSV 图像格式 BMP格式 …

性能优化:服务器性能影响网站加载速度分析

问题&#xff1a;网站访问加载慢是受部署服务器的核数、带宽、内存影响吗&#xff1f;&#xff1f; 文章目录 前言一、服务器核数&#xff08;CPU&#xff09;二、带宽三、内存&#xff08;RAM&#xff09;四、其他潜在影响因素五、排查与优化步骤六、总结 前言 网站访问加载速…

Qt:绘图API

目录 初识绘图 绘图API的使用 绘制形状(QPaintEvent) 绘制文字(画笔QPen) 内部填充(画刷QBrush) 绘制图片(QPixmap) 初识绘图 我们前面学习 Qt 主要是学 Qt 的各种控件&#xff0c;本质上都是画出来的 都是一些常用的东西&#xff0c;Qt 已经提前画好了&#xff0c;拿过…

开源、创新与人才发展:机器人产业的战略布局与稚晖君成功案例解析

目录 引言 一、开源&#xff1a;机器人产业的战略布局 促进技术进步和生态建设 吸引人才和合作伙伴 建立标准和网络效应 降低研发风险与成本 二、稚晖君&#xff1a;华为"天才少年计划"的成功典范 深厚的技术积累与动手能力 强烈的探索和创新意识 持续公开…

mac本地部署Qwq-32b记录

导语 昨天看到阿里开源了Qwq-32b&#xff0c;号称性能可以媲美Deepseek-R1。今天晚上有空就在Mac上折腾了一下&#xff0c;使用ollma进行了部署&#xff0c;效果感觉还不错&#xff0c;特此记录。 环境 硬件 型号&#xff1a;Macbook M1 Pro 14寸内存&#xff1a;32G 环境…

blender学习25.3.11

【05-进阶篇】Blender咖啡小场景之咖啡杯建模_哔哩哔哩_bilibili 杯子 首先做一个圆柱体 循环切割 crtlr 往下拖拽 框住按s往里收 Gz向上点 点击顶面按插入i&#xff0c;往里收一下&#xff0c;这样就插入了一个面 插入完成之后选中这个面&#xff0c;按下键盘的挤压E 然后…

css基本功

为什么 ::first-letter 是伪元素&#xff1f; ::first-letter 的作用是选择并样式化元素的第一个字母&#xff0c;它创建了一个虚拟的元素来包裹这个字母&#xff0c;因此属于伪元素。 grid布局 案例一 <!DOCTYPE html> <html lang"zh-CN"><head&…

基于WebRTC技术的EasyRTC嵌入式音视频SDK:多平台兼容与性能优化

在当今数字化、智能化的时代背景下&#xff0c;实时音视频通信技术已成为众多领域不可或缺的关键技术。基于WebRTC技术的EasyRTC嵌入式音视频SDK&#xff0c;凭借其在ARM、Linux、Windows、安卓、iOS等多平台上的兼容性&#xff0c;为开发者提供了强大的工具&#xff0c;推动了…