任务4.8.1 利用Spark SQL实现词频统计

在这里插入图片描述

实战:利用Spark SQL实现词频统计

目标
  • 使用Apache Spark的Spark SQL模块,实现一个词频统计程序。
环境准备
  1. 本地文件准备

    • 在本地/home目录下创建words.txt文件。
  2. HDFS文件准备

    • 创建HDFS目录/wordcount/input
    • words.txt文件上传到HDFS的/wordcount/input目录。
交互式实现
  • 方法一

    1. 读取文本文件并生成数据集。
    2. 扁平化映射,将文本拆分为单词。
    3. 将数据集转换为数据帧,并重命名列。
    4. 创建临时视图,使用SQL查询进行词频统计。
    5. 将统计结果保存到HDFS,并查看结果。
  • 方法二

    1. 直接读取文本文件生成数据帧。
    2. 创建基于数据帧的临时视图。
    3. 使用SQL查询和explode函数进行词频统计。
    4. 显示统计结果。
Spark项目实现
  1. 创建Maven项目

    • 创建Jakarta EE项目,修改源程序目录为Scala。
  2. 添加依赖

    • 删除原有依赖,添加Spark Core和Spark SQL依赖。
  3. 设置源程序文件夹

    • 配置sourceDirectory为Scala源代码目录。
  4. 添加Scala SDK

    • 在项目结构中添加已安装的Scala SDK。
  5. 创建日志和HDFS配置文件

    • resources目录下创建log4j.propertieshdfs-site.xml
  6. 创建词频统计对象

    • net.huawei.sql包中创建WordCount对象,实现词频统计逻辑。
  7. 运行程序

    • 清理输出目录,运行程序,并在控制台查看结果。
    • 查看HDFS中的输出文件和内容。
技术要点
  • 使用Spark SQL进行数据处理和分析。
  • 利用explode函数处理数组或集合。
  • 通过SQL查询进行数据聚合和排序。
  • 处理HDFS文件系统与本地文件系统的交互。
预期结果
  • 成功统计文本文件中的词频,并按降序排列。
  • 将统计结果输出到HDFS,并能够正确显示。
可能遇到的问题
  • HDFS配置错误导致无法连接或读取文件。
  • Spark SQL查询语法错误。
  • Maven项目依赖问题导致编译失败。
  • Scala版本与项目不兼容。
结论

通过本实战,参与者将能够掌握使用Spark SQL进行文本处理和数据分析的技能,理解如何在分布式环境中处理大数据,并学会解决实际开发中可能遇到的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/25977.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在 Visual Studio 2022 中配置 OpenCV

在 Visual Studio 2022 中配置 OpenCV 软件准备系统环境配置VS 2022 环境配置测试 软件准备 Visual Studio 2022 下载链接 OpenCV 下载链接 Visual Studio 的版本与 OpenCV 的 vc 版本需对应好,可以向下兼容: VS 2015 – vc14VS 2017 – vc15VS 2019…

【启明智显芯片应用】Model3C芯片4.3寸拼图机应用方案

数据显示,618前期,早教启智、智能玩具、科学启蒙、数字阅读类产品销量增长迅猛。当下,90后新生代父母对于孩子的科学启蒙教育愈发重视,他们在给孩子选择学习产品时,越来越倾向于选择寓教于乐的益智类产品,而…

PNAS | 工作记忆中大脑节律的因果功能图

摘要 工作记忆是一个涉及大脑中多个功能解剖节点的关键认知过程。尽管有大量与工作记忆结构相关的神经影像学证据,但我们对控制整体表现的关键中枢的理解并不完整。因果解释需要在对特定功能解剖节点进行安全、暂时和可控的神经调节后进行认知测试。随着经颅交流电…

工业机器人远程运维,增强智慧工厂运营管理

1、需求背景 随着工业自动化技术的普及和工业机器人应用的增加,制造业对于生产线稳定性和效率的要求不断提高。然而,传统的现场监控方式存在着地理位置限制、实时监控难度大以及诊断能力有限等问题,迫切需要一种更具灵活性和效率的监控方式。…

充电宝哪个牌子好?10款主流款充电宝推荐

步入高速发展的快充时代,一个优质的充电宝已成为我们日常生活中的必备良品。本文将为大家介绍10主流款的充电宝品牌,它们包括西圣PB、品胜、京东京造、京东京造、飞利浦、倍思等知名品牌的系列产品。这些充电宝涵盖了不同的容量和快充协议,能…

redis windos修复版本

遇到的问题: Django的channel插件连接安装在windows上的redis报错: unknown command BZPOPMIN, channels-redis版本和redis不兼容导致.解决方案: 更新Redis版本. 微软官方维护的 Redishttps://github.com/microsoftarchive/redis/releases 2016年后就不更新了, 版本停留在了3.x…

2024年城市建设、运输与智慧交通国际会议(ICUCTST 2024)

2024 International Conference on Urban Construction, Transportation, and Smart Transportation 【1】大会信息 会议简称:ICUCTST 2024 大会地点:中国厦门 会议官网:www.icuctst.com 投稿邮箱:icuctstsub-paper.com 【2】会…

【论文】2405.Phased Consistency Model(港中文提出了AI绘画加速模型,一步采样生成图像,支持SD1.5,SDXL)

论文:https://arxiv.org/abs/2405.18407 (2024.05.30发布) 代码:https://github.com/G-U-N/Phased-Consistency-Model 一、论文要解决什么问题?效果如何? (需要先了解LCM模型) (阶段性一致性模型:朝着稳定…

后端面试题分享查看测试代码

问题描述 编写一个函数,该函数接受一个字符串作为参数,检查该字符串是否符合密码强度要求, 返回True或False。 要求 密码强度要求如下: 不能小于6个字符必须出现大写、小写、数字、特殊字符(!#$%^&*_-&#xf…

(免费领源码)基于 node.js#vue#mysql的网上游戏商城35112-计算机毕业设计项目选题推荐

摘 要 本论文主要论述了如何使用node.js语言开发一个基于vue的网上游戏商城,本系统将严格按照软件开发流程进行各个阶段的工作,本系统采用的数据库是Mysql,使用node.js的koa技术技术构建的一个管理系统,实现了本系统的全部功能。在…

Java--Math类和Random类

1.Math类简介 1.Math类中提供了大量用于数学运算的相关方法。 2.Math类是使用final修饰的终结类,不能产生子类 3.Math类中的方法都是static修饰的静态方法,可以通过类名.方法名直接调用 2.Math常用方法 1.abs(int):求绝对值(int,long,floa…

ABB机器人修改IO信号的具体方法介绍

ABB机器人修改IO信号的具体方法介绍 具体步骤可从参考以下内容: 导出IO配置文件 打开【控制面板】-【配置】-【I/O System】-【文件】-【‘EIO’另存为】,就可以保存IO配置文件【EIO.cfg】用RobotStudio软件打开EIO.cfg文件在软件界面,鼠标右击,选择【I/O信号数据编辑器】选…

【MyBatis-plus】saveBatch 性能调优和【MyBatis】的数据批量入库

总结最优的两种方法: 方法1: 使用了【MyBatis-plus】saveBatch 但是数据入库效率依旧很慢,那可能是是因为JDBC没有配置,saveBatch 批量写入并没有生效哦!!! 详细配置如下:批量数据入…

数据结构---外部排序

个人介绍 hello hello~ ,这里是 code袁~💖💖 ,欢迎大家点赞🥳🥳关注💥💥收藏🌹🌹🌹 🦁作者简介:一名喜欢分享和记录学习的…

【计算机毕业设计】266基于微信小程序的在线点餐

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

【Nature子刊】最争气国人友好“灌水刊”,中科院3区升2区,录用仅1个月,2天见刊!

本周投稿推荐 SSCI • 中科院2区,6.0-7.0(录用友好) EI • 各领域沾边均可(2天录用) CNKI • 7天录用-检索(急录友好) SCI&EI • 4区生物医学类,0.5-1.0(录用…

【单片机毕业设计9-基于stm32c8t6的酒窖监测系统】

【单片机毕业设计9-基于stm32c8t6的酒窖监测系统】 前言一、功能介绍二、硬件部分三、软件部分总结 前言 🔥这里是小殷学长,单片机毕业设计篇9基于stm32的酒窖监测系统 🧿创作不易,拒绝白嫖可私 一、功能介绍 -------------------…

responses-validator接口断言之状态码

概述 responses-validator 专用于对 reqeuests 的响应对象进行断言, 同时,为了更适用 yaml 的场景,支持了多种灵活、可扩展的写法,可用于搭建yaml接口自动化测试框架。 根据 reqeuests 响应对象的特点,responses-val…

JVM知识点

JVM是什么 JVM(Java Virtual Machine)是 Java 虚拟机,用于运行 Java 编译后的二进制字节码,最后生成机器指令。JVM 是 Java 能够跨平台的核心 JDK,JRE,JVM三者关系 三者的关系是:一层层的嵌套关…

第26讲:Ceph集群OSD扩缩容中Reblanceing数据重分布

文章目录 1.Reblanceing数据重分布的概念2.验证Reblanceing触发的过程3.Reblanceing细节4.临时关闭Reblanceing机制 1.Reblanceing数据重分布的概念 当集群中OSD进行扩缩容操作后,会触发一个Reblanceing数据重分布的机制,简单的理解就是将扩缩容前后OSD…