Spark中使用RDD算子GroupBy做词频统计的方法

测试文件及环境

测试文件在本地D://tmp/spark.txt，Spark采用Local模式运行，Spark版本3.2.0，Scala版本2.12，集成idea开发环境。

hello
world
java
world
java
java

实验代码

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}object GroupBy {def main(args: Array[String]): Unit = {// 创建Spark执行环境val sparkConf: SparkConf =new SparkConf().setMaster("local").setAppName("GroupBy")// 新建会话val sc = new SparkContext(sparkConf)// 读取本地文件到RDDval rdd: RDD[String] = sc.textFile("D://tmp/spark.txt")// 对rdd做map映射,返回(hello,1)...val rdd2: RDD[(String, Int)] = rdd.map(v => {val arr: Array[String] = v.split("\t")(arr(0), 1)})// 打印map映射结果rdd2.foreach(v=>println(v))// 对rdd2进行groupBy操作val rdd3: RDD[(String, Iterable[(String, Int)])] = rdd2.groupBy(v => v._1)// 遍历打印最终结果rdd3.map(v => (v._1, v._2.size)).foreach(v => println(v))//结束Spark会话sc.stop()}
}

实验结果

打印map映射结果

(hello,1)
(world,1)
(java,1)
(world,1)
(java,1)
(java,1)

(hello,1)
(java,3)
(world,2)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/31503.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

Spark中使用RDD算子GroupBy做词频统计的方法

测试文件及环境

实验代码

实验结果

相关文章

Chrome有些网站打不开，但是火狐可以打开

领航优配：沪指震荡涨0.47%，保险、券商板块强势，互联金融概念活跃

【JAVA基础】- 同步非阻塞模式NIO详解

数据API服务管理功能 - 提升数据效率的关键工具

优思学院｜质量第一的目的是什么？

yolo-nas对自定义数据集进行训练，测试详解香烟数据集

苍穹外卖系统07

AWS——04篇（AWS之Amazon S3（云中可扩展存储）-02——EC2访问S3存储桶）

如何将苹果彻底删除视频找回？试试这3种方法

uni-app之app上传pdf类型文件

刷新缓冲区（标准IO）

在线Word怎么转换成PDF？Word无法转换成PDF文档原因分析

C语言假期作业 DAY 16

交换机的堆叠技术

Windows下安装Sqoop

Nginx负载均衡（重点）

Apple AudioToolbox 之音频编解码（AudioConverterRef）

macos搭建appium-iOS自动化测试环境

javabean 中临时字段的处理：@Transient

Linux: debug: systemtap: 如何调用内核函数