大数据系列之：读取parquet文件统计数据量

一、Spark读取parquet文件统计数据量
二、parquet-tools统计parquet文件数据量
三、实际应用案例

一、Spark读取parquet文件统计数据量

首先，创建一个 SparkSession 对象：

val spark = SparkSession.builder().appName("Parquet Data Count").getOrCreate()

然后，使用 SparkSession 读取 Parquet 文件并将其转换为 DataFrame：

val data = spark.read.format("parquet").load("/path/to/hdfs/parquet/file")

最后，使用 DataFrame 的 count 方法进行数据量统计：

val count = data.count()

二、parquet-tools统计parquet文件数据量

下载parquet-tools工具

使用 Hadoop 命令行工具：

首先，使用 Hadoop 命令行工具 hadoop 运行以下命令：

hadoop fs -cat /path/to/hdfs/parquet/file | parquet-tools rowcount

该命令将读取 Parquet 文件并使用 parquet-tools 工具来统计数据量，并输出结果。

三、实际应用案例

读取hdfs上的parquet文件：

%sparkval data = spark.read.format("parquet").load("/optics/ods_optics_prod/packing_data_item_1h_a/datetime=2023122514/part-00000-2675f81c-3c90-4af7-a489-bd8ce5cfec2c-c000.zstd.parquet")

查看数据量：

%spark
val count = data.count()count: Long = 433173

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/594324.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

大数据系列之：读取parquet文件统计数据量

大数据系列之：读取parquet文件统计数据量

一、Spark读取parquet文件统计数据量

二、parquet-tools统计parquet文件数据量

三、实际应用案例

相关文章

微信公众号请求获取相关权限后端代码

详解Vue3中的事件监听方式

LeetCode解法汇总2487. 从链表中移除节点

vue 使用 splice 删除元素UI视图不同步怎么办？

(PyTorch)TCN和RNN/LSTM/GRU结合实现时间序列预测

算法训练第五十二天|300. 最长递增子序列、674. 最长连续递增序列、718. 最长重复子数组

Arduino驱动VL53L0X ToF激光测距传感器（距离传感器）

python实现简易的flask后端接口

WPF容器的背景对鼠标事件的影响

C# windows服务程序开机自启动exe程序

软件测试入门（知识汇总）

clickhouseSQL日期相关

Rust使用gRPC

简单的数组移动问题

超级解压馆帮助与支持

【操作系统习题】处理机调度与死锁

LeetCode2413. Smallest Even Multiple

PAT 乙级 1042 字符统计

Winform中使用Fleck实现Websocket服务端并读取SQLite数据库中数据定时循环群发消息

Vue3 结合typescript 组合式函数(2)