大数据系列之:读取parquet文件统计数据量
- 一、Spark读取parquet文件统计数据量
- 二、parquet-tools统计parquet文件数据量
- 三、实际应用案例
一、Spark读取parquet文件统计数据量
- 首先,创建一个 SparkSession 对象:
val spark = SparkSession.builder().appName("Parquet Data Count").getOrCreate()
- 然后,使用 SparkSession 读取 Parquet 文件并将其转换为 DataFrame:
val data = spark.read.format("parquet").load("/path/to/hdfs/parquet/file")
- 最后,使用 DataFrame 的 count 方法进行数据量统计:
val count = data.count()
二、parquet-tools统计parquet文件数据量
下载parquet-tools工具
使用 Hadoop 命令行工具:
- 首先,使用 Hadoop 命令行工具
hadoop
运行以下命令:
hadoop fs -cat /path/to/hdfs/parquet/file | parquet-tools rowcount
- 该命令将读取 Parquet 文件并使用
parquet-tools
工具来统计数据量,并输出结果。
三、实际应用案例
读取hdfs上的parquet文件:
%sparkval data = spark.read.format("parquet").load("/optics/ods_optics_prod/packing_data_item_1h_a/datetime=2023122514/part-00000-2675f81c-3c90-4af7-a489-bd8ce5cfec2c-c000.zstd.parquet")
查看数据量:
%spark
val count = data.count()count: Long = 433173