记csv、parquet数据预览一个bug的解决

文章目录

  • 一、概述
  • 二、实现过程
    • 1. 业务流程
    • 2. 业务逻辑
    • 3. 运行结果
  • 三、bug现象
    • 1. 单元测试
    • 2.运行结果
  • 三、解决思路
    • 1. 思路一
    • 2. 思路二

一、概述

工作中遇到通过sparksession解析csv、parquet文件并预览top100的需求。

二、实现过程

1. 业务流程

hiveSQL读取数据
数据写入csv或parquet文件
预览csv或parquet文件top100数据

2. 业务逻辑

为了便于测试,下面在单元测试中使用模拟数据(模拟Dataset.toJSON()返回值)来说明


import java.util.ArrayList;
import java.util.List;
import java.util.Map;
import java.util.stream.Collectors;import org.junit.jupiter.api.BeforeAll;
import org.junit.jupiter.api.Test;import com.alibaba.fastjson.JSONObject;import lombok.extern.slf4j.Slf4j;@Slf4j
public class GroupingByDataTest
{static List<String> result = new ArrayList<>();@BeforeAllpublic static void init(){result.add("{\"student_no\":\"0204006\",\"student_name\":\"学生6\",\"field\":\"项目6\",\"value2\":\"6\",\"sex\":\"女\"}");result.add("{\"student_no\":\"0204006\",\"student_name\":\"学生6\",\"field\":\"项目6\",\"value2\":\"6\",\"sex\":\"女\"}");result.add("{\"student_no\":\"0204006\",\"student_name\":\"学生6\",\"field\":\"项目6\",\"value2\":\"6\",\"sex\":\"女\"}");result.add("{\"student_no\":\"0204006\",\"student_name\":\"学生6\",\"field\":\"项目6\",\"value2\":\"6\",\"sex\":\"女\"}");}@Testpublic void test002(){Map<Object, List<Object>> r = result.stream().map(s -> JSONObject.parseObject(s).entrySet()) // map.flatMap(m -> m.stream()) // flatMap.collect(Collectors.groupingBy(mp -> mp.getKey(), Collectors.mapping(x -> x.getValue(), Collectors.toList())));log.info("{}", r);}
}

3. 运行结果

 com.fly.lambda.GroupingByDataTest - {student_name=[学生6, 学生6, 学生6, 学生6], student_no=[0204006, 0204006, 0204006, 0204006], value2=[6, 6, 6, 6], field=[项目6, 项目6, 项目6, 项目6], sex=[女, 女, 女, 女]}

目前看来似乎一切正常。

三、bug现象

实际测试过程中发现,hive数据仓库中的字段由于各种原因并不一定都有值,从而导致保存的结果文件csv、parquet时字段值为空

1. 单元测试


import java.util.ArrayList;
import java.util.List;
import java.util.Map;
import java.util.stream.Collectors;import org.junit.jupiter.api.BeforeAll;
import org.junit.jupiter.api.Test;import com.alibaba.fastjson.JSONObject;import lombok.extern.slf4j.Slf4j;@Slf4j
public class GroupingByDataTest
{static List<String> result = new ArrayList<>();@BeforeAllpublic static void init(){result.add("{\"student_name\":\"学生1\",\"student_no\":\"0204001\",\"field\":\"项目1\",                 \"sex\":\"男\"}");result.add("{\"student_name\":\"学生2\",\"student_no\":\"0204002\",\"field\":\"项目2\",\"value2\":\"2\"               }");result.add("{\"student_name\":\"学生3\",                           \"field\":\"项目3\",\"value2\":\"3\",\"sex\":\"女\"}");result.add("{                           \"student_no\":\"0204004\",\"field\":\"项目4\",\"value2\":\"4\",\"sex\":\"男\"}");result.add("{\"student_name\":\"学生5\",\"student_no\":\"0204005\",\"field\":\"项目5\",\"value2\":\"5\",\"sex\":\"女\"}");result.add("{\"student_no\":\"0204006\",\"student_name\":\"学生6\",\"field\":\"项目6\",\"value2\":\"6\",\"sex\":\"女\"}");}@Testpublic void test002(){Map<Object, List<Object>> r = result.stream().map(s -> JSONObject.parseObject(s).entrySet()) // map.flatMap(m -> m.stream()) // flatMap.collect(Collectors.groupingBy(mp -> mp.getKey(), Collectors.mapping(x -> x.getValue(), Collectors.toList())));log.info("{}", r);}
}

2.运行结果

 com.fly.lambda.GroupingByDataTest - {student_name=[学生1, 学生2, 学生3, 学生5, 学生6], student_no=[0204001, 0204002, 0204004, 0204005, 0204006], value2=[2, 3, 4, 5, 6], field=[项目1, 项目2, 项目3, 项目4, 项目5, 项目6], sex=[男, 女, 男, 女, 女]}

期望的结果为

 com.fly.lambda.GroupingByDataTest - before : {student_name=[学生1, 学生2, 学生3, null, 学生5, 学生6], student_no=[0204001, 0204002, null, 0204004, 0204005, 0204006], value2=[null, 2, 3, 4, 5, 6], field=[项目1, 项目2, 项目3, 项目4, 项目5, 项目6], sex=[男, null, 女, 男, 女, 女]}

三、解决思路

解决这个问题有2个思路

1. 思路一

从数据来源解决,也就是 hiveSQL读取数据使用 coalsce 函数进行空值处理,实际去解决的过程中发现2个问题。

  1. )强制业务用户编辑hiveSQL时显式调用(用户体验太差,增加使用难度
  2. )不强制业务用户编辑hiveSQL时显式调用,后台接受到SQL后自动添加coalsce 函数(后台业务逻辑复杂,eg: 使用了条件语句、多表关联查询、字段命名特殊、添加 as 别名等各种情况,不一而足,几乎没法妥善处理

2. 思路二

hiveSQL读取数据
数据写入csv或parquet文件
预览csv或parquet文件top100数据

hiveSQL读取数据、数据写入csv或parquet文件正常进行,不用特殊处理, 修改步骤3

分为2步骤,步骤1,遍历获取全部的key去重,步骤2,自动对缺失数据的key补充空值

核心代码如下:

@Testpublic void test003()throws IOException{// 取keysList<String> keys = result.stream().map(s -> JSONObject.parseObject(s).entrySet()).flatMap(m -> m.stream()).map(r -> r.getKey()).distinct().collect(Collectors.toList());keys.stream().forEach(log::info);Map<String, List<Object>> r = result.stream().map(s -> parse(s, keys)).flatMap(m -> m.stream()) // flatMap.collect(Collectors.groupingBy(mp -> mp.getKey(), Collectors.mapping(x -> x.getValue(), Collectors.toList())));log.info("before : {}", r);log.info("sorted : {}", new TreeMap<>(r));}/*** 设置value, 根据需要补充空值*/private Set<Entry<String, Object>> parse(String s, List<String> keys){JSONObject jsonObject = JSONObject.parseObject(s);keys.stream().forEach(key -> {if (!jsonObject.containsKey(key)){jsonObject.put(key, null);}});return jsonObject.entrySet();}

运行结果

2024-01-14 13:57:53.211 [main] INFO  com.fly.lambda.GroupingByDataTest - student_name
2024-01-14 13:57:53.217 [main] INFO  com.fly.lambda.GroupingByDataTest - student_no
2024-01-14 13:57:53.217 [main] INFO  com.fly.lambda.GroupingByDataTest - field
2024-01-14 13:57:53.217 [main] INFO  com.fly.lambda.GroupingByDataTest - sex
2024-01-14 13:57:53.217 [main] INFO  com.fly.lambda.GroupingByDataTest - value2
2024-01-14 13:57:53.232 [main] INFO  com.fly.lambda.GroupingByDataTest - before : {student_name=[学生1, 学生2, 学生3, null, 学生5, 学生6], student_no=[0204001, 0204002, null, 0204004, 0204005, 0204006], value2=[null, 2, 3, 4, 5, 6], field=[项目1, 项目2, 项目3, 项目4, 项目5, 项目6], sex=[男, null, 女, 男, 女, 女]}
2024-01-14 13:57:53.237 [main] INFO  com.fly.lambda.GroupingByDataTest - sorted : {field=[项目1, 项目2, 项目3, 项目4, 项目5, 项目6], sex=[男, null, 女, 男, 女, 女], student_name=[学生1, 学生2, 学生3, null, 学生5, 学生6], student_no=[0204001, 0204002, null, 0204004, 0204005, 0204006], value2=[null, 2, 3, 4, 5, 6]}

可以说,花比较小的成本,以比较少的代码变动,相对稳妥的解决了问题。


有任何问题和建议,都可以向我提问讨论,大家一起进步,谢谢!

-over-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/623201.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

227. Basic Calculator II

227. Basic Calculator II class Solution:def calculate(self, s: str) -> int:ititer(re.split(r([\\-\*\/]),s))lastansint(next(it))for op in it:nint(next(it))if op in -:if op-:n-nansnelse:if op*:nlast*nelse:nint(last/n)ansans-lastnlastnreturn ans 注意这个…

分布式任务调度平台XXL-JOB使用(二)

说明&#xff1a;之前总结过在CentOS系统里使用XXL-JOB。但在代码开发阶段&#xff0c;我们有时需要在本地环境测试定时任务代码&#xff0c;本文介绍如何在Windows系统使用XXL-JOB。 下载 &#xff08;1&#xff09;下载代码&#xff0c;解压打开 首先&#xff0c;去Github…

多线程实现方式二

这里写目录标题 RunnableRunable接口实现多线程使用Runnable接口实现多线程的好处线程同步 - 三个窗口买票lock实现同步锁 Runnable Runable接口实现多线程 实现 Runnable 接口 定义一个类 MyRunnable 实现 Runnable 接口 在 MyRunnable 类中重写 run() 方法 创建 Thread 类…

Python系列(3)—— 变量

变量 一、变量命名规范二、变量赋值三、变量的数据类型四、变量的作用域五、变量类型转换 Python编程中&#xff0c;变量是存储数据的容器。它们用于存储各种数据类型&#xff0c;如整数、浮点数、字符串、列表、字典等。理解变量及其工作原理是Python编程的基础。 一、变量命…

在Android原生项目中 创建 Flutter模块

前言 应用场景&#xff1a;在已有的Android原生项目中&#xff0c;引入Flutter模块&#xff0c;摸索了两天&#xff0c;终于给整出来了&#xff1b; 如果是新项目&#xff0c;最好直接创建Flutter项目&#xff0c;然后在Fluter的 android / ios目录中&#xff0c;写原生代码&…

深思熟虑可能性模型介绍与使用

深思熟虑可能性模型介绍与使用 如何联系我 作者&#xff1a;鲁伟林 邮箱&#xff1a;thinking_fioa163.com或vlinyes163.com 版权声明&#xff1a;文章和记录为个人所有&#xff0c;如果转载或个人学习&#xff0c;需注明出处&#xff0c;不得用于商业盈利行为。 背景 20…

力扣27-移除元素

移除元素 题目链接 解题思路 ans为左指针 循环遍历为右指针 右指针开始遍历整个列表&#xff0c;如果指针所指的元素与val值不等&#xff0c;那么这个元素不能被删除&#xff0c;将其放入到左指针索引处。 因为return的是列表的长度&#xff0c;ans恰好也是删除完元素后列表的…

[牛客周赛复盘] 牛客周赛 Round 28 20240114

[牛客周赛复盘] 牛客周赛 Round 28 20240114 总结A\B1. 题目描述2. 思路分析3. 代码实现 小红的炸砖块1. 题目描述2. 思路分析3. 代码实现 小红统计区间&#xff08;easy&#xff09;1. 题目描述2. 思路分析3. 代码实现 小红的好数组1. 题目描述2. 思路分析3. 代码实现 小红统…

FX图中的节点代表什么操作

在 FX 图中&#xff0c;每个节点代表一个操作。这些操作可以是函数调用、方法调用、模块实例调用&#xff0c;也可以是 torch.nn.Module 实例的调用。每个节点都对应一个调用站点&#xff0c;如运算符、方法和模块。 一.节点操作 下面是一些节点可能代表的操作&#xff1a; 1…

js中的数据类型

JavaScript 中有以下几种常见的数据类型&#xff1a; 基本类型&#xff08;原始类型&#xff09;&#xff1a; 字符串&#xff08;String&#xff09;&#xff1a;表示文本数据。数字&#xff08;Number&#xff09;&#xff1a;表示数值数据。布尔&#xff08;Boolean&#xf…

PPT插件-大珩助手-保留原素材的位置和大小一键替换

保留原素材的位置和大小一键替换 若勾选了一键替换&#xff0c;对于从素材库插入的图形&#xff0c;可以使得它的位置、大小与幻灯片中选中的形状一致 软件介绍 PPT大珩助手是一款全新设计的Office PPT插件&#xff0c;它是一款功能强大且实用的PPT辅助工具&#xff0c;支持W…

在众多的材质中选择灰口铸铁铸造划线平台、铸铁平台等的原因——河北北重

使用灰口铸铁制作铸铁平台和划线平台的主要原因有以下几点&#xff1a; 强度高&#xff1a;灰口铸铁具有较高的强度和硬度&#xff0c;能够承受较大的载荷和冲击力。这使得灰口铸铁非常适合制作需要承受重压和磨损的平台和设备。 耐磨性好&#xff1a;灰口铸铁具有较高的耐磨性…

对于计算机考研的个人攻略

对于计算机考研的个人攻略 一&#xff1a;专业课复习 ​ 首先从时间上来说&#xff0c;对专业课的复习是在数学基础部分看完以后&#xff0c;这个时候是数学题目和专业课同步进行的。 这里我们按照 408 的划分来复习 408 分数占比为&#xff1a; 数据结构 45 分 计算机组成…

MySQL的多版本并发控制(MVCC)

MVCC MVCC&#xff0c;是Multiversion Concurrency Control的缩写&#xff0c;翻译过来是多版本并发控制&#xff0c;和数据库锁样&#xff0c;他也是一种并发控制的解决方案 我们知道&#xff0c;在数据库中&#xff0c;对数据的操作主要有2种&#xff0c;分别是读和写&…

MetaGPT学习笔记 - task1task2

章节&#xff1a;task1&task2 一.github地址&#xff1a;github.com/geekan/MetaGPT 二.MetaGPT: 多智能体框架​ 使 GPT 以软件公司的形式工作&#xff0c;协作处理更复杂的任务 MetaGPT输入一句话的老板需求&#xff0c;输出用户故事 / 竞品分析 / 需求 / 数据结构 / A…

1115: 数组最小值(数组)

题目描述 数组a有n个元素&#xff0c;请输出n个元素的最小值及其下标。若最小值有多个&#xff0c;请输出下标最小的一个。注意&#xff0c;有效下标从0开始。 输入 输入分两行&#xff0c;第一行是一个正整数n&#xff08;n<1000)&#xff0c;第二行是n个整数。 输出 …

出现 SyntaxError: future feature annotations is not defined 解决方法

目录 1. 问题所示2. 原理分析3. 解决方法1. 问题所示 执行sql语句的时候,出现如下问题,问题如下所示: E:\software\anaconda3\envs\py3.6\python.exe F:\python_project\test\sql_connect.py Traceback (most recent call last):File "F:\python_project\test\sql_c…

机器学习之Ridge回归与Lasso回归

Ridge回归与Lasso回归是什么 Ridge回归和Lasso回归是机器学习中常用的线性回归算法的变种。 Ridge回归是一种线性回归算法&#xff0c;通过在损失函数中添加一个正则化项&#xff0c;以控制模型的复杂度。正则化项是模型参数的平方和与一个参数alpha的乘积&#xff0c;alpha越…

行程长度编码

前言 NWAFU 2023阶段二 A 一、题目描述 题目描述 “行程长度编码&#xff08;Run-Length Encoding&#xff0c;RLE&#xff09;”是一种无损压缩编码方法&#xff0c;其核心思想是依次记录符号序列中的每个字符&#xff08;忽略大小写&#xff09;及其重复出现的次数。例如用…

Makefile编译原理 变量的使用

一.变量和不同的赋值方法 ->makefile中支持程序设计语言中变量的概念 ->makefile中的变量只代表文本数据&#xff08;字符串&#xff09; ->makefile中的变量名规则 - 变量名可以包含字符&#xff0c;数字&#xff0c;下划线。 - 不能包含 ":" "#&…