left join NULL踩坑

1、背景

因为最近响应监管,做数据全面匿名化的需求。会在写入数据库时,把姓名身份证做MD5处理后,只保留32位的前30位,保证即使拿到处理后的数据,也无法复原,恢复到源数据。

相应的,大数据BDP HIVE这边的数据处理也要做相应的改造,之前处理时会判断身份证位数,如果非15位和18位,则认为数据不正确,置为NULL。姓名身份证匿名化后要去除这个判断逻辑。

直接去除后上线,产品反馈出的报表数据有问题,数据汇总的表,总数=无源+有源,其中有源数据不对。

形如这种:
在这里插入图片描述

2、问题分析

去查了下对应代码:

select
,'当日' as time_type
,sum(case when last_created_date='20240104' then day_pv else 0 end) valid_pv
,sum(case when src_last_created_date='20240104' then src_day_pv else 0 end) src_valid_pv
from(
select
id_no
,day_pv
,year_pv
,total_pv
,last_created_date
,t4.src_id_no
,t4.src_day_pv
,t4.src_year_pv
,t4.src_total_pv
,t4.src_last_created_date
from (
select 
id_no
,sum(day_pv) as day_pv
,sum(year_pv) as year_pv
,sum(total_pv) as total_pv
,max(last_created_date) as last_created_date
from report_idap_face_compare_idno_mid
where ds='20240104'
and last_created_date='20240104' 
group by 
id_no
)t1left join 
(
select 
id_no as src_id_no
,sum(day_pv) as src_day_pv
,sum(year_pv) as src_year_pv
,sum(total_pv) as src_total_pv
,max(last_created_date) as src_last_created_date
from report_idap_compare_record_idno_mid
where ds='20240104'
and last_created_date='20240104' 
group by 
id_no
)t4
on t1.id_no=t4.src_id_no
)s

其中,t1对应的是总有效次数,t4对应的有源有效次数。分别查了t1总有效次数是对的,t4的有源有效次数也是对的,但left join一关联起来有源有效次数就对不上了。

怀疑本来能关联的数据,由于匿名化修改后导致关联不上了。回去查看修改的代码段:
原代码:

select
case when length(id_no) in (15,18) then id_no else 'NULL' end as id_no

修改后:

select
id_no

仔细看代码发现非15,18位的身份证好像不是置为NULL,而是置为字符串的‘NULL’,于是顺手搜了下,t1表里果然有有许多身份证是NULL的。又试了身份证NULL的情况下,进行t1 left join t4,果然没关联上。

3、问题解决

破案了,之前应该是为了NULL这些身份证都能关联上,把不正常的身份证也都置为字符串的‘NULL’,这次修改的时候没注意到这点,直接改成了保持NULL,这就导致了left join后,对应列的缺失。

把这次修改身份证的地方改为:

select
case when id_no is not null then id_no else 'NULL' end as id_no

问题解决。

4、总结

这种原本的写法感觉不是很好,会导致误解,之后接手的人不了解这里,很容易就改出问题了。
其实把字符串‘NULL’,换成别的更容易理解的字符串,也是完全不影响结果的,而且更好理解。之后写代码可以注意这里。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/626831.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java-方法-动动小手指给个一键三连吧❤️✨

文章目录 1.概念2.静态方法和非静态方法2.1静态方法2.2非静态方法 3 参数传递方式4.方法的重载5.命令行传参6.可变参数7.递归作业 1.概念 在面向对象编程中,方法(Method)是类或对象中用于执行特定任务的一段代码。方法可以访问和操作对象的属…

layabox_2d游戏A*寻路实践

使用工具 Red Blob Games 效果 项目地址 LayaAStar2D: Laya2.0引擎2D游戏使用AStar实践。

深入理解 Flink(八)Flink Task 部署初始化和启动详解

JobMaster 部署 Task 核心入口: JobMaster.onStart();部署 Task 链条:JobMaster --> DefaultScheduler --> SchedulingStrategy --> ExecutionVertex --> Execution --> RPC请求 --> TaskExecutor TaskExecutor 处理 JobMaster 的 …

Few-shot Learning:知识点

目标: 让机器自己学会学习,学会理解和判断事物的异同(如,区分两张图片内是相同的东西还是不同的东西,不是识别出是什么东西) Pretraining 前景知识 C o s i n e S i m i l a r i t y Cosine \ Similarity…

❤ Uniapp使用二 ( 日常使用篇)

❤ Uniapp使用二 ( 日常使用篇) 一、表单 1、基础表单验证 form <form submit"formSubmit" reset"formReset"> <view class"uni-form-item uni-column"><view class"title">请选择类型{{selectvalue}}</view&…

Go语言中的HTTP请求发送

在Go语言中&#xff0c;发送HTTP请求是一种常见的网络操作。Go语言的net/http包提供了强大的API&#xff0c;使开发者能够轻松地构建HTTP请求并处理响应。 下面我们将详细介绍如何使用Go语言发送HTTP请求&#xff0c;包括设置请求参数、处理响应状态码和头部信息、发送JSON数据…

2024年,如何更好地守护智能网联汽车出海网络安全与隐私安全?

近年来全球各国陆续出台了很多网络安全与数据合规相关的法律法规&#xff0c;如欧盟的《通用数据保护准则GDPR》、美国的《加州消费者信息保护法CCPA》、新加坡的《隐私数据保护法PDPA》等。在国内全国人大发布了《网络安全法》、《数据安全法》、《个人信息保护法》法律&#…

poi解析word取参数方法${参数名}获取参数异常处理(2024-01-12)

poi 读取word模板&#xff0c;确保 ${参数名} 在一个XWPFRun XWPFDocument读取word模板&#xff0c;经常遇到 ${参数名} 没有被识别在一个XWPFRun中&#xff0c;导致参数解析异常如法实现参数替换。 这里只是介绍word模板参数解析问题&#xff0c;让word格式如何转换为可以正常…

【MATLAB随笔】遗传算法优化的BP神经网络(随笔,不是很详细)

文章目录 一、算法思想1.1 BP神经网络1.2 遗传算法1.3 遗传算法优化的BP神经网络 二、代码解读2.1 数据预处理2.2 GABP2.3 部分函数说明 一、算法思想 1.1 BP神经网络 BP神经网络&#xff08;Backpropagation Neural Network&#xff0c;反向传播神经网络&#xff09;是一种监…

解析HTTP响应的JSON数据

解析HTTP响应的JSON数据是许多Web开发任务中的常见需求。在Go语言中&#xff0c;可以使用标准库中的encoding/json包来轻松解析JSON数据。下面我将详细介绍如何解析HTTP响应的JSON数据。 首先&#xff0c;确保你已经发送了一个HTTP请求并获取到了响应。然后&#xff0c;你可以…

智能管理护航制造企业安全生产:信息化升级解决方案解析-亿发

安全生产信息化是通过充分利用信息技术&#xff0c;及时采集安全生产管理中的各种要素和数据&#xff0c;并进行统计分析&#xff0c;随后将分析结果及时反馈&#xff0c;以实现对安全生产管理的指导和帮助&#xff0c;旨在提高安全生产管理的效能。 在提升安全生产管理水平方…

达摩研究院Paraformer语音识别-中文-通用-16k

原文&#xff1a;https://github.com/alibaba-damo-academy/FunASR/blob/main/runtime/readme_cn.md FunASR软件包路线图 English Version&#xff08;docs&#xff09; FunASR是由阿里巴巴通义实验室语音团队开源的一款语音识别基础框架&#xff0c;集成了语音端点检测、语…

AI编程可视化Java项目拆解第二弹,AI辅助生成方法流程图

之前分享过一篇使用 AI 可视化 Java 项目的文章&#xff0c;同步在 AI 破局星球、知乎、掘金等地方都分享了。 原文在这里AI 编程&#xff1a;可视化 Java 项目 有很多人感兴趣&#xff0c;我打算写一个系列文章拆解这个项目&#xff0c;大家多多点赞支持~ 今天分享的是第二…

鸿蒙开发-UI-布局-层叠布局

鸿蒙开发-UI-布局 鸿蒙开发-UI-布局-线性布局 文章目录 前言 一、基本概念 二、对齐方式 三、Z序控制 四、使用场景 总结 前言 上文详细学习了线性布局&#xff0c;学习了线性容器内子元素在主轴以及交叉轴上的排列方式&#xff0c;子元素自适应相关的知识点&#xff0c;本文继…

旧路由重置新路由设置新路由设置教程|适用于自动获取IP模式

前言 如果你的光猫是直接拨号&#xff08;路由模式&#xff09;的&#xff0c;就可以按照本教程进行路由重置或者更换新路由器。 本文章适合电脑小白&#xff0c;请注意每一步哦&#xff01; 注意事项 开始之前需要确认光猫是桥接模式还是路由模式。如果光猫是路由模式&…

揭秘高生产力设计工具!15款原型设计软件推荐大公开!

1、Proto.io Proto.io是一个特殊的手机原型开发平台——可以构建和部署全交互式移动程序的原型&#xff0c;并可以模拟类似的成品。它可以在大多数浏览器中运行&#xff0c;并提供三个重要的界面&#xff1a;dashboard、编辑器和播放器。 dashboard可以用来管理项目。编辑器是…

第二证券:利空因素影响成本端 豆粕期现价偏弱运行

上个买卖周&#xff0c;受利空要素影响&#xff0c;内盘豆粕期价刷新2021年12月14日以来收盘价新低。到上周五收盘&#xff0c;豆粕主力合约MO2405最低下探至3075元/吨&#xff0c;收报3078元/吨&#xff0c;周内累计跌幅近4%。业内人士以为&#xff0c;美国农业部超预期调高20…

恐龙岛如何正确的选择服务器

恐龙岛服务器的价格因配置和运营模式等因素而异。一般来说&#xff0c;BGP线路成本更高但更稳定&#xff0c;适用于全球分布广泛的玩家&#xff0c;适合高品质画面游戏。在选择合适的配置时&#xff0c;需要考虑运营模式、游戏玩家地区分布和游戏特性等因素。具体价格需要参考具…

外汇天眼:做交易要不要预测行情? 趋势交易最重要的三个核心概念!

对一个&#xff08;量化&#xff09;技术分析派来说&#xff0c;趋势是非常重要的&#xff0c;大家一般的想法都是通过趋势跟踪来挣钱的&#xff0c;无趋势时会有小的损耗&#xff0c;趋势来时用仓位来弥补损失并盈利&#xff0c;用盈亏比而不用胜率。 就趋势交易最重要的三个…

3D scanner with DLPC3478

https://www.bilibili.com/video/BV1vJ411J7ih?p3&vd_source109fb20ee1f39e5212cd7a443a0286c5 因数&#xff1a; 分别率波长pattern速度 DMD 与 DLPC匹配 3D scanner是结构光的概念走的 Internal pattern, 是DLPC内部提供图像给DMD External Pattern, 外部FPGA /MCU…