定位排查工作流的计算结果数据量不符合预期的方法

近期有发现一些用户在咨询,为什么数据从数据源出来后,经过了一些计算,结果不符合预期了。最常见的是说,为什么我的数据在Mysql里有xx条,怎么到MaxCompute里算了下结果变了。因为这是两个不同的系统,我们又没办法拿两边的记录直接做个full outer join看看少的是哪些数据。本文拿2个实际的例子,做了简化方便理解,给出排查过程,希望能给大家带来一些思路。

问题1

场景模拟

这是一个常见的场景,为什么我数据同步过来后,就直接用SQL做了count,结果就不对了。
先在mysql里创建一张用户表,并插入一些数据:

create table myuser(uid int,name varchar(30),regTime DATETIME );
insert into myuser(uid,name,regTime) values (1,'Lilei','2017-01-22 01:02:03');
insert into myuser(uid,name,regTime) values (2,'HanMM','2017-01-22 22:22:22');

然后在MaxCompute里配置了个接受的表:

create table ods_user(uid bigint,name string,regTime datetime) partitioned by(ds string);

然后配置了一个同步任务和SQL任务用于统计结果数据条数如图:
screenshot

CREATE TABLE IF NOT EXISTS dws_usercnt (cnt BIGINT
)
PARTITIONED BY (ds STRING);INSERT OVERWRITE TABLE dws_usercnt PARTITION (ds='${bdp.system.bizdate}')
SELECT COUNT(*) AS cnt
FROM ods_user;

最后做成工作流
screenshot
任务上线后,跑了第一天,结果还是对的。

odps@ >read dws_usercnt;
+------------+------------+
| cnt        | ds         |
+------------+------------+
| 2          | 20170122   |
+------------+------------+

但是第二天插入几条新的数据后,为什么统计结果就不对了呢:

odps@ >read dws_usercnt;
+------------+------------+
| cnt        | ds         |
+------------+------------+
| 2          | 20170122   |
| 6          | 20170123   |
+------------+------------+

预期的是第二天的数据是4。

排查解决

我们需要先理清楚数据的走向。这个例子的思路很简单,数据从Mysql同步到MaxCompute的表里,然后针对结果表做了汇总。走向图为myuser(MySql)=>ods_user(MaxCompute)=>dws_usercnt(MaxCompute)。
目前我们通过在Mysql里查询,已经确认Mysql里就是4条记录,dws_usercnt里的结果也看到是6,那需要先定位到是ods_user里的结果是多少条,从而定位到是同步的时候出现的问题,还是同步后汇总出现的问题。
我们先看了一下ods_user,先用select count(*) from ods_user;看到为6。因为是分区表,对么个分区查一下,用select count(*) as cnt,ds from ods_user group by ds;,发现结果是

+------------+----+
| cnt        | ds |
+------------+----+
| 2          | 20170122 |
| 4          | 20170123 |
+------------+----+

然后配合同步任务的日志
screenshot
我们可以看到,我们一共同步了4条数据(如果是这里对不上的话,我们需要检查一下同步任务的where表达式对不对了)。然后最后汇总的时候,我们看下日志:
screenshot
我们可以看到我们在SQL里是访问了2个分区的数据做了汇总。

所以这个问题的原因是在同步的时候,是做了每天的全量同步,但是在SQL汇总的时候,当成是增量同步了,或者是忘记写分区的过滤条件了,导致汇总是查询了全部的数据。针对这个问题的解法是先要确定这个表到底是需要增量同步,还是需要全量同步。如果是需要增量同步,那需要修改同步的时候,在配置项里配置过滤条件只同步增量数据。如果是需要每天同步全量数据,那在汇总的时候,就只需要读最后一个分区就可以了。
另外关于增量同步的配置方法,可以参考这篇文档。

问题2

场景模拟

有一些用户希望针对数据的某个属性进行分区,比如希望根据学生的年级进行分区。
我们先在Mysql里创建一张学生表,插入一些数据

create table student(id int,name varchar(30),grade  varchar(1));
insert into student(id,name,grade) values(1,'Lilei',1);
insert into student(id,name,grade) values(2,'HanMM',2);
insert into student(id,name,grade) values(3,'Jim',3);

同样的,在MaxCompute这边也需要配置一个ODS表和一个DWD表

create table ods_student(id bigint,name string,grade string) partitioned by(ds string) ;
create table dwd_student(id bigint,name string)partitioned by(grade string) ;

然后配置一个同步任务:
screenshot
和对应的SQL任务

insert overwrite  table dwd_student partition(grade )
select id,name,grade
from ods_student
where ds = '${bdp.system.bizdate}';

同步后看到第一天的结果是对的。
后来这些学生都到了新年级了,3年级的学生毕业了

update student set grade = grade+1;
delete from student where grade>3;--已经毕业的

再同步一下,不对了,数据怎么还是3条。

排查解决

我们这里测试的数据比较少,可以直接select出来一看就明白了。但是真实的业务里,我们的数据可能有数以亿计,根本没办法肉眼看出来。所以还是以前的思路,我们先理清楚数据的走向。数据是从student(Mysql)=>ods_student(MaxCompute)=>dwd_student(MaxCompute)。
第二天,Mysql里的student表里数据其实是只有2条了。而ods_student表里的最新的分区也是2条。但是dwd_student里是3条。这说明ods=>dwd的过程中,数据出了问题。这个就是一个SQL问题了。我们用SQL

--里面的ds的值记得换掉
select 
ods.grade,dwd.grade,ods.cnt,dwd.cnt 
from 
(select count(*) as cnt,grade from ods_student where ds= '${bdp.system.bizdate}'  group by grade) ods
full outer join (select count(*) as cnt,grade from dwd_student group by grade) dwd
on ods.grade = dwd.grade
where coalesce(ods.cnt,0) <> coalesce(dwd.cnt,0) ;+-------+--------+------------+------------+
| grade | grade  | cnt        | cnt        |
+-------+--------+------------+------------+
| NULL  | 1      | NULL       | 1          |
+-------+--------+------------+------------+

看到1年级,数据里ods表里没有1年级的数据了,但是dwd里还是有1条1年级的数据。这下就很清楚了,这条数据是第一天的数据。后来升了年级后,用Insert Overwrite覆盖写入的时候,2年级和3年级是有新数据进来的,所以数据被覆盖了。但是1年级因为没有数据进来,所以也没覆盖。我们也可以用desc partition命令看下每个分区的创建时间和修改时间来确认这个问题。

对于这种情况,其实这种分区方法有一些问题的。建议dwd表里不要做这样的分区。如果确实需要分区,也不要直接在历史分区上做覆盖写入,可以写到新的分区里,比如做2级分区,1级分区是日期字段,二级分区才是这样的业务分区字段。

本文使用的产品涉及大数据计算服务(MaxCompute),地址为https://www.aliyun.com/product/odps
配合大数据开发套件 https://data.aliyun.com/product/ide 完成的。
如果有问题,可以加入我们的钉钉群来咨询
screenshot

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/396851.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

canvas 插件_基于canvas的JavaScript 二维码生成工具——QRCanvas

介绍在我们日常的开发中&#xff0c;特别是在现代的社会环境下&#xff0c;二维码的应用可谓是丰富多彩&#xff0c;各种各样让人眼花缭乱的二维码&#xff0c;可见二维码已经渗透进我们生活的方方面面&#xff0c;也可以说目二维码确确实实方便了我们的生活。因为作为开发人员…

消息队列NetMQ 原理分析2-IO线程和完成端口

目录 前言介绍目的IO线程初始化IO线程Proactor启动Procator线程轮询处理socketIOObject总结前言 介绍 [NetMQ](https://github.com/zeromq/netmq.git)是ZeroMQ的C#移植版本,它是对标准socket接口的扩展。它提供了一种异步消息队列,多消息模式,消息过滤&#xff08;订阅&#xf…

VC连接mysql数据库错误:libmysql.lib : fatal error LNK1113: invalid machine 解决方法

VC连接MySQL的配置过程在上一篇博文中&#xff0c;不过当你设置好&#xff0c;以为万事大吉的时候&#xff0c;运行却出现这个错误&#xff1a;libmysql.lib : fatal error LNK1113: invalid machine type。 无效的机器类型&#xff0c;真的是很让人捉急。 发生这个错误的原因是…

linux 内存泄漏 定位,一种内存泄露检查和定位的方法

一个系统后台服务进程&#xff0c;可能包括多个线程&#xff0c;在生成环境下要求系统程序能够稳定长时间稳定运行而不宕机。其中一个基本的前提就是需要保证系统程序不存在内存泄露。那么&#xff0c;该如何判读系统程序是否存在内存泄露呢&#xff1f;如果存在&#xff0c;又…

ifconfig命令找不到_02. Linux命令之查看网络连接

1. 查看网络连接数和端口使用 netstat 命令查看网络连接情况netstat -anp参数&#xff1a;-a 显示所有选项-t (tcp)仅显示tcp相关选项-u (udp)仅显示udp相关选项-n 拒绝显示别名&#xff0c;能显示数字的全部转化成数字。-p 显示建立相关链接的程序名关键列解释:Proto 表示协议…

python学习之模块(pip),列表生成式,模块操作mysql,excel

python基础 生成式 列表生成式  格式 [表达式 for 表达式 in 迭代对象 (可加判断)] 原&#xff1a; 1 res1 [] 2 for i in range(1,5): 3   res1.append(i) 4 print(res1) 改&#xff1a; 1 res2 [i for i in range(1,5)] 2 print(res2) 字典生成式  格式 {key:value f…

linux驱动read函数 copytouser,Linux驱动编程 step-by-step (五)主要的文件操作方法实现...

主要的文件操作方法实现文件操作函数有很多的操作接口&#xff0c;驱动编程需要实现这些接口&#xff0c;在用户编程时候系统调用时候会调用到这些操作structfile_operations {...loff_t (*llseek) (structfile *, loff_t,int);ssize_t (*read) (structfile *,char__user *,siz…

基于光线追踪的渲染中景深(Depth of field)效果的实现

图形学离线渲染中常用的透视摄像机模型时根据小孔成像的原理建立的&#xff0c;其实现通常是从向成像平面上发射ray&#xff0c;并把trace这条ray的结果作为成像平面上对应交点的采样结果。即&#xff1a; 图片来自《Fundamentals of Computer Graphics》 现实中的镜头拍摄的图…

带你制作百词斩单词表读写插件

上篇博文简单的介绍了一下Chrome插件&#xff0c;今天就与大家分享一下我做的这款有实际意义的插件吧。 做这款插件主要是用百词斩站点进行单词学习时&#xff0c;遇到的一点点闹心事儿。在单词表中不能听发音。也不能练习拼写。所以才忍无可忍的做了这么一款插件。自我感觉还是…

iphone各机型参数对比_带你了解新款iPhone 12系列四款机型

2020年10月14日凌晨1&#xff1a;00&#xff0c;苹果召开新品发布会&#xff0c;发布了新款iPhone 12系列手机&#xff0c;“果粉”们期待已久的iPhone 12终于来了。iPhone 12系列手机共有四款机型&#xff0c;分别是iPhone 12 mini、iPhone 12、iPhone 12 Pro、iPhone 12 Pro …

高并发第一弹:准备阶段 了解高并发

高并发第一弹:准备阶段 了解高并发 首先需要知道什么并发, 什么是高并发. 并发: 关于并发的学习&#xff0c;可以从JDK提供的并发包为核心开始&#xff0c;许多其他的类和封装都是对其进行扩展或者补充&#xff0c;我们来看一下Java并发包(java.util.concurrent包&#xff0c;简…

matlab立体坐标定位_【半导光电】基于光电探测器的激光章动定位算法(二)

今日光电有人说&#xff0c;20世纪是电的世纪&#xff0c;21世纪是光的世纪&#xff1b;知光解电&#xff0c;再小的个体都可以被赋能。欢迎来到今日光电&#xff01;----与智者为伍 为创新赋能----1. 章动定位算法实验前&#xff0c;首先需要对光路进行调节&#xff0c;保证经…

Android:支持多选的本地相册

前段时间在做一个动态发布功能&#xff0c;需要用到图片上传。一开始直接调用的系统相册和相机&#xff0c;由于系统相机不支持多选&#xff0c;就花点时间做了个本地相册&#xff0c;在此开源下。 先上截图&#xff0c;依次为选择相册界面、相册详情界面、查看图片大图界面 相…

心灵与大脑

2019独角兽企业重金招聘Python工程师标准>>> http://blog.sina.com.cn/s/blog_6f034fc30102f2tg.html 转载于:https://my.oschina.net/chirnson/blog/832011

python入门心得_记初学python的一些心得

人生苦短&#xff0c;我用python&#xff01; 其实我自学python也很长一段时间了&#xff0c;但总是去更换学习资料&#xff0c;搞的现在学的不是很好&#xff0c;因为没更换次资料都要从头开始学起&#xff0c;那么分享下我的学习战况吧&#xff0c;不是很好&#xff0c;还将就…

16.U-boot的工作流程分析-2440

16.U-boot的工作流程分析-2440 分析的流程&#xff1a; 程序入口 第一阶段程序分析 第二阶段程序分析 2440开发板&#xff1a; 1.uboot的入口&#xff1a; 要看uboot工程的入口&#xff0c;首先打开顶层目录的Makefile&#xff1a; Uboot所支持的开发板&#xff0c;在顶层的Ma…

如何使用Redis做MySQL的缓存

应用Redis实现数据的读写&#xff0c;同时利用队列处理器定时将数据写入mysql。 同时要注意避免冲突&#xff0c;在redis启动时去mysql读取所有表键值存入redis中&#xff0c;往redis写数据时&#xff0c;对redis主键自增并进行读取&#xff0c;若mysql更新失败&#xff0c;则需…

psychopy 与脑电打码 eeg

2019独角兽企业重金招聘Python工程师标准>>> 实验程序就不放了&#xff0c;这里主要放如何向串口发送打码的代码 实际上&#xff0c;给脑电打码的本质就是向串口发送一个字符&#xff0c;脑电的程序会自动在收到该字符的同时在脑电数据上进行标记。以下代码打开了一…

mysql -- 索引的使用

普通索引&#xff1a;用于提升查询速度唯一索引&#xff1a;用于提升查询速度&#xff0c;还要求字段值不得重复主键索引&#xff1a;唯一性且不为空的索引全文索引&#xff1a;用于大量文本搜索中建立的索引虽然索引有好处&#xff0c;但是凡是都有俩面性&#xff0c;提高效率…

surface pro 7 linux,微软 Surface Pro、Studio、Laptop 全线更新

今晨&#xff0c;微软在纽约的秋季新品发布会上&#xff0c;发布了 Surface Pro 6、Laptop 2 以及最顶级的 Studio 2 三款备受期待的 Surface 产品。至此&#xff0c;包括年初的 Surface Book 2 在内&#xff0c;完成了2018 年 Surface 产品线所有升级计划。当然这场规模不算大…