看我如何用Dataphin实现自动化建模

前言:更多关于数智化转型、数据中台内容可扫码加群一起探讨
668d7f5941782665ed1f41529db3eb677f4b9379.png
阿里云数据中台官网 https://dp.alibaba.com/index


作者:数据小海豚
 

随着大数据趋势的迅速增长,数据的重要性与日俱增,企业内看数据、用数据的诉求越来越强烈,其中最常见的就是各种经营报表数据:

老板早晨9点准时需要看到企业核心的经营数据,以便进行企业战略及方向决策
业务负责人不定期进行个性化的项目筹划,需要多维、及时效果数据以优化项目安排
运营需要和高层一致但粒度不同的经营分析数据,并进行活动策略调整
……

举个经营报表的例子:
image.png

这个例子并不复杂,但是对于分析师或者业务开发者,实际执行的复杂度和工作量并不小,而且类似的工作每日都在重复……业务发展越快,带来的问题就越来越多:

  加工时间长、人工成本高,招再多的分析师也难以满足需求
  代码可读性差,数据可维护性差,类似需求需要反复、重复开发
  代码开发不规范,加工过程中难以避免的计算存储浪费
  得到的数据指标,复用性差导致重复建设,数据越来越不标准规范

这种情况下,对业务的直接影响就是:决策周期长(数据需求满足慢),决策易出错(数据指标口径不一致)。

既要保证数据生产时效性——及时产出数据并满足需求,又要支持数据多样性——企业自下而上不同业务分析场景,最后还要保证数据准确性——任何时间、不同岗位的人都能用同样的数据解读经营情况,怎么才能做到呢?

企业的发展加速,离不开20世纪的文档管理转到21世纪的信息管理。同样的,如果繁复的指标代码编写工作,也可以如计算器一般,界面可视化点选,复杂的代码研发过程由计算器自行处理完成就好了。

Dataphin的自动化建模功能,就可以很好实现这个能力。

1、选择组合条件

如下图,确定需要统计计算的值,Dataphin里称为“原子指标”——最小的数据值统计单元,比如用户数这样的统计值等,然后组合如下内容:

  • A. 统计计算值需要应用的分析对象,Dataphin里称为“统计粒度”——维度或维度的组合,比如用户星级、用户状态等
  • B. 数据统计计算的时间周期,Dataphin里称为“统计周期”——统计数据需要跨越的时间长度,比如最近1天、最近30天、自然周、自然月的等
  • C. 数据统计的其他个性化限定条件,Dataphin里称为“业务限定”——数据记录的筛选过滤条件,比如生鲜业务类型、PC端、女性等
    image.png

2 预览指标

选择完毕组合条件后,可以预览组合出来的派生指标:
1)组合的指标,默认名取“原子指标+时间周期+业务限定”组合名,保证命名标准规范。
2)历史已生成的组合,不再生成,保证指标建设统一,无重复
image.png

3 一键自动化生成

确认需要提交的指标后,一键【提交】,分钟级指标生成:
1)自动汇聚至以“统计粒度为主题”的汇总逻辑表表下,保证管理标准规范;
2)代码和调度依赖关系,系统自动生成;
3)派生指标基于汇总逻辑表,可快速雪花模型查询使用指标、分析对象的属性信息。

image.png

①派生指标自动汇聚至汇总逻辑表
②派生指标所在汇总表节点,代码及调度关系自动生成
image.png

③汇总表及派生指标可查询消费
image.png

4 复杂需求实现

上面主要是基于简单统计指标实现,实际上,报表需求还有类似 比率型、乘积型等复合统计方式,比如“客单价=销售额/客户数”,这类也可以通过Dataphin的衍生原子指标实现:

1)衍生原子指标是基于原子指标的再组合;
image.png

2)基于衍生原子指标新建派生指标时,需要保证拆解到最细粒度的原子指标,有相同的分析维度、时间周期,允许维度的计算路径不同、设置的业务限定不同。

①新建衍生原子指标
②基于衍生原子指标新建派生指标
image.png

总结

上面步骤可以看到,派生指标的计算生成,离不开原子指标、业务限定、统计粒度的协助,这其中有什么奥秘呢?

其实很简单,用Dataphin高效创建派生指标,掌握这1张图就够了:

1)原子指标为核心,原子指标的来源表为中心
2)统计粒度取自来源表的关联维度,以及关联维度上的关联维度
3)业务限定基于来源表为中心的雪花模型做定义
4)统计周期可任意搭配使用
image.png

 

数据中台是企业数智化的新基建,阿里巴巴认为数据中台是集方法论、工具、组织于一体的,“快”、“准”、“全”、“统”、“通”的智能大数据体系。目前正通过阿里云数据中台解决方案对外输出,包括零售、金融、互联网、政务等领域,其中核心产品有:

  • Dataphin,一站式、智能化的数据构建及管理平台;
  • Quick BI,随时随地 智能决策;
  • Quick Audience,全方位洞察、全域营销、智能增长;
  • Quick A+, 跨多端全域应用体验分析及洞察的一站式数据化运营平台;

官方站点:
数据中台官网 https://dp.alibaba.com
数据中台钉钉群二维码2.jpg

原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/515727.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

EasyExcel 导出时 Converter转换器 注入 ExcelContentProperty 为null

异常现象: Converter转换器 注入 ExcelContentProperty 为null 直接原因: 调用**.head()**方法,重写表头样式,就导致ExcelContentProperty 注入失败。 源码原因: todo 解决办法: todo

SaaS模式云数据仓库:持续保护云上数据及服务安全

2020年6月9日,阿里云 MaxCompute 全新发布企业级新能力,在成本、性能、安全方面,持续定义企业级SaaS模式云数据仓库,通过 “云数据仓库” 的新模式,帮助企业实现数字经济新优势。 据介绍,最新发布的算力资…

springboot 集成flowable去除权限认证

参考SpringBoot集成Flowable-modeler模块并去除权限认证(二) /** * 单体启动类(采用此类启动项目为单体模式) */ Slf4j //排除flowable带的权限认证 SpringBootApplication(exclude {SecurityAutoConfiguration.class, org.springframework.boot.act…

看穿容器的外表,Linux容器实现原理演示

来源 | 多选参数责编 | 程序锅头图 | 下载于视觉中国容器技术的核心功能,就是通过约束和修改进程的动态表现,从而为其创造出一个“边界”也就是独立的“运行环境”。下面我们使用 C 语言和 Namespace 技术来手动创建一个容器,演示 Linux 容器…

小时候都想当科学家后来只有他做到了——对话阿里云MVP朱祺

云栖号资讯:【点击查看更多行业资讯】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 简介: 对朱祺我是好奇的。初次交流时,仅限于一个积极活跃、涉猎广泛的印象,拥抱新技术的传…

EasyExcel 导出

文章目录1.EasyExcel 导出1.1. Response流导出单sheet页1.1.1 response流处理(防止中文乱码):1.1.2 根据excel映射对象导出(适合结构化数据:列表台账)1.1.3. 根据单元格集合导出(适合非结构化数…

视频豪横时代,应用如何快速构建视频点播能力?

QuestMobile2020数据显示,疫情发生以来,每个网民每天花在移动互联网的时长比年初增加了21.5%,对于视频类应用增长尤为突出。而短视频用户规模已超8.5亿,用户使用时长在移动互联网用户使用总时长占比已达10.5%,仅次于社…

大数据的下一站是什么?服务/分析一体化

作者:蒋晓伟(量仔) 阿里巴巴研究员 因为侧重点的不同,传统的数据库可以分为交易型的 OLTP 系统和分析型的 OLAP 系统。随着互联网的发展,数据量出现了指数型的增长,单机的数据库已经不能满足业务的需求。特…

No outgoing sequence flow of the exclusive gateway ‘XXX‘ could be selected for continuing the proces

不满足流程图的排他网关设置了【条件表达式】的条件,注意设置条件表达式值时,内容不要出现空格。 No outgoing sequence flow of the exclusive gateway sid-9B4912C2-EEA4-4076-886E-D185AB4CBDBB could be selected for continuing the process检查流…

系统架构设计师 - 构件

构件的获取方式 开发新构件 修改现有构件 继承现有功能 购买商业构件修改 构件的开发策略 分区 软件按问题情境进行空间分割 保证构件空间独立性 分割 软件按执流程行为进行时间分割 保证构件时间独立性 抽象 软件进行功能的抽取和分割 构件的标准 OMG公司 CORBA标准 微软公…

阿里云发布OAMKubernetes标准实现与核心依赖库

作者 | 张磊 阿里云高级技术专家、CNCF 官方大使,CNCF 应用交付领域 co-chair,Kubernetes 项目资深维护者 美国西部时间 2020 年 5 月 27 日,阿里云和微软云共同宣布,Open Application Model (OAM) 社区携…

Serverless 在大规模数据处理中的实践

来源 | Serverless作者 | 西流头图 | 下载于视觉中国前言当您第一次接触 Serverless 的时候,有一个不那么明显的新使用方式:与传统的基于服务器的方法相比,Serverless 服务平台可以使您的应用快速水平扩展,并行处理的工作更加有效…

flowable 控制台打印 sql 语句

配置文件中增加如下: logging:level:org.flowable.engine.impl.persistence.entity.*: debugorg.flowable.task.service.impl.persistence.entity.*: debug

阿里宜搭重磅发布专有云版本、精品应用市场,助力政企数字化转型

6月9日,在2020阿里云线上峰会上,“宜搭”重磅发布专有云版本和精品应用市场,为政企数字化转型提供高效、安全、可靠的服务。宜搭是阿里巴巴集团企业智能事业部自研的低代码应用开发PaaS平台,通过可视化拖拽的方式,传统…

系统机构设计师 - 软件质量属性

架构设计风险 潜在的 隐藏的 架构决策导致的隐患 敏感点 一个或多个构件的质量属性,输入方差小时,输出方差很大 权衡点 影响多个质量属性,且这些质量属性都是敏感点的 质量属性。

信息如何实现病毒式传播?一文看懂Gossip协议

来源 | 架构之美责编 | 寇雪芹头图 | 下载于视觉中国起源Gossip protocol 也叫 Epidemic Protocol (流行病协议)。Gossip protocol在1987年8月由施乐-帕洛阿尔托研究中心发表ACM上的论文《Epidemic Algorithms for Replicated Database Maintenance》中被…

勇于尝鲜,感受世界——对话阿里云 MVP黄坤

云栖号资讯:【点击查看更多行业资讯】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 简介: 阿里云 MVP黄坤是个言简意赅的实干家,言谈中显示出的知识广度和技术深度令我钦佩折服&#xff…

Vue中时间日期格式化

封装格式化时间方法 创建一个js文件formatDate.js,内容如下: //方法一 export function formatDate(val) {var date new Date(Number(val)); //时间戳为10位需*1000,时间戳为13位的话不需乘1000var Y date.getFullYear() "-";v…

分布式应用,response导出error on submit request on future invoke、java.lang.OutOfMemoryError: Java heap space

背景 HSF 分布式框架 ,基于EasyExcel 实现excel导出 。 控制层, GET请求 , 传递 HttpServletRequest 和 HttpServletRespose 到,业务中台时,异常 原因 分布式应用下,控制层传递response到中台时&#xf…

阿里云混合云管理平台发布帮您管好云

6月9日, 在2020阿里云线上峰会上阿里云混合云战略正式发布:全栈建云、智能管云、极致用云。同步发布专有云敏捷版(Apsara Stack Agility)、 混合云管理平台(Apsara Uni-manager)以及下一代企业级一站式DevO…