【产品动态】一文详细解读智能数据构建产品Dataphin的“规划”功能

简介: 数据中台是传统的数据仓库的一种升级, 是数据采集、建设、管理与使用的一整套体系,Dataphin是一个构建数据中台的强大工具, 核心优势是在数据的建设与管理上引入了阿里巴巴多年来数据中台建设沉淀出的OneModel方法论。

前言

数据中台是当下大数据领域最前沿的数据建设体系, 它并不是从零开始, 无中生有的。数据中台是传统的数据仓库的一种升级, 是数据采集、建设、管理与使用的一整套体系。Dataphin是一个构建数据中台的强大工具, 核心优势是在数据的建设与管理上引入了阿里巴巴多年来数据中台建设沉淀出的OneModel方法论(OneData体系的组成部分之一)。本篇主讲Dataphin核心功能规划的设计理念。

OneModel

OneModel将数据中台的建设分成四层:

  1. 主题域建模:在数据中台, 主题对应一个宏观的分析领域, 比如销售分析就是分析"销售"这个主题. 联系较为紧密的主题的集合就是主题域. 每一个行业都可以拆分为有多个(十个左右不等)主题域组成的主题域模型。
  2. 概念建模:在主题域的基础上, 每个主题域内增加了实体以及实体之间的关系。
  3. 逻辑建模:在概念模型的基础上, 增加每个实体的属性以及属性的约束。
  4. 业务分析建模:行业中重要的以及常用的分析方法与分析视角. 在逻辑模型基础上, 将业务分析问题转换为Dataphin特有的派生指标, 并进一步提炼出原子指标和业务限定。

规划

OneModel四层中的主题域建模和概念建模由Dataphin的规划功能来承载实现。OneModel的四层不针对企业级数据中台, 而是围绕单个独立业务来展开的, 多个独立业务通过公共的维度来实现企业级数据中台。因此, Dataphin的规划功能还包括独立业务的划分, 即业务板块的划分。规划并不会影响数据的准确性与产出时效, 而是一个重要的面向数据(资产)管理的功能, 会影响数据的查找, 理解与权限管控等多方面。

业务板块

企业的规模有大有小, 业务复杂度和跨度也不同, 数据反映业务, 所以每个企业的数据中台也是不同的。数据中台建设的第一步是做规划, 规划的第一步是全盘梳理企业的业务架构, 将业务划分为一个个独立业务, 在Dataphin里面就是业务板块的划分。

业务板块的划分总原则是, 高内聚, 低耦合, 具体的流程如下:

  1. 考察企业的所有的业务流程, 如果两个业务流程之间存在上下游的关系, 或者有共同的业务对象, 那么他们就应该被放到同一个业务板块。比如, 采购流程(采购单)结束后, 一般会有物流(企业的进货物流)这个流程. 物流是依赖采购的, 同时货品是两个流程共同的业务对象, 因此, 采购和物流就应当属于同一个业务板块. 将范围扩大, 列举出每个业务流程的上下游和业务对象, 直接或者间接的连接在一起的业务流程应当属于同一个业务板块.  举例: 零售业务中, 采购->采购物流->仓储->销售发货, 营销->销售->履约->售后等, 有的有上下游的关系, 有的可以通过货品连接到一起, 他们就属于”零售”这一业务板块。
  2. 反之, 如果两个业务流程之间不存在任何直接或者间接的上下游关系, 也没有直接或者间接共同的业务对象, 他们就不应当被放在同一个业务板块。举例: 同一个企业下, 可能有零售和地产. 地产业务中, 拿地->设计->开发->销售等流程与零售的业务流程之间不存在上下游的关系, 也没法通过某个业务对象连接到一起, 应当分别创建“零售”“地产”两个业务板块。
  3. 值得注意的是, 某些业务对象是企业级共用的, 比如, 公司的员工, 行政地理区划(没错, 这个也属于业务对象) 等, 这些会将整个公司的所有的业务流程连接到一个巨大的单一网络中。因此, 先要识别出这些企业级的业务对象, 对于只通过这些业务对象连接在一起(而没有上下游关系)的业务流程, 需要剪断这种连接, 将他们归属到不同的业务板块。

主题域建模

主题域建模, 即在业务板块下进一步将业务划分为多个主题域。主题域的划分没有客观原则, 主要根据数据模型师的行业经验与业务理解来划分。具体以零售行业为例来说明。

零售行业的主题域划分如下图, 核心主题域为"人"、"货"、"场":

  1. 公共主题域:在所有业务流程中都会被引用的数据, 如, 地理位置数据, 企业的人员组织数据
  2. 消费者(人)主题域:该主题域主要是零售企业内用户(消费者)运营相关的业务活动数据
  3. 商品(货)主题域:商品的管理(类目管理, 品牌管理等), 商品结构管理(组货)等相关的业务活动数据
  4. 商家(场)主题域:包含线下门店, 线上电商(自营或者第三方)等售卖渠道相关的数据
  5. 流量主题域:消费者访问店铺等相关的数据
  6. 交易主题域:包含销售订单, 支付, 退款退货等零售商与消费者之间契约形式的信息流与资金流数据
  7. 履约主题域:可选. 零售商按照契约(订单)将商品配送给消费者, 是零售商到消费者的物流数据
  8. 服务主题域:主要是售后等数据
  9. 交互主题域:可选. 零售商与消费者之间非契约形式信息流数据. 如零售商在社交媒体上与消费者的互动, 消费者在电商平台内的评论, 分享与收藏等
  10. 营销主题域:广告, 活动, 优惠券等数据
  11. 内容主题域:可选. 零售商以引流为目的所建设的内容, 比如, 商业软文, 直播带货, 宣传刊物等
  12. 供应链主题域:零售商与供应商之间的三流, 以及零售商内部的物流与信息流数据

概念建模

在主题域模型基础上, 将每个主题域内的实体以及实体之间的关系构建出来的模型就是概念模型。

概念模型中有如下名词:

  1. 实体:业务中的业务对象或者业务活动在数据世界的投射, 实体一般与数据表一一对应。某几个实体可能具有相同的特征(表现为有很多相同的属性), 这几个实体可以抽象泛化为泛化实体, 泛化实体没有对应的数据表。
  2. 业务对象:一种实体, 是参与业务的人和物品, 也可以是纯粹的概念。比如: 消费者(人), 商品(物品), 类目(概念)等. 在Dataphin的某些版本中, 业务对象又被称为"维度"。
  3. 业务活动:一种实体, 业务对象的变化行为或业务对象之间交互行为。比如: 访问行为, 销售行为等. 在Dataphin的某些版本中, 业务活动又被称为"业务过程"。
  4. 实体关系:实体之间的关系, 主要有两种
    a. 一是引用关系, 某一个实体是另一个实体的属性, 比如, 用户实体中用户有地址这个属性, 而地址本身也是一个实体, 那么用户实体就引用了地址实体; 再比如, 订单实体中, 买家, 卖家, 商品都是订单的参与实体, 订单实体引用了买家实体, 卖家实体, 商品实体。从技术角度来说, 引用就是SQL中的"关联"。引用关系又有三种类型, 一对一、一对多和多对多, 表示有引用关系的两个实体的实例(记录)之间的数量关系。
    b. 二是继承关系, 某一个实体A从属于另一个实体B, 在概念上A比B更细化具体。比如, 在零售业务中, 可以定义一个实体为"用户", "买家"与"会员"都是用户, 但是更加具体(买家是有过交易的用户, 会员是参与了会员项目的用户), "买家"实体, "会员"实体继承了"用户"实体。

以上就是Dataphin的核心功能规划背后的设计理念, 希望能帮助您更好的使用Dataphin规划功能。

原文链接

本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/513068.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

库克“一语成谶”:又有 30 万台安卓设备被“感染”了!| 文末福利

整理 | 郑丽媛出品 | CSDN(ID:CSDNnews)各家应用商店中的恶意软件总是层出不穷,哪怕是一向以“安全”著称的苹果,也不能完全杜绝 App Store 中恶意软件的乱入。但在这之中,作为“围墙花园”的苹果自认还是高…

深入解读 Flink SQL 1.13

简介: Apache Flink 社区 5 月 22 日北京站 Meetup 分享内容整理,深入解读 Flink SQL 1.13 中 5 个 FLIP 的实用更新和重要改进。 本文由社区志愿者陈政羽整理,Apache Flink 社区在 5 月份发布了 1.13 版本,带来了很多新的变化。文…

centos8共享文件夹挂载_CentOS 8 安装并配置NFS服务

NFS网络文件系统(Network File System)是一种分布式文件系统协议,通过网络共享远程目录。使用NFS,可以在系统上挂载远程目录,并像对待本地文件一样使用远程计算机上的文件。默认情况下,NFS协议未加密,并且与Samba不同&…

Flink 1.13,面向流批一体的运行时与 DataStream API 优化

简介: 在 1.13 中,针对流批一体的目标,Flink 优化了大规模作业调度以及批执行模式下网络 Shuffle 的性能,以及在 DataStream API 方面完善有限流作业的退出语义。 本文由社区志愿者苗文婷整理,内容来源自阿里巴巴技术专…

启动metabase_引入开源BI软件Metabase——数据分析平台建设(一)

引入BI系统是减少重复劳动、增加产出的必要手段和步骤什么是Metabase在选择使用Metabase之前,也调研过许多BI软件,满足免费开源,灵活多变,我们选择了Metabase。Metabase是一款开源免费的BI软件,适用于中小型企业、初创…

深入剖析数据多版本 MVCC 机制

作者 | 奇伢来源 | 奇伢云存储你以为删掉就没事了?有些童鞋以前还真是做过些傻事,以为删掉一些东西,覆盖一些东西就能掩盖某一些"不可告人"的秘密。来看看 etcd 的例子:./etcdctl put 张三 是个憨憨哎呀,这可…

同程旅行基于 RocketMQ 高可用架构实践

简介: 我们在几年前决定引入 MQ 时,市场上已经有不少成熟的解决方案,比如 RabbitMQ , ActiveMQ,NSQ,Kafka 等。考虑到稳定性、维护成本、公司技术栈等因素,我们选择了 RocketMQ。 背景介绍 ​ 为何选择 R…

重磅 | 数据库自治服务DAS论文入选全球顶会SIGMOD,领航“数据库自动驾驶”新时代

简介: 近日,智能数据库和DAS团队研发的智能调参ResTune系统论文被SIGMOD 2021录用,SIGMOD是数据库三大顶会之首,是三大顶会中唯一一个Double Blind Review的,其权威性毋庸置疑。 近日,智能数据库和DAS团队…

如何帮用户管好云账本?阿里云数据库助力收钱吧 | 甲子光年

简介: “收钱吧到账100万”成为普通商家最想听到的声音。 你有多久没摸过现金了? 中国互联网络信息中心发布的第47次《中国互联网络发展状况统计报告》数据显示,截至2020年12月,我国移动支付用户规模达到8.54亿;中国人…

Redis 会遇到的「坑」,你踩过几个?

作者 | Magic Kaito来源 | 水滴与银弹这篇文章,我想和你聊一聊在使用 Redis 时,可能会踩到的「坑」。如果你在使用 Redis 时,也遇到过以下这些「诡异」的场景,那很大概率是踩到「坑」了:明明一个 key 设置了过期时间&a…

bert 多义词_自然语言处理:Bert及其他

以下内容主要参考了文末列出的参考文献,在此表示感谢!2018年被认为是NLP技术的new era的开始。在这一年,提出了多种有创新性的技术,而且最后的集大成者Bert在NLP的多项任务中屠榜,造成的震撼不比当初神经网络初次在Ima…

谈谈JVM内部锁升级过程

简介: 对象在内存中的内存布局是什么样的?如何描述synchronized和ReentrantLock的底层实现和重入的底层原理?为什么AQS底层是CASvolatile?锁的四种状态和锁升级过程应该如何描述?Object o new Object() 在内存中占用多…

JetBrains发布两项重要更新:基于IDE的远程开发解决方案、轻量级编辑器Fleet

近日,JetBrains 对外发布两项重要产品更新:专为云端和其他服务器打造的远程开发解决方案,以及轻量级编辑器Fleet。 为IntelliJ 平台引入远程开发支持 在近期陆续发布的2021.3 版本的各 IDE 中,JetBrains 向 IntelliJ 平台添加了远…

Hologres揭秘:优化COPY,批量导入性能提升5倍+

简介: 揭秘Hologres优化COPY的技术原理,实现批量导入性能提升5倍 Hologres(中文名交互式分析)是阿里云自研的一站式实时数仓,这个云原生系统融合了实时服务和分析大数据的场景,全面兼容PostgreSQL协议并与…

io密集型和cpu密集型_一次说明白Python爬虫中多线程,多进程,异步IO编程

图/文:迷神我们在Python爬虫中,重要的是讲究速度,如果有10万或者100万Url地址,写过爬虫的都会知道,那估计是非常慢的。我们的Python爬虫一般IO密集型业务,Python爬虫程序需要发起网络请求,必然就…

【详谈 Delta Lake 】系列技术专题 之 湖仓一体( Lakehouse )

简介: 本文翻译自大数据技术公司 Databricks 针对数据湖 Delta Lake 的系列技术文章。众所周知,Databricks 主导着开源大数据社区 Apache Spark、Delta Lake 以及 ML Flow 等众多热门技术,而 Delta Lake 作为数据湖核心存储引擎方案给企业带来…

移动网络安装测试软件,家宽众测中国移动手机版(在线宽带网速测试器)V2.0.3 去广告版...

家宽众测中国移动手机版(在线宽带网速测试器)是一款手机宽带网速测试工具,用户可以通过本软件加入中国移动的宽带评测活动各种,反映家中宽带的具体使用情况,支持在线报名参加,抢先体验则有奖励赠送哦,欢迎来下载。软件…

如何删除第一张单页_单页网站-网站建设中独有的风景线

在这个网页技术飞速发展的时代,单页网站由于其自身的特点已经形成了一种独有的风景线。从本质上来说,单页网站就是只有一个页面,滚动长页面来显示相关的网站内容,网站所有菜单都链接到主页相应的部位。一些前卫的客户已经开始关注…

service注入为null_如何解决quartz调度时候,job中的service为null的问题?

在需要用到调度任务的时候,发现job中的通过依赖注入的service对象为null.如下:Component public class ExpiredOrderJob implements Job {Autowiredprivate EmployeeService employeeService; //这里的service对象为nullOverridepublic void execute(Job…

工作7年,我的10条经验总结

简介: 作者是一名很普通的技术工程师,从14年毕业到现在工作了7年。本文将与大家分享一些在职场中的道理和经验,希望能对大家有所启发和帮助。 作者 | 抱真 来源 | 阿里技术公众号 前言 简单做个自我介绍,我是一名很普通的技术工…