强推!阿里数据科学家一次讲透数据中台

戳蓝字“CSDN云计算”关注我们哦!

640?wx_fmt=jpeg

来源 | 技术领导力社区

编辑 | Emma

阿里大数据和人工智能科学家 行在,阿里公共数据平台负责人 罗金鹏,在云栖大会、Data Tech等大会中分享到:阿里的“双中台+ET”数字化转型方法论及成果,以及阿里数据中台产品OneData、OneID、OneService、Dataphin的建设实践。

本文整理了其中15页PPT精华浓缩,下面我们跟随技术大咖,一起来学习阿里数据中台的建设方法论、建设实践、组织中台如果支撑数据中台、以及数据中台建设分哪些步骤等等。

01

阿里数据中台全景图

640?wx_fmt=jpeg(点击图片可放大)

阿里数据中台在架构的组成上,呈现了一个“四横三纵”的结构,底层的基础设施来自于阿里云平台。

四横。在这张架构图中,从下往上看,最下面的内容主要数据采集和接入,按照业态接入数据(比如淘宝、天猫、盒马等),我们把这些数据抽取到计算平台;通过OneData体系,以“业务板块+分析维度”为架构去构建“公共数据中心”。

基于公共数据中心在上层根据业务需求进行建设:消费者数据体系、企业数据体系、内容数据体系等。

640?wx_fmt=jpeg

(图片来源:云栖社区)

经过深度加工后,数据就可以发挥其价值被产品、业务所用;最后通过统一的数据服务中间件“OneService”提供统一数据服务。


640?wx_fmt=jpeg

(点击图片可放大)

三纵。为保证阿里巴巴整个数据体系的快速、高效、高质量数据接入,需要有一套智能数据研发平台来实现,将理论及实践过程,通过一整套的工具体系及研发流程去保障落地,确保每一个团队,每一个BU,通过统一规则去建设数据体系;同时,当数据多了以后最直接问题就是成本,因此我们还建立了统一的数据质量管理平台。


02

阿里“双中台”共同支撑的“大中台+小前台架构”

640?wx_fmt=jpeg
阿里云的大数据和人工智能科学家--行在,在访谈中提到,阿里中台主要体现为由业务中台和数字中台并肩构成的双中台,并肩扛起了所有前台业务。

业务中台将后台资源进行抽象包装整合,转化为前台友好的可重用共享的核心能力,实现了后端业务资源到前台易用能力的转化。


640?wx_fmt=jpeg

(点击图片可放大)

数据中台从后台及业务中台将数据流入,完成海量数据的存储、计算、产品化包装过程,构成企业的核心数据能力,为前台基于数据的定制化创新和业务中台基于数据反馈的持续演进提供了强大支撑。


640?wx_fmt=jpeg(点击图片可放大)

业务中台与数据中台相辅相成、互相支撑,一起构建起了战场强大的后方炮火群和雷达阵。

03

阿里数据中台OneData体系

640?wx_fmt=jpeg

OneData是阿里数据中台的核心,阿里公共数据平台负责人罗金鹏介绍,OneData体系建立的集团数据公共层,从设计、开发、部署和使用上保障了数据口径的规范和统一,实现数据资产全链路管理,提供标准数据输出。

统一数据标准是一项非常复杂的工作,譬如,针对UV这一相同的指标,在统一之前阿里内部竟然有10多种数据定义。据介绍,OneData数据公共层总共对30000多个数据指标进行了口径的规范和统一,梳理后缩减为3000余个。

在DT时代,数据暴增对存储计算成本带来很大的挑战。据罗金鹏介绍在没有建设统一的数据公共层时,阿里内部服务器需求量会在5年之后达到现在的100倍之多。而经过数据公共层的统一建设,5年后的服务器需求量相对会节约90%。

640?wx_fmt=jpeg

阿里数据中台之OneData也并非是“一次成型”的,它经历了三个阶段的能力演进:
第一阶段:完全应用驱动的时代。这个时期主要将数据以与源结构相同的方式同步到Oracle,那时候的数据架构只有两层ODS+DSS,严格说来基本只有一个ODS层,也基本没有模型方法体系。

第二阶段:随着阿里业务的快速发展,数据量也在飞速增长,性能已经是一个较大问题,希望通过一些模型技术改变烟囱式的开发模型,消除一些冗余,提升数据的一致性,所以阿里引入了Greenplum。

第三阶段:引入以hadoop为代表的分布式存储计算平台,确立第三代模型架构(OneData),核心CDM层都采用多维模型。选择了以Kimball维度建模为核心理念的模型方法论,同时对其进行了一定的升级和扩展,构建了阿里集团的数据架构体系。

04

数据中台PasS层Dataphin


640?wx_fmt=jpeg

(图片来源:云栖社区)

在整个数据中台模式中,PasS层产品Dataphin如引擎般存在,下到规划数仓,上至输出主题式服务。

有了Dataphin之后,种种数据问题弹指间即可迎刃而解,它既可以保证数据标准规范定义、数据模型设计即自动化开发、主题式数据服务即时生成。

同时还能提供数据资产化管理的门户,有效降低数仓建设门槛,也提高生产效率、降低生产成本,轻松实现让数据从成本中心真正变成价值中心,且可量化呈现。

05

Quick BI助力云上企业数据分析


640?wx_fmt=jpeg

大数据构建与管理完毕之后,我们需要利用Quick BI这一智能数据与可视化组件将数据背后的价值展现在人们面前。

Quick BI扭转了当初重度依赖专业数据分析人才的局面,能够赋予一线业务人员智能化的分析工具,真正的做到了“数据化运营”让数据产生价值。

现在,越来越多的企业开始数据上云,也有的行业如政府、金融因为严苛的安全需求而自建本地数据库,导致企业出现数据分散式存储的状况。而Quick BI却可以链接各种数据源,满足云上和本地的不同需求,整合为可被统一调度的数据集。



06

阿里大数据能力框架

640?wx_fmt=jpeg


阿里巴巴提出的数据中台模式,正是为解决问题而生,并通过实践形成了统一全域数据体系,实现了计算存储累计过亿的成本降低、响应业务效率多倍提升、为业务快速创新提供坚实保障。
全域数据采集与引入:以需求为驱动,以数据多样性的全域思想为指导,采集与引入全业务、多终端、多形态的数据。
标准规范数据架构与研发:统一基础层、公共中间层、百花齐放应用层的数据分层架构模式,通过数据指标结构化规范化的方式实现指标口径统一。
连接与深度萃取数据价值:形成以业务核心对象为中心的连接和标签体系,深度萃取数据价值。
统一数据资产管理:构建元数据中心,通过资产分析、应用、优化、运营四方面对看清数据资产、降低数据管理成本、追踪数据价值。
统一主题式服务:通过构建服务元数据中心和数据服务查询引擎,面向业务统一数据出口与数据查询逻辑,屏蔽多数据源与多物理表。


640?wx_fmt=jpeg

极大的丰富和完善了阿里巴巴大数据中心,OneData、OneID、OneService渐趋成熟并成为上至CEO、下至一线员工共识的方法论体系。


07

阿里数据中台演进的四个阶段


640?wx_fmt=jpeg

阿里巴巴的数据处理经历了四个阶段,分别是:

一.  数据库阶段,主要是OLTP(联机事务处理)的需求;

二.  数据仓库阶段,OLAP(联机分析处理)成为主要需求;

三.  数据平台阶段,主要解决BI和报表需求的技术问题;

四.  数据中台阶段,通过系统来对接OLTP(事务处理)和OLAP(报表分析)的需求,强调数据业务化的能力。


08

数据中台的建设步骤

640?wx_fmt=jpeg

第一,组织架构升级。比如以前负责数据的部门或团队往往缺乏话语权,面对业务需求往往是被动的接受的角色,这让一切数据中台的想法化为泡影,需要为数据中台团队授权。

第二,工作方式的改变。现在很多企业的数据团队的主要工作内容就是项目管理、需求管理等等,当一个项目完成后又投入到下一个项目,做好一个需求后又开始负责下一个需求,这样的工作确实非常锻炼人的组织、协调能力,但这样能力的提升与工作时间的长短并不是呈线性增长的,虽然增加了项目和需求管理经验,但并不能在某一个专业领域得到知识和经验的沉淀,随着时间的流逝,越来越多的人会失去最初的工作积极性和创造性,事实上,数据人员只有深入的研究业务、数据和模型,端到端的去实践,打造出数据中台,才是最大的价值创造,才能使得持续创新成为可能

第三,角色的转换。数据中台的团队要从传统的支撑角色逐步向运营转变,不仅在数据上,在业务上也要努力赶超业务人员,中台人员要逐步建立起对于业务的话语权,不仅仅是接受需求的角色,更要能提出合理的建议,能为业务带来新的增长点,比如数据驱动营销。

第四,适合企业特点。好的中台是当你深入了解业务、产品、系统、组织,而且不仅了解今天在哪里,还要了解过去是怎么演变而来,未来又会怎么演化。只有当了解所有的东西之后,才能做出较好的中台架构设计。


09

阿里中台建设方法论

640?wx_fmt=jpeg

中台建设的基础协议

就是要根据我们对商业的理解,把一些基础协议梳理出来。例如什么是业务?什么是业务身份?各个业务领域的边界是什么?每个领域提供的基础服务是什么?再在这些思想的指导下去建立业务平台化的实施标准和业务管控标准。

中台的基础设施:中心化控制单元

就是运营平台,它主要由协议标准、能力地图、业务需求结构分解、全局业务身份、业务全景图、业务度量等构成。能让我们有一个地方纵观全局,把控细节。


10

阿里的组织中台:数据中台的组织保证

640?wx_fmt=jpeg

亚当斯密出版了《国富论》,与此同时,瓦特改良了蒸汽机,社会大分工理论与工业革命相生相伴,在人类文明史上写下了浓墨重彩的一笔。

金字塔式的科层制,伴随着工业文明成为组织的核心底层逻辑,在强调秩序和大规模高效率生产的工业时代,甚至是强调如臂使指的军队组织,科层制(官僚制)是保证自上而下的命令得到有力执行的高效组织架构。

随着互联网时代的到来,消费者的需求被极大释放,工业时代的大规模生产方式受到了挑战,转而向“大规模定制”的生产方式转型,传统的科层制是建立在大规模生产基础上的,因此也面临组织模式转换,向扁平化、自组织的方式转变。

而中台建设真正困难的是组织上的重构,这往往是大家有意无意避而不谈的。

中台战略的成功、能否实现技术架构与组织架构的匹配,是一道绕不过去、但必须要迈过的门槛。从阿里成立共享事业部,海尔的人单合一、职能并联,到近期大家关注的腾讯的组织架构重构都是这些企业在这方面做出的努力。


11
本文要点小结

1、阿里数据中台全景图。阿里数据中台在架构的组成上,呈现了一个“四横三纵”的结构,底层的基础设施来自于阿里云平台。
2、阿里“双中台”共同支撑的“大中台+小前台”架构。业务中台与数据中台相辅相成、互相支撑,一起构建起了战场强大的后方炮火群和雷达阵。
3、阿里数据中台OneData体系。OneData体系建立的集团数据公共层,从设计、开发、部署和使用上保障了数据口径的规范和统一,实现数据资产全链路管理,提供标准数据输出。
4、数据中台PasS层Dataphin。PasS层产品Dataphin如引擎般存在,下到规划数仓,上至输出主题式服务。
5、Quick BI助力云上企业数据分析。能够赋予一线业务人员智能化的分析工具,真正的做到了“数据化运营”让数据产生价值。
6、阿里大数据能力框架。数据中台极大的丰富和完善了阿里巴巴大数据中心,OneData、OneID、OneService渐趋成熟并成为上至CEO、下至一线员工共识的方法论体系。
7、阿里数据中台演进的四个阶段。数据库、数据仓库、数据平台、数据中台。
8、数据中台的建设步骤。组织架构升级、工作方式的改变、角色的转换、适合企业特点。
9、阿里中台建设方法论。中台建设和基础协议、中心化操控单元。

10、阿里的组织中台:数据中台的组织保证。阿里人力三支柱、公共事业部的组织架构升级。

640?wx_fmt=png

640?wx_fmt=jpeg

福利

扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!

640?wx_fmt=jpeg

推荐阅读:

  • 上万条数据撕开微博热搜的真相!

  • IT公司老板落水,各部门员工怎么救??

  • HTML 30 年进化史

  • 读了鸿蒙 OS 的代码后,我发现优秀项目都有这个共性!

  • 字节跳动李航:自学机器学习,研究AI三十载,他说AI发展或进入平缓期

  • 主链增幅最高飚至 152%,主流币却惊现回落;以太坊发币速度持续放缓

真香,朕在看了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/522182.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于增强学习你应该了解的五件事儿

摘要: 本文主要是讲解了机器学习中的增强学习方法的基本原理,常用算法及应用场景,最后给出了学习资源,对于初学者而言可以将其作为入门指南。 强化学习(Reinforcement Learning)是当前最热门的研究课题之一…

SpringBoot聚合项目总结

文章目录一、聚合项目架构二、依赖传递图解2.1. 常见场景2.2. 企业场景三、结构设计原则3.1. 模块层次清晰3.2. 模块之间耦合度低3.3. 功能互不影响3.4. 定位问题效率高3.5. 灵活易扩展四、架构设计优点4.1. 统一规范4.2. 版本统一管理4.2.1. 模块版本统一管理4.2.2. 依赖版本统…

容器精华问答 | 虚拟机和容器的区别是什么?

戳蓝字“CSDN云计算”关注我们哦!云计算的发展日新月异,新技术层出不穷,尤其容器技术自2013年Docker容器问世以来一路高歌猛进红遍大江南北,与虚拟机相比,容器更显优势,有着更轻量、更快捷、占用资源更少&a…

战神笔记本电脑自带access吗_笔记本电脑卡顿不要急着换,这几个方法,让你的电脑流畅爆表...

电脑现在无论是学生还是上班族都成为了不可或缺的一个东西,笔记本电脑更是成为很多人的宠爱,方便携带。但是很多人的电脑都会面临一个问题,就是笔记本电脑使用没多久就开始卡顿,越来越不流畅。 …

一文看清深圳云栖阿里云重磅产品发布

摘要: 成立九年之后,阿里云不再仅仅是提供计算、存储、网络、安全。 事实上,我们每一天都有新功能在发布。 本文就和大家梳理一下,阿里云此次深圳云栖在云计算、大数据、人工智能、物联网方面的技术产品进展。 成立九年之后&#…

工作流实战_23_flowable 任务监听器 事件监听器

项目地址:https://gitee.com/lwj/flowable.git 分支flowable-base 视频讲解地址 https://www.bilibili.com/video/av79328344 监听器 任务监听器 针对userTask节点 事件监听器 针对任意节点 由于实际情况下我们会在节点会动态调用业务系统的接口去改变业务单据的状态…

pcb设计等长线误差_17种元器件PCB封装图鉴,美翻了(附PCB元件库)

元器件封装的构建是PCB设计中的一个重要环节,小小的一个错误很可能导致整个板子都不能工作以及工期的严重延误。常规器件的封装库一般CAD工具都有自带,也可以从器件原厂的设计文档、参考设计源图中获取。封装名称与图形如下No.1晶体管No.2晶振No.3电感No…

云计算风起云涌,超融合恰逢其时!

戳蓝字“CSDN云计算”关注我们哦!“关于超融合市场,确实有一些声音。比如说市场很小,着手做这个业务方向会不会意味着未来堪忧?是不是没有前途?”深信服云BG总经理宋锐打趣说道。“这个问题,要站在客户的角…

Quick BI助力云上大数据分析---深圳云栖大会

摘要: 在3月29日深圳云栖大会的数据分析与可视化专场中,阿里云产品专家陌停对大数据智能分析产品 Quick BI 进行了深入的剖析。大会现场的精彩分享也赢得观众们的一直认可和热烈的反响。 大数据分析之路的挑战与期望 阿里巴巴作为一家大数据公司&#xf…

怎么添加一个程序集_门店小程序,微信小程序怎么添加店铺

现今随着互联网发展,越来越多选择网上购物代替实体店购物,微信作为最多人使用的社交软件,他的商机也被许多企业商家发展,进入微信分销小程序购物是现在最流行的购物方式,驱使很多实体店也纷纷加盟进驻门店分销小程序&a…

阿里云Quick BI——让人人都成为分析师

摘要: 在3月29日深圳云栖大会的数据分析与可视化专场中,阿里云产品专家潘炎峰(陌停)对大数据智能分析产品 Quick BI 进行了深入的剖析。大会现场的精彩分享也赢得观众们的一直认可和热烈的反响。 Quick BI诞生于阿里巴巴集团自身对…

华为已找到安卓才“替代品”?马云马斯克激辩人工智能未来;微软说:麻将AI系统终获突破;扭亏!中兴通讯上半年净利14.71亿……...

戳蓝字“CSDN云计算”关注我们哦!嗨,大家好,重磅君带来的【云重磅】特别栏目,如期而至,每周五第一时间为大家带来重磅新闻。把握技术风向标,了解行业应用与实践,就交给我重磅君吧!重…

Python的基本数据类型和数据类型的转换

TOC 数据类型 类型查看 type 可以使用type内置函数查看变量所指的对象类型 a1 b1.0 c"1" d1, e[1] f{1:1} g{1}print(type(a)) print(type(b)) print(type(c)) print(type(d)) print(type(e)) print(type(f)) print(type(g))isinstance **如字面意思,isinstance()…

法拉克机器人自动怎么调_在使用钢网印刷SMT贴片红胶时全自动印刷机的参数怎么调?...

电子厂在使用新钢网印刷作业时,都需要校正钢网位置,调整印刷机的的压力,印刷速度等,如果调对了参数即可以省红胶又可以使印刷效果达到完美。可以做到事半功倍效果。SMT贴片印刷机参数调整注意事项(1) 压力在4.5公斤左右(2) 红胶加…

CDN高级技术专家周哲:深度剖析短视频分发过程中的用户体验优化技术点

摘要: 深圳云栖大会已经圆满落幕,在3月29日飞天技术汇-弹性计算、网络和CDN专场中,阿里云CDN高级技术专家周哲为我们带来了《海量短视频极速分发》的主题分享,带领我们从视频内容采集、上传、存储和分发的角度介绍整体方案&#x…

flink开发案例_为什么说 Flink + AI 值得期待?

作者:秦江杰去年 11 月的 Flink Forward Asia 2019(以下简称 FFA) 上 Flink 社区提出了未来发展的几个主要方向,其中之一就是拥抱 AI [1]。实际上,近年来 AI 持续火热,各种计算框架、模型和算法层出不穷&am…

工作流实战_25_flowable 流程中的自动跳过

项目地址:https://gitee.com/lwj/flowable.git 分支flowable-base 背景:在实际场景中,我们往往会有这样的需求,当流程到达某一个节点的时候,我们让其自动的跳过去,不做任何操作。 如: 1、当当前…

阿里云容器服务区块链解决方案全新升级 支持Hyperledger Fabric v1.1

摘要: 全球开源区块链领域影响最为广泛的Hyperledger Fabric日前宣布了1.1版本的正式发布,带来了一系列丰富的新功能以及在安全性、性能与扩展性等方面的显著提升。阿里云容器服务区块链解决方案第一时间同步升级,在v1.1新功能的基础上&#…

福利 | 送你一张通往「2019 AI开发者大会」的门票

2019 AI开发者大会(AI ProCon 2019)是由中国IT社区CSDN主办的AI技术与产业年度盛会。多年经验淬炼,如今蓄势待发:2019年9月6-7日,大会将有近百位中美顶尖AI专家、知名企业代表以及千余名AI开发者齐聚北京,进行技术解读和产业论证。…

直接内存与元空间_深入浅出 JVM 内存管理

Java岗位面试,JVM是对程序员基本功考察,通常会问你对JVM了解吗?可以分几部分回答这个问题,首先JVM内存划分 | JVM垃圾回收的含义 | 有哪些GC算法 以及年轻代和老年代各自特点等等。1) JVM内存划分:① 方法区 (线程共享) 常量 静态变量 JIT(即时编译器)编译后代码也在方法区存放…