读透《阿里巴巴数据中台实践》,其到底有什么高明之处?

最近阿里巴巴分享了《阿里巴巴数据中台实践》这个PPT(自行搜索原始文章),对于数据中台的始作俑者,还是要怀着巨大的敬意去学习的,因此仔细的研读了,希望能发现一些不一样的东西。

读这些专业的PPT,实际是非常耗时的,你需要把这些PPT外表的光鲜扒光,死抠上面的每一个字去理解底下隐藏的含义,然后跟你的已有知识体系去对比,看看是否有助于完善自己的认知,对于自己不理解的,还需要经常去检索相关的文档。

当然,很多写PPT的用词没这么严谨,临时造概念的不少,或者是独特的说法,因此有时候还要做一些揣测,结合自己的实践去理解,这篇PPT的解读有6000多字,因此请做好烧脑的准备,虽然笔者没去现场听演讲,但希望我的“演讲”也能让你学到真功夫。

就让我们开始吧。

1、题目和背景

看到这个片子的出处,阿里云智能事业部,其实是有点奇怪的,记得阿里的中台事业群包括搜索事业部、共享业务平台、数据技术及产品部,阿里云是一个侧重云业务的平台事业部,它来说数据中台合适吗?

有人会问,平台和中台又有什么区别呢?阿里云来讲中台不是很合适吗?

笔者的疑惑是这样:一般意义上的平台具备业务无关性,潜心技术就可以了,而中台是业务的收敛,跟业务的相关性很大,对于数据中台,其核心竞争力不是平台级的技术,而是数据的理解、处理和挖掘。让一个做平台技术的人跑到前端去理解数据诉求沉淀共性是不现实的,而这是当前数据中台创造价值的核心。

当然讲PPT的可以不问出身,能理解阿里的数据中台就可以了。

2、DT派向左,IT派向右

传统的IT是成本中心,而有了数据后,就可能成为价值中心,这个价值体现在:在管理上可以提供决策支持,在生产上可以提供与管理匹配的智能工具,也就是提升生产关系和生产力的适配能力。

这一点提得是不错的,比如浙江移动大数据中心就是直接定位为利润中心。

这里的IT和DT的对比就不太合适了,两者不是对立的关系,而是融合的关系,D通过IT形成DT,比如原来IT渠道系统仅受理业务,现在在受理的场景下可以加载基于数据的智能推荐。

DT只是马云提得一个突出数据价值的抽象概念,不能生硬去的理解,现在中国移动提了一个三融概念:融合,融通,融智,我觉得IT和DT就要加强融合融通,融合就是搭在一起卖,融通就是能力共享,IT中有DT能力,DT中也要有IT能力。

片子中提到的DT是问题导向,IT是需求导向,这是一个问题的两面,而不是DT和IT的区别;新抛出的DT的授之以渔,IT的授之以网的区别在于方法的观点倒是有点道理,比如DT的智能推荐就是提供了方法,而以前IT的推荐靠的是人的判断。

3、企业组织对于DT的希望

高管团队:看指标发现风险这是BI时代的基本诉求,没啥好说的;大数据更强大的处理、可视化、实时等技术可以提供更好的看数据体验,这是相对于以前BI提升的地方。

业务团队:提到三个变化:

一是通过数据发现问题,而不是拍脑袋。

二是业务人员要既懂业务也懂数据,甚至能自己DIY数据和模型。

三是数据要嵌入生产流程中直接发挥作用,比如标签库要成为营销目标用户的发起地,风控模型要嵌入在用户操作流程中等等。

第一点大家都在做,实际还是以经验为主,数据只是参考和佐证,这种模式本质上没有改变。第二点,第三点执行到位对于大多数企业都很难。

技术团队:提到三个要点:

一是“数据多跑路”是智能平台的核心,浙江的“最多跑一次”就是要靠数据和平台整合实现这个目标。

二是IT人员要有数据化的思维,这个提的很好,缺乏数据思维的人设计IT系统很少考虑智能,现在很多企业的受理系统跟推荐系统是两者皮多少有这个原因。

三是通过数据分析发现新的知识,从而赋能业务,这是数据技术团队的使命。

4、大中台、小前台

这张图诠释了阿里的商业操作系统的引擎:大中台,小前台,展示的很清晰了,特别提醒要理解两个重要概念:业务数据化和数据业务化。

业务数据化:就是所有的商业活动都应该记录下相关的数据,这是业务中台应该承担的使命。

业务数据化挑战其实很大,以前业务平台在设计的时候,是以功能和流程为核心的,只记录对于要实现功能和流程必需的数据,其他的就可有可无了。

比如运营商的一些信令日志记录不全面导致可能影响后续的网络分析或数据价值变现,这就没有做到业务数据化。

但业务数据化有时意味着巨大的成本投入,说来容易执行难,大多企业的数据不是业务数据化战略执行的结果,而仅仅是顺便摘取的低垂的果实。

数据团队的一个使命就是业务数据化,很多好的数据是你进入前端争取来的,这样才能驱动业务记录数据。

数据业务化:本质就是从数据中发现价值,反过来赋能业务,这是很好理解的。

数字孪生这个词现在也比较热了,未来万物互联的世界将你所有的行为实时记录下来,形成另一个数字化的你,这就是数字孪生,如果业务中台是你,那数据中台就是你的兄弟。

5、数据中台赋能的四大典型场景

(1)全局数据监控:本质就是指标+报表+可视化,这是给管理者看得,当然业务人员也要看,以下给了双11大屏示例。

(2)数据化运营-智能CRM:提到要“基于全链路全渠道数据的建立以“人”为核心的数据连接萃取管理体系,对用户进行全生命周期的精细化管理”,这么多形容词懵不懵逼,到底在说啥?

全链路是指纵向记录跟踪整个商业过程的数据(包括商品企划、售前及售中管理、客服管理、订单处理、仓储物流等等)。

全渠道就是各触点的用户行为数据,比如天猫、淘宝、优酷等等。

因此,通过汇聚全链路全渠道的数据才能形成完整的客户画像,然后用连接萃取的方式方便的获得所需的数据进行分析,从字面意思看跟我们的标签库定位有点像。

(3)数据植入业务-智能推荐:这里讲的比较清楚,就是营销闭环管理,从用户细分,千人千面,渠道推荐,再到营销评估,以下是示例。

(4)数据业务化-生意参谋:这个是阿里力推的为数不多的血统纯正的数据产品,是数据业务化和数据直接变现的典型代表,可以为店主提供端到端的分析支撑,网上介绍很多了,下面这张片子着重说明了生意参谋的历史,现在和未来,有点意思。

历史:百家争鸣,虽然提了数据冗余、体验差等问题,但没有百家争鸣,不可能有生意参谋这个整合产品的出现。

现在:生意参谋独霸天下,依托的是数据中台体系,包括OneData、OneService、OnePlatForm等,这个后面会解读。

未来:一个生意参谋还不够,要打造一个产品开发平台,复制出一个个面向不同行业的生意参谋,也就是参谋X,野心很大。

为什么说血统纯正呢?

因为诸如推荐啥的,数据是依附于业务流程上的,你评估数据价值的时候,很难说是业务本身好、流程设计好、还是你数据推荐的好,而纯正的数据产品是数据人员彰显自身价值的更好方式。

6、阿里巴巴做数据中台的缘起

做数据中台的缘起跟一般数据仓库融合模型是一样的,共享复用的需要,比如原来基于淘宝数据的各种业务都自建一套中间层,而这些中间层很多是重复或类似的,比如蚂蚁业务有交易主题,天猫也有交易主题,那能不能抽象出公共的交易主题为两个业务都服务呢?

因此你会看到阿里数据中台抽象出了会员、商品、交易、浏览、广告等公共核心主题层,从而为应用层服务,各个应用层以前要做很多公共层的东西,现在也可以完全复用了,理论上可以提升应用构建的速度。

下面这页片子从数据的依赖关系图比对了前后的变化,一个是网状的,代表了相互之间千丝万缕的关系,冗余肯定是很多的,一个是放射状的,一个节点可以为更多的后端节点服务,代表了共享和简洁。

7、阿里巴巴数据中台全景图

读懂这张图就理解了阿里的数据中台具体到底干了些什么,有五大部分跟数据中台直接相关:数据中台DaaS、数据资产管理IPaaS、数据研发平台IPaaS及计算与存储平台IaaS。

笔者理解广义的数据中台其实包括数据中台DaaS、数据资产管理IPaaS、数据研发平台IPaaS三部分,如果狭义的理解则仅包括数据中台DaaS,数据资产管理IPaaS、数据研发平台IPaaS在笔者的企业叫做能效中台。

(1)计算与存储平台IaaS

流计算SteamCompute:应该指阿里内部的Flink版本。

离线计算MaxCompute:阿里自研的EB级的数据仓库(原来的ODPS)。

实时计算ADS:AnalyticDB的简称,主要是提供实时在线分析,可以认为是阿里自研的OLAP版本。

(2)数据资产管理IPaaS

数据资产管理其实跟元数据管理一回事。

资产地图:本质上是数据字典的图形化版本,阿里有多少数据、如何存储、数据之间关系如何、如何找、如何用都可以从资产地图找到答案,蛮形象的,从网上资料看,其设计还是值得借鉴,以下是一些界面截图。

资产分析:你可以理解为针对元数据的BI分析,什么结构分析,趋势分析什么的,万变不离其宗,你希望通过元数据分析理解现状,发现异常,从而指导数据资产的治理,比如支付类别的数据增长情况如何。

 

 

资产应用:你可以理解为利用元数据信息来提升数据资产的利用效率,比如通过影响分析挖掘出无效的数据资产,从而降低数据冗余,这个工作做好,价值是很大的。

资产运营:运营这个词被用烂了,运营其实不是一个功能,而是一个动作,希望通过各种举措来让数据被更多的人使用,从而产生更多的价值,比如新增数据资产的推荐等等。

数据资产使用的二八定律是非常明显的,大多数据其实是没人访问或使用的,而存储的成本可是很高的,只有通过运营才能让沉默的数据被更多的人使用,无效的数据得到清除,从而实现降本增效。

(3)数据研发平台IPaaS

这个平台跟笔者以前文章中提到的DACP是一个东西,就是负责数据的加工,需要一系列配套功能,包括数据规划、交换、处理、开发、调度及监控等等。

(4)数据中台DaaS

垂直数据中心(OneClick):就是传统数据架构中的ETL,通过离线、实时等方式将各渠道的数据采集过来。

公共数据中心(OneData):就是数据仓库建模需要达到的目的,保证数据口径的规范和统一,沉淀共性的数据,阿里采用的是维度建模,通过分析业务过程抽象出维度和指标,最后汇总成所需要的仓库模型。

萃取数据中心(OneID):笔者的理解是阿里为了方便对外提供数据,形成了一套以各种ID(业务核心对象)为唯一标识的宽表,就好比运营商需要形成一套以用户ID(手机号码)、客户ID、账户ID、家庭ID为核心的宽表体系一样。

统一数据服务中间件(OneService):以数据仓库整合计算好的数据作为数据源,对外通过接口的方式提供数据服务。

8、阿里巴巴数据中台的沉淀与积累

(1)OneData

数据标准化:实现数据资产各域、主题、模型、字段、指标命名等的统一规范,笔者一直强调数据标准化一定要在源头解决,如果阿里的业务系统数据资产都遵循这个原则,那是厉害的很。

技术内核工具化:我的理解是规范的落地必须依托工具来强制控制,比如你只能按照规范模板的要求来建表,否则就执行不了,阿里在这方面的管控据说是比较给力的。

元数据驱动智能化:有了元数据分析就能科学的计算出对于资源的诉求,而且可以做得非常快速和灵活,摈弃每次规划扩容到处找依据的窘境,这跟前面的元数据应用是类似的。

OneData是阿里数据中台非常核心的内容,其有一个Dataphin引擎,可以实现数据标准规范定义、数据模型的自动化开发、主题式数据服务即时生成等功能。

具体如下面这个片子所示,其包括数据引入-规范定义-数据建模-数据外部关联-数据资产沉淀-数据服务生成整个闭环链条,通过这一链条把数据管理的大多要素都实现了。

这种强规范性的开发模式在一定程度上也降低了灵活性,但其规模效益是非常好的,否则阿里这么庞大的数据资产是根本无法很好管理的,这个笔者深有体会,正如我们运营的DACP一样,我们遭遇到的,他们也一定遭遇到了。

指标标准化是笔者尝试过的事情,因为当初深感重复开发的报表太多了,而通过指标标准化可以解决这类问题,这是报表做到一定程度后自然而然产生的想法,以下阿里的做法跟自己当初做的如出一辙,所谓殊途同归。

(2)OneID

假设有一位用户张三,在第一个手机上使用百度地图, 在ipad上观看百度爱奇艺视频,在第二个手机上使用手机百度app, 在pc电脑上使用百度搜索,如何将同一个用户在这些不同端的用户信息聚合起来呢?

跟运营商的天然的以手机号码为唯一标识不同,互联网公司的各类账号ID要打通的挑战是非常高的,ID-MAPPING是互联网公司的一个核心技术,其需要确保各个领域搜集的数据是可以集成和关联分析的,没有统一ID的支持,多样化的数据集中起来分析是没有意义的,这是另一种形式的数据孤岛。

比如下面的四条用户记录实际上表明的是同一个人。

(3)OneMeta

这里的“数据资产分析”和“数据血缘跟踪”在前面的“数据资产管理IPaaS”都已经提及,是数据管理里非常基本的东西,特别提下数据综合治理。

安全:指的是诸如敏感数据分级和访问控制定义。

质量:指的是数据的质量规则定义。

成本:指基于数据资产的调用情况和处理成本给出一个综合评估。

人员:大概是数据资产指归属组织和个人的定义吧,比如我们的数据字典里就有一个属性,必须标识出这个资产的创建人、修改人以便跟踪追责。

(4)OneService

主题式数据服务:应该是基于元数据构建的简单数据服务查询引擎,面向业务统一数据出口与数据查询逻辑,屏蔽多数据源与多物理表,就是搞一套业务化的伪SQL方便取数。

统一而多样化的服务:一般查询指普通SQL查询,OLAP就是多维分析,在线服务比较抽象,笔者猜测是诸如数据推送、定时任务等定制化服务形式。

跨源数据服务:大数据由于技术组件非常多,不同的数据往往存储在不同的数据库内,比如hadoop,gbase,oracle等等,如果要进行跨异构数据库的即席查询一般就要做先做数据汇聚,但一些轻量级的取数希望能直接进行关联分析得到结果,因此出现了这种服务诉求。

PPT就解读到这里,笔者最大的感受就是阿里的数据中台技术体系很庞大,但又非常关注细节,几个字看着简单,但落地则需要付出巨大的代价,而且是个渐进的过程,比如Dataphin。如要要了解阿里数据中台的更多技术细节,推荐一本书《阿里巴巴大数据实践》。

其实数据中台要搞好不是简单的引进几个工具就可以了,技术仅仅是技术,你能COPY技术但COPY不了管理和文化,而这恰恰是数据中台成功的关键。

数据中台的更大挑战是:你的企业对于数据的理解是否已经达到了一定的阶段,你是否能够驱动公司去建立一套适合自己企业的数据管理机制和流程,而这个是最难的,你得走出自己的路。


原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/517940.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如果你也想做实时数仓…

数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务,数据仓库的建设也是“数据智能”中必不可少的一环。本文将从数据仓库的简介、经历了怎样的发展、如何建设、架构演变、应用案例以及实时数仓与离线数仓的对比六个方面全面分享关于数仓的详细内容。 …

华为云战略投入政企市场,发布华为云Stack

2020年5月15日,华为云发布政企战略,并宣布华为云Stack系列新品正式上市。华为云Stack是位于政企客户本地数据中心的云基础设施,能为政企客户提供在云上和本地部署体验一致的云服务。随着政企智能升级进入深水区,华为云将战略投入政…

如何在 Apache Flink 中使用 Python API?

本文根据 Apache Flink 系列直播课程整理而成,由 Apache Flink PMC,阿里巴巴高级技术专家 孙金城 分享。重点为大家介绍 Flink Python API 的现状及未来规划,主要内容包括:Apache Flink Python API 的前世今生和未来发展&#xff…

阿里云HBase Ganos全新升级,推空间、时空、遥感一体化基础云服务

1、HBase Ganos是什么 Ganos是阿里云时空PaaS服务的自研核心引擎。Ganos已作为云数据库时空引擎与数据库平台融合,建立了以自研云原生数据库POALRDB为基础,联合NoSQL大数据平台(Ali-HBASE和X-Pack Spark)的完整时空地理信息云化管…

看完这篇操作系统,和面试官扯皮就没问题了!

作者 | Cxuan责编 | Carol来源 | 程序员 cxuan封图 | CSDN 付费下载于视觉中国1、解释一下什么是操作系统操作系统是运行在计算机上最重要的一种软件,它管理计算机的资源和进程以及所有的硬件和软件。它为计算机硬件和软件提供了一种中间层。通常情况下,…

Linux centos7 安装 MySQL5.7.x

文章目录一、下载安装2. wget 下载方式3. 安装4. 初始化数据库二、修改密码2.1. 修改密码2.2. 修改密码2.3. 允许远程访问2.4. 关闭防火墙2.4. 建立mysql软连接一、下载安装 下载地址:https://dev.mysql.com/downloads/mysql/5.7.html#downloads 下载地址&#xff…

顺序结构,选择结构,反编译

顺序结构 Java基本结构就是顺序结构,除非特别指明,否则就按照顺序一句一句的执行顺序结构是最简单的算法结构任何一个算法都离不开的一种基本算法结构 package com.boss.struct;public class ShunXuDemo {public static void main(String[] args) {Sys…

助力共享经济,芝麻信用背后的技术

近期,CCTV9播放了自制的系列纪录片《大数据时代》,该片是国内首部大数据产业题材纪录片,节目细致而生动地讲述了大数据技术在政府治理、民生服务、数据安全、工业转型、未来生活等方面给我们带来的改变和影响。在第四集中,讲述了芝…

你的项目是否真的需要 DevOps?

DevOps即服务(DevOps-as-a-Service)是一种新兴的开发理念。DevOps作为一种方法,将传统的团队协作转移到开发和运维团队中,通过使用可堆叠的虚拟扩展工具实现自动化。作者 | raghuraji300译者 | Arvin,责编 | 屠敏头图 …

与你同行,才能无障碍

先给大家分享一个笔者的真实故事。前阵子她被诊断得了急性结膜炎,医生切切叮嘱 72 小时里多闭目养神不能目视任何自光源体,“尤其是电脑和手机!”医生特地关照了一句。 她好不容易挪回家,想起一整天未能进食,作为淘宝…

震惊!阿里的程序员竟被一个简单的 SQL 查询难住了!

作者 | 唐磊责编 | Carol来源 | 程序猿石头封图 | CSDN 付费下载于视觉中国最近工作上遇到一个”神奇”的问题,或许对大家有帮助,因此形成本文。问题大概是,我有两个表 TableA,TableB,其中 TableA 表大概百万行级别(存…

ETL异构数据源Datax_datax-web安装部署_10

文章目录1. 解压2. 一键安装3. 修改执行器py地址4. 一键启动5. 查看启动日志6. 访问地址登录7. 操作记录1. 解压 tar -zxvf datax-web-2.1.2.tar.gz2. 一键安装 # 执行一键安装脚本,系统中需要有mysql环境,会自动执行sql文件初始化bin/install.sh cd datax-web-2.1.2/ bin/in…

3D 真的很难吗,瞧瞧支付宝怎么做?

阿里妹导读:图像作为人类感知世界的视觉基础,是我们在这个信息化时代获取信息、表达信息及传递信息的重要手段,而生成图像最高效准确的方式就是由计算机生成、显示、绘制,这些技术又统称计算机图形技术。计算机图形技术已经是许多…

OpenStack发布Ussuri版本 实现智能开源基础设施的自动化

从2010年到2020年,OpenStack项目整整走过了十个春夏秋冬。10年来,关于OpenStack的争议持续不断,但不可否认的是,在不同技术路线的争执中,OpenStack所展现的蓬勃生命力仍无可比拟。据451研究机构2019年9月发布的市场监测…

ETL异构数据源Datax_图形化数据同步_11

数据同步全量增量知识SQL和执行频次不一样,其他的都一样 文章目录一、Oracle同步Mysql(全量)1. 添加项目2. 添加数据源3. 添加任务4. 构建json5. 任务执行6. 查看日志7. 同步数量对比二、Mysql同步Oracle(全量)2.1. 添加构建reader2.2. 添加构建writer2.3. 配置同步…

RocketMQ消息轨迹-设计篇

RocketMQ 消息轨迹主要包含两篇文章:设计篇与源码分析篇,本节将详细介绍RocketMQ消息轨迹-设计相关。 RocketMQ消息轨迹,主要跟踪消息发送、消息消费的轨迹,即详细记录消息各个处理环节的日志,从设计上至少需要解决如…

红帽加速开放混合云创新,助力企业成功迈向开源应用时代

2020年的开局让人有些意想不到,一场新冠疫情给人们的生活带来了前所未有的改变。对于企业更是有着数不尽的困难与挑战。在过去的三个月当中,全世界都面临着有关于“虚拟会议”所带来的便捷与隐患问题,原因在于虚拟会议中对于网络体验与安全的…

ETL异构数据源Datax_自增ID增量同步_12

文章目录增量同步方法 1.先同步存量数据 2.再同步增量数据(根据自增ID、日期条件) 前提条件: 1.只针对数据增长,如果老数据被update/delete则无法使用增量同步方式。 基于主键自增ID增量同步 Oracle同步Mysql演示 idno采用序列自增 添加项目 AutoIncr…

K8S从懵圈到熟练 - 节点下线姊妹篇

之前分享过一例集群节点NotReady的问题。在那个问题中,我们的排查路劲,从K8S集群到容器运行时,再到sdbus和systemd,不可谓不复杂。那个问题目前已经在systemd中做了修复,所以基本上能看到那个问题的几率是越来越低了。…

PLSQL 查询结果只显示年月日不显示时分秒的解决方法

PLSQL 14查询结果只显示年月日不显示时分秒的解决方法 如果plsql里面日期显示出现混乱,并且按照一般的调整首选项里日期格式调整不了,可以修改环境变量,新建环境变量,变量名:nls_date_format 变量值:YYYY-…