数据中台建设与应用_Gartner对于建设数据中台的建议

(文:Gartner高级研究总监 孙鑫)

                             052d7d8ce7c4b1e4fee3ddfb56809116.gif

数据中台是中国本土诞生的一个名词,很多企业在“什么是数据中台”和“我要上XX中台”徘徊。其炒作程度跟当年的“大数据” 一词有的一拼,如果用Gartner的炒作周期图来看,数据中台目前已经逼近炒作的顶峰。

abc9fed8fb0bfd73f57db1435a6bfa09.png

与其不断地讨论什么是数据中台,企业更应该了解建设数据中台的目的是让企业高效的数据驱动,减少重复的架构建设。如果要用一张图来描绘Gartner如何看待数据中台的建设方向,可以如下图所示。

4e00fcfd31925fee60686793c1c66ff5.png

数据中台的建设方向应该处于企业数字化平台的核心,即Gartner定义的数据和分析平台(红色虚线部分),帮助企业的数字化平台(客户体验平台,生态系统平台,物联网平台和内部信息系统)的业务用户做出更好的决策,并在各个数字化平台的合作孵化下形成可复用的数据分析能力。数据分析能力应该在业务端无处不在且高度自助,最终助力数字化平台实现Gartner定义的封装的业务能力 (Packaged Business Capability)。

e0576945312106b236cbfd7bbaac0e00.png

以下是Gartner对于想建设数据中台企业的建议。

一、数据中台中数据管理策略的平衡

上文提到的这么一个“大而全“的方向听起来是挺美好,但很多企业在建设初期是没有考虑过各个数字平台对数据资产的可复用性或自服务性的(这也是很多企业为了建立数据中台的初衷)。原因很简单,一次性完成所有平台的数字化本来就是不现实的,很多公司都是分阶段进行的,特别是传统企业,很多业务干脆还没有完成数字化,别说建设数据中台了。阿里,腾讯这样的数字化原生的企业建设中台是十分有优势的,或者说数据中台是这些企业在业务指数级增长的同时自然生长出来的产物。

另外数据作为数字业务的核心资产的价值被广泛接受,企业最直 接的反应就是试图在建立数字化平台时将数据收集(Collect)起来,仿佛这才是实现业务价值的关键。例如,过去非常流行的数据湖,会将收集数据作为核心能力。但收集数据不一定能带来商业价值,企业也没有可能一口气收集好全部数据。

以物联网平台为例,数据分布在网络上、边缘设备上、网关上、云端和传统系统中。例如,需要自主行为的 "物"(如联网汽车或风力发电机)必须有板载或网关上的数据和处理,以便对变化的情况做出即时反应。面向消费者的IoT解决方案(如用于健身追踪的可穿戴设备)通常将数据存储在云端进行分析。而且几乎所有的IoT解决方案还必须与传统业务应用共享和整合数据,以执行客户服务和长时间的性能分析。

另外,对实时(或 "近乎实时")集成的需求不断增加引入了一个交付时间的要求,这让最快的数据收集策略也无法满足。在采取响应之前,操作流程在 "边缘 "对数据采取行动与事先将所有的数据收集到集中存储的位置的要求是不相容的。试图收集所有这些物联网数据再后续处理和使用,既不实际也不可行。

同时,保护个人身份信息的隐私法规也将阻碍数据的整体收集。因此,一些数据用例将需要连接(Connect)到数据,而不仅仅是收集数据。

企业建设数据中台绝不是把所有的数据全部收集在一个地方了再开始应用数据,随着数据的不断涌入,用一种连接(Connect)的方式在数据原本存放的介质中重复利用数据才是数据中台也该有的手段。收集数据和连接数据的平衡是现代化数据管理的的必要条件。数据虚拟化能力会是企业需要在保留已有数据库,数据湖投入但又想建立数据中台必须考虑的元素。重复或冗余的数据始终会存在,企业要建立的不是“single source of truth”而是“single source of trust”。

企业可以进一步参考Gartner提出的新一代数据管理设计原则Data Fabric去用于实现可复用和增强的数据集成服务、数据管道和语义层,以实现灵活的数据交付。

二、定位数据中台为一个组织战略促进合作

企业在渐进式数字化转型时面临的一个共同问题,他们各自为政,分别构建类似的解决方案,例如针对不同业务目的的数据分析模型,而这些模型具有共同的元素。在最好的情况下,这样做会造成重复,但更多的情况下,这也会增加复杂性,因为这样做会产生不同的点式解决方案,即使在单个业务内也无法沟通,更不用说在全公司的业务价值链上了。从这个角度来看,Gartner更推荐企业把数据中台定性成一个组织战略,把数据分析团队作为数字化平台建设必备的一个元素。Gartner也在2019年的《Gartner 数字化业务团队问卷》中发现,数据分析/商业智能是融合团队(Fusion team)中除IT以外最常见的功能。

e019265cc6d9cac0d294de4d279d9d75.png

一个好的数据分析团队是由集中的团队和各条业务线上的分散团队组成的。很多企业过分的关注于技术架构的建设而不是业务人员基于数据的合作,在一味追求新的数据分析技术栈的过程,忽略了对于组织战略的调整以解决实际业务用户的问题,把原来遗留的问题从数据仓库移到了数据湖,再移到现在的津津乐道数据中台,而不是解决它们,一个现代化的数据分析团队应该是数据分析能力的赋能者,从管控数据能力到促进基于数据的合作。

b697f92ee1de13b2cba801c93239d6ce.png

三、业务场景出发整理已有的数据分析能力

企业在不断建设自己数字化平台时,早已投入了各种数据分析资产,这个时候为了数据中台这个新词而放弃已经建立的数仓,数据湖,数据整合平台是没有必要的,企业需要做的是把数据中台作为一个组织战略去联合各个部门共同建设可复用且自服务性高的数据分析能力,通过业务流程到数字化平台,自上而下(红线)的去整理已有的数据分析能力。

6d9778f51c48cf16b31d1052d5c2b9a3.png

大多数企业其实都已在做自下而上(蓝线)的数据分析平台,这本没有错,尤其是企业集中式的IT团队已部署数仓,设计了ETL流程和报表系统。但是作为前线的业务获得这些能力是被动的,久而久之,并不会存在业务主动要求提升自己的数据分析能力,毕竟业务作为企业内部的甲方,只提需求还是很爽的。

然而为了让企业变得更数据驱动,或者说让企业建的的数据中台能被真正用起来,逼着业务从业务场景开始做数据分析是一条必经之路,尤其在业务端才是能提出业务问题发起分析时刻(Analytics Moments)的一群人。

下图就是一个典型的电商的业务场景,从业务端定义并梳理分析时刻,从技术栈寻找相对应的数据分析能力的过程。

8f4f2ed1fb1bb0373380b05959207aa6.png

分析时刻是Gartner定义的一种数据分析流程,通过对数据进行可视化、探索和应用算法,支持业务成果的交付,从而做出更好或更快的决策,实现业务流程的自动化。在这个例子中,数据分析能力(最右侧)是被逐步建立起来的,他们的背后有大量的厂商可以被选择,这些能力可以多大程度的被其他分析时刻复用,多低的门槛可以被业务应用,直接决定了数据中台的成功。其中厂商的能力可以通过Gartner每年数据分析领域的九张《魔力象限(Magic Quadrant)》及配套的《关键能力(Critical Capability)》报告进行评估。

分析时刻的梳理往往是一个数据中台建设最为棘手的部分,他一方面依赖供应商是否有业务咨询的能力将业务场景梳理清楚,另外一方面也依赖企业自身的数据素养去不断优化对于数据分析能力的要求。企业可以借着建立数据中台这个机会,分类整理已有的数据分析能力或试行新的数据分析能力,Gartner每年出的《Gartner Analytics Atlas》报告就可以像能力字典一样去帮助企业分类与挑选。

四、数据分析能力整合到复用是一个创新的过程

通过刚才的例子我们也可以看见,电商场景的业务逻辑是很成熟且明确的,其背后数据分析能力也能很快的被重复应用上,然而可复用的数据分析能力是个非常主观的概念,不一样数据素养的团队对于数据分析能力的要求是非常不同的,越简单易用,也容易被别的业务场景给重复利用,不一样的地方是数据的情景和用户情景。如果数据中台的输出能力仅仅只是Data as a Service,即API的形式是远远无法让业务可以直接使用的,从而降低了企业对数据分析应用的广度。企业应该通过整合复用以丰富数据分析能力的输出,随着新技术的引入和融合团队的建立,这无疑是个创新的过程。

c4711881f16cd4551ad6aa06ed5ea12d.png

例如,由机器学习为基础的增强型数据分析和管理工具,就可以大大降低用户的使用门槛(自然语言驱动的分析)并减少数据管理的工作量(主动利用元数据学习获得用户行为)。企业应该了解到利用增强型能力是为减少数据分析手动的部分,从而给用户给多时间去构思业务如何使用数据。

图谱分析(Graph)的引入也会更进一步帮助企业去探知利用率严重不足的数据,图谱可以发现企业数据与数据之间以及不同部门使用数据中被忽视或难以察觉的联系,从而让需要可复用的能力有据可寻,图谱已经变成了很多数据分析产品的基础性技术。企业建立数据中台,缺少的可能既不是数据的量(Quantity)也不是数据的质(Quality),而是数据之间的联系。

如果企业建的数据中台需要在技术的角度进一步让企业减少重复开发的工作量但是提高数据分析的利用率,这些技术都是值得进一步去研究的。增强型数据管理和图谱技术也是今年Gartner的十大数据分析技术之一。

1c464522736ef2a2d1bc73200f435867.png

最后可能要问各位企业高管的是,如果你真的拥有一个完美的数据中台满足您所有的技术期待,您企业员工的数据素养跟上了么?

相关阅读:

十问业务中台和我的答案

中台的末路

中台灵魂拷问,计划经济模式还是市场经济模式

最新最全 2020 云状态报告「69页PDF下载」

RightScale 2019年云状况调查报告:35% 的云支出被浪费「附50页PDF下载」

更多文章请关注

d2989a9d37499e3b119e21ffee2e1841.png

文章好看点这里[在看]?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/472106.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 1894. 找到需要补充粉笔的学生编号

文章目录1. 题目2. 解题1. 题目 一个班级里有 n 个学生,编号为 0 到 n - 1 。 每个学生会依次回答问题,编号为 0 的学生先回答,然后是编号为 1 的学生,以此类推,直到编号为 n - 1 的学生,然后老师会重复这…

C# Excel处理工具

需求:选择一个Excel文件,然后对该Excel文件进行处理,再导出一个处理后的Excel文件。 效果图 声明:我对winform开发不熟,但是我看到许多开发人员做东西只管交差,从不考虑用户体验,也不考虑容错处…

mysql 坚向变横向_(排班表一)使用SQL语句使数据从坚向排列转化成横向排列

知识重点:1.extract(day from schedule01::timestamp)13Extract 属于 SQL 的 DML(即数据库管理语言)函数,同样,InterBase 也支持 Extract,它主要用于从一个日期或时间型的字段内抽取年、月、日、时、分、秒数据,因此&a…

LeetCode 1897. 重新分配字符使所有字符串都相等

文章目录1. 题目2. 解题1. 题目 给你一个字符串数组 words(下标 从 0 开始 计数)。 在一步操作中,需先选出两个 不同 下标 i 和 j,其中 words[i] 是一个非空字符串,接着将 words[i] 中的 任一 字符移动到 words[j] 中…

2015/4/14课堂练习

1.设计题目 书店针对《哈利波特》系列书籍进行促销活动,一共5卷,用编号0、1、2、3、4表示,单独一卷售价8元, 具体折扣如下所示: 本     数量 折扣 …

python 图片背景前景分离_【绝了】用 Python 把朋友头像变表情包!

正文在日常生活中,我们经常会存取一些朋友们的丑照,在这个项目中,我们以萌萌哒的熊猫头作为背景,然后试着在背景图上加入朋友们的照片,效果如下图所示。实现步骤导入朋友的照片(前景照片);处理前景照片(缩放…

LeetCode 1899. 合并若干三元组以形成目标三元组

文章目录1. 题目2. 解题1. 题目 三元组 是一个由三个整数组成的数组。 给你一个二维整数数组 triplets ,其中 triplets[i] [ai, bi, ci] 表示第 i 个 三元组 。 同时,给你一个整数数组 target [x, y, z] ,表示你想要得到的 三元组 。 为了…

openpyxl 读写 excel

import openpyxl book openpyxl.load_workbook(b.xlsx) # 读取 # sheet book["name_tab"] sheet book.active # rowsheet.max_row # 行数 columnsheet.max_column # 列数 print(row) print(column) for r in range(2, row1): # 跳过表头,行号是从1开…

opengl计算帧率_或许是迄今为止第一篇讲解 fps 计算原理的文章吧

前言fps,是 frames per second 的简称,也就是我们常说的“帧率”。在游戏领域中,fps 作为衡量游戏性能的基础指标,对于游戏开发和手机 vendor 厂商都是非常重要的数据,而计算游戏的 fps 也成为日常测试的基本需求。目前…

041、基于CNN的样式迁移

之——基于CNN的滤镜 目录 之——基于CNN的滤镜 杂谈 正文 1.基于CNN的样式迁移 2.实现 杂谈 通过CNN的特征提取,可以实现将一个图片的样式模式特征迁移到另一张图像上。 正文 1.基于CNN的样式迁移 就是在某些层的输出上用其他的图片进行监督。 2.实现 一般来…

LeetCode 483. 最小好进制(二分查找)

文章目录1. 题目2. 解题1. 题目 对于给定的整数 n, 如果 n 的 k(k>2)进制数的所有数位全为1,则称 k(k>2)是 n 的一个好进制。 以字符串的形式给出 n, 以字符串的形式返回 n 的 最小 好进制。 示例 1&#xff…

LeetCode LCS 01. 下载插件

文章目录1. 题目2. 解题1. 题目 小扣打算给自己的 VS code 安装使用插件,初始状态下带宽每分钟可以完成 1 个插件的下载。 假定每分钟选择以下两种策略之一: 使用当前带宽下载插件将带宽加倍(下载插件数量随之加倍) 请返回小扣完成下载 n …

LeetCode LCS 02. 完成一半题目(计数+排序)

文章目录1. 题目2. 解题1. 题目 有 N 位扣友参加了微软与力扣举办了「以扣会友」线下活动。 主办方提供了 2*N 道题目,整型数组 questions 中每个数字对应了每道题目所涉及的知识点类型。 若每位扣友选择不同的一题,请返回被选的 N 道题目至少包含多少种…

摄像头图像分析目标物体大小位置_单个运动摄像头估计运动物体深度,谷歌挑战新难题...

雷锋网 AI 科技评论按:人类视觉系统有一个我们习以为然但其实极其强大的功能,那就是可以从平面图像反推出对应的三维世界的样子。即便在有多个物体同时移动的复杂环境中,人类也能够对这些物体的几何形状、深度关系做出合理的推测。然而类似的…

LeetCode LCS 03. 主题空间(广度优先搜索BFS)

文章目录1. 题目2. 解题1. 题目 「以扣会友」线下活动所在场地由若干主题空间与走廊组成,场地的地图记作由一维字符串型数组 grid,字符串中仅包含 “0"~"5” 这 6 个字符。 地图上每一个字符代表面积为 1 的区域,其中 …

SQL SERVER PIVOT 行转列、列传行

在数据库操作中,有些时候我们遇到需要实现“行转列”的需求,例如一下的表为某店铺的一周收入情况表: WEEK_INCOME(WEEK VARCHAR(10),INCOME DECIMAL) 我们先插入一些模拟数据: INSERT INTO WEEK_INCOME SELECT 星期一,1000 UNION…

mysql cluster 查看数据库表名称_MySQL Cluster如何创建磁盘表方法解读

MySQL Cluster采用一系列的Disk Data objects来实现磁盘表;接下来为您详细介绍一、概念MySQL Cluster采用一系列的Disk Data objects来实现磁盘表。Tablespaces:作用是作为其他Disk Data objects的容器。Undo log files:存储事务进行回滚需要的信息&…

(运算符) 运算符

& 运算符既可作为一元运算符也可作为二元运算符。 备注 一元 & 运算符返回操作数的地址(要求 unsafe 上下文)。 为整型和 bool 类型预定义了二进制 & 运算符。 对于整型,& 计算操作数的逻辑按位“与”。 对于 bool 操作数&am…

LeetCode 1903. 字符串中的最大奇数

文章目录1. 题目2. 解题1. 题目 给你一个字符串 num ,表示一个大整数。 请你在字符串 num 的所有 非空子字符串 中找出 值最大的奇数 ,并以字符串形式返回。如果不存在奇数,则返回一个空字符串 “” 。 子字符串 是字符串中的一个连续的字符…

mysql分页插件springboot_SpringBoot--使用Mybatis分页插件

1、导入分页插件包和jpa包org.springframework.bootspring-boot-starter-data-jpacom.github.pagehelperpagehelper-spring-boot-starter1.2.52、增加分页配置# 主键自增回写方法,默认值MYSQL,详细说明请看文档mapper:identity: MYSQL# 设置 insert 和 update 中,是…