数据中台 VS 传统大数据平台,这 8 点区别要了解

作者 | 彭锋 宋文欣 孙浩峰

来源 | 大数据DT

头图 | 下载于视觉中国

传统大数据平台和数据仓库是数据中台的数据来源,建设数据中台是为了更好地服务于业务部门。

下图展示了信息化系统、数据仓库、传统大数据平台、数据中台之间的关系,其中的箭头表示数据的主要流向。

▲图1-1 数据中台与传统大数据平台、数据仓库的关系

数据中台与传统大数据平台到底有什么区别?

为了叙述方便,我们先给出传统大数据平台的架构(见图1-2)。

▲图1-2 传统大数据平台

  • 大数据基础能力层:Hadoop、Spark、Hive、HBase、Flume、Sqoop、Kafka、 Elasticsearch等。

  • 在大数据组件上搭建的 ETL流水线,包括数据分析、机器学习程序。

  • 数据治理系统。

  • 数据仓库系统。

  • 数据可视化系统。

可以看到,这些是传统大数据平台的核心功能。在很多大数据项目里,只要把这些系统搭起来,每天可以生成业务报表(包括实时大屏),就算大数据平台搭建成功了。

但数据中台应该是大数据平台的一个超集。我们认为,在大数据平台的基础之上,数据中台还应该提供下面的系统功能。

1. 全局的数据应用资产管理

这里所说的数据应用资产管理包括整个生态系统中的数据和应用。传统的数据资产管理绝大部分只包括关系型数据库中的资产(包括Hive),而一个数据中台应该管理所有结构化、非结构化的数据资产,以及使用这些数据资产的应用。

如果传统的数据资产管理提供的是数据目录,那么数据中台提供的应该是扩展的数据及应用目录。要避免重复造轮子,首先要知道系统中有哪些轮子,因此维护一个系统中数据及数据应用的列表是很关键的。

2. 全局的数据治理机制

与传统的数据治理不一样,数据中台必须提供针对全局的数据治理工具和机制。传统数据仓库中的数据建模和数据治理大多针对一个特定部门的业务,部分原因是全局数据建模和治理周期太长,由于存在部门之间的协调问题,往往难度很大。

数据中台提供的数据治理机制必须允许各个业务部门自主迭代,但前提是要有全局一致的标准。阿里提出的OneID强调全局统一的对象ID(例如用户ID),就属于这个机制。

3. 自助的、多租户的数据应用开发及发布

现有的绝大部分大数据平台要求使用者具备一定的编程能力。数据中台强调的是为业务部门赋能,而业务人员需要有一个自助的、可适应不同水平和能力要求的开发平台。这个开发平台要能够保证数据隔离和资源隔离,这样任何一个使用系统的人都不用担心自己会对系统造成损害。

4. 数据应用运维

用户应该可以很方便地将自己开发的数据应用自助发布到生产系统中,而无须经过专门的数据团队。因为我们需要共享这些应用及其产生的数据,所以需要有类似于CI/CD的专门系统来管理应用的代码质量和进行版本控制。

在数据应用运行过程中产生的数据也需要全程监控,以保证数据的完整性、正确性和实时性。

5. 数据应用集成

应该可以随时集成新的数据应用。新的大数据应用、人工智能工具不断涌现,我们的系统应该能够随时支持这些新应用。如果数据中台不能支持这些应用,各个业务部门可能又会打造自己的小集群,造成新的数据孤岛及应用孤岛。

6. 数据即服务,模型即服务

数据分析的结果,不管是统计分析的结果,还是机器学习生成的模型,应该能够很快地使用无代码的方式发布,并供全机构使用。

7. 数据能力共享管理

大部分数据能力应当具有完善的共享管理机制、方便安全的共享机制以及灵活的反馈机制。最后决定数据如何使用的是独立的个人,他们需要一套获取信息的机制,因此在机构内部必须要有这样的共享机制,才能真正让数据用起来。

8. 完善的运营指标

数据中台强调的是可衡量的数据价值,因此,对于数据在系统中的使用方式、被使用的频率、最后产生的效果,必须要有一定的运营指标,才能验证数据的价值和数据中台项目的效率。

综合上面的讨论,除了阿里巴巴提出的OneID、OneModel、OneService之外,我们认为数据中台还应该满足以下两个要求。

1. TotalPlatform

所有中台数据及相关的应用应该在统一平台中统一管理。如果有数据存储在中台管理不到的地方,或者有人在中台未知的情况下使用数据,我们就无法真正实现对数据的全局管理。这要求数据中台能快速支持新的数据格式和数据应用,便于数据工具的共享,而无须建立一个分离的系统。

2. TotalInsight

数据中台应该能够理解并管理系统中数据的流动,提供数据价值的定量衡量,明确各个部门的花费和产出。整个中台的运营是有序可控的,而不是一个黑盒子,用户可以轻松理解全局的数据资产和能力,从系统中快速实现数据变现。

如图1-3所示,数据中台可以说是按照一定的规范要求建设的数据能力平台,在数据仓库、大数据平台、数据服务、数据应用的建设中实现了符合OneID、OneModel、OneService的数据层。

这个数据层,加上在其上建立的业务能力层以及运营这个数据中台需要的TotalPlatform、TotalInsight,形成我们看到的数据中台。

▲图1-3 数据中台的五大要求

微软每年豪砸安全研发 10 亿美元,聊聊背后的技术密码
何为“边缘计算”?“一学就会”的微服务架构模式
除了 k8s,留给 k 和 s 中间的数字不多了!
到底是谁发明了物联网?
再见 Nacos,我要玩 Service Mesh 了!
点分享点收藏点点赞点在看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/514968.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

腾讯云~Kafka 监控 Kafka Eagle 图形化版本

文章目录1. 安装包下载2. 开启kafka JMX3. 安装JDK,配置JAVA_HOME4. 上传安装包、解压5. 配置Kafka-eagle环境变量6. 配置Kafka_eagle7. 配置ke.sh8. 启动Kafka_eagle9. 防火墙10. 访问Kafka eagle1. 安装包下载 官网地址:EFAK 本文使用3.0.1版本 2. …

维大杀器来了,未来云上服务器或将实现无人值守

云原生时代下,企业的IT运维面临架构复杂化、业务需求多样化和运维数据海量化等挑战,如何能够实现精准告警、异常智能诊断、根因定位、异常预测和异常自动修复,已成为企业数字化转型的急迫需求。 9月26日,阿里巴巴高级技术专家滕圣…

一家化纤工厂的数字化转型之路

在数字经济的浪潮中,零售业被公认为是数字化程度最高的行业,而与此形成鲜明对比的中国传统制造业,大部分还处于观望状态。当前,国内外形势正在发生深刻复杂的变化,越来越多的制造企业希望通过业务数字化与智能化&#…

java安全编码指南之:异常处理

异常简介 先上个图,看一下常见的几个异常类型。 所有的异常都来自于Throwable。Throwable有两个子类,Error和Exception。 Error通常表示的是严重错误,这些错误是不建议被catch的。 注意这里有一个例外,比如ThreadDeath也是继承自…

变局之际,聊聊物联网的过去、现在和未来

来源 | 鲜枣课堂头图 | 下载于视觉中国大家好,我是小枣君。前两天,我去上海参观了 IOTE物联网展。通过在现场的见闻,以及和专家们的交流探讨,我深刻感受到,物联网行业已经来到了一个重要的十字路口,将会发生…

130 秒揭秘 EDAS 3.0 如何平滑应对突发流量高峰,为您的业务保驾护航

云原生时代下,企业的IT运维面临架构复杂化、业务需求多样化和运维数据海量化等挑战,如何能够实现精准告警、异常智能诊断、根因定位、异常预测和异常自动修复,已成为企业数字化转型的急迫需求。 9月26日,阿里巴巴高级技术专家滕圣…

不重新打包,只修改 jar 包中的某个文件、某个类

用到的工具:WinRAR 特别注意:不能使用 7z,等其他打包工具(或者如果测试其他打包工具可以用,可以补充留言) 问题,一个已经打好的 jar 包,我只修改了其中一个类,如何替换。…

Spark On MaxCompute如何访问Phonix数据

简介: 如何使用Spark On MaxCompute连接Phonix,将Hbase的数据写入到MaxCompute的对应表中,目前没有对应的案例,为了满足用户的需求。本文主要讲解使用Spark连接Phonix访问Hbase的数据再写入到MaxCompute方案实践。该方案的验证是使…

码住!Flink Contributor 速成指南

简介: 不管初衷是什么,Flink 都非常欢迎大家一起建设和完善社区。在开始具体的贡献步骤之前,我们先简要介绍一下参与贡献的几种途径,以及 Clarify 关于开源贡献的一些固有印象。 作者:伍翀(云邪&#xff0…

手机访问真机调试显示: Cannot add property markTimeline, object is not extensible 怎么解决

实战 \SpringBootVue3 项目实战,打造企业级在线办公系统 3-2 用户登陆系统的流程说明 手机访问真机调试显示: Cannot add property markTimeline, object is not extensible 解决方案: 手机开热点让电脑连接,windows防火墙关闭…

浅谈MaxCompute资源规划管理及评估

简介: 本文主要介绍如何进行MaxCompute存储资源和计算资源的评估及规划管理。 一、MaxCompute资源规划背景介绍 MaxCompute资源主要有两类:存储资源、计算资源(包含cpu和内存)。存储资源用于存储MaxCompute的库表数据,计算资源用于运行sql、…

如何无缝迁移 SpringCloud/Dubbo 应用到 Serverless 架构

作者 | 行松 阿里巴巴云原生团队 本文整理自《Serverless 技术公开课》,“Serverless”公众号后台回复“入门”,即可获取系列文章 PPT。 背景 通过前面几节课程的学习,相信大家对于 SAE 平台已经有了一定的了解,SAE 基于 IaaS 层…

从程序媛到启明星辰集团云安全总经理,郭春梅博士揭秘云时代安全攻防之道...

从无序中寻找踪迹,从眼前事探索未来。2021 年正值黄金十年新开端,CSDN 以中立技术社区专业、客观的角度,深度探讨中国前沿 IT 技术演进,推出年度重磅企划栏目——「拟合」,通过对话企业技术高管大咖,跟踪报…

汽车仿真效率30%↑、药物研发效率20倍↑,阿里云获HPC CHINA 2020“最佳行业应用奖”

简介: 近日,HPC CHINA 2020 大会以线上线下——双线联动的形式同步召开,近 300 位重量级高性能计算(超算)领域专家学者与业界精英人士、CCF 高专委委员汇聚郑州,共同探索高性能计算的发展。 在本届 HPC CH…

linux 安装mysql5.7.25_生产版本

文章目录一、配置安装1. 部署总览2. 下载软件3. 解压重命名4. 创建组5. 安装数据库6. 配置my.cnf7. 添加开机启动8. 配置数据木库9. 启动mysql10. 登录修改密码11. 允许远程连接一、配置安装 1. 部署总览 服务器端口说明192.168.52.1223306master 2. 下载软件 mkdir /app cd…

山石网科发布重磅容器安全产品“山石云铠”,云安全版图再下一城

编辑 | 宋 慧 出品 | CSDN云计算 5月18日,山石网科正式发布了云安全的重磅新品——山石云铠。至此,山石网科云计算安全版图补全“容器安全”板块,已完成目前主流虚拟化技术及云服务场景网络安全产品的全面覆盖。 虽然是非常重要的产品发布&…

平台式可复用的应用集成能力,助您敏捷、高效的完成企业数字化转型

简介: 企业数字化转型往往是一个长期持续的过程,产品变革和技术迭代也在加速演进,连接性是数字化转型的关键推动因素,甚至将决定成败。为了应对普遍的集成要求,企业需要新一代更敏捷的集成能力框架,基于高效…

阿里云DNS 新增云上线路的智能解析功能

简介: 企业在云上部署单元化架构或内部服务链路时,需要考虑让数据(单元)离用户更近,避免跨单元获取数据,以此来满足自身低延时的诉求。阿里云DNS 新增基于云上链路的调度功能,进一步优化DNS智能…

进击的数据中台,企业数字化转型的新引擎

经历过“追捧”和“质疑”等种种考验后,当前,数据中台已经走到验证其价值的关键路口。 数据中台是企业数字化转型新引擎 在人工智能、大数据等技术发展和企业数字化转型加速的双重驱动下,2019年,数据中台在众多赛道中脱颖而出&a…

关于低代码真实技术趋势,听低代码巨头 Mendix 怎么说

作者 | 宋慧 出品 | CSDN云计算 在 2021年初正式宣布进入中国市场 之后,Mendix 在近日向媒体重点披露了关于低代码的技术方法论,以及近四个月在中国市场的进展。 Mendix 的低代码技术方法论 对于低代码常被讨论的模型驱动部分,Mendix 希望做…