实现成本最优的一体化管理,新一代数据平台的建设方式丨爱分析调研

导读
1.当前,企业在大数据和数据中台建设上取得成果,但数据开发管理仍具挑战性(成本、效率、复杂度)。

2.随数据平台领域成熟,厂商应结合自身需求,重新思考“基于开源自建数据平台”的重资产模式与“购买云上成熟数据产品”的轻资产模式。

3.组装式数据架构逐渐老旧。建议企业采用一体化为特点的新一代数据平台,能更好地解决成本优化、平台扩展性等问题,并可将更多资源投入到业务创新中。

十年数据平台建设,企业用户依然面临重重挑战。2013-2017年大数据平台建设,2018-2022年数据中台建设,两轮大规模数据平台建设后,企业用户取得一定成果,“数据驱动业务”理念深入人心,但在实际落地时,数据开发管理难度依然很大,数据需求响应速度依然不足。

DataFabric、DataOps、数据资产入表等多种解决方案兴起,从工具、流程、制度等维度去解决上述问题。这些方案都聚焦于数据开发管理这一层,更加贴近数据团队的日常工作,底层平台架构问题被掩盖,但同样需要关注。

01 企业的业务发展和精益管理对数据平台架构提出更高要求

宏观经济下行,“精益发展“成为多数企业经营策略后,企业用户数据平台建设现状已经暴露出诸多问题,需要新一代数据平台架构解决。

第一, 数据平台日益复杂多样,数据开发运维难度日益增长。

数据应用场景愈发复杂,针对单一应用构建数据平台模式不可持续。

从早期的数据报表,到敏捷BI自助分析、再到以机器学习和LLM为代表的AI应用,数据应用场景越来越复杂。

过往企业用户习惯于面向单个数据应用构建一套数据平台,无形之中形成了新的“数据烟囱”现象。同时,业务与技术的深度融合,单个业务问题往往需要多个数据应用方式组合解决,使得数据运维管理成本呈现指数级增长。

离线实时并存,多种数据处理方式促使平台运维管理难度大幅增加。

“数据驱动业务增长“理念在越来越多企业真正落地,管理层和业务部门对数据应用的实时性提出更高要求。新数据应用的响应速度要求从天级、小时级逐步提升至分钟级、秒级,而原有T+1跑批任务依然需要支持,这让数据平台运维管理难度越来越大。

第二,更多IT预算投入到直接产生业务收益的场景,数据基础设施需要更具”性价比“。

2023年,“降本增效“成为主流,企业IT投资分布出现非常大的调整,更多预算投入到业务场景,投入到能够直接看到业务收益的场景,2024年将延续这一趋势,这意味着数据基础设施建设需要更具”性价比“。

减少数据平台重复建设,提升数据基础设施ROI。

数据平台重复建设一方面是增加平台本身运维管理成本,另一方面会造成存储/计算资源的浪费。如果采取统一数据平台,可以大大提升底层计算/存储资源的利用率,从整体提高数据基础设施的投资回报率。

更多人力资源投入到业务场景,建设统一数据平台架构,提升数据开发运维管理效率。

不论是企业用户自身IT人员还是外部供应商的服务人员,都被企业用户更多投入到业务项目中,很多大企业甚至在2023年出现裁撤纯运维人员,补充IT业务人员的态势。

这意味着企业用户的IT部门/数据部门需要用更少的团队来维持同等规模甚至不断扩大规模的数据平台,必须要从架构层面进行优化和迭代,提升运维管理人效,才能支撑越来越复杂、越来越重要的数据平台。

第三,以大模型为代表的AI应用爆发式发展,对数据平台提出更高要求。

非结构化数据价值提升,数据平台需要同时满足多数据类型运维管理需求。

大量AI应用需要基于企业内部非结构化数据进行训练,这类数据呈现出海量、低价值密度等特点。采取结构化数据的存储计算处理方式非常不经济,但又需要跟结构化数据进行统一管理,因为很多应用是“规则引擎+机器学习+LLM“多技术融合实现。

AI应用落地对企业数据基础设施提出更高要求。

AI技术一般是上接业务系统,下接数据平台,只有业务系统和数据平台都相对成熟,才能真正发挥AI价值,这意味着,全公司级统一的知识库、数据资产目录、数据模型、数据字典成为必备条件,这些对数据架构提出更高要求。

02 成本优化难、平台扩展性差是当前中大型企业数据平台主要问题

针对数据平台建设,爱分析调研了快消、消费电子、制造、地产、物流等领域头部企业,现将部分问题呈现如下:

基于调研成果,爱分析总结出当前中大型企业在数据平台架构的普遍性问题有以下两点

第一,数据计算存储成本高,现有技术架构无法实现成本优化。

企业用户希望数据平台成本可控的前提下,实现数据处理能力和业务支撑能力的增长,但实际情况不尽如人意。中大型企业多数选择自建数据平台,由于自建需要锁定资源,因此不得不预留一部分能够满足业务高峰期的资源池,这就推高了日常资源成本。

同时,这是一个业务流程发展迭代越来越快的时代,需要的业务实时性越来越高,固定资源模式就会面临扩容或缩容便利性的问题。便利性不仅仅是购买机器加入集群,还涉及到数据的重新排布、数据业务的改造等。

第二,数据量日益增长,现有数据平台架构的横向和纵向拓展升级能力不足。

由于数据技术创新加快,现有数据平台建设和运维团队受限于投入不能跟进每一个技术热点,从维护HDFS、Hive,到Atlas、Hudi、Presto等链路,需要熟悉运维管理十几个数据组件,又面临新技术比如联邦计算、数据湖、实时数仓,AI整合、DataFabric等冲击。

很多企业用户为了避免“技术绑架”,选择在当前开源体系上进行改造或者直接使用开源商业化产品,技术红利逐渐已经被挖掘完毕,存在较低的“效果上限”,遇到天花板。比如hadoop开源体系组件化发展的特征缺乏统一架构的整合,这样整体优化方向比较困难,局部的优化又难以解决整体问题。

03 一体化、开放、弹性是新一代数据平台架构的主要特点

不论是从企业业务管理视角出发,还是从解决当前数据平台的普遍性问题,企业用户需要采用一体化、开放、弹性的新一代数据平台架构,局部“修修补补“只能缓解问题,并不能从根本上来解决。

基于调研,爱分析发现数据平台厂商在这个领域价值凸显。

海外在一体化数据平台领域,如Snowflake,专注于提供多云之上的数据仓库服务。该公司成立于2012年,以其数据云平台帮助企业整合数据、构建数据分析闻名。此外海外还有如Databricks,提供开放且一体的数据平台,近年和AI服务进一步整合。

国内以云器为代表的数据平台厂商,提供一体化代数据平台,并已经在不少互联网和传统企业落地。

一体化数据架构的特点包括:

数据存储层面,由湖仓一体架构承接Data+AI的统一数据底盘,同时满足结构化数据和非结构化数据的高性价比存储需求。
数据分析层面,以“增量计算模式”统一批、流、交互三种计算模式,解决组装式Lambda架构存在的问题。
应用支撑层面,基于湖仓一体底盘向上迭代,与下层存储及数据分析引擎实现融合计算,服务于机器学习模型的训练和推理环节。
湖仓一体和增量计算是新一代数据平台架构的核心技术能力,增量计算在解决实时离线一体化、计算成本高、低成本下提升更多数据新鲜度等问题比传统计算模式有着显著增强。

04 新一代数据平台建设路径、难点及业务收益

新一代数据平台建设一般分成三个阶段,关键问题确认及解决方案设计、场景确认及POC验证、生产交付实施。其中,第一阶段和第三阶段存在不少难点。

第一阶段最大难点是如何收敛问题,实现对关键问题的重点突破。

当前市场环境,数据平台建设需要兼顾长期建设目标和短期业务收益,需要企业用户和数据平台顾问仔细分析拆解数据业务场景中所遇到的数据问题和数据平台问题,先圈定一两个场景,从关键问题切入,再逐渐替换其它场景。

同时,重点考量成本及风险。除了平台核心计算能力成本,还要考虑迁移的成本,包含时间、人力成本以及迁移风险。

第三阶段最大难点是从现有平台如何平稳迁移到新的数据平台,需要企业用户的IT部门、数据部门、业务部门和数据平台厂商深度配合,主要是以下问题:

1)存量任务迁移:数据迁移往往比较简单,有很多自研工具或者生态工具可以使用,任务迁移往往挑战比较多,以云器的产品为例,云器LH语法层面兼容Spark3 SQL语法标准并在其上做了很多扩展,如果是RDD开发/Java开发/其他方言SQL,会涉及到语法转换问题,存在一定工作量。

2)企业用户资源投入:迁移实施过程中企业用户需要投入足够资源支撑,特别是在正确性/性能等指标等验收确认工作,资源不足会导致项目进度延期。

3)生产业务切换:涉及到企业用户的业务部门配合,存在大量沟通协调工作,在传统企业会存在“部门墙”等阻力。

基于实现路径和难点的分析,不难看出如何明确业务收益是影响新一代数据平台建设的关键因素。一方面明确业务收益能够有效评估成本高低,进而衡量数据平台建设的ROI;另一方面,明确业务收益能够帮助IT部门/数据部门更加容易获取管理层和业务部门的认可和资源支持,有助于部门之间深度配合,保证平台建设如期完成和上线。

基于实际企业用户落地案例,爱分析总结出以下几点业务收益。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/649136.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C语言】(3)字符

字符串 1. 字符串简介 在C语言中,字符串是由字符数组构成的序列,以空字符(\0)结尾。这个空字符不可见,用于标记字符串的结束。C语言中没有专门的字符串类型,通常使用字符数组表示字符串。 2. 声明和初始…

ARP攻击防范

概念 ARP(Address Resolution Protocol)安全是针对ARP攻击的一种安全特性,它通过一系列对ARP表项学习和ARP报文处理的限制、检查等措施来保证网络设备的安全性。ARP安全特性不仅能够防范针对ARP协议的攻击,还可以防范网段扫描攻击等基于ARP协议的攻击。 ARP泛洪攻击 1)A…

swift 进阶知识点

本文的知识点会比较散&#xff0c;是基础语法之外的一些进阶内容&#xff0c;如果有写的不妥的地方&#xff0c;欢迎评论区指正&#xff5e; Optional 可选值是通过枚举实现的&#xff1a; enum Optional<Wrapped> {case nonecase some(Wrapped)对于Optional<Wrapp…

React中实现虚拟加载滚动

前言&#xff1a;当一个页面中需要接受接口返回的全部数据进行页面渲染时间&#xff0c;如果数据量比较庞大&#xff0c;前端在渲染dom的过程中需要花费时间&#xff0c;造成页面经常出现卡顿现象。 需求&#xff1a;通过虚拟加载&#xff0c;优化页面渲染速度 缺点&#xff1a…

Facebook 广告帐户:多账号运营如何防止封号?

Facebook目前是全球最受欢迎的社交媒体平台之一&#xff0c;拥有超过27亿活跃用户。因此&#xff0c;它已成为个人和企业向全球受众宣传其产品和服务的重要平台。 然而&#xff0c;Facebook 制定了广告商必须遵守的严格政策和准则&#xff0c;以确保其广告的质量和相关性&…

一文搞懂Jenkins持续集成解决的是什么问题

1、持续集成的定义 大师 Martin Fowler 是这样定义持续集成的: 持续集成是一种软件开发实战, 即团队开发成员经常集成他们的工作. 通常, 每个成员每天至少集成一次, 也就意味着每天可能发生多次集成. 持续集成并不能消除Bug, 而是让它们非常容易发现和改正. 根据对项目实战的…

redis面试题合集-基础

前言 又来到每日的复习时刻&#xff0c;昨天我们学习了mysql相关基础知识&#xff0c;还有分布式数据库介绍&#xff08;后续总结时再持续更新&#xff09;。今日继续学习缓存杀器&#xff1a;redis redis基础面试题合集 什么是Redis&#xff1f; Redis是一个开源的、内存中…

【C++11并发】mutex 笔记

简介 在多线程中往往需要访问临界资源&#xff0c;C11为我们提供了mutex等相关类来保护临界资源&#xff0c;保证某一时刻只有一个线程可以访问临界资源。主要包括各种mutex&#xff0c;他们的命名大都是xx_mutex。以及RAII风格的wrapper类&#xff0c;RAII就是一般在构造的时…

docker 修改默认存储位置

✨✨✨✨✨✨✨ &#x1f380;前言&#x1f381;查看前面docker储存位置&#x1f381;移动文件位置&#x1f381;修改配置文件docker.service&#x1f381;修改daemon.json&#x1f381;加载配置并重启 &#x1f380;前言 最近服务出现系统盘满了,发现其中docker存储占用很大一…

Keycloak - docker 运行 前端集成

Keycloak - docker 运行 & 前端集成 这里的记录主要是跟我们的项目相关的一些本地运行/测试&#xff0c;云端用的 keycloak 版本不一样&#xff0c;不过本地我能找到的最简单的配置是这样的 docker 配置 & 运行 keycloak keycloak 有官方(Red Hat Inc.)的镜像&#…

基于固件库的RT-THREAD移植

为什么要使用操作系统 当我们进入嵌入式这个领域的时候&#xff0c; 往往首先接触的都是单片机编程&#xff0c; 单片机编程又首选 51 单片机来入门。 这里面说的单片机编程通常都是指裸机编程&#xff0c;即不加入任何 RTOS&#xff08;Real Time Operation System 实时操作系…

药物使用不当可能会导致耳聋,尤其是这6类,需警惕

耳聋的原因有很多&#xff0c;其中之一就是药物使用不当。有些药物具有耳毒性&#xff0c;也就是说&#xff0c;它们会损害内耳的结构和功能&#xff0c;导致听力下降或丧失。这种药物性耳聋有时是可逆的&#xff0c;有时则是永久的。那么&#xff0c;到底哪些药物会导致耳聋和…

SQL触发器练习

创建职工表以及职工工资表 职工表字段&#xff1a;工号&#xff0c;姓名&#xff0c;性别&#xff0c;年龄 工资表字段&#xff1a;编号自增&#xff0c;职工工号&#xff0c;基础工资10000 通过触发器实现&#xff1a; 对职工进行添加时 工资表中也要体现当前职工的信息 对职工…

Java工程师简历自我评价范文

Java工程师简历自我评价范文1 (一) 1. 在学习Core Java基础时,对一些Java常用类,其具体方法和参数不熟不会用 时,我经常会查询JavaAPI文档,使我养成了查询JavaAPI的良好习惯. 2. 在达内集中的系统培训项目过程中,能够一起和项目小组成员按时完成各个 模块,小组成员编写代码…

ctf-idea调试jar包

0.拿到jar包并解压 进入解压出来的目录,然后以该目录打开项目 1.设置maven 设不设置都行 2.添加依赖 添加两个依赖, boot-inf下的 classes和lib 3.配置调试器 添加 remote jvm debug 1.根据jdk版本选择调试参数 2.选择module classpath为解压后的文件夹名 如图,运行jar包的…

CDR绘图软件|安装教程来了(小白福利:有红包封面领取哦!)

前言 今天给小伙伴们讲讲&#xff1a;如何安装CDR软件。 如果未来的你想从事平面设计/广告行业&#xff0c;那应该就会接触到CDR这款软件。 CorelDRAW Graphics Suite是加拿大Corel公司的平面设计软件&#xff1b;该软件是Corel公司出品的矢量图形制作工具软件&#xff0c;这…

分布式调度解决方案之elastic-job

elastic-job elastic-job 是由当当网基于quartz 二次开发之后的分布式调度解决方案 &#xff0c; 由两个相对独立的子项目Elastic-Job-Lite和Elastic-Job-Cloud组成 。 Elastic-Job-Lite定位为轻量级无中心化解决方案&#xff0c;使用jar包的形式提供分布式任务的协调服务。 …

Confluence 的文章导入到 YouTrack KB 中

YouTrack 是有一个 KB 的&#xff0c;我们可以吧 Confluence 的文章全部导入到 YouTrack 的 KB 中。 首先&#xff0c;你需要具有管理员权限&#xff0c;然后选择导入。 然后可以在打开的界面中新增一个导入。 在新增导入中输入 Confluence 在随后的界面中输入你 Confluence …

【Hexo博客|Fluid主题】实现链接卡片效果

文章目录 前言一、CardLink库二、配置步骤1. 添加静态js文件2. 使库文件生效3. 编写启用CardLink4. 查看效果效果与前面一致。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/img_convert/06e0630f994d4d67a90e18e291c3fdc5.png#pic_center) 总结 前言 今天在阅读Github…

格子表单GRID-FORM | 嵌套子表单与自定义脚本交互

格子表单/GRID-FORM已在Github 开源&#xff0c;如能帮到您麻烦给个星&#x1f91d; GRID-FORM 系列文章 基于 VUE3 可视化低代码表单设计器嵌套表单与自定义脚本交互 新版本功能 &#x1f389; 不觉间&#xff0c;GRID-FORM 已经开源一年&#xff08;2023年1月29日首次提交…