数据集成赛道重回数据领域兵家“必争之地”!

作者 | 郭炜

导读:此前,《技术成熟度曲线2024》第一、二部分内容已发布,详见《「从ETL 到ELT,到 EtLT的趋势」》、《数据集成成熟度模型解读》。本文为报告的最后一篇,主要对数据集成技术进行趋势预测与总结,并讲解如何使用数据集成成熟度模型。

趋势

数据集成在未来几年随着EtLT架构的普及,很多新型的场景会出现,同时数据虚拟化、DataFabric对于未来数据集成也会有重大影响:

  • 多云集成:这在全球已经很普及,大部分的数据集成都具有跨云的集成能力,在中国因为云尚未普及,所以这方面还在早期孵化阶段。
  • ETL一体化:随着ETL周期性的衰退,大部分的企业会从Kettle,Informatica,Talend等工具逐步迁移到新兴的EtLT架构,从而支持批流一体的数据集成,也支持更多的新兴数据源。
  • ELT:目前主流的大数据架构基本都ELT架构,随着实时数据仓库、数据湖的兴起,ELT相关工具会逐步升级到EtLT工具,或者在原有ELT架构上增加实时EtLT工具以弥补ELT架构对实时数据支持的缺失。
  • EtLT:全球范围里,包括像JpMogan、Shein、Shoppe等企业嵌入到EtLT架构当中,会有更多的企业会讲内部数据集成工具进入到EtLT架构,配合批流一体的调度系统满足企业DataOps相关需求。
  • 自动化治理:随着数据源和实时数据的增加,传统的治理流程已经无法满足实时分析对于时效性的分析,自动化治理在未来几年内会在企业内部逐步兴起。
  • 大模型支持:在大模型深入企业应用中后,如何给大模型供数成为数据集成必备的技能,传统的ETL和ELT架构都比较难适配大模型这种实时性高,批量数据比较大的场景,因此EtLT架构会和大模型普及一起深入多数企业当中。
  • ZeroETL:这是亚马逊提出的概念,认为数据存储在S3上,可以通过各种引擎直接来访问,而不需要进行不同引擎之间的ETL。某种意义来讲,如果数据场景不复杂,数据量不大,少量引擎就可以满足OLAP和OLTP需求这种存算分离是企业最佳方案。但是由于场景支持过少,性能不佳等问题,导致未来一段时间还需要一段时间沉淀才可以得到更多企业的认可。
  • DataFabric:现在多家企业提出利用DataFabric的元数据来管理所有数据,查询不用再进行ETL/ELT,而是直接访问底层数据。目前这种技术还处于实验阶段,查询的响应和场景适配难度都比较大。针对简单场景的少量数据查询是可以满足需求的,未来很长的一段时间,针对大数据复杂场景,还是需要EtLT架构来进行。
  • 数据虚拟化:基本思路类似于DataFabric的执行层,数据不需要挪动,通过即席查询接口和计算引擎(例如 Presto,TrinoDB)来直接翻译底层数据存储或者数据引擎的数据进行查询。但是,问题也是在大量数据情况下,引擎查询效率、内存消耗往往达不到需求预期,因此只在少量数据情况下使用。

小结

从整体趋势来看,随着全球数据爆炸性增长,大模型的出现,处理各种场景的数据引擎也如雨后春笋般层出不穷,而实时数据的兴起也让数据集成这个赛道重新回到数据领域兵家必争之地的局面。如果说数据是一种新能源,那么数据集成就像是新能源的管道,数据引擎越多,要求管道的效率、数据源兼容性、易用性就会越来高。

虽然数据集成在最终会面临Zero ETL、数据虚拟化、DataFabric的挑战,但是在可见的未来,这些技术的性能、准确率和ROI一直无法达到数据集成的普及程度,否则美国最流行的数据引擎不应该是SnowFlake或者DeltaLake,而应该是TrinoDB。当然,我相信,未来10年在DataFabric x 大模型情况下,虚拟化+EtLT+数据路由的方式可能才是最终数据集成的解决方案。

总之,只要数据永远在扩张,数据之间的管道就会永远存在。

如何使用数据集成成熟度模型

首先针对可以根据成熟度模型可以看到全面的当前及未来10年内数据集成可能使用到的技术点,对于个人技术发展,企业技术架构设计、选型给了一个全面的地图,同时也对数据集成行业发展重点给出启示。

对于企业来讲,技术成熟度可以判断一个技术投入程度,对于成熟期的技术现有企业一定已经使用了类似的技术很多年了,支持业务已经非常成熟;因为技术发展已经进入瓶颈,如果有更优秀的热门期的技术可以考虑更新以换取更高的业务价值;在衰退期的技术,大部分企业在使用当中开始发现它在支持业务方面的瓶颈和问题,基本在未来3-5年内就会逐步被热门期或者成长期技术所取代,这部分技术企业如果要新引入这类技术可以考虑其业务价值和企业现状;对于热门期的技术,企业选择会优先考虑,因为这部分技术已经在早期大众(Early Majoniy ,超过70%的人群)中得到了充分验证,大部分企业和技术公司都在热捧这类技术,同时它的业务价值得到验证,未来1-2年很快占据市场主导地位;成长期的技术,企业选择时要根据它对自己的业务价值考虑,这部分技术已经度过前瞻期,技术价值和业务价值已经在早期使用者(Early Adopter)当中得到验证,不过因为市场品牌宣传等原因还未全面普及,对于业务价值比较高的技术企业可以考虑采用,成长期的技术有很大概率会成为热门期技术以及未来的企业标准;前瞻期的技术一般都是比较前沿的技术,属于早期尝鲜者正在使用的技术,都具有一定的业务价值,但是技术通用性和ROI还未得到验证,一般对企业业务价值比较大的部分可以考虑小范围使用。

对于个人来讲,成熟期和衰退期的技术已经没有学习和钻研价值,大部分是已经普及的技术,会使用即可;钻研热门期的技术有利于找工作,因为这部分是业界热捧的技术,企业需求旺盛、学习材料也非常多,不过这方面的学习的竞争者也比较多,需要有一定深度才可以脱颖而出;成长期的技术值得个人选择其中一些方向深入学习,因为这部分技术在未来有很大概率成为热门技术,而个人前期在成长期阶段积累的经验可以在这些业务成为热门阶段的时候,你成为“专家”而脱颖而出,快人一步;而前瞻期的技术,对于技术极客来讲,可以投入精力来研究,这部分的技术往往可能酝酿着“颠覆式”创新,成为未来热点,但是也可能被验证失败,普通技术人员根据自己的爱好来选择,这部分技术对于找工作和日常实战来讲距离还比较远,对于一些前瞻性的公司来讲,这些技术面试的时候会被提问来考察个人技术的前瞻性。

⭐️技术成熟度定义:

  • 前瞻期:技术仍处于研究开发阶段,技术社群主要探索技术的实际应用可行性和潜在的市场价值,尽管业界对此技术的认识尚浅,但已经识别到高价值的需求。
  • 成长期:随着技术开始进入实际应用阶段,市场上出现越来越多的竞争者,伴随着各种技术路径的并行发展。此时,技术社群重点关注如何克服实际应用中的挑战,并最大化其商业价值,尽管业界对这些技术的兴趣日益浓厚,其在商业上的价值仍未完全显现。
  • 热门期:技术发展达到高潮,技术社群力求推动技术性能达到极致,业界对该技术的关注也达到顶峰,并且技术开始显著体现出商业价值。
  • 衰退期:技术路径开始呈现优劣分明,市场对于技术的优化和整合提出更高要求,此外,业界开始认识到技术在提升业务价值方面的局限性和边界。
  • 成熟期:技术路径趋于统一并标准化,技术社群关注点转向如何降低成本并提高效率,业界同样关注成本效益,基于成本效益分析来评估技术的优先级和应用广度。

💰业务价值定义:

  • 5星:相关技术点/业务单元的降本/收益贡献占部门总收入的50%及以上,或由高级总监及以上级别(如VP等)的管理人员负责。
  • 4星:相关技术点/业务单元的降本/收益贡献占部门总收入的40%至50%之间,或由总监级别的管理人员负责。
  • 3星:相关技术点/业务单元的降本/收益贡献占部门总收入的30%至40%,或由高级经理级别的管理人员负责。
  • 2星:相关技术点/业务单元的降本/收益贡献占部门总收入的20%至30%,或由经理级别的管理人员负责。
  • 1星:相关技术点/业务单元的降本/收益贡献占部门总收入的5%至20%之间,或由主管级别的管理人员负责。

⭐️技术难度定义:

  • 5星:投入顶级行业专家团队12个月以上。
  • 4星:投入行业专家或高级架构师团队12个月以上。
  • 3星:投入架构师团队6个月左右。
  • 2星:投入高级程序员团队1-3个月。
  • 1星:投入普通程序员团队1-3个月。

    本文由 白鲸开源科技 提供发布支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/22286.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python的DataFrame和Series

Series、DataFrame 创建 pd.Series() pd.DataFrame() # 字典{列名:[值1,值2],} [[]] [()] numpy Pandas的底层的数据结构,就是numpy的数组 ndarray 常用属性 shape (行数,) (行数,列数) values → ndarray index 索引名 siz…

华为管理工程部的前世今生

我们经常讲管理是一项系统工程,但在企业实际的管理建设和改进中,往往又并没有把管理当作一项系统工程来对待,更没有通过持续的管理变革或业务变革(BT,Business Transformation)来打造这一系统工程&#xff…

磐石云pscc系统电话不能正常使用,或者接不到电话,什么情况?

磐石云PSCC系统电话无法正常使用或接不到电话可能会出现以下情况: 网络问题:可能是由于网络连接不稳定或网络设置问题导致系统电话功能无法正常工作。建议检查网络连接是否正常,确保网络稳定。 系统配置问题:可能是由于系统配置错…

ffmpeg.dll在哪个文件夹?怎么快速的修复ffmpeg.dll文件的丢失

在处理多媒体文件时,ffmpeg.dll文件扮演着至关重要的角色。它是FFmpeg项目的一部分,该项目提供了一套能够录制、转换和流化音视频的工具和库。用户有时可能会遇到 ffmpeg.dll文件丢失的问题,这个问题可能会妨碍视频编辑软件等应用程序的正常运…

Python 表达:探索语言艺术的深度与广度

Python 表达:探索语言艺术的深度与广度 Python,这门简洁而强大的编程语言,以其优雅的表达方式吸引着无数开发者。在Python的世界中,表达不仅关乎代码的执行,更是一种艺术。本文将分四个方面、五个方面、六个方面和七个…

《计算机在材料科学中的应用》、《计算材料学》、《计算化学》、《计算物理学》、《计算矿物学》、《量子动力学与光谱》这些高校课程,优秀大学的老师都是怎么讲的?

《计算机在材料科学中的应用》、《计算材料学》、《计算化学》、《计算物理学》、《计算矿物学》、《量子动力学与光谱》等高校课程面临以下问题 PWmat开课优势:拥有30余年代码开发经验,产品拥有自主知识产权,软著和知识产权均国产化网上可查…

零基础python爬虫从入门到精通

零基础python爬虫从入门到精通 课程介绍学习地址下期更新预报 课程介绍 本套视频教程适合想掌握爬虫技术的学习者,以企业主流版本Python 3.7来讲解,内容包括:Python基础、Urllib、解析(xpath、jsonpath、beautiful)、…

BM25算法以及变种算法简介

深入理解TF-IDF、BM25算法与BM25变种:揭秘信息检索的核心原理与应用 原文链接: https://xie.infoq.cn/article/8b7232877d0d4327a6943e8ac BM25算法以及变种算法简介 Okapi BM25,一般简称 BM25 算法,在 20 世纪 70 年代到 80 年代…

Windows 11下载以及安装教程

1.下载安装 Windows 有三种下载方式,根据需求,选择其中一种方式就可以。 安装助手 下载工具,进行下载 下载Windows 11 镜像文件ISO 安装后效果 查看状态 2.下载 Windows 工具 https://pan.baidu.com/s/1dFl9QQ1rIGcsZLUD0dym6A?pwdwin1…

MYSQL数据库客户端常规指令使用

这里新开一章,对MYSQL进行更加底层的系统的一个学习 Mysql常用工具简介 emmmm这里的话就默认大家在linux系统上面都进行了MYSQL的安装了. 在mysql安装完成之后,一般在路径 /usr/bin 下的 我们对该路径进行一个文件的展示 这里是展示出来的辅助工具 …

海外短剧新体验:多平台适用,语言无障碍

前言 在数字化时代的浪潮下,海外短剧作为一种新兴的视听媒介,正逐渐走进我们的生活。这些由国外制作团队精心打造的短片或微电影,不仅内容丰富多彩,更在跨文化传播中展现出独特的魅力。 一、海外短剧系统有什么亮点? …

JS面试题:hash和history的区别

一、hash 模式和 history 模式的介绍 由于 Vue 项目为单页面应用,所以整个项目在开发和构建过程中,仅存在一个HTML物理文件。通过路由系统可以实现将项目的组件与可访问的URL路径进行绑定。由于Vue项目只有一个HTML物理文件,切换页面时既需要…

Android中打印某应用的堆栈信息

先更具报名获取pid adb shell "ps|grep 包名" zygote的堆栈dump 实际上这个可以同时dump java线程及native线程的堆栈&#xff0c;对于java线程&#xff0c;java堆栈和native堆栈都可以得到。 kill -3 <pid> debuggerd的堆栈dump debuggerd是android的一个…

20240604将OK3588-C的核心板刷机Buildroot之后强制横屏

20240604将OK3588-C的核心板刷机Buildroot之后强制横屏 2024/6/4 17:13 viewproviewpro-ThinkBook-16-G5-IRH:~/repo_RK3588_Buildroot20240508/kernel/arch/arm64/boot/dts/rockchip$ grep dsi0 . -R ./Makefile:dtb-$(CONFIG_ARCH_ROCKCHIP) rk3568m-serdes-evb-display-dsi…

代码解读 | Hybrid Transformers for Music Source Separation[01]

一、背景 今天对Hybrid Transformer Demucs代码进行解读&#xff0c;目标&#xff1a;明确图c中各个模块对应的代码具体在工程的哪个地方。解读的代码是开源工程中的htdemucs.py。 具体的paper解读看这篇文章。 二、代码解读 算法整体流程&#xff1a;图c其实是从下往上看的&a…

描述JSP的内置对象

JSP&#xff08;JavaServer Pages&#xff09;内置对象&#xff08;也称为隐式对象或预定义对象&#xff09;是JSP容器为每个页面提供的Java对象&#xff0c;开发者可以直接在JSP页面中使用它们&#xff0c;而无需显式声明。这些内置对象提供了对JSP页面运行环境信息的快速访问…

快速入门C++正则表达式

正则表达式&#xff08;Regular Expression&#xff0c;简称 Regex&#xff09;是一种强大的文本处理工具&#xff0c;广泛用于字符串的搜索、替换、分析等操作。它基于一种表达式语言&#xff0c;使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。正则表达式不仅在…

Linux 网络配置 01

基本命令 1、查看网络接口信息ifconfig ifconfig&#xff1a;当前设备正在工作的网卡&#xff0c;启动的设备 ifconfig -a &#xff1a;所网络设备 ifconfig信息解析&#xff1a; ens33: flags4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500inet 192.168.10.10 n…

golang接口/枚举/结构使用示例

1.接口定义 // geometry : 定义接口 type geometry interface {area() float64 //函数名 返回类型perim() float64 //函数名 返回类型 } 2.结构定义 // 定义结构area type rect struct {width, height float64 //同类成员写一行&#xff0c;逗号隔开 / 成员名 类型 }// …