朱亚东
本文由数元灵科技CEO朱亚东撰写并投递参与“数据猿年度金猿策划活动——2023大数据产业年度趋势人物榜单及奖项”评选。
大数据产业创新服务媒体
——聚焦数据 · 改变商业
在大数据经济的高速发展下,数据已经成为第5生产要素。打造以数据驱动为中心的标准化pipeline,包括从数据源头开始的数据流批一体实时同步管理、中间层的数据计算处理、数据价值的释放落地(BI、AI应用等),将成为大数据经济事实上的新基建,并有效推动国家的数字化经济的发展。
湖仓一体作为新一代大数据技术架构,将逐渐取代单一数据湖和数仓架构,成为大数据架构的演进方向。从传统数据库到数仓再到数据湖,数据架构一直伴随着业务需求的驱动不断迭代,使数据应用场景向复杂化、多元化转变,从最初的交易场景,到分析场景,再到混合场景、复杂分析场景,最后到如今的实时混合场景,大数据架构也在不断演进。在数据架构演进中,不同的架构方案也存在着缺陷:
1、传统数仓。传统数据仓库作为一个中心化的数据源,仍然沿用了数据库的架构,即计算存储耦合在一起,不方便扩展,成本较高。并且中心数据仓库通常需要专门团队来开发维护,面对纷繁的业务需求往往存在响应不及时等问题。
2、Hadoop数仓。目前有大量的企业使用 Hadoop + Hive 的方式搭建数据仓库。然而由于 Hive 无法支持实时、流式的场景,需要通过 Lambda 架构维护实时、批量两套数据处理逻辑,带来重复开发、数据口径不一致、架构复杂等问题。
3、数据湖。数据湖使用云上的对象存储,能够解决存储扩展性问题。然而数据湖原先是为存储任意类型的数据所设计,缺乏对元数据的组织管理,容易形成数据沼泽,难以发挥数据的价值。
4、湖仓一体。湖仓一体作为新一代架构,仍然需要解决 Hadoop/Lambda 架构的固有缺陷,即实时、批量无法统一。甚至由于对象存储的一些问题,实时计算的存储变得更加困难,性能也难以满足新兴的业务需求;各类 SQL、AI 的计算框架与对象存储的适配也不完善。
截至目前,整个大数据技术的发展呈现了几个典型的特点:
(1)开源协同;技术的发展和点滴推动,需要整个技术同行的共同努力推进,例如目前世界一些著名的技术软件平台都是国外的开源技术平台,例如Linux,Hadoop,Spark,Flink,PyTorch、Tensorflow等。所以我们要尤其注意推动国产开源大数据软件的发展,切实推动履行国家的“全流程自主可控”的战略;数元灵科技开源的国产唯一的湖仓框架LakeSoul,在开源之初就获得国内外众多的技术从业者的关注和支持,开源不到两年,GitHub star达2.2k,fork使用400+,通过工信部信创认证、国产生态认证等,并切实推动解决了多个大型国企多源异构数据的实时统一管理难题,也充分证明了国产开源软件的力量;进一步地,也更加需要全社会层面的开源协同,打造我国大数据软件的新基建。
我们也可以看到,目前国内各方对国产生态发展的促进,如海光产业生态合作组织(以下简称“光合组织”)等都积极推出了国产适配及信创认证等共同促进国产生态繁荣。近期,数元灵科技与光合组织携手合作,成功实现了LakeSoul与国产硬件平台的深度适配,为国内企业提供了高质量的技术选项,有效减少了对国外技术的依赖,提升了国产技术的自主性。有理由相信,随着国产软件与硬件的持续进步与发展,国家“全流程自主可控”的战略将得到更加有力的落实。
(2)云原生;基于社会分工的发展,无论是大型国企,还是中小企业,都会选择企业上云(公有云或私有云);那么在云原生的背景下,大数据相关技术的发展范式就有了新的特点,比如针对云原生的:资源动态伸缩,存算分离,服务API标准化等发生了新一轮的技术升级和探索。
(3)湖仓一体;随着大数据应用的越来越广泛和深入,整个大数据技术的发展出现了新的挑战。其中最典型的就是,大数据的源头呈现多渠道、大数据的结构呈现多模态、大数据的更新呈现多频次。那么如何针对多源异构多模态大数据的统一实时管理,就成为了一个新的挑战性问题。尤其是在数据作为新的生产要素背景下,有效解决这一挑战的意义更加重大,同时这也是目前多个社会基础行业面临的首要问题。湖仓一体的技术理念在这样的背景下呼之欲出,并获得了快速发展——在“数据湖/数据海洋”之上实现传统数据仓库的管理功能,进一步,在“湖仓一体”的大数据架构基础上,同时利用数据湖的灵活性和便捷性,实现下游的商业分析、人工智能应用的一体化。
(4)BI&AI一体化;传统的BI架构和AI落地通常是两套不同的技术架构,成本高昂,运维复杂,但本质上他们都属于大数据价值的释放。基于同一份原始大数据,下游生态既希望能看到商业策略维度的报表智能,也希望获得AI深挖的生态红利;相应的,作为基础“数据中台”,如何同时以一套服务同时支持BI和AI的落地,已然成为需要思考的新得技术方向。
(5)一站式;当前大数据和人工智能的技术红利,主要被头部的互联网公司所享用,大型国企和中小企业在相关领域的技术落地和推广都有所欠缺。这背后本质的原因是,国内尚未形成一套标准的一站式新基建技术平台,技术组件之间割裂严重,所以如何打造一个通用的一站式大数据智能平台,让更多的行业和技术从业者享受到更加普惠、便捷的大数据人工智能技术红利,会是我国未来数字化经济升级和发展的重中之重。
今天随着大语言模型的蓬勃发展,对背后的大数据技术体系也形成新的技术挑战。大模型的应用对数据能力的要求有如下特点:
1、规模大:数据集的规模呈指数级增长;
2、质量高:需要对数据进行大量的采集、清洗、标注工作;
3、迭代快:需要数据-模型-数据的快速反馈迭代。
这些特点都对传统的大数据体系形成新的挑战,需要我们重新思考设计下一代的大数据体系。
最后,随着海量数据的日益迸发,各行各业都面临着全新商业范式的挑战;从基础的大数据体系建设,到上层应用生态的搭建,都需要新的思考。而这一切背后的本质就是促进数据生产要素的快速流动,带动社会经济的快速发展;构建前沿完善的数智化基建体系,数字经济才得以夯实、落地、迸发新的时代力量。
·关于朱亚东:
朱亚东,博士毕业于中科院计算所,之后就职于阿里巴巴,先后担任手淘首页猜你喜欢、交易链路、天猫个性化推荐的算法负责人;并先后荣获集团优秀算法、阿里巴巴集团 CEO 特别贡献奖;2016 年双 11 基于强化学习的电商个性化推荐工作入选世界 MIT Technology 2017 世界十大技术创新之一;2017年加入汇量科技,担任集团副总裁,负责集团 AI + Bigdata 相关的中台基础架构研发,以及各个前台业务线的算法策略落地;2021年创立北京数元灵科技,担任创始人兼 CEO,公司专注于一站式的湖仓智能新基建。