2022已至,如果回看2021,这一年无疑是数据的价值进一步体现的一年。数据应用场景不断丰富,从工业、交通、金融到制造,几乎无处不在。当然,数据价值的迅速提升也给开发者和相关企业带来了新的问题。数据量的爆发让存储成本和数据预处理需求增加,数据使用场景的拓宽和大量的结构化数据和非结构化数据让实时处理难度变高,这对平台和用户都提出新的挑战。
站在数据时代的潮头,新兴技术和挑战在此期间集中爆发,而湖仓一体理念正帮助数据产业解燃眉之急。为什么这样说呢?这件事情可能要从数据仓库与数据湖最初的发展说起了。
解构数据时代,湖仓一体渐成风潮
放眼上个世纪,数据仓库已经能够解决绝大多数的数据问题。彼时,数据二字还代表着BI、仪表、趋势图、报表等结构化数据,这些数据大多来自企业内部和业务系统,极少来自外部。而结构化数据在分析时难度较小,数据仓库就可以满足企业需求。大约十年前,音频、视频、文本等非结构化和半结构化数据激增,以往数据仓库的问题便凸显了出来,用户对于数据更高的要求和数据多样性的矛盾逐渐凸显,这种情况下,数据湖便登上了技术的舞台。
与数据仓库相比,数据湖的价值在于,其能够很好的存储各类原始数据,通过对历史数据的分析生成新的数据维度,此外,集中存储企业全部数据,帮助企业完成信息追踪和一致性保障。但是数据湖的问题也一样存在的,其本身并不支持事务,SQL性能也很差,数据仓库依然不能舍弃。而那些由数据仓库转型建设了数据湖的企业们便开始找寻一个平衡的办法,把ELT流程变为一座桥,将数据湖与多个数据仓库沟通起来。
这种模式看似很好的解决了数据的处理难题,也让数据湖和数据仓库各司其职发挥作用,那为什么大家又会提出湖仓一体化的理念呢?这座“桥”难道不能让数据湖和数据仓库“一体化”吗?遗憾的是,这种做法短期确实可以发挥作用,但时间一长各种弊端就开始出现。
湖仓各自独立带来的是运维和架构的复杂性,一座桥也使得整体运营效率不高,再伴随企业需求的日益增加,湖仓规模的逐渐加大,企业在运维和成本方面的付出与日俱增。久而久之,湖仓分离的情况会逐渐成为压垮企业的稻草。
那么湖仓一体究竟意味着什么呢?拥有极速云数仓OushuDB的偶数科技对此进行了解释,湖仓一体意味着把数据湖与数据仓库真正融为一体。底层类似数据湖存储了结构化、半结构化、非结构化的各种数据,中间进行统一的加工处理,支撑起上层BI、AI、数据科学等各种应用。
放弃一道桥,得到的是江湖浩瀚,海阔天高。
湖仓一体化的价值在于其天然具备了数据湖和数据仓库的特性,并弥补了二者的缺点。其采用的存算分离架构,能够弹性的无限扩展,无论是结构化还是非结构化数据,均可通过HDFS和S3完成处理。这样的话不仅仅解决了架构复杂性难题,就连数据孤岛、数据共享、运维和成本等大量难题也因此迎刃而解。而且由于如今云原生技术的越发成熟,在其支持下,湖仓一体更是进一步蜕变成了数据处理的真正基石。
六大关键特性,打开湖仓一体大门
即便是湖仓一体本身,其构建也有着不同的路径选择。对于一些大厂而言,他们在数据湖和数据仓库方面有着很大的历史包袱,因此在湖仓一体的过程中会将两种产品结合起来打造一体化解决方案。而成立于2016年的偶数科技却不必背上这一包袱。他们打造的湖仓一体架构更贴近于技术发展潮流。
偶数科技的湖仓一体架构利用数据仓库的特性实现了数据湖的特性,能够支持结构化数据和非结构化数据的海量存储,保持存算分离,对海量数据节点能够实现弹性扩展。同时,偶数科技还通过可插拔存储实现了对于S3、HDFS及自研高性能表存储Magma的支持,以此实现了对于结构化、非结构化和半结构化数据的兼容。这就意味着避免了多份数据、多个集群与多个接口的问题,只需存一份数据,即可解决数据处理问题。
在业界来看,数据湖技术已经成熟,但数据仓库依然有各自的解决方案。因此在湖和仓之间如何更好地共享数据,如何支持用户的业务才是湖仓一体架构关注的核心问题。
偶数科技认为湖仓一体化的本质是一个平台,其湖仓一体具备六大关键特性,这成为了其湖仓一体产品的关键要素。
湖仓一体平台应该具备的特点
1. 低成本的全量数据的单一存储;
2. 高性能的数据引擎,其相比Hadoop引擎快30余倍;
3. 良好的可扩展性与敏捷性,这里主要是采用了存算分离的架构,进一步提升了高集群扩展性,可插拔存储框架能够支持不同存储系统或者格式;
4. 事务的一致性保证,支持事务一致性保证ACID,其能够简化程序应用负担的,让用户不再需要考虑事务问题;
5. 多样化工作负载,支持所有工作场景与负载场景,包括各类数据仓库的BI传统报表以及数据湖的AI应用等,均可在同一平台上实现支持;
6. 易于实现的数据治理,能够通过数据治理保障数据质量,更好的支持应用。
三大优势,奠定湖仓一体落地基础
在六大特性之外,偶数科技的湖仓一体产品还有三大技术优势存在。
传统架构与偶数湖仓一体架构对比
首先便是在成本方面的优势。在传统的湖仓产品中,运维需求大,人力成本高,大量的集群、节点、硬件投入叠加,需要在运维方面投入的成本极高;而OushuDB是云原生数据库,其采用了虚拟计算集群技术实现资源弹性伸缩共享并按需分配的,数据资源利用率得到极大提升,能够降低企业的硬件投入与人员成本。
其次便是方便于用户迁移。OushuDB是一种开放的架构,很多协议采用了业界标准协议,能够与标准产品及技术相兼容,其中包括了对标准语法、标准JDBC、ODBC连接等支持,其能够兼容客户大量的现有平台,而不必全盘推翻重构。
最后便是在性能方面的提升。湖仓一体化意味着对湖仓各自一体进行了整体提升。湖仓一体架构简洁,用户可以通过一个平台解决大量的中间层难题,降低运维工作量、工作复杂度、人员及管理成本,整体提升架构性能。
当然,湖仓一体化有着广阔的应用空间,而在行业部署时要基于各个行业对于IT环境及行业本身自己IT能力情况进行综合考量。数据应用的成熟度,在不同行业表现出来的状态不尽相同。银行、保险、证券、运营商、电力等行业对IT应用比较成熟,其IT基础能力也较强。很多企业已经走在了数字化转型前列,会比较容易接受湖仓一体产品。偶数的很多产品便在这些行业有所落地。但是长远来看,未来所有的企业都需要湖仓一体平台,因为数据不会单纯只有结构化数据,一定会有非结构化数据的,这是数据化转型必须要完成的命题。
从IT时代走进DT时代,原本结构化数据的独唱也迎来了非结构化数据竞演,数据的发展走向了湖仓一体,而企业们也必须随之而改变。基于湖仓一体,寻找未来答案,偶数科技在做的事情,就是在让更多企业找到数字化转型关键时期的那个答案。