湖仓一体化的路,很多人都只走了一半

529d88bce685fa512f33968ac60c93de.gif

d8669a2cc169185138bc53ed90b976ed.png

2022已至,如果回看2021,这一年无疑是数据的价值进一步体现的一年。数据应用场景不断丰富,从工业、交通、金融到制造,几乎无处不在。当然,数据价值的迅速提升也给开发者和相关企业带来了新的问题。数据量的爆发让存储成本和数据预处理需求增加,数据使用场景的拓宽和大量的结构化数据和非结构化数据让实时处理难度变高,这对平台和用户都提出新的挑战。

站在数据时代的潮头,新兴技术和挑战在此期间集中爆发,而湖仓一体理念正帮助数据产业解燃眉之急。为什么这样说呢?这件事情可能要从数据仓库与数据湖最初的发展说起了。

9bbf1cb7e8d1e0913c3c630ae7072ba3.png

解构数据时代,湖仓一体渐成风潮

放眼上个世纪,数据仓库已经能够解决绝大多数的数据问题。彼时,数据二字还代表着BI、仪表、趋势图、报表等结构化数据,这些数据大多来自企业内部和业务系统,极少来自外部。而结构化数据在分析时难度较小,数据仓库就可以满足企业需求。大约十年前,音频、视频、文本等非结构化和半结构化数据激增,以往数据仓库的问题便凸显了出来,用户对于数据更高的要求和数据多样性的矛盾逐渐凸显,这种情况下,数据湖便登上了技术的舞台。

与数据仓库相比,数据湖的价值在于,其能够很好的存储各类原始数据,通过对历史数据的分析生成新的数据维度,此外,集中存储企业全部数据,帮助企业完成信息追踪和一致性保障。但是数据湖的问题也一样存在的,其本身并不支持事务,SQL性能也很差,数据仓库依然不能舍弃。而那些由数据仓库转型建设了数据湖的企业们便开始找寻一个平衡的办法,把ELT流程变为一座桥,将数据湖与多个数据仓库沟通起来。

这种模式看似很好的解决了数据的处理难题,也让数据湖和数据仓库各司其职发挥作用,那为什么大家又会提出湖仓一体化的理念呢?这座“桥”难道不能让数据湖和数据仓库“一体化”吗?遗憾的是,这种做法短期确实可以发挥作用,但时间一长各种弊端就开始出现。

湖仓各自独立带来的是运维和架构的复杂性,一座桥也使得整体运营效率不高,再伴随企业需求的日益增加,湖仓规模的逐渐加大,企业在运维和成本方面的付出与日俱增。久而久之,湖仓分离的情况会逐渐成为压垮企业的稻草。

65c04a09c9d83c2bbbb32a96c83f84ba.png

那么湖仓一体究竟意味着什么呢?拥有极速云数仓OushuDB的偶数科技对此进行了解释,湖仓一体意味着把数据湖与数据仓库真正融为一体。底层类似数据湖存储了结构化、半结构化、非结构化的各种数据,中间进行统一的加工处理,支撑起上层BI、AI、数据科学等各种应用。

放弃一道桥,得到的是江湖浩瀚,海阔天高。

湖仓一体化的价值在于其天然具备了数据湖和数据仓库的特性,并弥补了二者的缺点。其采用的存算分离架构,能够弹性的无限扩展,无论是结构化还是非结构化数据,均可通过HDFS和S3完成处理。这样的话不仅仅解决了架构复杂性难题,就连数据孤岛、数据共享、运维和成本等大量难题也因此迎刃而解。而且由于如今云原生技术的越发成熟,在其支持下,湖仓一体更是进一步蜕变成了数据处理的真正基石。

36f26f65f9a5ee6ef857a70f12775f5f.png

 六大关键特性,打开湖仓一体大门

即便是湖仓一体本身,其构建也有着不同的路径选择。对于一些大厂而言,他们在数据湖和数据仓库方面有着很大的历史包袱,因此在湖仓一体的过程中会将两种产品结合起来打造一体化解决方案。而成立于2016年的偶数科技却不必背上这一包袱。他们打造的湖仓一体架构更贴近于技术发展潮流。

偶数科技的湖仓一体架构利用数据仓库的特性实现了数据湖的特性,能够支持结构化数据和非结构化数据的海量存储,保持存算分离,对海量数据节点能够实现弹性扩展。同时,偶数科技还通过可插拔存储实现了对于S3、HDFS及自研高性能表存储Magma的支持,以此实现了对于结构化、非结构化和半结构化数据的兼容。这就意味着避免了多份数据、多个集群与多个接口的问题,只需存一份数据,即可解决数据处理问题。

在业界来看,数据湖技术已经成熟,但数据仓库依然有各自的解决方案。因此在湖和仓之间如何更好地共享数据,如何支持用户的业务才是湖仓一体架构关注的核心问题。

偶数科技认为湖仓一体化的本质是一个平台,其湖仓一体具备六大关键特性,这成为了其湖仓一体产品的关键要素。

818dfd352a6c5d7a3ea3c86b98649bd2.png

湖仓一体平台应该具备的特点

1.    低成本的全量数据的单一存储;

2.    高性能的数据引擎,其相比Hadoop引擎快30余倍;

3.    良好的可扩展性与敏捷性,这里主要是采用了存算分离的架构,进一步提升了高集群扩展性,可插拔存储框架能够支持不同存储系统或者格式;

4.    事务的一致性保证,支持事务一致性保证ACID,其能够简化程序应用负担的,让用户不再需要考虑事务问题;

5.    多样化工作负载,支持所有工作场景与负载场景,包括各类数据仓库的BI传统报表以及数据湖的AI应用等,均可在同一平台上实现支持;

6.    易于实现的数据治理,能够通过数据治理保障数据质量,更好的支持应用。

d5c813cda173d29632416e93f5b5ebe4.png

三大优势,奠定湖仓一体落地基础

在六大特性之外,偶数科技的湖仓一体产品还有三大技术优势存在。

86a8a77395fe2d2e1300d939d2ac1643.png

传统架构与偶数湖仓一体架构对比

首先便是在成本方面的优势。在传统的湖仓产品中,运维需求大,人力成本高,大量的集群、节点、硬件投入叠加,需要在运维方面投入的成本极高;而OushuDB是云原生数据库,其采用了虚拟计算集群技术实现资源弹性伸缩共享并按需分配的,数据资源利用率得到极大提升,能够降低企业的硬件投入与人员成本。

其次便是方便于用户迁移。OushuDB是一种开放的架构,很多协议采用了业界标准协议,能够与标准产品及技术相兼容,其中包括了对标准语法、标准JDBC、ODBC连接等支持,其能够兼容客户大量的现有平台,而不必全盘推翻重构。

最后便是在性能方面的提升。湖仓一体化意味着对湖仓各自一体进行了整体提升。湖仓一体架构简洁,用户可以通过一个平台解决大量的中间层难题,降低运维工作量、工作复杂度、人员及管理成本,整体提升架构性能。

当然,湖仓一体化有着广阔的应用空间,而在行业部署时要基于各个行业对于IT环境及行业本身自己IT能力情况进行综合考量。数据应用的成熟度,在不同行业表现出来的状态不尽相同。银行、保险、证券、运营商、电力等行业对IT应用比较成熟,其IT基础能力也较强。很多企业已经走在了数字化转型前列,会比较容易接受湖仓一体产品。偶数的很多产品便在这些行业有所落地。但是长远来看,未来所有的企业都需要湖仓一体平台,因为数据不会单纯只有结构化数据,一定会有非结构化数据的,这是数据化转型必须要完成的命题。

从IT时代走进DT时代,原本结构化数据的独唱也迎来了非结构化数据竞演,数据的发展走向了湖仓一体,而企业们也必须随之而改变。基于湖仓一体,寻找未来答案,偶数科技在做的事情,就是在让更多企业找到数字化转型关键时期的那个答案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/512542.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

学术顶会再突破!计算平台MaxCompute论文入选国际顶会VLDB 2021

简介: VLDB 2021上,阿里云计算平台MaxCompute参与的论文入选,核心分布式调度执行引擎Fangorn、基于TVR Cost模型的通用增量计算优化器框架Tempura等分别被Industry Track、Research Track录取。 一、顶会概览 VLDB 2021上,阿里云…

技术干货 | 应用性能提升 70%,探究 mPaaS 全链路压测的实现原理和实施路径

简介: 全链路压测方案下,非加密场景下至少有 70% 的性能提升,加密场景下 10%的性能提升,并在 MGS 扩容完成后可实现大幅的性能提升,调优的结果远超预期。 业务背景 随着移动开发行业的步入存量时代,App 整…

投稿指南 | 云计算领域最前沿资讯、技术,期待您的专业解读!

我们是谁?CSDN云计算是CSDN旗下官方账号,提供云计算、大数据、虚拟化、数据中心、OpenStack、CloudStack、机器学习、智能算法等相关云计算观点、云计算技术、云计算平台、云计算实践、云计算产业咨询等服务。内容平台方面,我们的目标读者主要…

DataWorks 功能实践速览03期 — 生产开发环境隔离

简介: DataWorks功能实践系列,帮助您解析业务实现过程中的痛点,提高业务功能使用效率! 往期回顾: DataWorks 功能实践速览01期——数据同步解决方案:为您介绍不同场景下可选的数据同步方案。DataWorks 功…

鸿蒙手表esim,鸿蒙手表终于来了!或将支持 eSIM,实现独立通话

原标题:鸿蒙手表终于来了!或将支持 eSIM,实现独立通话根据此前的爆料消息,华为将于 6 月份带来与鸿蒙相关的产品发布会,备受瞩目的平板、手表等新品也将亮相。临近产品发布,华为官方也开始了新品的预热。今…

Pull or Push?监控系统如何选型

简介: 对于建设一套公司内部使用的监控系统平台,相对来说可选的方案还是非常多的,无论是用开源方案自建还是使用商业的SaaS化产品,都有比较多的可选项。但无论是开源方案还是商业的SaaS产品,真正实施起来都需要考虑如何…

k8s 集群居然可以图形化安装了?

作者 | 小碗汤来源 | 我的小碗汤今天分享一个可以图形化搭建k8s集群的项目,不妨试一试~本项目是基于 Kubespray 提供图形化的 K8S 集群离线安装、维护工具。Kubespray:https://github.com/kubernetes-sigs/kubesprayKuboard-SprayKuboard-Spray 是一款可…

poi excel导入 判断合并单元格_Excel合并单元格,你需要知道的那些事

合并单元格,是我们经常使用的一个功能。借助合并单元格功能,我们可以制作跨列表头,可以对数据进行显示上的分类,使数据看起来更加清晰明了,让我们的Excel表格看起来更加专业。找到菜单栏的合并单元格功能,我…

当设计模式遇上 Hooks

简介: 数据结构与设计模式能够指导我们在开发复杂系统中寻得一条清晰的道路,既然都说 Hooks 难以维护,那就尝试让「神」来拯救这混乱的局面。对于「设计模式是否有助于我们写出更优雅的 Hooks 」这个问题,看完本文,相信…

PostgreSQL数据目录深度揭秘

简介: PostgreSQL是一个功能非常强大的、源代码开放的客户/服务器关系型数据库管理系统(RDBMS),被业界誉为“先进的开源数据库”,支持NoSQL数据类型,主要面向企业复杂查询SQL的OLTP业务场景,提供…

深入浅出 Spring 架构设计

作者 | 三太子敖丙来源 | 敖丙前言为什么需要Spring? 什么是Spring?对于这样的问题,大部分人都是处于一种朦朦胧胧的状态,说的出来,但又不是完全说的出来,今天我们就以架构设计的角度尝试解开Spring的神秘面纱。本篇文章以由浅入…

海云健康:上云为10万家药店带去了什么价值?

“全国每5个人里,就有1个正在接受海云健康系统提供的服务。” 在海云健康(以下简称“海云”)的系统后台上,每一分钟就有10万笔的买药订单涌动。也许很多人没有听过海云健康的名字,但当他们走进社区药店时,已经在享受海云的“存健康”药店会员管理系统提供的服务。 海云创办于…

android系统手势app,8种iOS手势规定和14种android手势规定详解

不知道大家对ios系统和android系统的规定的原生手势有哪些吗?看到这样的标题,你能够回答出几个呢?其实,APP设计师和h5开发工程师对移动设备的手势的了解和理解是非常有必要的。只有掌握了这些平台的手势规定才能设计出符合用户操作…

mPaas 运维流程介绍

简介: 金融级移动开发平台 mPaaS(Mobile PaaS)为 App 开发、测试、运营及运维提供云到端的一站式解决方案,能有效降低技术门槛、减少研发成本、提升开发效率,协助企业快速搭建稳定高质量的移动应用。在我们日常运维过程…

360借条通过CCRC权威认证,再获国家级认可

近日,中国网络安全审查技术与认证中心(CCRC)向360借条App颁发移动互联网应用程序(App)安全认证证书。通过该认证,表明360借条App在个人信息保护方面的工作再次取得了国家级肯定。 随着移动互联的蓬勃发展&…

ElasticSearch IK 分词器快速上手

简介: ElasticSearch IK 分词器快速上手 一、安装 IK 分词器 1.分配伪终端 我的 ElasticSearch 是使用 Docker 安装的,所以先给容器分配一个伪终端.之后就可以像登录服务器一样直接操作docker 中的内容了docker exec -it 容器ID /bin/bash 2.使用 elasticsearch…

装完系统还要装什么_家里装了空调还要装空气净化系统吗?会不会太浪费了?...

微信搜一搜舒适11今天这篇文章,小壹就向大家科普一下空调和新风系统,告诉大家为什么装了空调还要装新风机。1、空调是什么? 对此大家都能够脱口而出:空调就是用来制冷或制热的机器,能够改变室内温度,让我们…

移动端性能优化系列—启动速度

简介: 移动端性能对用户体验、留存有着至关重要的影响,作为开发者是不是被这样吐槽过,“这个 APP 怎么这么大?”、“怎么一直在 APP 封面图转悠,点不进去”、“进入详情效果有些卡”、“用 4G 使用你们的 APP&#xff…

三重框架构建和威胁情报及时可达,山石网科发布StoneOS 5.5R9

升级的StoneOS 5.5R9版本,在预测与发现、防御与控制、检测与分析、响应与管理四个角度,通过云端运营中心的情报赋能和统筹运维,策略助手的访问链接发现,边界流量过滤的IP快速分类与阻断,精确边缘策略对用户与应用的精细…

Apache Flink 在京东的实践与优化

简介: Flink 助力京东实时计算平台朝着批流一体的方向演进。 本文整理自京东高级技术专家付海涛在 Flink Forward Asia 2020 分享的议题《Apache Flink 在京东的实践与优化》,内容包括: 业务演进和规模容器化实践Flink 优化改进未来规划一、业…