Hadoop 王者 Cloudera 新转型,定位为混合数据公司

作者 | 宋慧

出品 | CSDN 云计算

随着 AI 等技术兴起,对于数据的应用分析受到了越来越多的重视,数据赛道热度也持续火热。大数据时代为企业提供 Hadoop 服务的 Cloudera,也推出了新一代数据平台 CDP,并逐渐替代以往的大数据平台 CDH 和 HDP。

最近,CSDN 再次采访了 Cloudera 大中华区技术总监刘隶放,听听 Cloudera 对于云时代下,数据应用的新趋势的观察与经验。

数据愈加分散,范式转向数据网格 Data Mesh、数据编织、湖仓一体

近几年数据的发展,我们能看到,和以往企业对数据集中式管理不同,数字化的深入,让企业内部和外部都在产生超过以往数倍的数据量。另外不断变化的商业环境挑战下,企业对数据的分析和应用也需要更加灵活、敏捷。

因此,刘隶放首先分享了,在这些趋势下,行业对于数据范式的最新定义和趋势,那就是将数据与产品思维融合,将数据产品化,(在企业里)数据由最了解数据的域拥有,随时可供企业内的任何其他域使用,同时,数据需要具有可探索、可寻址、自描述、可信赖、可互操作(开放标准)、安全这六大特性,即数据网格 Data Mesh。总结起来,也是数据网格 Data Mesh 所对应的四个原则:域主权、数据为产品、自助式数据平台和联合计算治理。

随着数据的类型、数量、应用需求的复杂,业界逐步产生了对数据的处理新理念,那就是“数据编织(Data Fabric)”。连续几年对数据领域着重分析的 Gartner 在 2021 年讨论了这一提法,CSDN 曾做过报道: Gartner最新分析:数据编织、数据治理、平衡采集与连接 。

数据编织概念架构示意图

对于今年讨论度很高的,集合了数仓和数据湖优势的新数据应用系统湖仓一体,刘隶放认为其实数据网格、数据编织和湖仓一体,是企业中不同角色对于数据,不同的应用方法论。例如

数据使用者和技术工程师,专注于湖仓一体等新型数据系统如何用于具体业务和项目,而 CTO 则站在数据如何保持一致性、如何构建统一的数据标准的角度,去研究数据编织相关工作,企业管理者 CEO/CIO/CDO 在数据网格层面关注数据的管理成本和扩展性。

Cloudera 的新定位:混合数据公司

经历了 Hadoop 辉煌的大数据时代,现在的 Cloudera 正在转型,并将公司最新定位为混合数据公司,针对企业业务对数据新的需求,去提供适用于数据编织、数据湖库、数据网格和未来数据生态系统架构要求的混合数据平台的混合数据平台,允许客户在多个公共和私有云以及本地访问和分析数据,使企业能够做出由数据驱动的明智决策,帮助企业建立由数据驱动的未来。

而 Cloudera 新推出的 CDP 平台(Cloudera Data Platform),就是实现了对数据的大规模管理、分析、可移植性和安全治理,具体来说:

1、开放数据编织、湖仓,可在任何地方提供大规模数据;

2、多云和本地数据管理一体和数据网格和分析;

3、“一次编写,随处运行”实现数据分析的可移植性;

4、使用开放的云原生存储格式去统一安全和治理。

Cloudera CDP 可支持现代数据架构各层需求

刘隶放分享了 Cloudera 的 CDP 平台,对企业现代数据架构各层需求的支持。例如在数据网格层,CDP 面向域的分布式数据产品,由拥有嵌入式数据工程师和数据产品所有者的独立跨职能团队拥有,使用通用数据基础设施作为平台来托管、准备和服务其数据资产。CDP 也集成和统一数据仓库和数据湖的功能,旨在支持同一数据集上的 AI、BI、ML 和数据工程(“多功能分析”)。在数据编织和编排上,CDP 以自助服务的方式智能、安全地动态编排不同的数据源,利用数据平台提供集成的可信数据,以支持各种应用程序、分析和其他工作负载。另外,CDP 也支持混合云和多云,保持数据系统跨所有环境的一致性体验。

数据越来越重要,也越来越被关注。从专业数据厂商 Cloudera 的新定位,我们也能看到,数据分析应用,从数据中台正在形成更完整的系统平台,同时除了一线的数据工程师、CTO 之外,也需要企业的管理者去关注。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/510921.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大数据在线离线一体化解决方案最佳实践

简介: 本文重点介绍大数据产品集通用解决方案,即大数据在线计算离线计算一体化解决方案,并通过真实案例模拟来说明此通用解决方案在具体项目中是如何落地的。 概述 本方案重点要落地的业务是中央网信办网络安全应急指挥中心相关业务&#x…

基于MaxCompute的大数据安全方案

简介:随着法律的完善,数据安全,信息安全,网络安全,升级成国家安全,所以数据安全不管对用户,还是对公司也都会变的越来越重要。做为大数据云数仓解决方案的领导者,阿里云MaxCompute在…

数据仓库的分层架构与演进

简介:分层架构很容易在各种书籍和文档中去理解,但是把建模方法和分层架构放在一起就会出现很多困惑了。接下来,我会从数据研发与建模的角度,演进一下分层架构的设计原因与层次的意义。 分层架构很容易在各种书籍和文档中去理解&a…

数据治理之参考数据与主数据管理

简介:最近凑巧参与了一次某行业的业务共创会议,期间讨论到了主数据系统,还有我们该如何参与主数据系统建设的话题。说实话,我一直以为我不会有机会参与到主数据与参考数据系统的话题中去,所以,又去把DAMA的…

如何在云端重塑内容生产?来看这场虚拟人主持的发布会

简介:「智能媒体生产」产品全新升级 3月30日,阿里云视频云在线上举行了一场由虚拟人助力主持的「智能媒体生产」产品升级发布会,活动围绕产品能力的展现、视频生产流程的革新、高效生产背后的技术先进性,阐释了企业如何在云端重塑…

阿里开源自研工业级稀疏模型高性能训练框架 PAI-HybridBackend

简介:近年来,随着稀疏模型对算力日益增长的需求, CPU集群必须不断扩大集群规模来满足训练的时效需求,这同时也带来了不断上升的资源成本以及实验的调试成本。为了解决这一问题,阿里云机器学习PAI平台开源了稀疏模型高性能同步训练…

Serverless 遇到 FinOps,云成本问题有解了!

Key Takeaways:1. 尽管 Serverless 的迅猛发展吸引了广泛深入的关注,Serverless 函数总成本的事先估计仍缺乏有效的理论指导。本文基于 FunctionGraph 在 Serverless 领域的 FinOps 探索和实践,提出业界首个 Serverless 函数总成本估计模型。…

Apsara Stack 技术百科 | 联结良性生态,筑千行百业的数字基石

简介:作为现今IT领域最重要的课题:基础设施云化,离不开与伙伴的携手合作,如何让云上解决方案能充分释放价值的同时形成一个相互依存的自循环生态系统,混合云君来跟你聊聊~ 生态系统这个词在维基百科上的定义是&#xf…

用户留存建模实践

简介:在流量分析型产品的用户分析模块中,留存、互访、新老客构成等数据都是有效衡量用户粘性与促活召回的关键性指标;但是,我们发现在很多流量运营的业务场景中,留存分析建模都显著存在着设计和计算上的诸多问题。本文…

ACK One 构建应用系统的两地三中心容灾方案

简介:本文侧重介绍了通过 ACK One 的多集群应用分发功能,可以帮助企业管理多集群环境,通过多集群主控示例提供的统一的应用下发入口,实现应用的多集群分发,差异化配置,工作流管理等分发策略。结合 GTM 全局…

英特尔On技术创新峰会:助力开发者解决当前和未来的挑战

第二届英特尔On技术创新峰会于2022年9月27日在美国加利福尼亚州圣何塞市开幕。在本届峰会上,英特尔向齐聚一堂的软硬件开发者们分享了在构建以开放、选择和信任为原则的生态系统方面的最新进展——从推动开放标准以使“芯片系统”(systems of chips&…

你不知道的 HTTPS 压测

简介:随着互联网安全规范的普及,使用 HTTPS 技术进行通信加密,实现网站和 APP 的可信访问,已经成为公认的安全标准。本文将介绍针对 HTTPS 协议做压力测试的关注点,以及使用 PTS 做 HTTPS 压测的技术优势和最佳实践。 …

数据湖—Delta Lake

简介:Delta Lake 是 DataBricks 公司开源的、用于构建湖仓架构的存储框架。能够支持 Spark,Flink,Hive,PrestoDB,Trino 等查询/计算引擎。作为一个开放格式的存储层,它在提供了批流一体的同时,为…

2022杭州云栖大会定档11月3日至5日:技术产品发布+超4万平科技展

9月28日消息,记者从云栖大会组委会获悉,2022杭州云栖大会将于11月3日至5日在杭州云栖小镇举办。今年云栖大会以“计算进化未来”为主题,在3天内设置两场主论坛,70多场数字技术、产业和生态分论坛,以及4万平米智能科技全…

阿里云RemoteShuffleService 新功能:AQE 和流控

简介:阿里云EMR 自2020年推出 Remote Shuffle Service(RSS)以来,帮助了诸多客户解决 Spark 作业的性能、稳定性问题,并使得存算分离架构得以实施。为了更方便大家使用和扩展,RSS 在2022年初开源(https://github.com/alibaba/Remot…

如何使用Delta Lake构建批流一体数据仓库

简介:Delta Lake是一个开源存储层,它为数据湖带来了可靠性。Delta Lake提供了ACID事务、可扩展的元数据处理,并统一了流式处理和批处理数据处理。Delta-Lake运行在现有数据湖之上,并且与Apache Spark API完全兼容。希望本篇能让大…

中国峰会|下一代云基础架构,赋能企业云上发展

点击上方入口立即【自由构建 探索无限】一起共赴年度科技盛宴!马上点击“阅读原文”了解更多亚马逊云科技中国峰会让我们共同见证亚马逊的一小步云计算的一大步扫码【立即报名】直通大咖云集的亚马逊云科技中国峰会!

Delta Lake基础介绍(商业版)

简介:介绍 Lakehouse 搜索引擎的设计思想,探讨其如何使用缓存,辅助数据结构,存储格式,动态文件剪枝,以及 vectorized execution 达到优越的处理性能。 作者:李洁杏,Databrick资深软…

云原生数仓如何破解大规模集群的关联查询性能问题?

简介:AnalyticDB for PostgreSQL(以下简称ADB PG)是一款PB级的MPP架构云原生数据仓库。本文从ADB PG架构设计的角度出发,探讨Runtime Filter在ADB PG中的实现方案,并介绍了基于Bloom Filter的ADB PG Dynamic Join Filter功能技术细节。 作者 …

独家对话Python之父:人类大脑才是软件开发效率的天花板

【CSDN 编者按】十五年前,《程序员》杂志曾专访过 Python 之父 Guido van Rossum,一起探讨了 Python 3.0 的较为明显的新特性,即增加了对中文( Unicode )的支持。十五年过去,Python 的版本号只前进了一个数字,但是 Pyt…