撕掉Hadoop标签,Cloudera未来可期吗?

Cloudera:大数据的弄潮儿

    • 1、Cloudera发展史
    • 2、Cloudera问题出在哪里?
    • 3、参考文章

1、Cloudera发展史


说起Cloudera,就不得不提起Hadoop,Cloudera的过去就是Hadoop时代中的一个缩影。作为全球第一家也是最大一家Hadoop商业化公司,Cloudera一直是Hadoop生态的领导者

1.1、Hadoop之父与Cloudera之父

2006年,计算机科学家DougCutting和MikeCafarella创建了Apache Nutch项目并带着项目加入了雅虎,希望能在雅虎的帮助下为世界提供一个开源、可靠、可扩展的计算框架,于是成立了一个新项目Hadoop,Doug Cutting也认识了当时的雅虎副总裁Amr Awadallah

Amr当时正在研究如何让雅虎搜索更智能,也碰到很多性能、成本与弹性的问题。在Doug Cutting的建议下,他开始尝试Hadoop

在随后的两年里,Amr基于Hadoop改造了之前的数据处理系统,结果出乎意料的好。新系统成本不仅是之前的十分之一,更重要是还能完成之前根本无法想象的事情,这让Amr大为惊喜

他敏锐地觉察到Hadoop这种革命性的数据处理能力里蕴含着巨大商机。于是他萌生了再度创业的想法。这并不是Amr的第一次创业,实际上他在很早之前就创立了一家叫做VivaSmart的公司,2000年被雅虎收购,他也随之加入雅虎

2008年,Amr召集了几位来自谷歌、Facebook和Oracle的志同道合的伙伴,一起在硅谷创立了Cloudera,自己担任CTO。一年后,Hadoop的创始人Doug Cutting也加Cloudera,成为新的CTO,之后他很快被选为Apache基金会主席

天时、地利、人和,独角兽的羽翼丰满,只等风来

1.2、Hadoop势不可挡,Cloudera乘风破浪

Hadoop一问世便以燎原之势蔓延,不仅席卷了硅谷,也燃烧到了大洋彼岸的淘宝和百度等巨型互联网公司,很快就成了Apache的顶级项目

接下来的几年里,Hadoop成为大数据时代的宠儿,只要搜索“Hadoop is”,自动填充就会显示“future”。所有人都关注着它,生怕错过什么

在这里插入图片描述

2009年到2013年是Hadoop的繁盛时期,也是Cloudera的快速发展的时期

Cloudera先后与Oracle、Intel、微软等IT巨头达成战略合作。2013年,Cloudera表示已经找到了在Hadoop上成功的商业模式。那时的Cloudera作为大数据领域最耀眼的明星,同样也是资本的宠儿。5年内拿到三笔投资,在2015年华尔街日报的独角兽排名Cloudera排名21,超越了大众点评,而且是唯一上榜的大数据公司

2017年,Cloudera成功上市

1.3、Hadoop风光不再,Cloudera绝地重生

随着大数据技术的发展,Hadoop最赖以成名的HDFS和MapReduce技术逐渐被新的技术取代。被Hadoop深刻影响了十几年的IT界感受到了这个时代的落幕

于是有人开始宣称Hadoop已死,如果这时你搜索“Hadoop is”,自动填充就会显示“dead"。尤其到了2019年,往日的Hadoop三巨头的日子都不太好过。MapR裁员,然后卖给了HPE。Cloudera也与Hortonworks合并,合并后股价连续下跌,CEO离职

Cloudera意识到Hadoop的红利时代已经过去,真正的Cloud Era(云纪元)已经开启,需要开发下一代数据产品以拥抱企业云计算

2019年,合并之后的Cloudera推出了全新一代的大数据平台产品CDP,这是世界上第一款企业数据云平台产品。最大化地整合了Cloudera原来的产品CDH和Hortonworks原来的产品HDP,把这两条产品线里最优势的部分进行整合,并对已有技术提供了增强功能

2022年,原有的CDH和HDP用户均可升级到CDP。Cloudera新一代CDP的数据架构,意味着数据管理方式向混合云的方向转变。CDP可以跨多个主流公有云平台以及私有云平台进行数据管理。无论数据位于何处,企业都能跨多个云处理复杂的数据流程,管理数据并实现多功能分析。对于企业来说,也可以摆脱被单一云平台供应商锁定的风险

2021年Cloudera宣布与阿里云达成合作。CDP将正式入驻阿里云,成为阿里云中的企业数据云,方便国内的企业能更有效地运用数据赋能业务

Cloudera在过去十几年之间的沉沉浮浮让人唏嘘不已,宛如一颗流星划过天空。但有一点Cloudera做的非常明智,那就是审时度势,紧跟技术趋势持续革新,拿得起放得下方显英雄本色

2、Cloudera问题出在哪里?


2.1、Hadoop大数据时代

2021年10月8日,大数据行业的一个标志性事件发生:Cloudera正式宣布完成了从纳斯达克摘牌和私有化退市

这家曾在开源Hadoop大数据生态下风光一时的开源商业化公司,面对那条再无波澜的价格曲线,想来应是无奈且不甘的

无奈的是,退市当日Cloudera市值只剩47亿美元,才与2014年Intel投资时的估值相当,七年南柯一梦。更不甘的是,和2020年刚上市的另外一家大数据公司SnowFlake市值相比,差了近20倍,凭什么?

要知道在当初,言大数据必言Hadoop。Hadoop大数据时代里,Hadoop也依然没能让Cloudera走向辉煌,仅如一颗流星划过行业的天空,空留一声惆怅。到底问题出在哪里?

让我们先来简单回顾一下Cloudera在过去的十几年经过的一番挣扎

Cloudera成立于2008年,次年便推出了首个Hadoop发行版CDH。CDH产品以企业版收费和开源版免费的方式拓展业务。2014年获得了Intel公司7.4亿美元的投资,估值高达41亿美元。就在同一年,Hadoop体系下的另一家完全开源的软件,以服务收费的 Hortonworks成功上市,市值达20亿美元。Cloudera在此轮融资中以41亿美元的估值牢牢坐稳了Hadoop发行商的头把交椅,成为了Hadoop生态的历史高光时刻。Cloudera共计为Hadoop贡献了五六十个组件

但随后的形势转变却让整个行业大跌眼镜,Hortonworks的股价一路下跌,而Cloudera则在2017年经历了一场称为流血的上市。上市估值为19亿美元,远低于Intel三年前投资的估值,近乎腰斩。这一切说明不管大数据多火,但这两家公司事实上的业务增长却如此无力

仅一年后的2018年,这对难兄难弟就宣布合并以试图挽回发展的颓势,合并时的总市值为52亿美元,比2014年的高光时刻低出近10亿美元

在这里插入图片描述

到了Cloudera宣布完成退市时的市值仅剩47亿美元,这其中还包含了合并Hortonworks的市值,也才仅仅和七年前Intel投资时的那个Cloudera估值相近。这真是一场游戏一场梦,游戏结束了,梦却还在原地打转

而Hadoop生态体系里一度曾经出现过三家商业化公司。除了Cloudera和Hortonworks之外,还有一家公司叫MapR。但MapR也没能逃过经营惨淡的命运,因为无法融到资金,早在2019年就经历了一系列裁员后不得不卖身于HPE而收场

对于这三家公司的惨淡命运,我们不禁想问:问题到底出在哪里?

2.2、云计算与云服务时代

让我们先来看看Hadoop体系:它是一个开源组件生态系统,一套技术工具集的总称。最初改变了企业存储、处理和分析数据的方式,主要包含分布式文件存储(HDFS)、分布式计算(MapReduce)和资源调度(Yarn)等功能,随着技术的演进,组件也随后越来越多,变得相当复杂

如果仅从技术的角度来看,Hadoop让Cloudera身处尴尬的境地,应当说还是存在一定的责任的,主要是技术的局限性和生态的复杂性

  • Hadoop的技术局限性

    成本节约和分析性能是Hadoop最吸引人的两个点。但随着企业需求的变化,面对复杂的业务、数据结构及数据源,这两个优势转变成制约企业发展的因素。本地硬件扩容虽然可以满足高峰期的使用需求,但大多数时间这些资源都会被闲置。本地Hadoop环境中无法将存储和计算分离,因此成本也会随着数据集的增加而增加。此时,云成了企业们的首选

  • Hadoop开源生态的复杂性

    作为一项开源技术,虽然免费下载,但Hadoop本身却很复杂,对于许多有大数据处理需求的公司来说,让IT部门基于Hadoop进行开发的成本太高,难度也太大。一个Hadoop生态里的开源项目多达几十个,这对于开源社区治理的挑战无疑是巨大的

对于一项生意来说,如果要保证商业上的成功,技术确实是重要的,但技术却绝不是唯一重要的

我们观察到,依赖于Hadoop开源生态的Cloudera遭遇的困境,除了技术之外,更有其业务模式上的致命弱点

开源是一种哲学,但开源并不能保证你能获得足够多的资金来发展和维持你的产品。开源如何发展生意,让企业能盈利,基本上有两条路可选:服务型公司或软件型公司。但还得找到一个可以让用户付费的方式:可持续的技术服务费或软件订阅费

然而不得不承认,没有弹性资源供给、扩展成本快速增加等问题已经成为企业发展的主要矛盾,但Hadoop无法完全解决,而云计算可以很好的解决

2016年,Cloudera试图转型成云计算大数据服务提供商,但由于资金等问题未能实现

2019年,Cloudera与Hortonworks合并后彻底完成了转型。Cloudera果断宣布,对CDH和HDP两条产品线将仅支持到2022年。对于两个产品高度重合的部分会做删减和融合,结果就是推出新的数据平台CDP(Cloudera Data Platform)。2022年后,原CDH和HDP的用户会被转移到CDP上

2019年,Cloudera推出了CDP公有云平台,2020年又推出了CDP私有云平台。Cloudera 希望通过统一的平台界面,对数据进行整个生命周期管理,并提供一致的安全和治理服务

但在此过程中,大数据已经不再是过去的大数据,它已经经历了从Hadoop时代演变成云时代。由于业务模式没有及时而坚决地向云转型而错失了宝贵的机会,另外,面临公有云产商的竞争时,没有有效利用许可证模式来狙击云厂商

随着云服务的崛起,基于云的大数据解决方案越来越多,并一定程度上体现了更高的效率。可以说,云计算的侵蚀是让Cloudera陷入困境的主要原因

虽然Cloudera自第一天上市时就意识到了它的竞争对手来自AWS云服务和Microsoft Azure这样的公有云巨头,但其自身在转型的过程中却拖泥带水。而当面临那些云巨头的竞争时,由于Hadoop的开源许可证采用Apache的开源许可证,导致它不能像MongoDB那样的开源数据库公司在同样面临云厂商的竞争时可以更容易修改开源许可证以阻击公有云厂商的竞争

现在,Cloudera在做选择时会倾向更加开放的生态

目前,CDP总共引入了三十多个开源组件,这些组件构成了CDP的五大模块:

  • 数据仓库(CDW,Cloudera Data Warehouse):计算引擎包括Hive、Impala等。
  • 机器学习(CML - Cloudera Machine Learning):CDP集成了Spark 3.0的RAPIDS加速器,加速数据管道并大幅提升数据和机器学习工作流
  • 数据工程(CDE,Cloudera Data Engineering):主要包括Spark等在数据工程方面能力很强的组件。其中Spark是Cloudera的重点项目,但在方向上会做一些调整
  • 数据流式处理(CDF,Cloudera Data Flow):主要包括Kafka来保证数据加工传输,Flink做流式数据计算,Nifi在边缘(Edge)节点上做加工处理
  • 操作型数据库(COD,Cloudera Operational Database):主要是HBase负责历史数据海量存储和查询。目前HBase支持Phoenix二级索引等功能

此外,在存储上,CDP公有云上支持对象存储S3和ADSL;私有云上支持传统的Kudu、HDFS、HBase和对象存储Ozone

针对安全问题,Cloudera提出了SDX(Shared Data Experience)框架

云原生是一个不能回避的话题,Cloudera将拥抱云原生,把云原生支持做的更好

3、参考文章


1)https://zhuanlan.zhihu.com/p/530076039

2)https://zhuanlan.zhihu.com/p/423789403

3)https://cloud.tencent.com/developer/article/1926450

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/126989.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HarmonyOS鸿蒙原生应用开发设计- 隐私声明

HarmonyOS设计文档中,为大家提供了独特的隐私声明,开发者可以根据需要直接引用。 开发者直接使用官方提供的隐私声明内容,既可以符合HarmonyOS原生应用的开发上架运营规范,又可以防止使用别人的内容产生的侵权意外情况等&#xff…

[MySQL]——SQL预编译、动态sql

键盘敲烂,年薪30万🌈 目录 一、SQL的预编译 📕一条SQL语句的执行过程 📕弊端 📕预编译SQL的优势 📕两种参数占位符 📕小结 二、动态SQL 📕概念介绍: &#x1f4…

Opencv学习笔记(最近更新2023.11.1)

文章目录 棋盘格角点检测findChessboardCorners()亚像素角点检测cornerSubPix()棋盘格角点的绘制drawChessboardCorners()计算外参solvePnPRansac()旋转向量转旋转矩阵Rodrigues()鱼眼畸变矫正initUndistortRectifyMap()检测轮廓findContours()轮廓显示drawContours…

springboot2.x使用@RestControllerAdvice实现通用异常捕获

文章目录 demo地址实现效果引入基础类准备1.通用枚举与错误状态枚举2.定义通用返回结果3.自定义业务异常 统一异常捕获测试 demo地址 demo工程地址 实现效果 当我们输入1时,正常的返回通用的响应结果当我们输入2时,抛出异常,被捕获然后返回…

react-组件生命周期

一、生命周期阶段 官方文档:https://zh-hans.legacy.reactjs.org/docs/react-component.html React组件生命周期可分为三个阶段:挂载、更新、卸载 挂载:当组件实例被创建并插入 DOM 中时。其生命周期调用顺序如下: constructor()s…

【c++Leetcode】287. Find the Duplicate Number

问题入口 思想:Floyds Tortoise and Hare 这个算法除了可以检测是否有环(问题入口),还可以用来检测重复数。当然这还需要一个慢指针才能实现。具体请点击标题跳转到原视频,这里是把内容再梳理一遍。如果有不对的地方…

Web自动化测试之图文验证码的解决方案

对于web应用程序来讲,处于安全性考虑,在登录的时候,都会设置验证码, 验证码的类型种类繁多,有图片中辨别数字字母的,有点击图片中指定的文字的,也有算术计算结果的,再复杂一点就是滑…

无测试组织:测试团队的敏捷转型

文章目录 写在前面01 从测试角度理解敏捷理念什么是敏捷?测试人员应该怎样理解敏捷理念?敏捷宣言对于测试活动的启发与思考总结如下敏捷原则12条敏捷实践框架为什么要做敏捷 02 什么是敏捷测试03 敏捷测试为什么会失败04 诊断脑暴会的成果示例测试团队转…

表格识别软件:科技革新引领行业先锋,颠覆性发展前景广阔

表格识别软件的兴起背景可以追溯到数字化和自动化处理的需求不断增加的时期。传统上,手动处理纸质表格是一项费时费力的工作,容易出现错误,效率低下。因此,开发出能够自动识别和提取表格数据的软件工具变得非常重要。 随着计算机…

使用 Python 进行自然语言处理第 5 部分:文本分类

一、说明 关于文本分类,文章已经很多,本文这里有实操代码,明确而清晰地表述这种过程,是实战工程师所可以参照和依赖的案例版本。 本文是 2023 年 1 月的 WomenWhoCode 数据科学跟踪活动提供的会议系列文章中的一篇。 之前的文章在…

【深度学习基础】专业术语汇总(欠拟合和过拟合、泛化能力与迁移学习、调参和超参数、训练集、测试集和验证集)

📢:如果你也对机器人、人工智能感兴趣,看来我们志同道合✨ 📢:不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】 📢:文章若有幸对你有帮助,可点赞 👍…

linux的环境安装以及部署前后端分离后台接口

⭐⭐ linux专栏:linux专栏 ⭐⭐ 个人主页:个人主页 目录 一.linux安装环境 1.1 jdk和tomcat的安装配置 1.1.1 解压jdk和tomcat的安装包 解压jdk安装包 解压tomcat安装包 1.2 jdk环境变量配置 1.3 tomcat启动 1.4 MySQL的安装 二.部署前后端分离…

机器学习快速入门教程 Scikit-Learn实现

机器学习是什么? 机器学习是一帮计算机科学家想让计算机像人一样思考所研发出来的计算机理论。他们曾经说过,人和计算机其实本没有差别,同样都是一大批互相连接的信息传递和存储元素所组成的系统。所以有了这样的想法,加上他们得天独厚的数学功底,机器学习的前身也就孕育而生…

RHCSA -- VMware虚拟机配置及破解密码

一、配置虚拟机 1、开启VMware(自定义) 2、设置虚拟机硬件兼容性(默认) 3、稍后安装虚拟机操作系统 4、选择为Linux的虚拟机 5、虚拟机机名 6、设置虚拟机处理器 7、设置虚拟机所连接的网络类型 8、选择磁盘类型 9、设置所选磁…

【源码】医院绩效考核系统-对接HIS核算

医院绩效考核系统,它需要和his系统进行对接,按照设定周期,从his系统获取医院科室和医生、护士、其他人员工作量,对没有录入信息化系统的工作量,绩效考核系统设有手工录入功能(可以批量导入)&…

CSS标点符号换行问题

最近遇到一个奇怪的现象,元素中中文文本正常显示,但是加了一堆符号后中文文本居然换行了. div{width: 200px;border: 1px solid blue;word-break: break-all;} <div>文本</div>经过研究发现&#xff0c;因为标点符号不允许出现在行首和行尾&#xff0c;连带着符号…

Kafka - 监控工具 Kafka Eagle:实时洞察Kafka集群的利器

文章目录 引言Kafka Eagle简介Kafka Eagle的特点Kafka Eagle的优势使用Kafka Eagle的步骤结论 引言 在现代大数据架构中&#xff0c;Apache Kafka已成为一个不可或缺的组件&#xff0c;用于可靠地处理和传输大规模的数据流。然而&#xff0c;随着Kafka集群规模的不断增长&…

QT基础学习笔记

文章目录 1 概述1.1 优点1.2 QT成功使用案例1.3 安装教程1.3.1 在线安装流程1.3.2 离线安装流程 2 创建工程2.1 快捷键2.1.1 常用快捷键2.1.2 修改快捷键 2.2 proj文件 3 对象树4 信号和槽4.1 自定义信号和槽4.1.1 信号连接信号4.1.2 一个信号连接多个槽函数4.1.3 多个信号连接…

算法---缺失的第一个正数

题目 给你一个未排序的整数数组 nums &#xff0c;请你找出其中没有出现的最小的正整数。 请你实现时间复杂度为 O(n) 并且只使用常数级别额外空间的解决方案。示例 1&#xff1a;输入&#xff1a;nums [1,2,0] 输出&#xff1a;3 示例 2&#xff1a;输入&#xff1a;nums …

C++数据结构算法篇Ⅰ

C数据结构算法篇Ⅰ &#x1f4df;作者主页&#xff1a;慢热的陕西人 &#x1f334;专栏链接&#xff1a;C算法 &#x1f4e3;欢迎各位大佬&#x1f44d;点赞&#x1f525;关注&#x1f693;收藏&#xff0c;&#x1f349;留言 主要内容讲解数据结构中的链表结构 文章目录 C数据…