Hadoop发展史和生态圈介绍

目录

一、Hdoop概述

二、Hadoop生态组件

三、大数据的技术生态体系

四、Hadoop发展历史

4.1 概述

4.2 Hadoop历史发展节点

4.2.1 2002-2004年理论阶段

4.2.2 2005-2008年Hadoop的问世与崛起

4.2.3 2009-2017年Hadoop助力大数据行业的发展

4.2.4 至今

五、Hadoop优势特点

5.1 低成本

5.2 高可靠、容错性

5.3 高扩展性

5.4 高效性


一、Hdoop概述

Hadoop是由Apache基金会所开发的分布式系统基础架构, 旨在解决海量数据存储和计算分析问题。狭义上来说,Hadoop是指Apache Hadoop开源框架,包含以下三种核心组件:

  • Hadoop HDFS(Hadoop Distributed File System):分布式文件存储系统,解决海量数据存储问题。
  • Hadoop Yarn:集群资源管理和任务调度框架,解决资源任务调度问题。
  • Hadoop MapReduce:分布式计算框架,解决海量数据计算问题。

二、Hadoop生态组件

广义上来说,Hadoop通常是指围绕Hadoop打造的大数据生态圈,部分技术栈如下图所示:

组件内容:

  • zookeeper:分布式协调组件。
  • HDFS:分布式文件系统。
  • MapReduce:分布式计算框架。
  • Hive:分布式数据仓库。
  • HBase:分布式数据库。
  • Flume:日志采集框架。
  • Sqoop:数据导入/导出工具。
  • pig:工作流引擎。
  • Mahout:机器学习算法库。
  • oozie:作业流调度工具。
  • Ambari:大数据集群管理平台。

官网地址:

[Apache Hadoop](https://hadoop.apache.org/)

三、大数据的技术生态体系

本小节主要作为技术了解内容,先总体了解下大数据技术生态体系技术分层,方便后续清楚的知道Hadoop相关技术栈技术所处的层及作用。下图是大数据技术生态每层及对应技术。

四、Hadoop发展历史

4.1 概述

Hadoop最初是由Doug Cutting和Mike Cafarella于2002年左右创建的,最早起源于Nutch,其最初的目标是构建一个 能够处理大规模数据集的分布式文件处理系统 。

后期,Doug Cutting以Google的GFS(Google File System)和MapReduce为基础,开发了Hadoop Distributed File System(HDFS)和Hadoop MapReduce。

2006年,Hadoop成为Apache软件基金会的顶级项目,开始吸引了越来越多的开发者和用户。

4.2 Hadoop历史发展节点

4.2.1 2002-2004年理论阶段

2002年10月,Doug Cutting和Mike Cafarella创建了开源网页爬虫项目Nutch。

2003年10月,Google发表Google File System论文。

2004年7月,Doug Cutting和Mike Cafarella在Nutch中实现了类似GFS的功能,即后来HDFS的前身。

2004年10月,Google发表了MapReduce论文。

4.2.2 2005-2008年Hadoop的问世与崛起

2005年2月,Mike Cafarella在Nutch中实现了MapReduce的最初版本。

2005年12月,开源搜索项目Nutch移植到新框架,使用MapReduce和HDFS在20个节点稳定运行。

2006年1月,Doug Cutting加入雅虎,Yahoo!提供一个专门的团队和资源将Hadoop发展成一个可在网络上运行的系统。

2006年2月,Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。

2006年3月,Yahoo!建设了第一个Hadoop集群用于开发。

2006年4月,第一个Apache Hadoop发布。

2006年11月,Google发表了Bigtable论文,激起了Hbase的创建。

2007年10月,第一个Hadoop用户组会议召开,社区贡献开始急剧上升。

2007年,百度开始使用Hadoop做离线处理。

2007年,中国移动开始在“大云”研究中使用Hadoop技术。

2008年,淘宝开始投入研究基于Hadoop的系统——云梯,并将其用于处理电子商务相关数据。

2008年1月,Hadoop成为Apache顶级项目。

2008年2月,Yahoo!运行了世界上最大的Hadoop应用,宣布其搜索引擎产品部署在一个拥有1万个内核的Hadoop集群上。

2008年4月,在900个节点上运行1TB排序测试集仅需209秒,成为世界最快。

2008年8月,第一个Hadoop商业化公司Cloudera成立。

4.2.3 2009-2017年Hadoop助力大数据行业的发展

2009 年3月,Cloudera推出世界上首个Hadoop发行版——CDH(Cloudera's Distribution including Apache Hadoop)平台,完全由开放源码软件组成。

2009年6月,Cloudera的工程师Tom White编写的《Hadoop权威指南》初版出版,后被誉为Hadoop圣经。

2009年7月 ,Hadoop Core项目更名为Hadoop Common;

2009年7月 ,MapReduce 和 Hadoop Distributed File System (HDFS) 成为Hadoop项目的独立子项目。

2009年8月,Hadoop创始人Doug Cutting加入Cloudera担任首席架构师。

2009年10月,首届Hadoop World大会在纽约召开。

2010年5月,IBM提供了基于Hadoop 的大数据分析软件——InfoSphere BigInsights,包括基础版和企业版。

2011年3月,Apache Hadoop获得Media Guardian Innovation Awards媒体卫报创新奖

2012年3月,企业必须的重要功能HDFS NameNode HA被加入Hadoop主版本。

2012年8月,另外一个重要的企业适用功能YARN成为Hadoop子项目。

2014年2月,Spark逐渐代替MapReduce成为Hadoop的缺省执行引擎,并成为Apache基金会顶级项目。

2017年12月,Hadoop 3.0.0版本发布,标志着Hadoop的持续发展和创新。

4.2.4 至今

截止到2024年初,Hadoop最新版本为3.3.6版本,整个Hadoop发行版本中经历了Haoop1.x、2.x、3.x系列版本。目前,Hadoop1.x版本已经被淘汰,Hadoop2.x版本相较于1.x版本引入了Yarn平台,Hadoop3.x版本相较于2.x版本做了优化升级,目前企业中使用主流hadoop版本为hadoop3.x版本。

此外,Hadoop目前发行版本分为开源社区版和商业版。社区版由Apache软件基金会进行维护,商业版Hadoop则是由第三方商业公司在社区版的基础上做了一些修改、整合,并经过各个服务组件的兼容性测试后发布的版本,其中一些著名的商业版包括Cloudera的CDH、Hortonworks的HDP,2018年,Cloudea收购Hortonworks公司。

ClouderaManager的CDH平台:

Ambari的HDP平台:

以下是Hadoop发展历史中的一些重要时间点,了解即可。

五、Hadoop优势特点

Hadoop具备高可靠、高容错、高扩展、高效性这些优势使其在互联网领域中已经得到广泛运用,具体如下:

5.1 低成本

Hadoop可以由多台廉价普通机器组成,支持TB和PB级别数据存储,并不需要运行在昂贵且高可靠性的硬件上。

5.2 高可靠、容错性

HDFS中数据存储有多副本支持数据高可靠性,即使一些副本出现故障也能保障数据可使用。MapReduce计算过程中任务失败,可以自动进行任务重新分配进行任务重试。此外,HDFS和Yarn都支持高可用配置,当主节点挂掉时,可以自动选主切换,保证集群可靠性。

5.3 高扩展性

Hadoop集群可以扩展到上千个节点以支持数据存储和计算,节点多支持数据量大、支持更大并行度的并行计算。

5.4 高效性

Hadoop可以并行在节点之间动态移动数据,保证各个节点数据动态平衡;基于MapReduce进行数据处理计算时,可以并行处理数据,效率极高。

今天Hadoop发展史和生态圈介绍的相关内容就分享到这里,如果帮助到大家,欢迎大家点赞+关注+收藏,有疑问也欢迎大家评论留言!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/46577.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为HCIP Datacom H12-821 卷40

1.单选题 下面是台路由器BGP错误输出信息&#xff0c;关于这段信息描述错误的是 <HUAWEI>display bgp error Error Type :Peer Error Date/Time :2010-03-22 12:40:39 Peer Address :10.1.1.5 Error Info : Incorrect remote AS A、可能是由于邻居…

面向 AI 而生的香橙派 AIpro 开发板开箱实测

前几天搞到一块很牛掰的开发板&#xff0c;是香橙派联合华为精心打造的高性能 AI 开发板 – OrangePi AIpro 开发板。 其搭载了昇腾 AI 处理器&#xff0c;可提供 8TOPS INT8 的计算能力&#xff0c;作为单板硬件设备来说&#xff0c;算力杠杠的了&#xff0c;至于跑 AI 模型性…

django实现用户的注册、登录、注销功能

创建django项目的步骤&#xff1a;Django项目的创建步骤-CSDN博客 一、前置工作 配置数据库&#xff0c;设置数据库引擎为mysql 1、在settings文件中找到DATABASES, 配置以下内容 DATABASES {"default": {ENGINE: django.db.backends.mysql, # 数据库引擎NAME: dja…

params和data的差别,doc下载

params和data的差别 export function downFile(url, parameter, method) {return axios({url: url,params: parameter,method: method ? method : "get",responseType: "blob",}); }// params: parameter,请求的参数&#xff0c;会作为查询字符串附加到…

实习随笔【前端技术实现全局添加水印】

有一些数据比较重要的项目&#xff0c;往往需要对数据进行保护措施&#xff0c;本文介绍常见策略——全局添加水印。 1、创建水印组件 <template><div class"water-mark"><div class"water-mark-content"><span class"phone&qu…

打破平台限制,使智能手机和平板电脑上无缝运行Windows x86/x64架构的软件和游戏的一款安卓应用

大家好&#xff0c;今天给大家分享一款专为Android设备设计的模拟器应用Winlator。其核心功能是能够在基于ARM架构的智能手机和平板电脑上无缝运行Windows x86/x64架构的软件和游戏。 Winlator是一款Android应用程序&#xff0c;它允许用户使用Wine和Box86/Box64在Android设备上…

docker-compose部署redis-exporter

一、安装prometheus 1、安装 version: 3.1services:redis-exporter:image: bitnami/redis-exporter:latestcontainer_name: redis-exporterports:- 9121:9121environment:TZ: Asia/Shanghaicommand:- --redis.addrredis://127.0.0.1:6379# - --redis.passwordlabels:org.labe…

C#学习3-微软C#官方文档Microsoft-dotnet-csharp.pdf

文章目录 1.内插表达式的字段宽度和对齐方式 1.内插表达式的字段宽度和对齐方式 static void Main(string[] args) {var titles new Dictionary<string, string>() {["Doyle ,Arthur"] "Hound of the Basker,The",["Lodon ,Jack"] &quo…

PHP恋爱话术微信小程序系统源码

&#x1f496;恋爱高手的秘密武器&#xff01;恋爱话术微信小程序&#xff0c;让情话信手拈来✨ &#x1f4ad;【开场白&#xff1a;恋爱路上的甜蜜助手】&#x1f4ad; 还在为跟心仪的TA聊天时找不到话题而尴尬&#xff1f;或是担心自己说的每句话都显得那么“直男/女”&…

Linux上启动和停止jar

linux 后台运行jar 在Linux系统中&#xff0c;要想让jar包在后台运行&#xff0c;可以使用nohup命令和&符号。nohup命令可以使进程在后台不受挂起信号影响的执行&#xff0c;而&符号则是将任务放入后台执行。 以下是一个简单的命令示例&#xff0c;它将启动一个jar包…

记一次使用vue连接rabbitMq

连接rabbitMq需要使用stompjsnpm i stompjs 下下面是连接代码 import Stomp from stompjsonConnected(frame) {// 绑定交换机exchange_pushmsg是交换机的名字rk_pushmsg是绑定的路由keyvar exchange this.rabbitMqexchange || queue.device.zzzz// 创建随机队列用上面的路由k…

安全编织:Eureka驱动的分布式服务网格安全策略

安全编织&#xff1a;Eureka驱动的分布式服务网格安全策略 在微服务架构的复杂网络中&#xff0c;服务的安全性是维护系统稳定运行的基石。服务网格&#xff08;Service Mesh&#xff09;作为微服务间通信的代理层&#xff0c;承担着保障服务间通信安全的重要职责。Eureka&…

vi 编辑器快捷生成 main 函数和基本框架

step1: 执行 sudo vi /etc/vim/vimrc &#xff08;修改vimrc需要管理员权限&#xff1a;sudo&#xff09; step2:输入用户密码&#xff0c;回车, 编辑vimrc文件 step3:在尾行输入以下代码&#xff08;可复制&#xff09; map mf i#include<stdio.h><ESC>o#includ…

Web3发展的基本要素

区块链&#xff1a;分布式数据库 1 区块链是一种新型的分布式数据库协议&#xff0c;是实现Web3的最核心技术。 2 区块链的技术特性使其能够&#xff1a; 1&#xff09;安全地存储数据&#xff0c;得益于现代计算机密码学&#xff0c;用户可以获得自己独特、安全的账户&…

java itextPdf根据pdf模板,编辑保存pdf后可二次编辑处理

java 支持pdf 多次编辑的重点只有两个 1&#xff1a;flat属性 2&#xff1a;设置文本域只读属性 看似简单的两个问题&#xff0c;却耗费了一天的时间。pdf没有官方文档太难受了&#xff0c;只能在网上查找相关的案 例。但是很多文章都是copy别人的。没有实际效果。皇天不负有…

uniapp 微信小程序根据后端返回的文件链接打开并保存到手机文件夹中【支持doc、docx、txt、xlsx等类型的文件】

项目场景&#xff1a; 我们在使用uniapp官方提供的uni.downloadFile以及uni.saveFile时&#xff0c;会发现这个文件下载的默认保存位置和我们预想的不太一样&#xff0c;容易找不到&#xff0c;而且没有提示&#xff0c;那么我们就需要把文件打开自己保存并且有提示保存到哪个…

探索前沿科技:从迁移学习看人工智能的无限可能性

从迁移学习看人工智能的无限可能性 1 引言1.1 什么是迁移学习1.1.1 迁移学习的定义1.1.2 迁移学习的起源和背景 1.2 迁移学习的重要性1.2.1 解决小数据集问题1.2.2 提高模型训练效率1.2.3 应用于不同领域的广泛性 1.3 迁移学习的前景 2 迁移学习的基本概念2.1 源域和目标域2.1.…

【区块链 + 智慧政务】涉税行政事业性收费“e 链通”项目 | FISCO BCOS应用案例

国内很多城市目前划转至税务部门征收的非税收入项目已达 17 项&#xff0c;其征管方式为行政主管部门核定后交由税务 部门征收。涉税行政事业性收费受限于传统的管理模式&#xff0c;缴费人、业务主管部门、税务部门、财政部门四方处于 相对孤立的状态&#xff0c;信息的传递靠…

模板方法原理与C++实现

定义 定义一个操作中的算法骨架&#xff08;稳定的&#xff09;&#xff0c;而将一些步骤的实现延迟到子类中&#xff08;变化的&#xff09;。模板方法使得子类可以复用一个算法的结构&#xff0c;而只改变&#xff08;重写&#xff09;这个算法的特定步骤。 C实现 class L…

ns3-gym入门(二):linear-mesh例子详解

一、问题背景&#xff1a;Random Access Controlling the random access in an IEEE 802.11 mesh network is challenging as the network nodes compete for the shared radio resources. It is known that assigning the same channel access probability to each node is no…