Hadoop:简单介绍

什么是Hadoop:

Hadoop是一种用Java编写的框架,用于在大型商品硬件集群上运行应用程序,并具有类似于Google File System和MapReduce的功能 。 HDFS是高度容错的分布式文件系统,与Hadoop一样,旨在部署在低成本硬件上。 它提供对应用程序数据的高吞吐量访问,并且适用于具有大数据集的应用程序。
谁使用Hadoop:

Hadoop主要由处理大量数据的公司使用。 他们可能需要处理数据执行分析生成报告 。 当前,所有领先的组织,包括Facebook,Yahoo,Amazon,IBM,Joost,PowerSet,New York Times,Veoh等,都在使用Hadoop。 有关更多信息,请查看PoweredBy Hadoop页面 。

为什么选择Hadoop:

MapReduce是Google的秘密武器:一种将复杂的问题分解并散布到许多计算机上的方法。 Hadoop是MapReduce及其自己的文件系统HDFS(Hadoop分布式文件系统)的开源实现。

Hadoop在某种程度上击败了超级计算机:

Hadoop集群在209秒内对1 TB的数据进行了排序,在年度通用(daytona)TB的基准测试中打破了之前297秒的记录。 排序基准由Jim Gray于1998年创建,它指定了输入数据(100亿条100字节记录),这些数据必须完全排序并写入磁盘。 这是Java或开放源代码程序的首次获奖。 有关更多信息, 请单击此处 。

欧洲最大的广告定位平台使用Hadoop:

欧洲最大的广告公司每天可获得超过100GB的数据,现在使用RDBMS等经典解决方案需要5天的时间进行分析并生成报告。 因此他们落后1个弱点。 经过大量研究,他们开始使用hadoop。 现在有趣的事实是“ Tey能够在1小时内处理数据并生成报告”,这就是Hadoop的魅力所在。 有关更多信息, 请单击此处

Hadoop的主要发行版:

1. Apache Hadoop:

Apache Hadoop项目开发了用于可靠,可扩展的分布式计算的开源软件。

Apache Hadoop提供:

  • Hadoop Common支持其他Hadoop子项目的通用实用程序。
  • HDFS一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。
  • MapReduce一个用于在计算集群上对大型数据集进行分布式处理的软件框架。
  • Avro数据序列化系统。
  • Chukwa用于管理大型分布式系统的数据收集系统。
  • HBase可扩展的分布式数据库,支持大型表的结构化数据存储。
  • Hive一种数据仓库基础结构,可提供数据汇总和即席查询。
  • Mahout可扩展的机器学习和数据挖掘库。
  • Pig用于并行计算的高级数据流语言和执行框架。
  • ZooKeeper针对分布式应用程序的高性能协调服务。

2. Cloudera Hadoop:

Cloudera的Apache Hadoop发行版(CDH)为基于Hadoop的数据管理平台设定了新标准。 它是当今可用的最全面的平台,可显着加速组织中Apache Hadoop的部署。 CDH基于Apache Hadoop的最新稳定版本。 它包括一些从将来发行版反向移植的有用补丁,以及我们为客户开发的改进

Cloudera Hadoop提供:

  • HDFS –自愈式分布式文件系统
  • MapReduce –强大的并行数据处理框架
  • Hadoop Common –一组支持Hadoop子项目的实用程序
  • HBase – Hadoop数据库,用于随机读写访问
  • Hive –大型数据集上类似SQL的查询和表
  • Pig –数据流语言和编译器
  • Oozie –相互依赖的Hadoop作业的工作流程
  • Sqoop –将数据库和数据仓库与Hadoop集成
  • Flume –高度可靠,可配置的流数据收集
  • Zookeeper –分布式应用程序的协调服务
  • Hue –用于可视Hadoop应用程序的用户界面框架和SDK
Hadoop体系结构:
Hadoop分布式文件系统(HDFS)是一种旨在在商品硬件上运行的分布式文件系统。 它与现有的分布式文件系统有许多相似之处。 但是,与其他分布式文件系统的区别很明显。 HDFS具有高度的容错能力,旨在部署在低成本硬件上。 HDFS提供对应用程序数据的高吞吐量访问,并且适用于具有大数据集的应用程序。 HDFS放宽了一些POSIX要求,以实现对文件系统数据的流式访问。
名称节点:
NameNode管理名称空间,文件系统元数据和访问控制。 每个群集中只有一个NameNode。 我们可以说NameNode是主节点,数据节点是从节点。 它包含有关数据(即元数据)的所有信息
数据节点:
DataNode保存实际的文件系统数据。 每个数据节点管理其自己的本地连接的存储(即节点的硬盘),并在文件系统中存储一些或所有块的副本。 每个群集中有一个或多个DataNode。
安装/部署Hadoop:

Hadoop可以三种方式安装
1.独立模式:
要以独立模式部署Hadoop,我们只需要设置JAVA_HOME的路径即可。 在这种模式下,不需要启动守护程序,也不需要名称节点格式,因为数据保存在本地磁盘中。
2.伪分布式模式:
在这种模式下,所有守护程序(nameNode,dataNode,secondaryNameNode,jobTracker,taskTracker)都在一台机器上运行。

在此模式下,守护程序(nameNode,jobTracker,secondaryNameNode(可选))在主服务器(NameNode)上运行,守护程序(dataNode和taskTracker)在从属服务器(DataNode)上运行。 请继续关注有关三种Hadoop模式/配置的文章。

相关文章 :

  • MapReduce:简单介绍
  • Cajo,用Java完成分布式计算的最简单方法
  • Hibernate映射集合性能问题
  • Java Code Geeks Andygene Web原型
  • Servlet 3.0异步处理可将服务器吞吐量提高十倍


参考:通过高性能计算博客上的 JCG合作伙伴 了解什么是Hadoop 。

翻译自: https://www.javacodegeeks.com/2011/05/hadoop-soft-introduction.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/374567.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Javascript 异步编程的4种方法

你可能知道,Javascript语言的执行环境是"单线程"(single thread)。 所谓"单线程",就是指一次只能完成一件任务。如果有多个任务,就必须排队,前面一个任务完成,再执行后面一…

JAVA入门之方法

所谓方法,就是用来解决一类问题的代码的有序组合,是一个功能模块。 一般情况下,定义一个方法的语法是: 其中: 1、 访问修饰符:方法允许被访问的权限范围, 可以是 public、protected、private 甚…

JAVA运算符和优先级

1、算术运算符: 和 -- 既可以出现在操作数的左边,也可以出现在右边,但结果是不同,如: ①int a5;int ba; #先把a赋给b,a再自增 ②int a5;int ba;   #a先…

将JSON功能添加到您的GWT应用程序中

JSON简介 在Web应用程序上工作时,总是会出现客户端-服务器数据交换的问题。 在此问题上有多种方法,其中许多使用XML进行交换。 执行此任务的一种不太知名的格式是JSON。 JSON(JavaScript对象表示法)是一种轻量级的数据交换格式。…

win10资源管理器怎么打开_让你效率倍增的电脑神器,最强资源管理器增强工具「QTTabBar」...

前言Windows 自带的资源管理器的功能比较简单,够用是够用了,但有时也确实无法满足我们对更便捷高效的操作方式的追求。「QTTabBar」正是一个非常强大的 Windows 资源管理器增强工具!不仅支持多标签页管理,还有许多便捷的扩展功能&…

android横向滑动选择的view

做文字编辑,从网上找来的。 HorizontalScrollSelectView: public boolean mAlwaysOverrideTouch true;protected ListAdapter mAdapter;private int mLeftViewIndex -1;private int mRightViewIndex 0;protected int mCurrentX;protected int mNextX;…

excel使用教程_数据分析Excel必备技能:数据透视表使用教程

江米小枣tonylua | 作者掘金 | 来源处理数量较大的数据时,一般分为数据获取、数据筛选,以及结果展示几个步骤。在 Excel 中,我们可以利用数据透视表(Pivot Table)方便快捷的实现这些工作。本文首先手把手的教你如何在 Excel 中手动构建一个基…

java调用webservice_笃学私教:Java开发网站架构演变过程-从单体应用到微服务架构详解...

原标题:笃学私教:Java开发网站架构演变过程-从单体应用到微服务架构详解Java开发网站架构演变过程,到目前为止,大致分为5个阶段,分别为单体架构、集群架构、分布式架构、SOA架构和微服务架构。下面玄武老师来给大家详细…

专2-第二课 Eclipse开发环境搭建

2.1下载Eclipse 2.2 安装C/C版本的Eclipse 2.3 安装JDT插件开发Java程序 2.4 使用Eclipse开发驱动程序 既然安装了eclipse来进行驱动学习,那么我们就先来试试看eclipse开发驱动的大致流程。这里以Linux设备驱动作为示列给读者展示整个流程,Android底层的…

tkinter 菜单添加事件_Tasker的最新测试劫持了Android 11的电源菜单

流行的Android自动化应用Tasker 最近收到了重大更新,为该应用引入了许多新功能。该更新包括解锁应用程序读取手机上任何传感器以触发任务的功能,使您可以通过任何第三方应用程序自动发送短信或拨打电话的功能,完全请勿打扰自定义功能。通过链…

CLR via C#(18)——Enum

1. Enum定义 枚举类型是经常用的一种“名称/值”的形式,例如: public enum FeedbackStatus { New, Processing, Verify, Closed } 定义枚举类型之后我们在使用时方便了许多,不用再记着0代表什么状态…

电力电子、电机控制系统的建模和仿真_清华团队研发,首款国产电力电子仿真软件来啦~已捐赠哈工大、海工大、清华使用!...

点击上方电气小青年,关注并星标由于微信改版,只有星标才能及时看到我们的消息哦━━━━━━推荐阅读:《膜拜大神!清华大学电机系2021年接收推荐免试直硕(博)生拟录取名单公示!》《滴滴程序员年薪80万被鄙视不如在二本…

可视化分析之图表选择

转载于:https://www.cnblogs.com/yymn/p/4783631.html

453. 最小操作次数使数组元素相等

给你一个长度为 n 的整数数组&#xff0c;每次操作将会使 n - 1 个元素增加 1 。返回让数组所有元素相等的最小操作次数。 class Solution {public int minMoves(int[] nums) {int res 0;int sum 0;int n nums.length;for(int i 0;i<n;i){sum nums[i];}res sum - min…

第二章 TCP/IP 基础知识

第二章 TCP/IP 基础知识 TCP/IP transmission control protocol and ip internet protocol 是互联网众多通信协议中最为著名的。 2.2 TCP/IP 的标准化 2.2.2 TCP/IP 标准化精髓 TCP/IP 协议始终具有很强的实用性。 相比于TCP/IP &#xff0c;OSI 之所以未能达到普及&#xff0…

gorm preload 搜索_LeetCode刷题笔记|95:不同的二叉搜索树 II

题目描述给定一个整数 n&#xff0c;生成所有由 1 ... n 为节点所组成的 二叉搜索树 。示例输入&#xff1a;3输出&#xff1a;[[1,null,3,2],[3,2,null,1],[3,1,null,null,2],[2,1,3],[1,null,2,null,3]]解释&#xff1a;以上的输出对应以下 5 种不同结构的二叉搜索树&#xf…

GTJ2018如何导出全部工程量_如何成为优秀的造价员?广联达编制内刊手册,造价员算量高手秘籍...

如何成为优秀的造价员&#xff1f;广联达编制内刊手册&#xff0c;造价员算量高手秘籍[高手秘籍]是广联达课程编制委员会暨直播委员会精心打造的&#xff0c;能够“让您深入理解软件计算、设置等原理,遇到问题有处理思路,以常见问题为导向&#xff0c;重点进行原因分析&#xf…

带有Spring,Hibernate,Akka,Twitter Bootstrap,Apache Tiles和jQuery的Maven Web项目Kickstarter代码库...

我很高兴将第二个项目上传到GitHub&#xff0c;以帮助人们尽快开始Java Web App开发。 我正在与Apache License 2.0共享此代码。 这是相同的网址&#xff1a; https://github.com/ykameshrao/spring-hibernate-springdata-springmvc-maven-project-framework 该项目包括以下部…

C++服务器设计(七):聊天系统服务端实现

在之前的章节中&#xff0c;我们对服务端系统的设计实现原理进行了剖析&#xff0c;在这一章中&#xff0c;我们将对服务端框架进行实际运用&#xff0c;实现一款运行于内网环境的聊天系统。该聊天系统由客户端与服务器两部分组成&#xff0c;同时服务端通过数据库维护用户的账…

高校实验室管理系统_史上最全面的实验室信息管理系统(LIMS)全解

1. LIMS的基本概念和发展状况1.1 概括LIMS实验室管理系统是为实验、检测等业务板块提供流程化、模块化、标准化操作管理系统&#xff0c;打造基于行业法规的实验室全流程质量控制管理系统&#xff0c;实现实验室“人、机、料、法、环”关键环节管理。1.2 发展状况随着科研规范化…