hadoop简单介绍_Hadoop:简单介绍

hadoop简单介绍

什么是Hadoop:

Hadoop是用Java编写的框架,用于在大型商品硬件群集上运行应用程序,并具有类似于Google File System和MapReduce的功能 。 HDFS是一个高度容错的分布式文件系统,与Hadoop一样,旨在部署在低成本硬件上。 它提供对应用程序数据的高吞吐量访问,并且适用于具有大数据集的应用程序。
谁使用Hadoop:

Hadoop主要由处理大量数据的公司使用。 他们可能需要处理数据执行分析生成报告 。 当前,所有领先的组织,包括Facebook,Yahoo,Amazon,IBM,Joost,PowerSet,New York Times,Veoh等,都在使用Hadoop。 有关更多信息,请查看PoweredBy Hadoop页面 。

为什么选择Hadoop:

MapReduce是Google的秘密武器:一种将复杂问题分解并分散到多台计算机上的方法。 Hadoop是MapReduce及其自己的文件系统HDFS(Hadoop分布式文件系统)的开源实现。

Hadoop在某种程度上击败了超级计算机:

Hadoop集群在209秒内对1 TB的数据进行了排序,在年度通用(daytona)TB级的基准测试中打破了之前297秒的记录。 排序基准是由Jim Gray在1998年创建的,它指定了输入数据(100亿条100字节记录),这些数据必须完全排序并写入磁盘。 这是Java或开源程序第一次获胜。 有关更多信息, 请单击此处 。

欧洲最大的广告定位平台使用Hadoop:

欧洲最大的广告公司每天获取超过100GB的数据,现在使用RDBMS之类的经典解决方案,他们需要5天的时间进行分析并生成报告。 因此他们落后1个弱点。 经过大量研究,他们开始使用hadoop。 现在有趣的事实是“ Tey能够在1小时内处理数据并生成报告”,这就是Hadoop的魅力所在。 有关更多信息, 请单击此处

Hadoop的主要发行版:

1. Apache Hadoop:

Apache Hadoop项目开发了用于可靠,可扩展的分布式计算的开源软件。

Apache Hadoop提供:

  • Hadoop Common支持其他Hadoop子项目的通用实用程序。
  • HDFS一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。
  • MapReduce一种用于在计算集群上对大型数据集进行分布式处理的软件框架。
  • Avro数据序列化系统。
  • Chukwa用于管理大型分布式系统的数据收集系统。
  • HBase一个可扩展的分布式数据库,支持大型表的结构化数据存储。
  • Hive一种数据仓库基础结构,可提供数据汇总和即席查询。
  • Mahout可扩展的机器学习和数据挖掘库。
  • Pig用于并行计算的高级数据流语言和执行框架。
  • ZooKeeper针对分布式应用程序的高性能协调服务。

2. Cloudera Hadoop:

Cloudera的Apache Hadoop发行版(CDH)为基于Hadoop的数据管理平台设定了新标准。 它是当今最全面的平台,可显着加快组织中Apache Hadoop的部署。 CDH基于Apache Hadoop的最新稳定版本。 它包括一些从将来版本中移植回来的有用补丁,以及我们为客户开发的改进

Cloudera Hadoop提供:

  • HDFS –自愈式分布式文件系统
  • MapReduce –强大的并行数据处理框架
  • Hadoop Common –一组支持Hadoop子项目的实用程序
  • HBase – Hadoop数据库,用于随机读写访问
  • Hive –大型数据集上类似SQL的查询和表
  • Pig –数据流语言和编译器
  • Oozie –相互依赖的Hadoop作业的工作流程
  • Sqoop –将数据库和数据仓库与Hadoop集成
  • Flume –高度可靠,可配置的流数据收集
  • Zookeeper –分布式应用程序的协调服务
  • Hue –用于可视Hadoop应用程序的用户界面框架和SDK
Hadoop体系结构:
Hadoop分布式文件系统(HDFS)是一种旨在在商品硬件上运行的分布式文件系统。 它与现有的分布式文件系统有许多相似之处。 但是,与其他分布式文件系统的区别很明显。 HDFS具有高度的容错能力,旨在部署在低成本硬件上。 HDFS提供对应用程序数据的高吞吐量访问,并且适用于具有大数据集的应用程序。 HDFS放宽了一些POSIX要求,以实现对文件系统数据的流式访问。
名称节点:
NameNode管理名称空间,文件系统元数据和访问控制。 每个群集中只有一个NameNode。 我们可以说NameNode是主节点,数据节点是从节点。 它包含有关数据(即元数据)的所有信息
数据节点:
DataNode保存实际的文件系统数据。 每个数据节点管理其自己的本地连接的存储(即节点的硬盘),并在文件系统中存储一些或所有块的副本。 每个群集中有一个或多个DataNode。
安装/部署Hadoop:

Hadoop可以三种方式安装
1.独立模式:
要以独立模式部署Hadoop,我们只需要设置JAVA_HOME的路径即可。 在这种模式下,不需要启动守护程序,也不需要名称节点格式,因为数据保存在本地磁盘中。
2.伪分布式模式:
在这种模式下,所有守护程序(nameNode,dataNode,secondaryNameNode,jobTracker,taskTracker)都在一台机器上运行。

在此模式下,守护程序(nameNode,jobTracker,secondaryNameNode(可选))在主服务器(NameNode)上运行,守护程序(dataNode和taskTracker)在从属服务器(DataNode)上运行。 请继续关注有关三种Hadoop模式/配置的文章。

相关文章 :

  • MapReduce:简单介绍
  • Cajo,用Java完成分布式计算的最简单方法
  • Hibernate映射集合性能问题
  • Java Code Geeks Andygene Web原型
  • Servlet 3.0异步处理可将服务器吞吐量提高十倍


参考:通过高性能计算博客上的 JCG合作伙伴 了解什么是Hadoop 。

翻译自: https://www.javacodegeeks.com/2011/05/hadoop-soft-introduction.html

hadoop简单介绍

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/359364.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java mvc 案例_springmvc经典案例

本想自己写一下总结,但是发现一篇好文,转发一下,日后自己再做补充;感谢Sunnier,引自:https://www.cnblogs.com/sunniest/p/4555801.htmlSpringMVC学习笔记----一、SpringMVC基础入门,创建一个He…

java泛型方法无参_从头再来:Java泛型(开发必须知道的)

Java泛型老规矩,测试一下,下面的程序能否正常运行?为什么?开头测试题泛型就是实现了参数化类型,也就是代码可以适用于多种类型。泛型是在编译期检查的,在编译期检查类型是否安全。我认为泛型最有用的就是和…

几种常见模式识别算法整理和总结

这学期选了门模式识别的课。发现最常见的一种情况就是,书上写的老师ppt上写的都看不懂,然后绕了一大圈去自己查资料理解,回头看看发现,Ah-ha,原来本质的原理那么简单,自己一開始仅仅只是被那些看似formidab…

fastd java下载_FastReport VCL报表控件

FastReport VCL报表控件是著名的 Delphi 打印控件。含全部源码。支持 Delphi 10.2 Tokyo,FastReport可以在大量的方式报表的创建过程中操纵对象。快速发展的报表和随后的打印,这样的优点,正如预览打印文档的外观。专业版除了报表标准版的功能…

#102030:在30天内运行20 10K来庆祝Java的20年

1995年5月23日是技术史上的重要时刻。 业界似乎并没有意识到当天发布的语言会在未来几年内完全改变技术的格局。 Java将在今年的同一天庆祝20岁生日。 Java 20年,哇! 回顾20年前的存储器时代,思考一下Java的发明时间/方式。 万维网专用于精…

View 的 android:visibility属性的讨论

Android VIEW 中的 visibility 属性,在API中的描述为:Controls the initial visibility of the view. [控制VIEW的初始可见性]。 其中包含三个参数: * 默认值为visible,可见。这里需要注意的是 "invisible" 和 "go…

JQuery-Dialog(弹出窗口,遮蔽窗口)

在Ajax中经常用到的弹出窗口和遮蔽窗口。自己写肯定是一个最佳方案,但时间和成本上,还是决定了寻找现成的吧。大概罗列一下。需要我满足我几个条件 一定要简洁方便拥有遮蔽功能,Model Dialog ,所谓的模态窗口可以根据HTML弹出窗口…

java调用接口实现的方法_java调用接口的实现方法

java调用接口的实现方法发布时间:2020-06-29 11:08:46来源:亿速云阅读:78作者:Leah本篇文章给大家分享的是有关java调用接口的实现方法,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇…

Java EE应用程序的单片到微服务重构

您是否曾经想过将现有的Java EE整体应用程序重构为基于微服务的应用程序需要做什么? 该博客解释了一个简单的购物车示例如何转换为基于微服务的应用程序,以及围绕它的一些担忧。 整体和基于微服务的应用程序的完整代码库位于: github.com/ar…

Java代码韦伯分布_第十五节、韦伯局部描述符(WLD,附源码)

纹理作为一种重要的视觉线索,是图像中普遍存在而又难以描述的特征,图像的纹理特征一般是指图像上地物重复排列造成的灰度值有规则的分布。纹理特征的关键在于纹理特征的提取方法。目前,用于纹理特征提取的方法有很多,最具有代表性…

JavaFX真实世界应用程序:欧洲电视网广播联盟

我荣幸地与今年在德累斯顿Saxonia 系统公司工作的Alexander Casall一起在JavaOne上展示了多个JavaFX Real-World应用程序。 在准备本次演讲时,我们向客户和合作伙伴发送了一份调查表,并向他们询问了一些与他们的项目,他们的应用程序以及他们对…

java 三大集合_java中的三大集合入门笔记(简单实用)

为什么使用集合框架如图:集合的好处:集合弥补了数组的缺陷,它比数组更灵活更实用,可大大提高软件的开发效率,而且不同的集合适用于不同的场合。Java集合主要分为以下3种类型Java集合框架提供了一套性能优良、使用方便的…

Java面试题2019简书_2019最新Spring面试题大全含答案之Spring Beans(2019最全Spring超级葵花宝典)...

1.什么是Spring beans?Spring beans 是那些形成Spring应用的主干的java对象。它们被Spring IOC容器初始化,装配,和管理。这些beans通过容器中配置的元数据创建。比如,以XML文件中 的形式定义。Spring 框架定义的beans都是单件bean…

使用此首选项可加快Eclipse m2e配置

谁不认识他们。 Eclipse中的旧式JFace对话框可以使您直观地看到实际上是一个相当简单的XML或属性文件。 对于m2e,它看起来像这样: 不幸的是,此屏幕的加载速度有点慢,除了检查版本号和您将永远不会更改的其他内容之外&#xff0c…

【百度地图API】发布静态图API啦!只需一个网址,即可展示定制百度地图!

【百度地图API】发布静态图API啦!只需一个网址,即可展示定制百度地图! 原文:【百度地图API】发布静态图API啦!只需一个网址,即可展示定制百度地图!摘要: 百度地图静态图API!您无须执…

脚本在流程中的性能影响

我们经常看到人们出于各种目的而使用脚本(例如,在服务任务,执行侦听器等中)。 使用脚本和Java逻辑通常很有意义: 它不需要打包到jar中并放在classpath上 它使流程定义更易于理解:无需查看其他文件 逻辑是…

PowerDesigner使用教程

原文:http://www.cnblogs.com/huangcong/archive/2010/06/14/1757957.html PowerDesigner是一款功能非常强大的建模工具软件,足以与Rose比肩,同样是当今最著名的建模软件之一。Rose是专攻UML对象模型的建模工具,之后才向数据库建模…

红帽峰会2015所需的JBoss BPM内容指南

明年再见? 今年在Red Hat Summit上,我们在JBoss BRMS和JBoss BPM Suite演讲中获得了很多乐趣。 在DevNation周围也有一些社区会议,重点介绍了使我们的产品成为可能的项目。 您可以在他们的博客上找到此演讲的概述,并在其中提供…

设计模式 之 享元

享元模式(Flyweight) 运用共享技术有效地支持大量细粒度的对象。 还记得那年夏天一起在作文本上玩过的五子棋吗?五子棋是一种两人对弈的纯策略型棋类游戏,它起源于中国古代的传统黑白棋种之中的一个,不…

php制作简单的用户登陆,如何用php代码实现简单的用户登陆以及登陆验证功能

本文主要简单讲述了如何使用php实现简单的用户登陆以及登陆验证效果。1、首先实现通过Session实现用户的登录那么什么是session呢?session被译为会话,它主要是为了在一定访问期间在不同页面之间间传输数据,用来解决http协议无状态。session在…