Hadoop常见问题 | Hadoop能干什么?

戳蓝字“CSDN云计算”关注我们哦!


640?wx_fmt=png

我们很荣幸能够见证Hadoop十几年间经历了从无到有,再到称王。感动于技术的日新月异时,希望通过本篇有问有答,带大家解决Hadoop的常见问题。


640?wx_fmt=gif1

Q: Hadoop 的发展历史


A:640?wx_fmt=jpeg


640?wx_fmt=gif2

Q:Hadoop有哪些优点呢?


A:Hadoop 是一个能够让用户轻松架构和使用的分布式计算的平台。用户可以轻松地在 Hadoop 发和运行处理海量数据的应用程序。其优点主要有以下几个:

(1) 高可靠性 :Hadoop 按位存储和处理数据的能力值得人们信赖。

(2) 高扩展性 :Hadoop 是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以干计的节点中。

(3) 高效性 :Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

(4) 高容错性 :Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分。

(5) 低成本 :与一体机、商用数据仓库以及 QlikView、 Yonghong Z- Suites 等数据集市相比,Hadoop 是开源的,项目的软件成本因此会大大降低。

Hadoop 带有用 Java 语言编写的框架,因此运行在 linux 生产平台上是非常理想的, Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。


640?wx_fmt=gif3

Q:25%的Spark正在脱离Hadoop生态单独运行


A:Gartner报告其实是该系列调查的导火索。在早前的报告中,Gartner曾指出,尽管企业对大数据解决方案的需求不断增长,但对Hadoop的需求没有像预期那样加速。同时,25%的Spark已经开始脱离Hadoop生态单独运行。


640?wx_fmt=gif4

Q:Hadoop能干什么?


A:大数据存储:分布式存储

日志处理:擅长日志分析

ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库

机器学习: 比如Apache Mahout项目

搜索引擎:Hadoop + lucene实现

数据挖掘:目前比较流行的广告推荐,个性化广告推荐

Hadoop是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。


640?wx_fmt=gif5

Q:Hadoop的特点


A:扩容能力(Scalable) 

能可靠地(reliably)存储和处理千兆字节(PB)数据

成本低(Economical) 

可以通过普通机器组成的服务器集群来分发以及处理数据。这些服务器几圈总计可以达到千个节点。

高效率(Efficient) 

通过分发数据,hadoop 可以在数据所在的节点上并行的(parallel)处理它们,这使得处理非常快。

可靠性(Reliable) 

hadoop 能自动地维护数据的多份副本,并且在任务失败后能自动重新部署(redeploy)计算任务

小伙伴们冲鸭,后台留言区等着你!

关于Hadoop,今天你学到了什么?还有哪些不懂的?除此还对哪些话题感兴趣?快来留言区打卡啦!留言方式:打开第XX天,答:……

同时欢迎大家搜集更多问题,投稿给我们!风里雨里留言区里等你~


640?wx_fmt=png


福利

扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!


640?wx_fmt=jpeg


推荐阅读:

  • 微博宕机复盘:什么样的技术架构,可支持80个明星并发出轨?

  • 漫画 | Kubernetes带你一帆风顺去远航

  • Android 告急!

  • 超酷炫!Facebook用深度学习和弱监督学习绘制全球精准道路图

  • 多地GitHub账号使用受限;Python之父考虑重构解释器;62岁程序员埋逻辑炸弹 | 开发者周刊

  • 3个核心差异, 告诉你为什么Libra永远成不了比特币!


真香,朕在看了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/522739.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

matlab 导入元胞,MATLAB导入xls文件以及cell的使用方法

使用matlab读入.xls的文件时候可以用[T,TXT,RAW]xlsread("filename.xls")导入也可以使用import data 的办法手动导入文件。但是我比较倾向于自动化程度比较高的前者,毕竟有时候导入的文件数量是几百个手动导入不科学。xlsread返回的参数有三个&#xff0c…

uDevice Center - IoT弹性在线多设备开发平台

摘要: IoT开发的一大痛点在于:硬件获取与setup路径太长;开发工具难以支持多设备联合开发。我们用uDevice Center把开发板/设备都搬到了线上,让用户可以不用买硬件接线,在线就能做IoT开发调试了。同时,uDevi…

快报:Python 被爆重大“黑料”!程序员:劲爆!

坐拥各大编程排行榜的Python,真的无敌了吗?在我一个朋友看来,他坚信 Python 可以做任何事情。但其实我是不服的,我相信很多人都有这种感觉。但是我最近当看 GitHub 年度项目数量时,我哭了,因为 Python 应用…

SpringBoot集成flowable-modeler(6.4.1) 实现免登

因公司需求需要将flowable的流程设计器集成到项目中,下面将最近的研究成果记录一下。 文章目录一、下载flowable-modeler源码二、添加相关maven包三、调用idm服务重新接口四、配置类五、启动类跳过登陆拦截六、配置文件一、下载flowable-modeler源码 把flowable-ui…

时代在召唤5G

戳蓝字“CSDN云计算”关注我们哦!作者| 白告天原创 |边缘计算社区错过房价飞涨的年代,你还要错过5G这班车吗?一 5G是什么?5G,就是第五代移动通信技术。和大哥大变成智能手机,绿皮火车变成和谐号都是一种大幅…

jboss连接池,断开后自动重连功能

最近客户现场的测试环境连的数据库极不稳定,经常会出现需要重新启动数据库的情况, 但是一旦重启数据库 则会出现 提示 ,执行sql错误,原因就是datasource 没有获取新的连接! 那么解决办法就是怎样让jboss每次提供连接的时候都给我们…

API信息全掌控,方便你的日志管理——阿里云推出API网关打通日志服务

摘要: 近日,阿里云API网关对接了日志服务,可以输出用户在API网关产生的API调用日志,目前支持将 API 接入 API 网关的用户查看日志明细、概况、报表分析、在线查询等。 访问日志(Acccess Log)是由应用服务生…

GitHub 被爆开始实名制,以便于执行美国贸易制裁;特斯拉推出超大储能产品Megapack;高通宣布与腾讯游戏达成战略合作……...

关注并标星星CSDN云计算极客头条:速递、最新、绝对有料。这里有企业新动、这里有业界要闻,打起十二分精神,紧跟fashion你可以的!每周三次,打卡即read更快、更全了解泛云圈精彩newsgo go go 尼展示圆柱型透明式显示屏&a…

几何级数 函数 matlab,matlab 实验05数据的统计分析

数据的统计分析在日常生活中我们会在很多事件中收集到一些数据(比如:考试分数、窗口排队人数、月用电量、灯泡寿命、测量误差、产品质量、月降雨量等数据),这些数据的产生一般都是随机的.这些随机数据乍看起来并没有什么规律,但通…

IDEA解决sun.misc.BASE64Encoder找不到jar包的解决方法

sun.misc.BASE64Encoder 不建议使用java.sun自带包中的内容 import sun.misc.BASE64Encoder; import sun.misc.BASE64Decoder;在项目中,设计到64位编码的。有时开发会用到JDK中自带的BASE64工具。但sun公司是建议不这样做的。尤其是更新了JDK版本,项目甚…

MaxCompute印尼开服,成为阿里云第十二个大数据服务节点

摘要: 人口超2.5亿的印度尼西亚,政府、通讯公司和银行等机构拥有繁杂的数据沉淀,他们正在加快应用大数据开发框架。MaxCompute势必加速这一进程,唤醒沉淀数据,最大化挖掘数据价值。 点此查看原文:http://cl…

大数据年代,我们的思想已被算法剥夺

戳蓝字“CSDN云计算”关注我们哦!在这个信息爆炸的年代,我们能够获取信息的途径正越来越多。各类信息通过各种文字APP,图片APP,视频APP乃至微信朋友圈传达到你面前。任何一个新闻都可以在发酵后的1天内传遍整个世界。看起来人们正…

SpringBoot整合Editor.md实现Markdown编辑器

Editor.md 是一款开源的、可嵌入的 Markdown 在线编辑器(组件),基于 CodeMirror、jQuery 和 Marked 构建。 文章目录一、技术选型及分支部署二、集成手册2.1. 下载项目2.2. 创建数据库2.3. 初始化数据库脚本2.4. 修改数据库用户名/密码 默认r…

【新功能】MaxCompoute禁止Full Scan功能开放

摘要: 2018年1月10日,MaxCompute禁止Full Scan功能开放。对于新创建的project默认情况下执行sql时,针对该project里的分区表不允许全表扫描,必须有分区条件指定需要扫描的分区。 点此查看原文:http://click.aliyun.com…

SpringBoot集成Editor.md 流程详细

接上一篇:SpringBoot整合Editor.md实现Markdown编辑器 https://blog.csdn.net/weixin_40816738/article/details/103160267 Editor.md 是一款开源的、可嵌入的 Markdown 在线编辑器(组件),基于 CodeMirror、jQuery 和 Marked 构建。 文章目录…

学阿里中台,80%的人只学到了皮毛!揭秘阿里中台的12个架构思维和原则

戳蓝字“CSDN云计算”关注我们哦!来源 | 阿里技术官方公众号(ali_tech)作者|九摩/阿里技术专家许多企业都忙于学习阿里的中台系统,想通过中台系统,解决企业当前的痛点,如:架构耦合度高、模块复用…

MaxCompute预付费资源监控工具-CU管家使用教程

摘要: MaxCompute管家使用前提 1、用户购买了 MaxCompute 预付费CU资源,60CU以上的用户(备注:CU过小无法发挥计算资源及管家的优势)。 2、支持区域,MaxCompute 华北2北京、华东2上海、华南1深圳 3个Region的…

SpringBoot2.x 整合websocket 消息推送,单独发送信息,群发信息

根据公司需求在SpringBoot项目中集成站内信,于是,我做了一个SpringBoot2.x 整合websocket 消息推送,给指定用户发送信息和群发信息即点点对方式和广播方式2种模式。 文章目录一、地址部署总览二、实战需求案例三、实战准备3.1. pom依赖3.2. a…

Spark精华问答 | 为什么要学Spark?

戳蓝字“CSDN云计算”关注我们哦!为什么要学习Spark?作为一个用来实现快速而通用的集群计算的平台。扩展广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,包括交互式查询和流处理。Spark的一个重要特点就是能够在内存中…

oracle导入dmp清除之前,oracle导入dmp遇到的有关问题

oracle导入dmp遇到的问题一、 首先要明白,导入导出dmp文件是通过cmd命令执行的,而不是通过SQL plus执行的.此外也可以借助PLSQLDev工具进行导入导出记得“导出可执行文件”选择客户端安装好的bin下的exp.exe工具二、发现在导出的过程有问题:网…