常见的Hadoop十大应用误解


戳蓝字“CSDN云计算”关注我们哦!

640?wx_fmt=jpeg

作者 | 大数据架构师

本文链接:https://www.jianshu.com/p/08255fa980e4


Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。以下是常见的Hadoop十大应用误解和正解。


1. (误解) Hadoop什么都可以做


(正解) 当一个新技术出来时,我们都会去思考它在各个不同产业的应用,而对于平台的新技术来说,我们思考之后常会出现这样的结论 “这个好像什么都能做”, 然而,更深入的去想,你就会发现“好像什么都需要重头做”。对于Hadoop,我常喜欢举Database来当例子。三十年前数据库(Database)刚出来时,上面并没有什么现成的应用方案(Application),所以厂商在销售的过程中常需要花很多的时间去告诉客户说,如果今天你有了这个数据库,你就可以做什么什么的应用,而看起来的确好像数据库什么应用都可以做,因为毕竟大部分的应用都会需要一个数据库。只是三十年前所有的应用都得重头打造,我们今天习以为常的ERP、CRM等应用系统,当时并不存在的,那都是后来的事了。今天的Hadoop,正好有点像当年database 刚出来的时候,毕竟今天所有的应用或多或少都会开始去处理半结构、非结构化数据,而这些东西的确都是Hadoop擅长的,所以平台的适用性其实问题不大,重点还是在应用要由谁来搭建。


2. (误解) Hadoop无法扮演HPC (High Performance Computing) or Grid Computing的角色


(正解) 由于Hadoop本身是由并行运算架构(MapReduce)与分布式文件系统(HDFS)所组成,所以我们也看到很多研究机构或教育单位,开始尝试把部分原本执行在HPC 或Grid上面的任务,部分移植到Hadoop集群上面,利用Hadoop兼顾高速运算与海量储存的特性,更简易且更有效率地来执行工作。目前国外高能物理、生命科学、医学等领域,都已经有这样的应用案例,利用Hadoop集群与现有的HPC/Grid 搭配、协同运作,来满足不同特性的运算任务。


3. (误解) Hadoop只能做资料分析/挖掘(Data Mining/Analyst)


(正解) Hadoop特别适合来数据分析与挖掘的应用是毫无疑问的,但数据分析与挖掘是难度与深度都较高的一个应用,所需要的时间的积累也比较长,也因此让一般企业对于导入Hadoop视为畏途,甚至心怀恐惧。然而,从Etu知意图团队这一两年来辅导客户的经验来看,我们发现其实更多的应用,大多都在数据处理(Data Processing)这个部分,或者更精确地来说,Hadoop这个平台,特别适合数据预处理(Data pre-Processing)这种应用场景。无论是数据仓库的负载分流(DW Offload)、数据的汇总(Data Aggregation)、甚或是我们运用协同过滤算法(Collaborative Filtering)针对线下线上零售业所做的精准推荐应用(Recommendation),广义上来看,都可以说是属于Data Processing的一环,毕竟,Big Data的来临,我们看data、运用data的角度与方式都必须要有所改变。


►  Big Data强调的不是对因果关系的渴求,取而代之的是关注于data之间的相关关系。►  也就是说,重点在于要知道“是什么”,反而未必需要知道“为什么”。►  所以, 它要求的是所有data的处理,而不只是随机样本的分析。►  最后我们往往会发现,处理Big Data的简单算法所得到的来自于data呈现的事实,往往比分析small data的复杂算法所得到的来自data背后的原因,对企业带来的效益更大。


我强烈推荐大家去看Big Data: A Revolution That Will Transform How We Live, Work, and Think这本书,里面把我们面对Big Data该有的观点与看法,做了非常清楚的陈述,有简中的的翻译本,繁中的好像还没看到。


4. (误解) Hadoop就是BI (Business Intelligence)商业智能


(正解) 跟前面一样,这也是大多数人最容易误解的地方,因为Hadoop特别适合来做数据分析,所以就很直觉地把它想成 “那就是BI嘛”。会有这种误解,主要来自于对数据运用的整体架构的不清楚。传统BI是属于数据展现层(Data Presentation),其数据的载体(Data Store)是数据库或数据仓库。对比来看,Hadoop就是专注在半结构化、非结构化数据的数据载体,跟BI是不同层次的概念。当然,Hadoop除了 Data Store外,又特别具备运算的特性,也因此特别容易带来这种观念上的混淆。至于半结构、非结构化数据的数据展现层部分,目前本身并不在Hadoop的生态体系内,而是由其他现有或新创的公司来填补这块空缺,所以,逐渐地我们会看到越来越多现有的BI tool,开始强调其自身与Hadoop的联系性与兼容性,同时,一些新创公司,也发展出完全不同于现有BI Tool的基于Big Data的数据展现层。


5. (误解) Hadoop就是ETL (Extract, Transform & Load)


(正解) ETL其实有两种意涵,它本身是一个概念,也同时是一个产品类别(Product Category)的总称。所以当我们听到“某某公司是做ETL产品的”的这种对话时,其中的 ETL,与DB、Application Server等名词是相同的,都是指向某种类别的IT产品。然而,如果就概念性上来看,ETL指的其实是数据运用的生命周期中的其中一个过程, 跟我前面提到的数据预处理(Data pre-Processing)是同样一个概念,举凡数据清洗(Data Cleansing)、数据关联、数据汇总等,都包含在这个范畴内。所以当我们说Hadoop特别适合拿来做ETL时,在概念上,它是正确的,同时也能很清楚明白地定位出Hadoop在企业资料运用中所扮演的角色。但Hadoop终究不是一个ETL的产品,反倒是现有的ETL产品,也开始跟BI一样,去发展它在Hadoop上的可用性、联系性与兼容性。Etu团队之前在帮客户导入Hadoop做数据处理时,常常会用script语言来实现一些应用场景,最近一段时间以来,我们的技术顾问也开始运用3rd-party 的ETL tool来实作这一块,对企业客户来说,这是他们较熟悉的工具,也降低了他们进入Hadoop的门槛。


6. (误解) Hadoop跟传统storage没什么差别, 都特别适合来做资料的备份(Data Archive)


(正解) 熟悉storage的人,第一次看到Hadoop时,往往只会注意到它的分布式文件系统HDFS,然后开始拿它来与现有的storage的功能特性做比较,而忽略掉Hadoop本身并行运算的那一块。这很合理,毕竟MapReduce的概念,在应用上是比较抽象且难以捉摸的,相反的,HDFS就是一个很清楚且具象的概念。Hadoop当然可以拿来做data archive的运用,但如果你本身的数据没有被经常或偶尔拿出来使用的需求(也就是我们所说的cold data)的话,Hadoop本身的HDFS作为data archive并不会有特别的优势,反而传统storage的一些延伸的功能特性,Hadoop本身并不具备。虽然HDFS本身是一个不错的object store,具备有作为scale-out NAS的底层的特性,, 但也就仅限于此了, Hadoop本身并没有特别为它外加storage本身该具有的功能,毕竟Hadoop当初设计时,对数据的储存与运用的思考,与storage的应用场景是完全不一样的。Hadoop本身要解决的,反而是现有当数据被放进storage后,需要再被拿出来处理或运算时所遇到的困难性。也因此,它特别适合那些web click-stream、CDR (call detail record)、GPS data, system log、 and other time-series data等数据,因为这些数据都具有需要经常被拿出来分析处理的特性。在实际应用中,Hadoop与传统storage其实是相辅相成的,譬如说,我们可能会在Hadoop上放过去3到6个月的数据,因为这些数据的再被利用性较高,而6个月之后的数据就可能会把它archive在传统的storage内,因为它被再利用的程度低很多了。


7. (误解) Hadoop是一个搜索引擎(Search Engine)


(正解) Search 的确是Hadoop的一个重要的应用,但Hadoop本身并没有内含search engine。实务上,我们常会把HBase 的index设计运用到极致,来满足一些特定search 或query的应用,但如果要满足全文检索 (full-text search)的需求的话,你就必须在Hadoop上建构一个基于Hadoop的搜索引擎。Lucene / Katta 及其他的open source都有相对应的计划,如何借助Hadoop的特性,来实现一个强大的分布式搜索引擎,这也是我们一直密切注意、且已放进未来产品的蓝图之中的重要话题。


8. (误解) 基于Hadoop的推荐系统与传统的推荐系统并无不同


(正解) 传统的推荐系统只处理客户的事务数据(transaction data),大多用的是数据仓库或商业智能等解决方案,然而,除了客户的事务数据之外,是否也有可能针对客户交易前的行为进行分析、进而产生推荐? 特别是对电子商务网站来说,客户在完成购买前的点击浏览、搜寻、及放进购物车等行为,都包含了丰富的讯息,可以藉此很容易去导引出客户想要寻找什么样的商品,所以,如果在产生推荐过程中可以把这些讯息都纳进来,则所产生推荐的精准度与丰富度必然可以大为提高。这正是新一代的推荐系统会面临到的挑战 : 如何在事务数据 (Transaction Data) 之外,同时也可以把客户的互动数据 (Interaction Data) 含括进来? 由于客户互动数据的型态与事务数据间有极大的差异,其数量级更是远远大于事务数据量,运算频率更是有极高的要求,也因此都远超过现有数据库或数据仓储的能力,而这正是Hadoop所擅长,可以轻易拓展传统机器学习 (Machine Learning) 算法分析大量数据集 (Large Datasets) 的能力,并同时具备横向扩充 (Scale-out) 的能力,可随着数据集的成长轻易扩充,无论多大的数据都可轻易胜任。


9. (误解) Hadoop不适合用来处理小档案的应用


(正解) 对Hadoop稍微有点了解的人,都会知道HDFS的block size的default 值为64MB,且不建议往下调,因为HDFS当初在设计时,并不是针对碎片般的小档案的处理而来的。所以当我们说Hadoop不适合用来处理小档案的应用时,就技术上来说是对的,但在实际运用上,却可以有不同的做法来满足海量小档案管理的需求。我们在中国曾经辅导过一个保险公司,它本身需要处理的小图档 (20KB ~ 1MB)大概有两亿个那么多,且每天还持续在成长,举凡客户的签名、看诊纪录等,都需要被扫描成图像文件,并加以储存,同时,还要偶尔被相对应的应用程序来查询、调用。在实作上,我们把这些小图档的binary file存进去HBase——而不是HDFS——来管理,所以HDFS block size的设定值大小就不是重点,同时,利用HBase column-base 高效能与高延展性的特性,可以很轻易的就满足多人同时快速在线查询的要求,而随着档案数量持续的增加 , 横向扩充也不再是问题。类似的应用其实还不少,譬如说银行票据文件的管理就是其中一种,也因此,Etu团队在中国市场,特别针对此应用规划了 “海量小图文件管理系统”解决方案,以满足此类客户的需求。


10. (误解) Hadoop不适合用来做日志管理(Log Management)的应用


(正解) 当每天的日志量成长到一定的程度,现有的日志管理工具都会遇到瓶颈,所以一些国外的日志管理工具(如Splunk、ArcSight)都已经发布了其 Hadoop Connector,强调其与Hadoop的联系性与兼容性。所以,如果客户对日志管理的需求只是保存日志、并可以随时对日志搜索的话,那Hadoop本身即可以满足这样的应用,而对于比较复杂的日志管理且日志量非常大的需求,客户也可以从现有的日志管理工具中来挑选,并与Hadoop来搭配协同运作。


大数据(生于2006,卒于2019)已死!


640?wx_fmt=png


福利

扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!


640?wx_fmt=jpeg


推荐阅读:

  • Docker,一个傲娇的男人

  • 做了中台就不会死吗?每年至少40%开发资源是被浪费的!

  • AI“生死”落地:谁有资格入选AI Top 30+案例?

  • Python爬取B站5000条视频,揭秘为何千万人为它流泪

  • 最前沿:堪比E=mc2,Al-GA才是实现AGI的指标性方法论?

  • Zend 创始人欲创建 PHP 方言,暂名为 P++;鸿蒙 OS 面世;中国首个开源协议诞生 | 开发者周刊

真香,朕在看了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/522518.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解析DataWorks数据集成中测试连通性失败问题

摘要: 大家好,这里和大家分享的是DataWorks数据集成中测试连通性失败的排查思路。与测试连通性成功与否的相关因素有很多,本文按照多个因素逐步排查,最终解决问题,希望大家以后再遇到此类问题,请参考此文&a…

带有下标的赋值维度不匹配_不稳定的期权时间价值

教科书上的期权公式:期权价格内在价值时间价值。这是个静态的表述,假设标的、波动率在到期前不在变化。实际上,在存续期间,这块时间价值将会受到“方向、波动率、时间”等维度影响。期权作为时间消耗性金融衍生品,若期…

Kubernetes的Device Plugin设计解读

摘要: Kubernetes的生态地位已经确立,可扩展性将是其发力的主战场。异构计算作为非常重要的新战场,Kubernetes非常重视。而异构计算需要强大的计算力和高性能网络,需要提供一种统一的方式与GPU、FPGA、NIC、InfiniBand等高性能硬件…

html form int,is_int, is_numeric, is_float, and HTML form validation

问题A select field on my HTML form may yield 1 to 5 (integers). Using is_int rejects it every time, because the $_POST[rating] is viewed as a string.After consulting the PHP Manual, it seems is_numeric() && !is_float() is the proper way to validate…

美国专利机构榜单:华为、京东方进前20名;印度巨头信实与微软结盟;三星发布 1.08 亿像素传感器,小米参与合作……...

关注并标星星CSDN云计算极客头条:速递、最新、绝对有料。这里有企业新动、这里有业界要闻,打起十二分精神,紧跟fashion你可以的!每周三次,打卡即read更快、更全了解泛云圈精彩newsgo go go 特斯联完成20亿元C1轮融资&a…

本地安装Docker

docker官网:https://hub.docker.com/?overlayonboarding

阿里云上Kubernetes集群联邦

摘要: kubernetes集群让您能够方便的部署管理运维容器化的应用。但是实际情况中经常遇到的一些问题,就是单个集群通常无法跨单个云厂商的多个Region,更不用说支持跨跨域不同的云厂商。这样会给企业带来一些担忧,如何应对可用区级别…

边缘检测robert原理_在操作机器视觉检测过程中,遇到检测精度的难题怎么办?_西旺科技...

随着自动化行业发展,机器视觉技术的应用已经十分广泛。但是在一些机器视觉检测项目中,很多客户遇到了检测精度的难题。例如:检测加工零件的外形尺寸、内外径,要求精度到10um。目前很多配置选择500万的相机,理论上是可以…

引以为戒,特斯拉Kubernetes控制台被黑客攻击

摘要: 特斯拉公司惨遭“毒手”是因为其Kubernetes平台没有设置密码保护。 点此查看原文:http://click.aliyun.com/m/43609/ 几个月前RedLock公司工作人员发现:数百个Kubernetes管理控制台无需密码即可访问,即直接公开暴露在互联网…

linux 发送http请求方式

第一种: 在浏览器访问: http://192.168.205.130:9000另外一种是命令行形式 curl 192.168.205.130:9000效果是一样的

华南理工大学计算机科学与技术,计算机科学与技术

摘要:As the coinductive data types in the framework of the category theory can be regarded as the carriers of final coalgebras for some coalgebraic functors,this paper presents the coalgebraic descriptions of the coinductive data types in progra…

来华30载,这些都是Oracle的神来之笔……

戳蓝字“CSDN云计算”关注我们哦!作者|刘晶晶出色的数据掌控可以为企业带来极大的业务领先与竞争优势,这一点毋庸置疑,尽管在面对海量数据管理时依然会出现诸多问题与挑战。如此说来那些在数据管理方面战略到位的企业们究竟有何杀手锏&#x…

Chrome 渲染流水线演化的未来

摘要:前段时间我写了一篇文章浏览器渲染流水线解析与网页动画性能优化,对目前 60 左右版本的 Chrome 的渲染流水线进行解析,文末也讨论了当前渲染流水线的一些不足和未来演化的方向。 当前的渲染流水线过于复杂和冗长,特别是对于非…

计算机的3类系统总线分别是_《深入理解计算机系统》读书笔记—第六章、存储器层次结构...

存储器系统是一个具有不同容量、成本和访问时间的存储设备的层次结构。CPU寄存器保存着最常用的数据。靠近CPU的小的、快速的高速缓存(SRAM)作为一部分存储在相对慢速的主存储器(DRAM)中数据和指令的缓冲区域。主存储器&#xff0…

iOS Mach异常和signal信号

摘要: 本着探究下iOS Crash捕获的目的,学习了下Crash捕获相关的Mach异常和signal信号处理,记录下相关内容,并提供对应的测试示例代码。Mach为XNU的微内核,Mach异常为最底层的内核级异常,在iOS系统中&#x…

怎样清除手机中的html文件夹,怎么彻底清除手机APP卸载后的残留文件夹 能删与不能删文件名...

手机里的文件和手机下载了app之后,即使卸载,也很容易有垃圾残留,而且占用的空间还挺多,但是根本不知道哪些是垃圾,要怎么清除这些垃圾?  一般清理垃圾软件,如360,腾讯管家等可以清…

Kubernetes要成为一个企业友好平台,到底还缺啥?

戳蓝字“CSDN云计算”关注我们哦!Kubernetes的崛起令人惊叹。在短短几年时间内,它已经从一个由一群云原生开发者倡导的开源项目转变为由三家主要云服务提供商推广的标准运维平台。由于应用程序工作负载从VM转移到容器,Kubernetes已成为自动化…

局域网设置_局域网设置

把路由连好后,在2台机上分本地网络-(TCP/IP)里,别输入同一IP段就可以了例如:192.168.1.2255.255.255.0192.168.1.3255.255.255.0上面说的只是通过连接好路由后,不考虑上网状况,只是电脑对连可以打游戏和互传东西的方法以下是从设置路由到设置机器从而能上网和互连的过程:打开一…

10分钟上线 - API网关 + 函数计算实现图片处理服务

摘要: 阿里云函数计算服务(FunctionCompute,FC)是一个事件驱动的全托管计算服务。通过函数计算与云端各个服务的广泛集成,开发者只需要编写函数代码,就能够快速地开发出弹性高可用的后端系统。接下来我们利…

Spring Boot2 整合 MyBatis 多数据源

pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/POM/4.0.0…