python hadoop streaming_Hadoop Streaming 使用及参数设置

1. MapReduce 与 HDFS 简介

什么是 Hadoop ?

Google 为自己的业务需要提出了编程模型 MapReduce 和分布式文件系统 Google File System,并发布了相关论文(可在 Google Research 的网站上获得:GFS、MapReduce)。Doug Cutting 和 Mike Cafarella 在开发搜索引擎 Nutch 时对这两篇论文进行了自己的实现,即同名的 MapReduce 和 HDFS,合起来就是 Hadoop。

MapReduce 的 Data Flow 如下图所示,原始数据经过 mapper 处理,再进行 partition 和 sort,到达 reducer,输出最后结果。

2. Hadoop Streaming 原理

Hadoop 本身是用 Java 开发的,程序也需要用 Java 编写,但是通过 Hadoop Streaming,我们可以使用任意语言来编写程序,让 Hadoop 运行。

Hadoop Streaming 就是通过将其他语言编写的 mapper 和 reducer 通过参数传给一个事先写好的 Java 程序(Hadoop 自带的 *-streaming.jar),这个 Java 程序会负责创建 MR 作业,另开一个进程来运行 mapper,将得到的输入通过 stdin 传给它,再将 mapper 处理后输出到 stdout 的数据交给 Hadoop,经过 partition 和 sort 之后,再另开进程运行 reducer,同样通过 stdin/stdout 得到最终结果。因此,我们只需要在其他语言编写的程序中,通过 stdin 接收数据,再将处理过的数据输出到 stdout,Hadoop Streaming 就能通过这个 Java 的 wrapper 帮我们解决中间繁琐的步骤,运行分布式程序。

原理上只要是能够处理 stdio 的语言都能用来写 mapper 和 reducer,也可以指定 mapper 或 reducer 为 Linux 下的程序(如 awk、grep、cat)或者按照一定格式写好的 java class。因此,mapper 和 reducer 也不必是同一类的程序。

1. Hadoop Streaming 的优缺点

优点:

1. 可以使用自己喜欢的语言来编写 MapReduce 程序(不必非得使用 Java)

2. 不需要像写 Java 的 MR 程序那样 import 一大堆裤,在代码里做很多配置,很多东西都抽象到了 stdio 上,代码量显著减少。

3. 因为没有库的依赖,调试方便,并且可以脱离 Hadoop 先在本地用管道模拟调试。

缺点:

1. 只能通过命令行参数来控制 MapReduce 框架,不像 Java 的程序那样可以在代码里使用 API,控制力比较弱。

2. 因为中间隔着一层处理,效率会比较慢。

3. 所以 Hadoop Streaming 比较适合做一些简单的任务,比如用 Python 写只有一两百行的脚本。如果项目比较复杂,或者需要进行比较细致的优化,使用 Streaming 就容易出现一些束手束脚的地方。

2. 用 Python 编写简单的 Hadoop Streaming 程序

使用 Python 编写 Hadoop Streaming 程序有几点需要注意:

1. 在能使用 iterator 的情况下,尽量使用 iterator,避免将 stdin 的输入大量储存在内存里,否则会严重降低性能。

2. Streaming 不会帮你分割 key 和 value 传进来,传进来的只是一个个字符串而已,需要你自己在代码里手动调用 split()。

3. 从 stdin 得到的每一行数据末尾似乎会有 '\n' ,保险起见一般都需要用 rstrip() 来去掉。

4. 在想获得 key-value list 而不是一个个处理 key-value pair 时,可以使用 groupby 配合 itemgetter 将 key 相同的 key-value pair 组成一个个 group,得到类似 Java 编写的 reduce 可以直接获取一个 Text 类型的 key 和一个 iterable 作为 value 的效果。注意 itemgetter 的效率比 lambda 表达式的效率要高,所以用 itemgetter 比较好。

编写 Hadoop Streaming 程序的基本模版:

#!/usr/bin/env python#-*- coding: utf-8 -*-

"""Some description here..."""

importsysfrom operator importitemgetterfrom itertools importgroupbydefread_input(file):"""Read input and split."""

for line infile:yield line.rstrip().split('\t')defmain():

data=read_input(sys.stdin)for key, kviter ingroupby(data, itemgetter(0)):#some code here..

if __name__ == "__main__":

main()

如果对输入输出格式有不同于默认的控制,主要会在 read_input() 里调整。

3. 本地调试

本地调试用于 Hadoop Streaming 的 Python 程序的基本模式是:

$ cat | python | sort -t $'\t' -k1,1 | python >

这里有几点需要注意:

1. Hadoop 默认按照 tab 来分割 key 和 value,以第一个分割出的部分为 key,按 key 进行排序,因此这里使用 sort -t $'\t' -k1,1 来模拟。如果有其他需求,在交给 Hadoop Streaming 执行时可以通过命令行参数设置,本地调试也可以进行相应的调整,主要是调整 sort 的参数。

2. 如果在 Python 脚本里加上了 shebang,并且为它们添加了执行权限,也可以用类似于 ./mapper.py (会根据 shebang 自动调用指定的解释器来执行文件)来代替 python mapper.py。

4. 在集群上运行与监控

1. 察看文档

首先需要知道用于 Streaming 的 Java 程序在哪里。在 1.0.x 的版本中,应该都在 $HADOOP_HOME/contrib/streaming/ 下:

$HADOOP_HOME/contrib/streaming/hadoop-streaming-1.0.4.jar

通过执行 Hadoop 命令

hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-streaming-1.0.4.jar -info

就会看到一系列 Streaming 自带的帮助,带有各种参数的说明和使用样例。

5. 运行命令

用 Hadoop Streaming 执行 Python 程序的一般步骤是:

1. 将输入文件放到 HDFS 上,建议使用 copyFromLocal 而不是 put 命令。参见Difference between hadoop fs -put and hadoop fs -copyFromLocal

1. 一般可以新建一个文件夹用于存放输入文件,假设叫 input

$ hadoop fs -mkdir input

然后用

$ hadoop fs -ls

查看目录,可以看到出现了一个 /user/hadoop/input 文件夹。/user/hadoop 是默认的用户文件夹,相当于本地文件系统中的 /home/hadoop。

2. 再使用

$ hadoop fs -copyFromLocal input/

将本地文件放到 input 文件夹下。

2. 开始 MapReduce 作业,假设你现在正在放有 mapper 和 reducer 两个脚本的目录下,而且它们刚好就叫 mapper.py 和 reducer.py,在不需要做其他配置的情况下,执行

$ hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-streaming-1.0.4.jar \-mapper mapper.py \-filemapper.py \-reducer reducer.py \-filereducer.py \-input input/*\

-output output

第一行是告诉 Hadoop 运行 Streaming 的 Java 程序,接下来的是参数:

这里的 mapper.py 和 reducer.py 是 mapper 所对应 python 程序的路径。为了让 Hadoop 将程序分发给其他机器,需要再加一个 -file 参数用于指明要分发的程序放在哪里。

注意这样写的前提是这个 Python 程序里有 Shebang 而且添加了执行权限。如果没有的话可以改成

-mapper 'python mapper.py'

加上解释器命令,用引号扩住(注意在参数中传入解释器命令,不再是用`符扩住,而是'符)。准确来说,mapper 后面跟的骑士应该是一个命令而不是文件名。

假如你执行的程序不放在当前目录下,比如说在当前目录的 src 文件夹下,可以这样写

-mapper 'python mapper.py' -file src/mapper.py \-reducer 'python reducer.py' -file src/reducer.py \

也就是说,-mapper 和 -reducer 后面跟的文件名不需要带上路径,而 -file 后的参数需要。注意如果你在 mapper 后的命令用了引号,加上路径名反而会报错说找不到这个程序。(因为 -file 选项会将对应的本地参数文件上传至 Hadoop Streaming 的工作路径下,所以再执行 -mapper 对应的参数命令能直接找到对应的文件。

-input 和 -output 后面跟的是 HDFS 上的路径名,这里的 input/* 指的是"input 文件夹下的所有文件",注意 -output 后面跟着的需要是一个不存在于 HDFS 上的路径,在产生输出的时候 Hadoop 会帮你创建这个文件夹,如果已经存在的话就会产生冲突。(因此每次执行 Hadoop Streaming 前可以通过脚本命令 hadoop fs -rmr 清除输出路径)。

有时候 Shebang 不一定能用,尤其是在执行环境比较复杂的时候,最保险的做法是:

$ hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-streaming-1.0.4.jar \-mapper 'python mapper.py' -filemapper.py \-reducer 'python reducer.py' -filereducer.py \-input input/*-output output

这样写还有一个好处,就是可以在引号里写上提供给 python 程序的命令行参数,甚至做目录的变更以及环境变量的初始化等一系列 shell 命令。

由于 mapper 和 reducer 参数跟的实际上是命令,所以如果每台机器上 python 的环境配置不一样的话,会用每台机器自己的配置去执行 python 程序。

6. 得到结果

成功执行完这个任务之后,使用 output 参数在 HDFS 上指定的输出文件夹里就会多出几个文件:一个空白文件 _SUCCESS,表面 job 运行成功,这个文件可以让其他程序只要查看一下 HDFS 就能判断这次 job 是否运行成功,从而进行相关处理。

一个 _logs 文件夹,装着任务日志。

part-00000,.....,part-xxxxx 文件,有多少个 reducer 后面的数字就会有多大,对应每个 reducer 的输出结果。

假如你的输出很少,比如是一个只有几行的计数,你可以用

$ hadoop fs -cat

直接将输出打印到终端查看。

假如你的输出很多,则需要拷贝到本地文件系统来查看。可以使用 copyToLocal 来获取整个文件夹。如果你不需要 _SUCCESS 和 _logs,并且想要将所有 reducer 的输出合并,可以使用 getmerge 命令。

$ hadoop fs -getmerge output ./

上述命令将 output 下的 part-xxxxx 合并,放到当前目录的一个叫 output 的文件里。

7. 如何串联多趟 MapReduce

如果有多次任务要执行,下一步需要用上一步的任务做输入,解决办法很简单。假设上一步在 HDFS 的输出文件夹是 output1,那么在下一步的运行命令中,指明

-input output1/part-*

即指定上一次的所有输出为本次任务的输入即可。

8. 使用额外的文件

假如 MapReduce 的 job 除了输入以外还需要一些额外的文件,有两种选择:

1. 大文件

所谓的大文件就是大小大于设置的 local.cache.size 的文件,默认是10GB。这个时候可以用 -file 来分发。除此之外代码本身也可以用 file 来分发。

格式:假如我要加多一个 sideData.txt 给 python 脚本使用:

$ hadoop jar $HADOOP_HOME/hadoop-streaming.jar \-input inputDir \-output outputDir \-mapper mapper.py \-filemapper.py \-reducer reducer.py \-filereducer.py \-file sideData.txt

这样 -file 选项的参数文件都会被上传至 MapReduce 的工作目录下,所以 mapper 和 reducer 代码都可以通过文件名直接访问到文件。在 python 脚本中,只要把这个文件当成自己同一目录下的本地文件来打开就可以了。比如:

f = open('sideData.txt')

注意这个 file 是只读的,不可以写。

2. 小文件

如果是比较小的文件,想要提高读写速度可以将它放在 distributed cache 里(也就是每台机器都有自己的一份 copy,不需要网络 IO 就可以拿到数据)。这里要用到的参数是 -cachefile,写法和用法与上一个一样,就是将 -file 改成 -cachefile 而已。

3. 如果上传目录或者多个目录时使用 -files 选项

-files dir1,dir2 #多个目录用','隔开,且不能有空格

上传目录后,可以直接访问当前目录

4. 上传 HDFS 上的文件或者目录

只能 -files 命令上传 HDFS 路径下的文件或目录,然后就可以像访问本地文件一样访问 HDFS 文件。

比如:

hdfs_file="hdfs://webboss-10-166-133-95:9100/user/hive/conf/part-00000"input=/user/hive/input/*output=/user/hive/output

mapper_script=mapper.py

reducer_script=reducer.py

map_file=./mapper.py

reduce_file=./reducer.py

hadoop fs -rmr $output

hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-0.20.2-streaming.jar \

-D mapred.reduce.tasks=0 \

-files $hdfs_file \

-input $input \

-output $output \

-mapper $mapper_script \

-file $map_file \

-reducer $reducer_script \

-file $reduce_file

9. 控制 partitioner

partitioning 指的是数据经过 mapper 处理后,被分发到 reducer 上的过程。partitioner 控制的,就是“怎样的 mapper 输出会被分发到哪一个 reducer 上”。

Hadoop 有几个自带的 partitoner,解释可以看这里。默认的是 HashPartitioner,也就是把第一个 '\t' 前的 key 做 hash 之后用于分配 partition。写 Hadoop Streaming 程序是可以选择其他 partitioner 的,你可以选择自带的其他几种里的一种,也可以自己写一个继承 Partitioner 的 java 类然后编译成 jar,在运行参数里指定为你用的 partitioner。

官方自带的 partionner 里最常用的是 KeyFieldBasedPartitioner。它会按照 key 的一部分来做 partition,而不是用整个 key 来做 partition。

在学会用 KeyFieldBasedPartitioner 之前,必然要先学怎么控制 key-value 的分割。分割 key 的步骤可以分成两步,用 python 来描述一下大约是

fields =output.split(separator)

key= fields[:numKeyfields]

1. 选择用什么符号来分割 key,也就是选择 separator

map.output.key.field.separator 可以指定用于分割 key 的符号。比如指定为一点的话,就要加上参数。

-D stream.map.output.field.separator=.

假设你的 mapper 输出是

11.22.33.44

这时会用 '.' 进行分割,看准 [11, 22, 33, 44] 这里的其中一个或几个作为 key。

2. 选择 key 的范围,也就是选择 numKeyfields

控制 key 的范围的参数是这个,假设要设置被分割出的前 2 个元素为 key:

-D stream.num.map.output.key.fields=2

那么 key 就是上面的 1122。值得注意的是假如这个数字设置到覆盖整个输出,在这个例子里是4的话,那么整一行都会变成 key。

上面分割出 key 之后,KeyFieldBasedPartitioner 还需要知道你想要用 key 里的哪部分作为 partition 的依据。它进行配置的过程可以看源代码来理解。

假设在上一步我们通过使用

-D stream.map.output.field.separator=. \-D stream.num.map.output.key.fields=4

将 11.22.33.44 的整个字符串都设置成了 key,下一步就是在这个 key 的内部再进行一次分割。map.output.key.field.separator 可以用来设置第二次分割用的分割符,mapred.text.key.partitioner.options 可以接受参数来划分被分割出来的 partition key,比如:

-D map.output.key.field.separator=. \-D mapred.text.key.partitioner.options=-k1,2

指的就是在 key 的内部里,将第1到第2个被点分割的元素作为 partition key,这个例子里也就是 1122。这里的值 -ki,j 表示从 i 到 j 个元素(inclusive)会作为 partition key。如果终点省略不写,像 -ki 的话,那么 i 和 i 之后的元素都会作为 partition key。

partition key 相同的输出会保证分到同一个 reducer 上,也就是所有 11.22.xx.xx 的输出都会到同一个 partitioner,11.22 换成其他各种组合也是一样。

实例说明一下,就是这样的:

1. mapper 的输出是

11.12.1.2

11.14.2.3

11.11.4.1

11.12.1.1

11.14.2.2

2. 指定前 4 个元素做 key,key 里的前两个元素做 partition key,分成 3 个 partition 的话,就会被分成

11.11.4.1

-----------

11.12.1.2

11.12.1.1

-----------

11.14.2.3

11.14.2.2

3. 下一步 reducer 会对自己得到的每个 partition 内进行排序,结果就是

11.11.4.1

-----------

11.12.1.1

11.12.1.2

-----------

11.14.2.2

11.14.2.3

Streaming 命令格式如下:

$ hadoop jar $HADOOP_HOME/hadoop-streaming.jar \-D stream.map.output.field.separator=. \-D stream.num.map.output.key.fields=4\-D map.output.key.field.separator=4\-D mapred.text.key.partitioner.options=-k1,2\-input inputDir \-output outputDir \-mapper mapper.py -file mapper.py \-reducer reducer.py -file reducer.py \-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner

注意:

Hadoop 执行命令时的选项是有顺序的,顺序是 bin/hadoop command [genericOptions] [commandOptions].

对于 Streaming,-D 属于 genericOptions,即 hadoop 的通用选项,所以必须写在前面。

Streaming 的所有选项可参考:

hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-0.20.2-streaming.jar -info

3. 控制 comparator 与自定义排序

上面说到 mapper 的输出被 partition 到各个 reducer 之后,会有一步排序。这个排序的标准也是可以通过设置 comparator 控制的。和上面一样,要先设置分割出 key 用的分割符、key 的范围,key 内部分隔用的分割符

-D stream.map.output.field.separator=. \-D stream.num.map.output.key.fields=4\-D map.output.key.field.separator=.

这里要控制的就是 key 内部的哪些元素用来做排序依据,是排字典序还是数字序,倒叙还是正序。用来控制的参数是 mapred.text.key.comparator.options,接受的值格式类似于 unix sort。比如我要按第二个元素的数字序(默认字典序)+倒序来排元素的话,就用 -D mapred.text.key.comparator.options=-k2,2nr

n表示数字序,r表示倒序。这样一来

11.12.1.2

11.14.2.3

11.11.4.1

11.12.1.1

11.14.2.2

就会被排成

11.14.2.3

11.14.2.2

11.12.1.2

11.12.1.1

11.11.4.1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/339973.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

neo4j set 多个值_Neo4j:收集多个值

neo4j set 多个值在Neo4j的密码查询语言中,我最喜欢的功能之一是COLLECT,它使我们能够将项目分组到一个数组中以备后用。 但是,我注意到人们有时难以确定如何使用COLLECT收集多个项目,并且很难找到一种方法。 考虑以下数据集&am…

linux继续执行上一个命令快捷键,整理了上linux 命令行上常用的 快捷键

整理了下linux 命令行下常用的 快捷键整理了下linux 命令行下常用的 快捷键1.CTRL u 删除正行你敲的命令。例如 : find . -name hoho按下CTRL U 后 正行都会被删除2.若是你只是想删除一个局部的命令的话,那么可以用CTRL w 以空格为分隔符 删除你的命令…

shell字段拼接日期_shell 脚本字符串拼接

在编写shell脚本的时候,难免会使用shell脚本的字符串拼接,不经常使用的话真的会忘记。本人写着一篇的目的也就是记录以下,到时候回过头来不用找的太麻烦。首先变量与变量拼接str1"123"str2"456"echo $str1$str2结果输出1…

Apache Kafka消费者再平衡

消费者重新平衡决定哪个消费者负责某些主题的所有可用分区的哪个子集。 例如,您可能有一个包含20个分区和10个使用者的主题。 在重新平衡结束时,您可能希望每个使用者都从2个分区中读取数据。 如果关闭了这些使用者中的10个,则可能会期望每个…

linux与虚拟化实验室,Linux·学习笔记(2)虚拟化与仿真

Linux支持的虚拟化1.完全虚拟化:为客户操作系统创建一个虚拟机实例,使客户操作系统可以不加修改地运行,虚拟机模拟底层硬件的某些部分,捕捉需要由管理程序(虚拟机监视器)进行仲裁的调用。要求所有的操作系统都是针对统一处理器架构…

证明没有例外

您如何证明虚无的存在? 你应该? 在我编写的某些测试中,尤其是围绕验证或围绕创建空对象的测试中,我真正想写的是这样的: assertThat( ... call some code ... ) .doesntThrow(); 您可以合理地编写如下内容。 您会发现…

tfidf处理代码_tfidf.txt

function [count,tf,idf,weight]tfidf(docs,term)%docs--input documents,cell型%term-- keywords也就是特征词提取,cell型%output:count--存放各个关键词出现的频率在整个文档中% wordnum--存放文档总的词汇数%测试用例%*****************************************…

linux系统ll历史,Linux操作系统原理笔记

在Linux操作系统内核内部,进程是通过一个链表,而且是一个双向链表来管理的。进程描述符:每一个进程都有其描述符,每一个描述符彼此之间都有关联性的。双向链表:一个进程内部可能包含多个线程。上下文切换(Context swtc…

java工程师的终极书单_Java 9 –终极功能列表

java工程师的终极书单这篇文章将针对即将到来的Java 9版本进行更新,新增功能 ( 最新更新:2014年 9月9日 ) OpenJDK开发正在加快速度:2014年3月Java 8发布后,我们预计将进入2年的发布周期。 据报道&#xf…

pitr 原理_PostgreSQL热备原理研究及流复制运用

付莎摘要:高可用性(HA-High Availability)是所有商用数据库系统必须具备的一项基本功能。该文阐述了PostgreSQL数据库的高可用性的实现原理及方法,并对PostgreSQL数据库的原生流复制功能实现高可用性热备功能进行了应用描述。关键词:PostgreS…

管道在c语言中的作用,在C中实现管道

我想在C中实现管道,例如 - $ ls | wc | wc我写了以下代码 -#include#include#include void run_cmd(char *cmd, int* fd_in, int* fd_out){int c fork();if (c0){if (fd_in ! NULL){close(fd_in[1]);dup2(fd_in[0], 0);}if (fd_out ! NULL){close(fd_out[0]);dup2(fd_out[1],1…

称之为例外?

尽管这是一个与测试和Wiremock有关的Java示例,但它涉及一个更普遍的问题。 我们正在尝试重试Wiremock的verify方法,该方法可能会在我们要检查的端点被命中之前由测试调用。 在这种情况下,我们想在几秒钟后重试一次直到超时。 有趣的是&#…

vue 移动到图片浮动_基于Vue实现图片在指定区域内移动

当图片比要显示的区域大时,需要将多余的部分隐藏掉,我们可以通过绝对定位来实现,并通过动态修改图片的left值和top值从而实现图片的移动。具体实现效果如下图,如果我们移动的是div 实现思路相仿。此处需要注意的是我们在移动图片时…

star-cd linux安装,linux 使用PXE方式,kickstar网络安装系统

软件需求:(可使用yum方式安装)0.DHCP服务1.xinet2.kickstar包3.tftp4.vsftpd5.启动文件、系统内核文件、系统镜像[roottest ~]# cd /var/lib/tftpboot/ #拷贝相关文件到tftp目录[roottest tftpboot]# ll总用量 34168-r--r--r-- 1 root root 84 10月 25 14:40 boot.m…

Hibernate字节码增强

介绍 既然您已经了解了Hibernate脏检查的基础知识 ,我们就可以深入研究增强的脏检查机制。 虽然默认的图遍历算法对于大多数用例可能已经足够,但有时您需要优化的脏检查算法,并且检测方法比构建自己的自定义策略更方便。 使用AntHibernate工…

js 转化为实体符_js转html实体的方法

方法一:用的浏览器内部转换器实现转换,方法是动态创建一个容器标签元素,如DIV,将要转换的字符串设置为这个元素的innerText,然后返回这个元素的innerHTML,即得到经过HTML编码转换的字符串。function HTMLEn…

c语言字符大于等于怎么打,c语言大于等于怎么打?

c语言大于等于怎么打&#xff1f;C语言‘大于等于符号是“>”&#xff1b;“>”是关系运算符用于比较运算。包括大于(>)、小于()、小于等于(<)和不等于(!)六种。注意要在英文的输入状态下写c代码。知识拓展&#xff1a;C语言运算符号指的是运算符号。C语言中的符号…

Mockito匹配器优先

这篇文章是意见。 让我们看一下Mockito中用于在Java中进行测试的verify方法。 示例&#xff1a; verify(myMock).someFunction(123) –期望在模拟ONCE上使用输入123调用someFunction 。 BDDMockito &#xff0c;我更喜欢完整的BDDMockito替代方案&#xff0c;因此请编写then…

用c语言编写的源文件经过编译,若没有产生编译错误,则系统将,用 C 语言编写的源文件经过编译,若没有产生编译错误,则系统将(??)...

用C语言有产译错拖拉动工:旋是用一种耕机耕作机(件的机具智慧职教作部)驱。编写编译标准是消商品衡量和品价格价值质的直接费者。文件误则单反卡为相机用的最常存储。能给您提网球的(大力拍上量)是供最在击球时&#xff0c;的手的一使你舒服又能域感最个区。的是下列说法正确&a…

hbase hyperbase 区别_大数据之HBase的几个常规性问题

本文主要针对对HBase不了解的人。主要想基于个人的理解回答以下几个问题&#xff1a;什么是HBase&#xff1f;何时用HBase&#xff1f;与Hive、Pig的区别&#xff1f;HBase的结构为何HBase速度很快&#xff1f;HBase常用的操作有哪些&#xff1f;HBase的一些配置和监控解答(个人…