ubuntu10.04+hadoop0.20.2平台配置（完全分布式模式）

配置环境及有关工具：ubuntu10.04 、hadoop0.20.2 、 jdk1.6.0_29

我们的机器有三台，一台当作namenode、两台当作datanode：

namenode：IP:192.168.0.25、机器名：kiddenzj （这里的机器名要注意：机器名不能包含下划线“_”，一开始没注意后来找了半天才发现这个原因）

datanode：IP：192.168.0.8 、机器名：kiddenxcc

IP192.168.0.66、机器名： kiddenhw

集群里所有登陆的用户名和密码都要保持相同，我在这里创建了名为grid的用户，后面的步骤就是在这个用户下进行的。

配置步骤：

1）安装ssh

输入命令：

[java] view plaincopy  
 apt-get install ssh  

2）SSH配置

SSH配置主要是为了实现在机器间执行指令时不再需要输入密码，在所有的机器上建立.ssh目录，这里我们建立在/home/grid下面：

[html] view plaincopy  
 mkdir .ssh  

然后在namenode机器上生成密钥对，执行：

[html] view plaincopy  
 ssh-keygen -t rsa  

然后一直按Enter键，就会按照默认选项生成密钥对保存在.ssh/id_rsa文件中。

继续执行如下命令，把密钥传递给每个datanode节点：

[java] view plaincopy  
 cd ~/.ssh  
 cp id_rsa.pub authorized_keys  
 scp authorized_keys kiddenhw:/home/grid/.ssh  
 scp authorized_keys kiddenxcc:/home/grid/.ssh  

然后分别在每台datanode机器上执行如下命令，以改变authorized_keys文件的许可权限：

[html] view plaincopy  
 chmod 644 authorized_keys  

到此，从namenode发起的到其他datanode节点的SSH连接，就会只需在第一次登录是输入密码，以后则不再需要。

可以通过如下命令发起连接：

[html] view plaincopy  
 ssh kiddenhw  

3）jdk的安装(namenode机和datanode机均按此安装)

下载jdk-6u29-linux-i586.bin,安装到/usr/java下，cd到usr/java下，

[python] view plaincopy
sudo chmod u+x jdk-6u29-linux-i586.bin  
sudo ./jdk-6u29-linux-i586.bin

接下来要设置java的环境变量输入命令：

[javascript] view plaincopy  
  sudo gedit /etc/profile  

在文件的最后添加以下语句：

[html] view plaincopy  
 JAVA_HOME=/usr/java/jdk1.6.0_29  
   
 export JRE_HOME=/usr/java/jdk1.6.0_29/jre  
   
 export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH  
   
 export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH  

保存退出，然后执行source /etc/profile即可。

输入java -version 命令，出现如下信息就表示配置成功

[java] view plaincopy  
 java version "1.6.0_29"  
 Java(TM) SE Runtime Environment (build 1.6.0_29-b11)  
 Java HotSpot(TM) Server VM (build 20.4-b02, mixed mode)  

4）hadoop的安装配置(只是在namenode端安装配置，完成后namenode可以直接把配置好的hadoop发送到各个datanode端)

在这里，下载hadoop-0.20.2.tar.gz，然后解压到/home/grid/下即可，

在hadoop文的件夹下需要建立几个文件夹，如下：

（这里一开始没有创建，结果查看运行信息的时候，虽然datanode节点都有进程在运行，但livenodes节点依然为0）

[html] view plaincopy  
 mkdir tmp  
 mkdir hdfs  
 mkdir hdfs/name  
 mkdir hdfs/data  

接下来需要修改hadoop的conf文件夹下的配置信息：

修改hadoop-env.sh，加入如下语句，使得hadoop能够找到java的路径。：

[java] view plaincopy  
 export JAVA_HOME=/usr/java/jdk1.6.0_2  

修改core-site.xml，如下：

[java] view plaincopy  
 <configuration>  
 <property>  
 <name>fs.default.name</name>  
 <value>hdfs://kiddenzj:9000</value>  
 </property>  
 </configuration>  

修改hdfs-site.xml，如下

[cpp] view plaincopy  
 <configuration>  
 <property>  
 <name>dfs.replication</name>  
 <value>1</value>  
 </property>  
 </configuration>  

修改mapred-site.xml，如下：

[java] view plaincopy  
 <configuration>  
 <property>  
 <name>mapred.job.tracker</name>  
 <value>kiddenzj:9001</value>  
 </property>  
 </configuration>  

masters里写入作为namenode节点机器的名称，我们这里是：kiddenzj

slaves里写入作为datanode节点的机器名，这里是：kiddenhw和kiddenxcc

到此，hadoop的有关配置已经完成，namenode端通过如下命令把配置好的hadoop发送到各个datanode处：

[html] view plaincopy  
 scp -r hadoop-0.20.2 kiddenhw:/home/grid  
 scp -r hadoop-0.20.2 kiddenxcc:/home/grid  

5）修改每台机器上/etc下面的hosts文件，也就是写入所有的机器名和对应IP地址（包括namenode和datanode节点），我们这里修改后如下：

[java] view plaincopy  
0.0.1   localhost  
168.0.8    kiddenxcc  
168.0.25   kiddenzj  
168.0.66   kiddenhw  

6）
到此基本配置已经完成，在namenode端cd到hadoop文件夹下，格式化分布式文件系统：

[html] view plaincopy  
 bin/hadoop namenode -format  

下面接着在namenode端启动hadoop进程：

[html] view plaincopy  
 bin/start-all.sh  

如果没有其它差错的话，hadoop可以正常启动，并能够看到如下结果：

在namenode端用jps命令查看启动情况，如下：

[html] view plaincopy  
 grid@kiddenzj:~/hadoop-0.20.2$ jps  
 xxxx Jps  
 xxxx Namenode  
 xxxx Secondarynamenode  
 xxxx JobTracker  

在datanode端用jps查看启动情况，如下：

[html] view plaincopy  
 grid@kiddenhw:~/hadoop-0.20.2$ jps  
 xxxx Jps  
 xxxx DataNode  
 xxxx TaskTracker  

然后可以通过如下地址来查看集群运行状况：

[html] view plaincopy  
     http://kiddenzj:50030  
     http://kiddenzj:50070  
 <pre name="code" class="html">    http://kiddenhw:50060</pre>  
 <pre></pre>  
 <pre></pre>  
 <pre></pre>  
 <pre></pre>  
 <pre></pre>  
 <pre></pre>