Java API 操作HDFS一般有两种方式:
-
使用HDFS客户端配置文件自动配置
-
Java 代码中配置
一 使用HDFS客户端配置
1.1 下载HDFS客户端配置
1.2 创建Maven项目
创建Maven项目,将下载的客户端配置文件 core-site.xml
、hdfs-site.xml
放入resources目录下
(注意:放到 resources根目录下)
1.3 HDFS API编写
HDFSTest.java
package com.song.example;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;import java.io.IOException;public class HDFSTest {public static void main(String[] args) {// 设置操作HDFS的用户System.setProperty("HADOOP_USER_NAME", "song");FileSystem fs;// 从 resources 目录下自动加载配置Configuration conf = new Configuration();try {fs = FileSystem.newInstance(conf);fs.mkdirs(new Path("/user/song/test"));} catch (IOException e) {e.printStackTrace();}}
}
二 Java 代码配置
使用Java代码进行配置,则就不需要下载HDFS客户端配置文件了
HDFSTest.java
package com.song.example;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;import java.io.IOException;public class HDFSTest {public static void main(String[] args) {// 设置操作HDFS的用户System.setProperty("HADOOP_USER_NAME", "song");FileSystem fs;// 在Java代码中配置ConfigurationConfiguration conf = new Configuration();conf.set("fs.defaultFS", "hdfs://nameservice1");conf.set("dfs.nameservices", "nameservice1");conf.set("dfs.ha.namenodes.nameservice1", "namenode34,namenode41");conf.set("dfs.namenode.rpc-address.nameservice1.namenode34", "cdh68.bigdata.com:8020");conf.set("dfs.namenode.rpc-address.nameservice1.namenode41", "cdh69.bigdata.com:8020");conf.set("dfs.client.failover.proxy.provider.nameservice1", "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider");try {fs = FileSystem.newInstance(conf);fs.mkdirs(new Path("/user/song/testTwo"));} catch (IOException e) {e.printStackTrace();}}
}
Java 代码中的配置从 hdfs-site.xml
中查找:
<configuration><property><name>dfs.nameservices</name><value>nameservice1</value></property><property><name>dfs.client.failover.proxy.provider.nameservice1</name><value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value></property><property><name>dfs.ha.namenodes.nameservice1</name><value>namenode34,namenode41</value></property><property><name>dfs.namenode.rpc-address.nameservice1.namenode34</name><value>cdh68.bigdata.com:8020</value></property><property><name>dfs.namenode.rpc-address.nameservice1.namenode41</name><value>cdh69.bigdata.com:8020</value></property>
删除HDFS客户端配置文件:
执行结果:
三 小结
建议使用第一种:HDFS客户端配置文件进行操作HDFS, 因为当HDFS配置更改时,只需要替换配置文件即可,更加灵活。