副本节点的选择(机架感知)
1、默认情况下
第一个副本在client所处的节点上,如果客户端在集群之外,(在win7上运行程序,写文件到集群上),随机选一个。
第二个副本和第一个副本在不同机架上,节点随机选
第三个副本和第二个副本在相同的机架上,节点随机
2、hadoop2.7.2
第一个副本在client所处的节点上,如果客户端在集群之外,(在win7上运行程序,写文件到集群上),随机选一个
第二个副本与第一个副本在同一机架上
第三个副本在不同的机架上
{对于副本来讲,有一个副本在不同的机架上,可以保证可用性,在client上写入数据,用网络拓扑距离计算,在client上写入两个副本的速度强于 将两个副本写入到另外的机架上}
自定义机架感知
1、创建类实现DNSToSwitchMapping接口
2、配置文件core-site.xml
<property><name>net.topology.node.switch.mapping.impl</name><value>自己定义的jar的全路径</value></property>
3、分发core-site.xml
4、编译程序并打包成jar,分发给所有节点的hadoop的classpath下/app/hadoop/shared/hadoop/common/lib/
hadoop不能探测到节点所在的交换机,只能知道节点的IP地址和主机名称,所以需要自己定义规则。
package Hadoop;
import org.apache.hadoop.net.DNSToSwitchMapping;import java.io.FileOutputStream;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;/*** 2018/7/5* 16:11* 自定义机架感知*/
public class RackAware implements DNSToSwitchMapping {/*** 传递的是客户端的ip列表,返回机架感知的路径列表*/@Overridepublic List<String> resolve(List<String> names) {ArrayList<String> list = new ArrayList<String>();if (names != null && names.size() > 0) {for (String name : names) {if (name.startsWith("s")) {String ip = name.substring(1);Integer intIP = Integer.parseInt(ip);if (intIP < 103) {list.add("/rack1/" + intIP);} else {list.add("/rack2/" + intIP);}} else if (name.startsWith("192")) {int ip = Integer.parseInt(name.substring(name.lastIndexOf(".")) + 1);if (ip < 103) {list.add("/rack2/" + ip);} else {list.add("/rack2/" + ip);}}}}
// 写入文件try {FileOutputStream fos = new FileOutputStream("");for (String name : list) {fos.write((name + "\r\n").getBytes());}fos.close();} catch (Exception e) {e.printStackTrace();}return list;}@Overridepublic void reloadCachedMappings() {}@Overridepublic void reloadCachedMappings(List<String> list) {}
}