目录
什么是hdfs
主要特点包括:
架构组成:
应用场景:
如何使用驱动程序访问hdfs
准备工作环境:
启动 Hadoop 服务
可能遇到的问题:
ssh验证失败
验证Hadoop服务
对hdfs进行文件操作
什么是hdfs
HDFS(Hadoop Distributed File System)是Apache Hadoop项目中的一个关键组件,它是一个设计用来运行在商用硬件上的分布式文件系统。HDFS被设计为高容错性,并且适合部署在低成本硬件上,它提供了高吞吐量的数据访问和容量管理能力,适合大规模数据集的存储。
主要特点包括:
分布式存储:HDFS将数据分散存储在集群中的多台计算机上,每个文件被分成多个块(block),默认情况下,每个块大小为128MB(可以配置)。
高容错性:HDFS通过在集群中的多个节点上保存数据的多个副本来提供容错能力。如果某个节点或硬件发生故障,系统可以自动在其他节点上找到备份数据进行恢复,确保数据的可靠性和可用性。
适合大数据处理:HDFS被设计用来支持大数据集,具有高吞吐量的数据访问特性。它的设计考虑了数据的局部性原理,即将计算移动到数据附近,从而减少数据移动的开销,提高处理效率。
简单的一致性模型:HDFS采用了一种简单的一致性模型,适用于大多数应用程序的数据访问需求。
架构组成:
NameNode:负责管理文件系统的命名空间(namespace)以及客户端对文件的访问请求。它维护文件系统的目录树和文件到数据块的映射信息。
DataNode:负责实际存储数据块。每个数据节点(DataNode)负责存储和管理其上的数据块,并定期向NameNode报告它所存储的块信息。
应用场景:
HDFS广泛用于支持Apache Hadoop生态系统中的大数据处理应用,如MapReduce。它不仅适合存储大规模数据集,还能处理大数据的高吞吐量读写需求,是构建大数据分析和处理平台的重要基础之一。
如何使用驱动程序访问hdfs
准备工作环境:
安装和配置Hadoop:确保计算机或集群上安装了Hadoop,并且配置正确。这包括设置Hadoop的核心配置文件以及其他必要的配置。
1)、core-site.xml
这个文件包含了 Hadoop 核心的配置信息,如文件系统的默认名称(fs.defaultFS)、Hadoop 中各个服务的通信端口等。
<configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:8020</value></property><!-- 其他核心配置 --></configuration>
2)、hdfs-site.xml
这个文件包含了 HDFS (Hadoop 分布式文件系统) 的配置信息,如数据块的复制数量(dfs.replication)、数据节点的存储路径等。
<configuration><property><name>dfs.replication</name><value>3</value></property><!-- 其他HDFS相关配置 --></configuration>
3)、mapred-site.xml
这个文件包含了 MapReduce 的配置信息,包括任务调度、作业跟踪等。
<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property><!-- 其他MapReduce相关配置 --></configuration>
4)、yarn-site.xml
这个文件包含了 YARN (Yet Another Resource Negotiator) 的配置信息,如资源管理器地址、节点管理器的配置等。
<configuration><property><name>yarn.resourcemanager.hostname</name><value>localhost</value></property><!-- 其他YARN相关配置 --></configuration>
启动 Hadoop 服务
完成配置文件的修改后,可以通过以下命令重新启动 Hadoop 服务:
sbin/start-all.sh
可能遇到的问题:
ssh验证失败
解决方法:
1,将公钥添加到授权列表:
mkdir -p ~/.ssh
touch ~/.ssh/authorized_keys
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
2,设置文件权限:
chmod 700 ~/.sshchmod 600 ~/.ssh/authorized_keys
3,SSH 配置问题
确保 SSH 服务器的 SSH 配置允许使用密钥进行身份验证
更改了sshd_config文件的配置
PubkeyAuthentication yes 是否启用公钥验证
4,测试 SSH 登录:
ssh 主机名@localhost
SSH配置正确且成功连接
5,启动hadoop,启动失败
配置Hadoop环境变量
编辑 Hadoop 的配置文件 hadoop-env.sh,一般在安装目录/etc/hadoop/hadoop-env.sh,hadoopuser改为自己的主机名
export HDFS_NAMENODE_USER=hadoopuserexport HDFS_DATANODE_USER=hadoopuserexport HDFS_SECONDARYNAMENODE_USER=hadoopuserexport YARN_RESOURCEMANAGER_USER=hadoopuserexport YARN_NODEMANAGER_USER=hadoopuser
再次启动提示ssh认证问题
6,清理之前的进程,打开防火墙。
启动成功
验证Hadoop服务
使用jps查看进程
访问 Hadoop Web 界面
对hdfs进行文件操作
列出文件和目录:hadoop fs -ls /
创建目录:hadoop fs -mkdir /new_test
移动文件或目录:hadoop fs -mv /test /new_test
上传文件到 HDFS:hadoop fs -put Desktop/testFile.png /new_test/test
hadoop fs -ls /new_test/test
从 HDFS 下载文件到本地:hadoop fs -get /new_test/test/testFile.png local/test