什么是hdfs如何使用驱动程序访问hdfs

目录

什么是hdfs

主要特点包括:

架构组成:

应用场景:

如何使用驱动程序访问hdfs

准备工作环境:

启动 Hadoop 服务

可能遇到的问题:

ssh验证失败

验证Hadoop服务

对hdfs进行文件操作


什么是hdfs

HDFS(Hadoop Distributed File System)是Apache Hadoop项目中的一个关键组件,它是一个设计用来运行在商用硬件上的分布式文件系统。HDFS被设计为高容错性,并且适合部署在低成本硬件上,它提供了高吞吐量的数据访问和容量管理能力,适合大规模数据集的存储。

主要特点包括:

分布式存储:HDFS将数据分散存储在集群中的多台计算机上,每个文件被分成多个块(block),默认情况下,每个块大小为128MB(可以配置)。

高容错性:HDFS通过在集群中的多个节点上保存数据的多个副本来提供容错能力。如果某个节点或硬件发生故障,系统可以自动在其他节点上找到备份数据进行恢复,确保数据的可靠性和可用性。

适合大数据处理:HDFS被设计用来支持大数据集,具有高吞吐量的数据访问特性。它的设计考虑了数据的局部性原理,即将计算移动到数据附近,从而减少数据移动的开销,提高处理效率。

简单的一致性模型:HDFS采用了一种简单的一致性模型,适用于大多数应用程序的数据访问需求。

架构组成:

NameNode:负责管理文件系统的命名空间(namespace)以及客户端对文件的访问请求。它维护文件系统的目录树和文件到数据块的映射信息。

DataNode:负责实际存储数据块。每个数据节点(DataNode)负责存储和管理其上的数据块,并定期向NameNode报告它所存储的块信息。

应用场景:

HDFS广泛用于支持Apache Hadoop生态系统中的大数据处理应用,如MapReduce。它不仅适合存储大规模数据集,还能处理大数据的高吞吐量读写需求,是构建大数据分析和处理平台的重要基础之一。

如何使用驱动程序访问hdfs

准备工作环境:

安装和配置Hadoop:确保计算机或集群上安装了Hadoop,并且配置正确。这包括设置Hadoop的核心配置文件以及其他必要的配置。

1)、core-site.xml

这个文件包含了 Hadoop 核心的配置信息,如文件系统的默认名称(fs.defaultFS)、Hadoop 中各个服务的通信端口等。

<configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:8020</value></property><!-- 其他核心配置 --></configuration>

2)、hdfs-site.xml

这个文件包含了 HDFS (Hadoop 分布式文件系统) 的配置信息,如数据块的复制数量(dfs.replication)、数据节点的存储路径等。

<configuration><property><name>dfs.replication</name><value>3</value></property><!-- 其他HDFS相关配置 --></configuration>

3)、mapred-site.xml

这个文件包含了 MapReduce 的配置信息,包括任务调度、作业跟踪等。

<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property><!-- 其他MapReduce相关配置 --></configuration>

4)、yarn-site.xml

这个文件包含了 YARN (Yet Another Resource Negotiator) 的配置信息,如资源管理器地址、节点管理器的配置等。

<configuration><property><name>yarn.resourcemanager.hostname</name><value>localhost</value></property><!-- 其他YARN相关配置 --></configuration>

启动 Hadoop 服务

完成配置文件的修改后,可以通过以下命令重新启动 Hadoop 服务:

sbin/start-all.sh

可能遇到的问题:

ssh验证失败

解决方法:

1,将公钥添加到授权列表:

mkdir -p ~/.ssh
touch ~/.ssh/authorized_keys
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

2,设置文件权限:

chmod 700 ~/.sshchmod 600 ~/.ssh/authorized_keys

3,SSH 配置问题

确保 SSH 服务器的 SSH 配置允许使用密钥进行身份验证

更改了sshd_config文件的配置

PubkeyAuthentication yes 是否启用公钥验证

4,测试 SSH 登录:

ssh 主机名@localhost

SSH配置正确且成功连接

5,启动hadoop,启动失败

配置Hadoop环境变量

编辑 Hadoop 的配置文件 hadoop-env.sh,一般在安装目录/etc/hadoop/hadoop-env.sh,hadoopuser改为自己的主机名

export HDFS_NAMENODE_USER=hadoopuserexport HDFS_DATANODE_USER=hadoopuserexport HDFS_SECONDARYNAMENODE_USER=hadoopuserexport YARN_RESOURCEMANAGER_USER=hadoopuserexport YARN_NODEMANAGER_USER=hadoopuser

再次启动提示ssh认证问题

6,清理之前的进程,打开防火墙。

启动成功

验证Hadoop服务

使用jps查看进程

访问 Hadoop Web 界面

对hdfs进行文件操作

列出文件和目录:hadoop fs -ls /

创建目录:hadoop fs -mkdir /new_test

移动文件或目录:hadoop fs -mv /test /new_test

上传文件到 HDFS:hadoop fs -put Desktop/testFile.png /new_test/test

hadoop fs -ls /new_test/test

从 HDFS 下载文件到本地:hadoop fs -get /new_test/test/testFile.png local/test

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/50000.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vite5+vue3开发阅读APP实战笔记20240725

目前界面长成这样&#xff1a; 配置别名 修改vite.config.js import {defineConfig} from vite import vue from vitejs/plugin-vue import path from "path"// https://vitejs.dev/config/ export default defineConfig({server: {open: true,port: 8088,},plug…

论文阅读【检测】:商汤 ICLR2021 | Deformable DETR

文章目录 论文地址AbstractMotivation技术细节多尺度backbone特征MSDeformAttention 小结 论文地址 Deformable DETR 推荐视频&#xff1a;bilibili Abstract DETR消除对目标检测中许多手工设计的组件的需求&#xff0c;同时表现出良好的性能。然而&#xff0c;由于Transfor…

Odoo 17 仪表盘开发指南:打造高效的数据可视化中心

在现代企业管理中,数据驱动的决策至关重要。Odoo 17 提供了强大的平台来构建自定义仪表板, 适用于数据统计、工作台、驾驶舱、数据可视化等场景,以便用户能够一目了然地监控关键指标并做出及时反应。本文将介绍如何在 Odoo 17 中开发一个灵活且高度定制化的仪表盘系统,包括…

12_TypeScript 模块 以及 模块化封装DB 库

TypeScript 模块 1、模块中暴露方法12、模块中暴露方法23、模块中暴露方法34、封装[上一节的db 库](https://blog.csdn.net/qq_46143850/article/details/140664100)5、TypeScript 命名空间 模块的概念&#xff08;官方&#xff09;&#xff1a; 关于术语的一点说明&#xff1a…

C语言 -- 动态内存管理

C语言 -- 动态内存管理 1. 为什么要有动态内存分配2. malloc 和 free2.1 malloc2.2 free 3. calloc 和 realloc3.1 calloc3.2 realloc 4. 常见的动态内存的错误4.1 对NULL指针的解引用操作4.2 对动态开辟空间的越界访问4.3 对非动态开辟内存使用free释放4.4 使用free释放一块动…

05 capture软件创建元器件库(以STM32为例)

05 创建元器件库_以STM32为例 一、新建原理图库文件二、新建器件三、开始创建元器件 一些IC类元件&#xff0c;需要自己创建元器件库。 先看视频&#xff0c;然后自己创建STM32F103C8T6的LQFP48的元器件。 STM32F103C8T6是目前为止&#xff0c;自己用的最多的芯片。 先要有数据…

Qt自定义MessageToast

效果&#xff1a; 文字长度自适应&#xff0c;自动居中到parent&#xff0c;会透明渐变消失。 CustomToast::MessageToast(QS("最多添加50张图片"),this);1. CustomToast.h #pragma once#include <QFrame>class CustomToast : public QFrame {Q_OBJECT pub…

【学习笔记】解决Serial Communication Library编译问题

【学习笔记】解决编译 Serial Communication Library 时的 Catkin 依赖问题 Serial Communication Library 是一个用 C 编写的用于连接类似 rs-232 串口的跨平台库。它提供了一个现代的 C 接口&#xff0c;它的工作流程设计在外观和感觉上与 PySerial 相似&#xff0c;但串口速…

ControlNet on Stable Diffusion

ControlNet on Stable Diffusion 笔记来源&#xff1a; 1.Adding Conditional Control to Text-to-Image Diffusion Models 2.How to Use OpenPose & ControlNet in Stable Diffusion 3.ControlNet与DreamBooth&#xff1a;生成模型的精细控制与主体保持 4.Introduction t…

光猫设置桥接 路由器pppoe拨号 设置正常访问光猫 (openwrt)

网络信息展示 光猫桥接很简单吧&#xff0c;就不说了。先来列出修改前的网络接口和网络信息。 光猫192.168.1.1&#xff0c;openwrt 10.0.0.0/8 初始配置 需要记录的信息&#xff1a;WAN的网络设备&#xff08;eth1&#xff09;&#xff0c;光猫的IP&#xff08;192.168.1.1&am…

使用法国云手机进行面向法国的社媒营销

在当今数字化和全球化的时代&#xff0c;社交媒体已经成为企业营销和拓展市场的重要工具。对于想进入法国市场的企业来说&#xff0c;如何在海外社媒营销中脱颖而出、抓住更多的市场份额&#xff0c;成为了一个关键问题。法国云手机正为企业提供全新的营销工具&#xff0c;助力…

《人工智能大语言模型技术发展研究报告(2024)》【下载】

《人工智能大语言模型技术发展研究报告&#xff08;2024&#xff09;》下载 自2023年起&#xff0c;大模型技术产品的快速迭代和升级&#xff0c;已经成为全球科技竞争的关键因素。由中国软件评测中心发布的《人工智能大语言模型技术发展研究报告&#xff08;2024&#xff09;》…

kafka详解及应用场景介绍

Kafka架构 Kafka架构&#xff0c;由多个组件组成&#xff0c;如下图所示&#xff1a; 主要会包含&#xff1a;Topic、生产者、消费者、消费组等组件。 服务代理&#xff08;Broker&#xff09; Broker是Kafka集群中的一个节点&#xff0c;每个节点都是一个独立的Kafka服务器…

反激Flyback从逆向到初步设计(UC2844)

一.Flyback基本拓扑 国标gb/t 12325-2008《电能质量供电电压偏差》规定&#xff1a;220v单向供电电压偏差为标称电压的-10%&#xff0c;7%。 对应220V的标称电压&#xff0c;其浮动范围是在198~235.4V。以下运算均基于此规定进行。 首先220V进入EMI模块&#xff0c;消除差模干扰…

【Docker】Windows11环境下的安装

前置依赖环境配置 确保虚拟化开启 搜索栏直接搜索如下功能 勾选下面两个选项&#xff0c;确定 重启电脑&#xff0c;以管理员身份打开PowerShell wsl --status wsl --update打开微软应用商店选择一个Ubuntu版本下载并打开 输入一个用户名和密码 然后就可以在Windows下使…

FlowUs与生成式AI结合的未来展望:智能助手问问AI chat与自主代理Agent的应用

生成式AI在对话系统&#xff08;Chat&#xff09;和自主代理&#xff08;Agent&#xff09;中的应用将会带来显著的技术进步和商业机会。 对话系统&#xff08;Chat&#xff09; 对话系统是一种人工智能软件&#xff0c;它能够模拟人类对话&#xff0c;通过自然语言处理&…

go-kratos 学习笔记(7) 服务发现服务间通信grpc调用

服务发现 Registry 接口分为两个&#xff0c;Registrar 为实例注册和反注册&#xff0c;Discovery 为服务实例列表获取 创建一个 Discoverer 服务间的通信使用的grpc&#xff0c;放到data层&#xff0c;实现的是从uses服务调用orders服务 app/users/internal/data.go 加入 New…

2024安全大模型技术与市场研究报告

大模型驱动的AIGC引发技术革命&#xff0c;国资委强调国企需加大AI投入。大模型解决网络安全行业攻防不对等问题&#xff0c;国内外企业纷纷推出基于大模型的网络安全产品&#xff0c;AI将改变网络安全产品格局。 自 2022 年底开始&#xff0c;以 LLM(大语言模型&#xff0c;简…

k8s核心知识总结

写在前面 时间一下子到了7月份尾&#xff1b;整个7月份都乱糟糟的&#xff0c;不管怎么样&#xff0c;日子还是得过啊&#xff0c; 1、7月份核心了解个关于k8s&#xff0c;iceberg等相关技术&#xff0c;了解了相关的基础逻辑&#xff0c;虽然和数开主线有点偏&#xff0c;但是…

系统架构设计师②:操作系统

系统架构设计师②&#xff1a;操作系统 操作系统作用 ①管理系统的硬件、软件、数据资源 ②控制程序运行 ③人机之间的接口 ④应用软件与硬件之间的接口 进程管理 进程是程序在一个数据集合上运行的过程&#xff0c;它是系统进行资源分配和调度的一个独立单位。它由程序块、…