Hadoop+Spark大数据技术 第三次作业

  • 第三次作业

    • 1.简述HDFS Shell三种操作命令hadoop fs、hadoop dfs、hdfs dfs的异同点。

      • 相同点

        • 用于与 Hadoop 分布式文件系统(HDFS)交互。可以执行各种文件系统操作,如文件复制、删除、移动等。

      • 不同点

        • hadoop fs、hadoop dfs已弃用,新版本推荐使用hdfs dfs。

    • 2.简述常用HDFS Shell 用户命令及其功能,简述HDFS 管理员命令的作用。

      • 2.3.2 HDFS常用的Shell 操作

        • 1.创建目录——mkdir 命令

        • 2.列出指定目录下的内容——ls命令

        • 3.上传文件——put命令

        • 4.从HDFS中下载文件到本地文件系统——get命令

        • 5.复制文件——cp命令

        • 6.查看文件内容——cat命令

        • 7.在HDFS目录中移动文件——mv命令

        • 8、显示文件大小——du命令

        • 9.追加文件内容——appendToFile命令

        • 10.从本地文件系统中复制文件到HDFS——copyFromLocal命令

        • 11.从HDFS中复制文件到本地文件系统—copyToLocal命令

        • 12.从HDFS中删除文件和目录——rm命令

      • 管理员命令(dfsadmin)

        • 1.查看文件系统的基本信息和统计信息——report命令

          • 查看HDFS状态,比如有哪些DataNode、每个DataNode的情况

        • 2.安全模式——safemode命令

    • 3.简述HDFS文件操作主要涉及的Java类和FileSystem对象的常用方法。

      • 主要涉及的Java类

        • org.apache.hadoop.con.Configuration

          • 作用该类的对象封装了客户端或者服务器的配置

        • org.apache.hadoop.fs.FileSystem

          • 该类的对象是一个文件系统对象,可以用该对象的一些方法对文件进行操作。

        • org.apache.hadoop.fs.FileStatus

          • 用于向客户端展示系统中文件和目录的元数据,具体包括文件大小、数据块大小、副本信息、所有者、修改时间等。

        • org.apache.hadoop.fs.FSDatalnputStream

          • 文件输入流,用于读取Hadoop文件

        • org.apache.hadoop.fs.FSDataOutputStream

          • 文件输出流,用于写人Hadoop文件

        • org.apache.hadoop.fs.Path

          • 用于表示Hadoop文件系统中的文件或者目录的路径

      • 通过FileSystem 对象的一些方法可以对文件进行操作,常用方法如

        • copyFromLocalFile(Path src, Path dst)

          • 从本地文件系统复制文件到HDFS

        • copyToLocalFile(Path src, Path dst)

          • 从HDFS复制文件到本地文件系统

        • mkdirs(Path f)

          • 建立子目录

        • rename(Path src, Path dst)

          • 重命名文件或文件夹

        • delete(Path f)

          • 删除指定文件

    • 4.编写利用Java API实现上传文件至HDFS的Java程序。

      import org.apache.hadoop.conf.Configuration;
      import org.apache.hadoop.fs.FileSystem;
      import org.apache.hadoop.fs.Path;
      import java.io.IOException;public class HdfsFileUploader {public static void main(String[] args) {// 设置 Hadoop 配置信息Configuration conf = new Configuration();// 设置 HDFS 地址conf.set("fs.defaultFS", "hdfs://localhost:9000");// 创建 HDFS 文件系统对象FileSystem fs = null;try {fs = FileSystem.get(conf);// 本地文件路径Path srcPath = new Path("local/path/to/your/file.txt");// HDFS 目标路径Path destPath = new Path("/path/in/hdfs/destination/file.txt");// 调用文件上传方法uploadFile(fs, srcPath, destPath);System.out.println("文件上传成功!");} catch (IOException e) {e.printStackTrace();System.out.println("文件上传失败:" + e.getMessage());} finally {// 关闭 FileSystem 对象if (fs != null) {try {fs.close();} catch (IOException e) {e.printStackTrace();}}}}// 文件上传方法public static void uploadFile(FileSystem fs, Path srcPath, Path destPath) throws IOException {// 将本地文件上传至 HDFSfs.copyFromLocalFile(srcPath, destPath);}
      }
      

    • 5.简述MapReduce并行编程模型的基本特点。

      • Cluster Infrastructure:

        • MapReduce 提供了一个基于集群的高性能并行计算平台,可以利用普通商用服务器构建分布式计算集群,规模从数十到数千个节点不等。

      • Software Framework:

        • 作为并行计算与运行软件框架,MapReduce 提供了一个设计精良的框架,自动处理并行化计算任务、数据划分、任务分配和结果收集等复杂细节,大大减轻了开发人员的负担。

      • Programming Model & Methodology:

        • MapReduce 借鉴了函数式编程语言 Lisp 的设计思想,提供了一种简便的并行程序设计模型与方法。开发人员可以利用 Map 和 Reduce 这两个函数实现并行计算任务,使用抽象的操作和接口完成大规模数据的编程和计算处理。

      • 分而治之策略:

        • MapReduce 采用了“分而治之”的策略,将大规模数据集切分成多个独立的小数据集,即分片,然后由多个 Map 任务并行处理,从而实现高效的数据处理。

      • 计算向数据靠拢:

        • MapReduce 设计中的一个理念是“计算向数据靠拢”,通过将计算任务部署在存储节点附近,减少了数据传输开销,提高了集群的网络带宽利用效率。

    • 6.通过教材中图3-6 – 图3-10,说明WordCount程序的Map和Reduce过程。

      • Map 过程:

        • 输入:Map 过程的输入是一组键-值对,其中键表示输入文本中的行号,值表示文本中的一行内容。

        • 映射:对于每个输入键-值对,Map 过程将其分解为单词,并为每个单词生成一个新的键-值对,其中键是单词,值为 1(表示单词出现一次)。

        • 输出:Map 过程生成一组新的键-值对,其中键是单词,值为 1。

      • Reduce 过程:

        • 输入:Reduce 过程的输入是一组键-值对,其中键是单词,值是该单词在输入文本中出现的次数。

        • 汇总:Reduce 过程对相同的单词进行汇总,将它们的值相加,得到单词出现的总次数。

        • 输出:Reduce 过程生成一组新的键-值对,其中键是单词,值是该单词在输入文本中出现的总次数。

      • 简言之,Map 过程将文本划分为单词,并为每个单词标记计数为 1,而 Reduce 过程则对相同单词的计数进行累加,最终得到每个单词的总出现次数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/775217.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用vue构建一个简单实用的春节红包插件!

摘要:本文将介绍如何使用Vue.js构建一个简单实用的春节红包插件。该插件通过模拟红包的打开和关闭过程,以及金额的随机分配,为春节红包活动提供了一个有趣且互动的体验。 一、引言 在春节这个充满欢乐和祝福的时刻,红包成为了传递…

Encoding类

Encoding System.Text.Encoding 是 C# 中用于处理字符编码和字符串与字节之间转换的类。它提供了各种静态方法和属性,**用于在不同字符编码之间进行转换,**以及将字符串转换为字节数组或反之。 在处理多语言文本、文件、网络通信以及其他字符数据的场景…

node.js项目初始化操作

项目环境Vscode 1.新建一个文件夹node.js(xx.js) 2.右键点击node.js,点击打开终端 我在VScode打开终端 输入npm init初始化项目没反应。 解决方法:进入文件夹node.js,出入cmd跳转到终端 重新输入npm init命令 正确结果如下图 后续命令按下…

【Leetcode】2580. 统计将重叠区间合并成组的方案数

文章目录 题目思路代码复杂度分析时间复杂度空间复杂度 结果总结 题目 题目链接🔗 给你一个二维整数数组 ranges ,其中 ranges[i] [starti, endi] 表示 starti 到 endi 之间(包括二者)的所有整数都包含在第 i 个区间中。 你需要…

Tunes不能读取iPhone的内容,请前往iPhone偏好设置的摘要选项卡,然后单击恢复以将此iPhone恢复为出厂设置

重启itunes: 参考链接: https://baijiahao.baidu.com/s?id1642568736254330322&wfrspider&forpc 人工智能学习网站: https://chat.xutongbao.top

什么是solana PDA账户?

Solana 设计的一个核心理念是万物皆账户,Solana 上的几乎所有数据都可以表示为账户。 在 Solana 上,不仅仅是用户的钱包地址拥有账户,还包括智能合约、数据结构、代币、NFT 等。这些账户可以持有各种类型的数据,包括数字资产、智…

插值表达式、Vue指令、指令补充

vue上手步骤 <body><!-- vue2语法 --><!-- 1.准备容器&#xff1a;一会vue就会把数据展示到这里 --><div id"app"><!-- 4.使用{{ }}即可显示数据 &#xff0c;{{}}就是插值表达式--><p>姓名&#xff1a;{{uname}}</p><…

开源AI引擎|企业合同管理:自然语言处理与OCR技术深度融合

一、企业应用&#xff1a;合同智能管理 结合NLP和OCR技术&#xff0c;企业可以构建智能化的合同管理系统&#xff0c;实现合同的自动化审查、风险评估和知识抽取。这样的系统不仅能够提高合同处理的效率&#xff0c;还能够降低人为错误&#xff0c;加强风险控制。 例如&#x…

Elasticsearch 中误操作删除了所有用户解决办法

如果在 Elasticsearch 中误操作删除了所有用户&#xff0c;可以通过以下步骤重新创建用户和密码&#xff1a; 在配置文件中开启 x-pack 验证&#xff0c;修改config&#xff08;一般是在/usr/share/elasticsearch&#xff09;目录下面的elasticsearch.yml文件&#xff0c;添加…

vue3+threejs新手从零开发卡牌游戏(十八):己方场上手牌添加画线

手牌上场后&#xff0c;点击己方怪兽区卡牌会跟随鼠标移动画出线条&#xff0c;之后可以通过判断鼠标移动到对方场地的某卡牌进行战斗操作&#xff0c;代码主要改动在game/index.vue文件。 1.添加鼠标移动监听事件&#xff08;移动端&#xff09;&#xff1a; window.addEven…

Flink 学习资料

今天就不发帖子啦&#xff0c;今天发现一个好东西啊&#xff0c;喜欢Flink的同学赶紧学习起来啊&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01; 课程网页链接&#xff1a; GitHub - flink-china/flink-training-course: Flink 中文视频课程&#…

设计模式学习笔记 - 设计模式与范式 -结构型:4.装饰器模式

概述 前面我们学习了代理模式、桥接模式、装饰器模式&#xff0c;本章再来学习一个比较常用的结构性模式&#xff1a;适配器模式。这个模式相对来说比较简单&#xff0c;应用场景也很具体。 关于适配器模式&#xff0c;有类适配器和对象适配器两种实现方式&#xff0c;以及常…

centOS 安装MySQL8.0

1.配置yum仓库 rpm --import https://repo.mysql.com/RPM-GPG-KEY-mysql-2022 2.安装MySQL8.x版本 yum库 rpm -Uvh https://dev.mysql.com/get/mysql80-community-release-el7-2.noarch.rpm 或者 wget https://dev.mysql.com/get/mysql80-community-release-el7-2.noarch…

相册清理大师-手机重复照片整理、垃圾清理软件

相册清理大师是一款超级简单实用的照片视频整理工具。通过便捷的操作手势&#xff0c;帮助你极速整理相册中的照片和视频、释放手机存储空间。 【功能简介】 向上滑动&#xff1a;删除不要的照片 向左滑动&#xff1a;切换下一张照片 向右滑动&#xff1a;返回上一张照片 整理分…

flutter弹框

alertDialog:弹框 simpleDialog:选择弹框 showModalBottomSheet:底部弹出弹框 showtoast:三方插件弹框 Navigator.of(context).pop(点击取消) 关闭弹框,传递参数 import package:flutter/material.dart; // import package:flutter/cupertino.dart; import package:flut…

excel使用技巧-自动计算过滤后的数据(=SUBTOTAL(109,B2:B110))

语法&#xff1a;SUBTOTAL(function_num,ref1,ref2, …) Function_num 为 1 到 11&#xff08;包含隐藏值&#xff09;或 101 到 111&#xff08;忽略隐藏值&#xff09;之间的数字&#xff0c;指定使用何种函数在列表中进行分类汇总计算。对应的含义如下面表格所示&#xff1…

Java常用的API

跟着黑马的Java学习视频学者本篇常用的API Math public static int abs(int a) {return (a < 0) ? -a : a; }public static double ceil(double a) {return StrictMath.ceil(a); }public static double floor(double a) {return StrictMath.floor(a); }public static doub…

学习JavaEE的日子 Day29 yield,join,线程的中断,守护线程,线程局部变量共享,线程生命周期

Day29 多线程 12. 线程的礼让 Thread.yield(); 理解&#xff1a;此方法为静态方法&#xff0c;此方法写在哪个线程中&#xff0c;哪个线程就礼让 注意&#xff1a;所谓的礼让是指当前线程退出CPU资源&#xff0c;并转到就绪状态&#xff0c;接着再抢 需求&#xff1a;创建两个…

Picocli框架下的命令模式

引言 在开发命令行应用程序时&#xff0c;经常需要解析命令行参数&#xff0c;并根据这些参数执行不同的操作。命令模式是一种设计模式&#xff0c;它将请求封装为对象&#xff0c;从而允许用户使用不同的请求、队列或日志请求来参数化其他对象。Picocli是一个小型的Java框架&…

axios配置以及说明

import request from ‘//utils/request’; export function fetchList(query?: Object) {return request({url: /admin/audit/page,method: get,params: query,});request.ts import axios, { AxiosInstance, AxiosRequestConfig, AxiosResponse } from axios; import { Se…