【scau大数据原理】期末复习——堂测题

一、集群安装知识

启动集群的命令start-all.sh位于    Hadoop安装目录的sbin文件夹    目录下。
    bin文件夹下包含常见的Hadoop,yarn命令;sbin命令下包含集群的启动、停止命令。

启动集群的命令start-all.sh包含    同时启动start-dfs.sh和start-yarn.sh 功能。
    先启动文件系统start-dfs.sh,然后启动计算相关start-yarn.sh。

集群完全启动(dfs和yarn)后,master端包括    NameNode、SecondaryNameNode、ResourceManager    进程
        文件系统相关:NameNode、SecondaryNameNode;

        计算相关的资源管理进程:ResourceManager
集群完全启动后,salve工作节点包含进程DataNode、NodeManager
        文件存储进程:DataNode;节点计算进程:NodeManager

集群启动dfs后,master端包含        NameNode、SecondaryNameNode        进程与dfs相关。

集群启动yarn后,工作节点包含        NodeManager        进程与yarn相关。

假设集群的安装目录是/home/zkpk/hadoop-3.1.3,则集群的配置文件子目录是     /home/zkpk/hadoop-3.1.3/etc/hadoop   

配置文件在HADOOP_HOME的etc/hadoop子目录下

linux的系统环境配置文件是        /etc/profile      

系统环境文件为/etc/profile,通常JAVA_HOME在此设置

Linux中记录主机Ip地址与主机名称的文件是        /etc/hosts        

文件名为/etc/hosts;文件内容:每一行包含IP地址 主机名

Linux中:~表示用户的HOME目录;修改/etc/profile需要root用户操作;

                语句cd和cd~相同,都是表示返回当前用户的HOME目录;cd..表示返回上一级目录。

二、HADOOP知识

大数据的4V理论:数据量大(Volume);数据类型繁多(Variety);

                                处理速度快(Velocity);价值密度低(Value)。

4V+特征
数据量大(Volume)
数据类型繁多(Variety)
数据价值密度低(Value)
数据速度快时效高(Velocity)
可变性(Variability)、真实性(Veracity)

大数据计量单位:GB-TB-PB-EB-ZB(其中ZB是容量最大的单位)

大数据的四种计算模式:批处理;流计算;图计算;查询分析计算。

关于Hadoop的说法:高可靠性;可容错性;高可扩展性;低成本

HADOOP生态系统组件:YARN、SPARK、MapReduce、Hive、Hbase......

安装HADOOP集训需要用到ssh面密码登录:

        需要配置master到所有slave主机,slave相互之间的免密登录。

Hadoop 3.X的WebUI浏览端口是9870

查看/打印集群上的根目录下abc文件夹的文件:hadoop fs -ls /abc;hadoop fs -cat /abc/*

上传一个Linux当前目录下的test.a文件到集群根目录下,应该使用命令:hadoop fs -put test.a /

关于MapReduce的说法:核心思想是“分而治之”;Map阶段的输出作为Reduce阶段的输入;

                                        Map任务全部完成后,才能进行Reduce任务;

                                        不同Map/Reduce任务之间不会进行通信。

关于MR的说法:Map端的结果要写入本次磁盘;

                                一个Reduce任务处理一个分区数据;

                                Shuffle-就是从map端输出到reduce端输入之间的过程;

                                Map端输出时,要进行分区、排序、合并、归并等操作

一个文件大小是800M,集群block大小为256,Split分片大小为150M,则启动Map任务的数量是6

在Hadoop中,Map任务的数量通常是由输入文件被切分成的Split数量决定的。每个Split会对应一个Map任务。文件大小/split分片大小=800/150=6个

HADOOP序列化类型中与JAVA数据类型的描述中,

                hadoop的Text类型与java的String对应;

                hadoop的IntWritable类型与java的int 对应;

                hadoop的LongWritable类型与java的long 对应;

                hadoop的NullWritable空类型与Java的null对应

Yarn的说法中:yarn是一个通用的资源管理调度框架;

                        yarn的目标是“一个集群多个框架”;

                        yarn支持strom计算框架;

                        yarn把集群中的资源以容器(Container)方式分配给提出申请的应用程序。   

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/37517.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI与Python共舞:如何利用深度学习优化推荐系统?

AI与Python共舞:如何利用深度学习优化推荐系统? 当你在浏览新闻、电影或是购物平台时,那些仿佛读懂你心思的个性化推荐背后,正是AI技术与Python语言的精妙协作。今天,我们将通过一个实际案例,探索如何利用…

Python 面试【中级】

欢迎莅临我的博客 💝💝💝,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

已解决javax.xml.bind.MarshalException:在RMI中,参数或返回值无法被编组的正确解决方法,亲测有效!!!

已解决javax.xml.bind.MarshalException:在RMI中,参数或返回值无法被编组的正确解决方法,亲测有效!!! 目录 问题分析 出现问题的场景 服务器端代码 客户端代码 报错原因 解决思路 解决方法 1. 实现…

大数据面试题之Hive(1)

说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么? 说下Hive是什么?跟数据仓库区别? Hive架构 Hive内部表和外部表的区别? 为什么内部表的删除,就会将数据全部删除,而外部表只删除表结构?为什么用外部表更好? Hive建表语句?创建表时使…

Vite:打包时去除console

需求描述 在生产环境下,Vite打包项目时,需要去除开发时加入的console、debugger调试信息,但是又不想引入terser。 解决方案 esbuild 参考: esbuild - API 修改配置 修改vite.config.js配置文件,新增配置项如下&…

深入了解语音识别:Distil-Whisper

Distil-Whisper模型概述 1.1 Distil-Whisper的背景与意义 随着语音识别技术的不断发展,模型的大小和计算复杂度成为了制约其广泛应用的重要因素。特别是在边缘设备和实时应用场景中,对模型的效率和性能提出了更高的要求。Distil-Whisper模型的提出&…

c++指针和引用之高难度(二)习题讲解

1.【单选题】 int a[4] { 1001,1002,1003,1004 }; int* p{ &a[1] }; p[1] ? A 1001 B 1002 C 1003 解析:这道题考察了指针和数组可以混用。p 指向了 数组 a[0] 的地址,也就是 1002 的地址,此时 *p p[0]…

axios发送数据的几种方式

axios 发送数据的几种方式 1、最简单的方式是将参数直接拼接在 URL 上,这通常用于传递少量的数据,例如资源的 ID。 const id 12; axios.delete(https://api.example.com/${id}).then(response > {console.log(Resource deleted successfully:, res…

Win11下安装多个JDK版本,并切换

Windows11下安装多个JDK版本,并切换 前言步骤1、前期准备2、版本切换思考前言 一台电脑可以同时安装多个版本 jdk,建议两个,最多不超三个。安装多个JDK版本可能会占用较多的磁盘空间。此外,同时运行多个 JDK 版本可能会对系统性能产生一定的影响。   切换 JDK 有两种方式…

嵌入式是Linux:shell使用解析

目录 简介 1. shell 脚本程序 2.变量 3.条件测试和控制结构 简介 shell是一种具备特殊功能的可执行程序,它是介于使用者和 UNIX/linux 操作系统内核间的一个接口。 shell是一个命令解释器,它从输入设备读取命令,再将其转为计算机可以了解的指令,然后执行它。 在Linux中…

【多维动态规划】Leetcode 97. 交错字符串【中等】

交错字符串 给定三个字符串 s1、s2、s3,请你帮忙验证 s3 是否是由 s1 和 s2 交错 组成的。 两个字符串 s 和 t 交错 的定义与过程如下,其中每个字符串都会被分割成若干 非空 子字符串 子字符串 是字符串中连续的 非空 字符序列。 s s1 s2 … snt…

【SQL】优化慢 SQL的简单思路

优化慢 SQL 需要综合考虑多个方面,包括查询的结构、索引的使用、表结构设计等。以下是一些常见的 SQL 优化技巧和步骤: 1. 检查查询计划 使用数据库提供的工具查看查询计划(例如 MySQL 的 EXPLAIN 命令)可以帮助了解查询的执行路…

Django 靓号管理系统:表结构设计与初始化

在本文中,我们将介绍如何为一个靓号管理系统设计和初始化数据库表结构。这个系统包括部门、管理员和靓号三个主要实体。我们将使用 Django 的模型系统来定义这些表结构。 1. 项目初始化 首先,让我们创建一个新的 Django 项目和应用: django-admin startproject number cd…

Redis 7.x 系列【11】数据类型之位图(Bitmap)

有道无术,术尚可求,有术无道,止于术。 本系列Redis 版本 7.2.5 源码地址:https://gitee.com/pearl-organization/study-redis-demo 文章目录 1. 概述2. 基本命令2.1 SETBIT2.2 GETBIT2.3 BITCOUNT2.4 BITPOS2.5 BITFIELD2.6 BITF…

高端响应式网络科技公司网站源码pbootcms模板

模板介绍 这是一款高端响应式网络科技公司网站源码pbootcms模板,适合所有类型的网络公司展示,整站源码下载,为您简化开发过程,可自适应手机端。 模板截图 源码下载 高端响应式网络科技公司网站源码pbootcms模板

PTA:7-32 最小公倍数(递归)

本题目要求读入2个整数a和b,然后输出它们的最小公倍数。 输入格式: 输入在一行中给出2个正整数,以空格分隔。 输出格式: 输出最小公倍数。 输入样例: 在这里给出一组输入。例如: 6 14输出样例: 在这里给出相应的输出。例如&#xff1…

为啥使用virtual并添加[UnitOfWork]属性就可以解决上下文安全问题

在ABP(ASP.NET Boilerplate)框架中,使用virtual关键字并添加[UnitOfWork]属性到方法上是一种约定,它允许ABP框架自动管理数据库上下文(通常是Entity Framework或NHibernate的DbContext或ISession)的生命周期…

60、Flink 的异步 IO 算子使用异步 Http 客户端查高德地图

1、概述 Http 异步客户端设置:并行度2,capacity2,HttpMaxConn2,client 为静态输入:同时发起4条查询输出:间隔10秒,同时返回4条数据JDBC 线程池链接池设置:并行度2,capaci…

谷歌SEO网站SEO优化诊断有哪些点?

在以下几种场景中,进行SEO审查尤为关键: (1)当你接手一个新项目或新网站时,了解其当前状况是至关重要的第一步 (2)当搜索流量出现意外下降时,这可能是技术问题或被惩罚的信号&…

了解SENT协议及其应用

了解SENT协议及其应用 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!今天我们来了解一种在汽车电子领域广泛应用的通信协议——SENT协议。SENT协议以其高效、可…