【scau大数据原理】期末复习——堂测题

一、集群安装知识

启动集群的命令start-all.sh位于    Hadoop安装目录的sbin文件夹    目录下。
    bin文件夹下包含常见的Hadoop,yarn命令;sbin命令下包含集群的启动、停止命令。

启动集群的命令start-all.sh包含    同时启动start-dfs.sh和start-yarn.sh 功能。
    先启动文件系统start-dfs.sh,然后启动计算相关start-yarn.sh。

集群完全启动(dfs和yarn)后,master端包括    NameNode、SecondaryNameNode、ResourceManager    进程
        文件系统相关:NameNode、SecondaryNameNode;

        计算相关的资源管理进程:ResourceManager
集群完全启动后,salve工作节点包含进程DataNode、NodeManager
        文件存储进程:DataNode;节点计算进程:NodeManager

集群启动dfs后,master端包含        NameNode、SecondaryNameNode        进程与dfs相关。

集群启动yarn后,工作节点包含        NodeManager        进程与yarn相关。

假设集群的安装目录是/home/zkpk/hadoop-3.1.3,则集群的配置文件子目录是     /home/zkpk/hadoop-3.1.3/etc/hadoop   

配置文件在HADOOP_HOME的etc/hadoop子目录下

linux的系统环境配置文件是        /etc/profile      

系统环境文件为/etc/profile,通常JAVA_HOME在此设置

Linux中记录主机Ip地址与主机名称的文件是        /etc/hosts        

文件名为/etc/hosts;文件内容:每一行包含IP地址 主机名

Linux中:~表示用户的HOME目录;修改/etc/profile需要root用户操作;

                语句cd和cd~相同,都是表示返回当前用户的HOME目录;cd..表示返回上一级目录。

二、HADOOP知识

大数据的4V理论:数据量大(Volume);数据类型繁多(Variety);

                                处理速度快(Velocity);价值密度低(Value)。

4V+特征
数据量大(Volume)
数据类型繁多(Variety)
数据价值密度低(Value)
数据速度快时效高(Velocity)
可变性(Variability)、真实性(Veracity)

大数据计量单位:GB-TB-PB-EB-ZB(其中ZB是容量最大的单位)

大数据的四种计算模式:批处理;流计算;图计算;查询分析计算。

关于Hadoop的说法:高可靠性;可容错性;高可扩展性;低成本

HADOOP生态系统组件:YARN、SPARK、MapReduce、Hive、Hbase......

安装HADOOP集训需要用到ssh面密码登录:

        需要配置master到所有slave主机,slave相互之间的免密登录。

Hadoop 3.X的WebUI浏览端口是9870

查看/打印集群上的根目录下abc文件夹的文件:hadoop fs -ls /abc;hadoop fs -cat /abc/*

上传一个Linux当前目录下的test.a文件到集群根目录下,应该使用命令:hadoop fs -put test.a /

关于MapReduce的说法:核心思想是“分而治之”;Map阶段的输出作为Reduce阶段的输入;

                                        Map任务全部完成后,才能进行Reduce任务;

                                        不同Map/Reduce任务之间不会进行通信。

关于MR的说法:Map端的结果要写入本次磁盘;

                                一个Reduce任务处理一个分区数据;

                                Shuffle-就是从map端输出到reduce端输入之间的过程;

                                Map端输出时,要进行分区、排序、合并、归并等操作

一个文件大小是800M,集群block大小为256,Split分片大小为150M,则启动Map任务的数量是6

在Hadoop中,Map任务的数量通常是由输入文件被切分成的Split数量决定的。每个Split会对应一个Map任务。文件大小/split分片大小=800/150=6个

HADOOP序列化类型中与JAVA数据类型的描述中,

                hadoop的Text类型与java的String对应;

                hadoop的IntWritable类型与java的int 对应;

                hadoop的LongWritable类型与java的long 对应;

                hadoop的NullWritable空类型与Java的null对应

Yarn的说法中:yarn是一个通用的资源管理调度框架;

                        yarn的目标是“一个集群多个框架”;

                        yarn支持strom计算框架;

                        yarn把集群中的资源以容器(Container)方式分配给提出申请的应用程序。   

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/37517.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python 面试【中级】

欢迎莅临我的博客 💝💝💝,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

已解决javax.xml.bind.MarshalException:在RMI中,参数或返回值无法被编组的正确解决方法,亲测有效!!!

已解决javax.xml.bind.MarshalException:在RMI中,参数或返回值无法被编组的正确解决方法,亲测有效!!! 目录 问题分析 出现问题的场景 服务器端代码 客户端代码 报错原因 解决思路 解决方法 1. 实现…

Vite:打包时去除console

需求描述 在生产环境下,Vite打包项目时,需要去除开发时加入的console、debugger调试信息,但是又不想引入terser。 解决方案 esbuild 参考: esbuild - API 修改配置 修改vite.config.js配置文件,新增配置项如下&…

c++指针和引用之高难度(二)习题讲解

1.【单选题】 int a[4] { 1001,1002,1003,1004 }; int* p{ &a[1] }; p[1] ? A 1001 B 1002 C 1003 解析:这道题考察了指针和数组可以混用。p 指向了 数组 a[0] 的地址,也就是 1002 的地址,此时 *p p[0]…

【多维动态规划】Leetcode 97. 交错字符串【中等】

交错字符串 给定三个字符串 s1、s2、s3,请你帮忙验证 s3 是否是由 s1 和 s2 交错 组成的。 两个字符串 s 和 t 交错 的定义与过程如下,其中每个字符串都会被分割成若干 非空 子字符串 子字符串 是字符串中连续的 非空 字符序列。 s s1 s2 … snt…

Redis 7.x 系列【11】数据类型之位图(Bitmap)

有道无术,术尚可求,有术无道,止于术。 本系列Redis 版本 7.2.5 源码地址:https://gitee.com/pearl-organization/study-redis-demo 文章目录 1. 概述2. 基本命令2.1 SETBIT2.2 GETBIT2.3 BITCOUNT2.4 BITPOS2.5 BITFIELD2.6 BITF…

高端响应式网络科技公司网站源码pbootcms模板

模板介绍 这是一款高端响应式网络科技公司网站源码pbootcms模板,适合所有类型的网络公司展示,整站源码下载,为您简化开发过程,可自适应手机端。 模板截图 源码下载 高端响应式网络科技公司网站源码pbootcms模板

OpenAI禁止中国使用API,国内大模型市场何去何从

GPT-5 一年半后发布?对此你有何期待? 前言 前言: 近日,OpenAI宣布禁止中国用户使用其API,这一决策引起了国内大模型市场的广泛关注。面对这一挑战,国内大模型市场的发展路径和前景成为业界热议的焦点。本…

小时候的子弹击中了现在的我-hive进阶:案例解析(第18天)

系列文章目录 一、Hive表操作 二、数据导入和导出 三、分区表 四、官方文档(了解) 五、分桶表(熟悉) 六、复杂类型(熟悉) 七、Hive乱码解决(操作。可以不做,不影响) 八、…

Vue3学习笔记<->nginx部署vue项目(3)

安装nginx vue项目通常部署到nginx上,所以先安装一个nginx。为了方便安装的是windows版nginx,解压就能用。 项目参考上一篇文章《Vue3学习笔记<->创建第一个vue项目》《Vue3学习笔记<->创建第一个vue项目》…

uniapp启动页面鉴权页面闪烁问题

在使用uni-app开发app 打包完成后如果没有token,那么就在onLaunch生命周期里面判断用户是否登录并跳转至登录页。 但是在app中页面会先进入首页然后再跳转至登录页,十分影响体验。 处理方法: 使用plus.navigator.closeSplashscreen() 官网…

SpringBoot学习05-[SpringBoot的嵌入式Servlet容器]

SpringBoot的嵌入式Servlet容器 嵌入式Servlet容器servlet容器-嵌入式servlet容器配置修改通过全局配置文件修改修改添加实现了WebServerFactoryCustomizer接口的bean来进行修改 servlet容器-注册servlet三大组件 嵌入式Servlet容器 SpringBoot包含对嵌入式Tomcat、Jetty、Und…

嵌入式学习——硬件(ARM体系架构)——day51

1. S3C2440基础知识——一条指令四个字节 1.1 定义 S3C2440 是三星(Samsung)公司设计的一款基于 ARM920T 核心的微处理器,广泛应用于嵌入式系统中,属于三星的 S3C24xx 系列。 1.2 处理器核心 ARM920T:基于 ARM v5T …

某配送平台未授权访问和弱口令(附赠nuclei默认密码验证脚本)

找到一个某src的子站,通过信息收集插件,发现ZABBIX-监控系统,可以日一下 使用谷歌搜索历史漏洞:zabbix漏洞 通过目录扫描扫描到后台,谷歌搜索一下有没有默认弱口令 成功进去了,挖洞就是这么简单 搜索文章还…

探秘Java版ERP管理系统源码:基于Spring Cloud Alibaba与Spring Boot的微服务架构解析

数字化时代的智能ERP管理系统:引领企业高效管理与创新发展 随着数字化浪潮的席卷,现代企业对于高效、稳定、易于扩展的管理系统需求愈发迫切。为了满足这一需求,我们倾力打造了一款基于Java技术的企业级资源规划(ERP)…

【ONE·Linux || 高级IO(一)】

总言 主要内容:介绍五种IO模型的基本概念、学习IO多路转接(select、poll编程模型)。       文章目录 总言1、问题引入1.1、网络通信与IO1.2、五种IO模型1.2.1、举例引入1.2.2、IO模型具体含义介绍1.2.2.1、阻塞式IO1.2.2.2、非阻塞轮询检…

第三节:如何理解Spring的两个特性IOC和AOP(自学Spring boot 3.x第一天)

大家好,我是网创有方,接下来教大家如何理解Spring的两个特性IOC和AOP。本节有点难,大家多理解。 IOC(控制反转) 定义与核心思想: IOC,全称Inversion of Control,即控制反转。 其核…

把飞书云文档变成HTML邮件:问题挑战与解决历程

一、背景 云文档转HTML邮件 基于公司内部的飞书办公套件,早在去年6月,我们就建设了将飞书云文档转译成HTML邮件的能力,方便同学们在编写邮件文档和发送邮件时,都能有较好的体验和较高的效率。 当下问题 要被邮件客户端识别&am…

防止跨站脚本攻击XSS之Antisamy

目录 一、什么是跨站脚本攻击(XSS) 二、通常有哪些解决方案 三、常见的XSS攻击例子有哪些 3.1 存储型XSS攻击(黑产恶意截流,跳转不法网站) 3.2反射型XSS攻击: 四、什么是跨站请求伪造? 五…

这是我见过的大模型 RAG 优化方案与实践最全总结了

暑期实习基本结束了,校招即将开启。 不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。提前准备才是完全之策。 最近,我们又陆续整理了很多大厂的面试题&#xff0c…