大数据面试总结三

1、hdfs作为分布式存储系统,底层的实现的方式(可能不正确)

1、底层是一个分布式存储的,底层会将数据进行切分多个block块(128M),并存储在不同的节点上面,这种分布式方式有助于提高数据的可靠性护额并行度

2、底层主从架构,hdfs底层是一个主从架构,又一个节点(namenode)和多个子节点(datanode)组成,namenode负责管理文件系统的的命名空间以及文件元数据信息。datanode负责存储真实的数据块。

3、副本机制:HDFS通过复制机制(Replication)实现数据的冗余和容错性。它默认将数据块复制到多个DataNode上(通常是3个副本),以防止数据丢失。这种冗余机制提高了数据的可靠性和容错性。

4、数据流式访问HDFS支持数据的流式访问。客户端可以通过流式操作读取或写入文件,不需要一次性加载整个文件,这在处理大文件时很有优势

5、一次写入、多次读取,HDFS的设计假设数据通常是一次写入,多次读取。这使得在读取频繁的应用场景中具有高效性。

6、容错和自愈的能力:HDFS具有强大的容错和自愈能力。当某个DataNode出现故障时,HDFS能够自动将副本移动到其他健康的DataNode,保证数据的可用性。

 2、hdfs不同节点之间的通信的方式是:

hadoop集群中机架之间的通信的方式是通过rpc通信,rpc是一种远程调度协议,主要是用于分布式系统之间的远程通信,允许一个计算机程序调度另外一个地址空间的函数和过程。

3、在centos7中的解压命令是:
tar负责打包,gzip负责压缩tar
-c: 建立压缩档案
-x:解压
-t:查看内容
-r:向压缩归档文件末尾追加文件
-u:更新原压缩包中的文件
4、mysql中的事务

在mysql中,事务是一组操作的集合,它是一个不可分割的工作单位,事务会把所有的操作都看成一个整体,一起向系统提交或撤销,最终的结果要么是成功,要么就是失败。

5、在MySQL中什么是索引,为什么要创建索引

mysql中的索引是一种数据结构,创建索引的目的是为了加快查询的效率。

6、当问到对hadoop的理解(就是在三大组件,分别的流程,架构,原理)
7、对于此时有一万个小文件存储在hdfs上可以吗?
8、block块的大小是多少(两种版本不同,都需要知道),如何修改
9、为什么spark要比mapreduce的速度要快(spark与mapreduce的区别)                                                                                                                                                          

1、spark底层是DAG有向无关图

2、spark是基于内存的。

3、spark的粗粒度调度,对于mapreduce是细粒度调度。(粗粒度调度:指的是将整个任务所需要的资源一次性申请,细粒度调度指的是需要多少资源就申请多少资源)

10、谈谈flink与spark streaming的区别:

flink是标准的实时的处理引擎,是基于事件驱动,主要是以流为核心,然而对于spark 的RDD来说实际上就是一组小批次的RDD集合,是微批的模型,是以批为核心。

主要的区别:

1、时间机制:

spark streaming支持的时间机制有限,只支持处理时间。

flink支持流处理程序在时间上的三个定义:事件事件、摄入时间、处理时间,同时也支持watermark机制来处理滞后数据

2、容错机制

spark   streaming中可以通过开启checkpoint来保证容错,当出现问题的时候,恢复到原先checkpoint的位置继续,此时没有办法做到恰好一次处理语义。

flink是通过使用两阶段提交协议来解决这个问题的

3、架构不同:

Spark Streaming 在运行时的主要角色包括:

服务架构集群和资源管理 Master Yarn Application Master;

工作节点 Work Node Manager;

任务调度器 Driver;任务执行器 Executor

Flink 在运行时主要包含:客户端 Client、作业管理 Jobmanager、任务管理Taskmanager。

4、任务调度:

Spark Streaming 连续不断的生成微小的数据批次,构建有向无环图DAG,Spark Streaming 会依次创建 DStreamGraph、JobScheduler。

Flink 根据用户提交的代码生成 StreamGraph,经过优化生成 JobGraph,然后提交给 JobManager进行处理,JobManager 会根据 JobGraph 生成 ExecutionGraph,ExecutionGraph 是 Flink 调度最核心的数据结构,JobManager 根据 ExecutionGraph 对 Job 进行调度,根据物理执行图部署到Taskmanager上形成具体的Task执行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/699386.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LabVIEW开发FPGA的高速并行视觉检测系统

LabVIEW开发FPGA的高速并行视觉检测系统 随着智能制造的发展,视觉检测在生产线中扮演着越来越重要的角色,尤其是在质量控制方面。传统的基于PLC的视觉检测系统受限于处理速度和准确性,难以满足当前生产需求的高速和高精度要求。为此&#xf…

前端页面生成条形码,借助layui打印标签

借助JsBarcode生成条形码 官网&#xff1a;https://lindell.me/JsBarcode/ github: https://github.com/lindell/JsBarcode <div class"table-div" style"display: block;width: 300px; height: 241px; margin: auto;"><table border"1&quo…

ACL权限、特殊位与隐藏属性的奥秘

1.2 操作步骤 # 1. 添加测试目录&#xff0c;用户&#xff0c;组&#xff0c;并将用户添加到组 ------------------- [rootlocalhost ~]# mkdir /project[rootlocalhost ~]# useradd zs[rootlocalhost ~]# useradd ls[rootlocalhost ~]# groupadd tgroup[rootlocalhost ~]# g…

软件提示找不到MSVCP140.dll是什么意思,修复MSVCP140.dll丢失的多个方法

msvcp140.dll 文件是 Microsoft Visual C 运行时库的一部分&#xff0c;具体来说它是 Visual Studio 2015 版本编译的C应用程序所依赖的一个动态链接库&#xff08;DLL&#xff09;文件。这个 DLL 文件包含了大量由Microsoft开发的标准C库函数&#xff0c;这些函数对于许多在Wi…

大模型综述总结--第一部分

1 目录 本文是学习https://github.com/le-wei/LLMSurvey/blob/main/assets/LLM_Survey_Chinese.pdf的总结&#xff0c;仅供学习&#xff0c;侵权联系就删 目录如下图 本次只总结一部分&#xff0c;刚学习有错请指出&#xff0c;VX关注晓理紫&#xff0c;关注后续。 2、概述…

Linux-进程相关函数接口-008

1【fork】 1.1函数原型 1.2函数功能 创建一个子进程&#xff0c;新创建的进程成为原来进程的子进程&#xff0c;原来的进程称为新进程的父进程。 1.3函数参数 1.3.1【】 1.4返回值 【成功】&#xff1a; 【失败】&#xff1a; 2【fork】 2.1函数原型 2.2函数功能 创…

红日靶场3

靶场链接&#xff1a;漏洞详情 在虚拟机的网络编辑器中添加两个仅主机网卡 信息搜集 端口扫描 外网机处于网端192.168.1.0/24中&#xff0c;扫描外网IP端口&#xff0c;开放了80 22 3306端口 80端口http服务&#xff0c;可以尝试登录网页 3306端口mysql服务&#xff0c;可…

linux卸载mysql8重装5

目录 背景操作卸载重装配置启动 背景 在linux&#xff08;阿里云ECS&#xff09;安装部署Hive时初始化Hive元数据库&#xff0c;遇到报错前一天两三小时没解决&#xff0c;问题定位为mysql&#xff0c;次日打算重装 操作 卸载 停止 MySQL 服务 systemctl stop mysql yum卸载…

ES6内置对象 - Map

Map&#xff08;Map对象保存键值对&#xff0c;键值均不限制类型&#xff09; 特点&#xff1a; 有序&#xff08;Set集合是无序的&#xff09;&#xff1b;键值对&#xff08;键可以是任意类型&#xff09;&#xff1b;键名不能重复&#xff08;如果重复&#xff0c;则覆盖&…

DK 树

推荐在 cnblogs 上阅读 引入 这是由 DengDuck 总结整理的一种处理线段树类问题的算法。 板题引入 给定数列 A { a i } A\{a_i\} A{ai​} 和 B { b i } B\{b_i\} B{bi​}。 其中有以下操作&#xff1a; C l r z&#xff1a; a i ← a i z a_i\leftarrow a_iz ai​←ai​…

ES相关问题

在Elasticsearch&#xff08;ES&#xff09;集群中&#xff0c;节点根据其配置和角色可以分为以下几种主要类型&#xff1a; Master Node&#xff08;主节点&#xff09;&#xff1a; 主节点负责管理整个集群的元数据&#xff0c;如索引的创建、删除、分片分配等。它维护着集群…

c编译器学习07:minilisp编译器改造(debug模式支持调试)

问题 原版的minilisp编译器不支持argv输入测试&#xff0c;不方便单步调试。 代码改造目标是既不改变原有程序的各种功能&#xff0c; 又能支持个人习惯的vs单步debug模式。 CMakeLists.txt变更 定义DEBUG宏 解决单步调试源码定位偏差问题 cmake_minimum_required(VERSION …

高级语言期末2012级B卷

1.编写函数&#xff0c;输出任意正整数n的位数&#xff08;n默认为存储十进制的整形变量&#xff09; 例如&#xff1a;正整数13&#xff0c;则输出2,&#xff1b;正整数3088&#xff0c;则输出4 #include <stdio.h>int func(int n) {int count0;while(n>0) {n/10;co…

免费的WP模板网站推荐

免费wordpress模板下载 高端大气上档次的免费wordpress主题&#xff0c;首页大图全屏显示经典风格的wordpress主题。 https://www.wpniu.com/themes/289.html wordpress免费企业主题 深蓝色经典实用的wordpress网站模板&#xff0c;用wordpress免费企业主题搭建网站。 http…

基于springboot+vue的安康旅游网站(前后端分离)

博主主页&#xff1a;猫头鹰源码 博主简介&#xff1a;Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战&#xff0c;欢迎高校老师\讲师\同行交流合作 ​主要内容&#xff1a;毕业设计(Javaweb项目|小程序|Pyt…

Day17_集合与数据结构(链表,栈和队列,Map,Collections工具类,二叉树,哈希表)

文章目录 Day17 集合与数据结构学习目标1 数据结构2 动态数组2.1 动态数组的特点2.2 自定义动态数组2.3 ArrayList与Vector的区别&#xff1f;2.4 ArrayList部分源码分析1、JDK1.6构造器2、JDK1.7构造器3、JDK1.8构造器4、添加与扩容5、删除元素6、get/set元素7、查询元素8、迭…

java基础-正则表达式+文件操作+内置包装类

目录 正则表达式去除字符串前后空格&#xff1a;去除每一行中首尾的空格去除开头的 数字_ 文件操作打印当前项目路径获取文件的上级目录/和\读取文件 内置包装类System类常用方法 Number类Integer类常用方法Float和Double 正则表达式 去除字符串前后空格&#xff1a; str.tri…

创建天花——Dynamo for Revit2022

今天我们来聊一个期待已久的功能——生成天花&#xff0c;经过了这么多年的迭代&#xff0c;Revit终于开放了生成天花的API&#xff0c;而且功能还不错&#xff0c;是经过优化的&#xff0c;不过目前我手里还没拿到SDK&#xff0c;就不截图了。 而且新增的天花API不是在Docume…

axios是如何实现的(源码解析)

1 axios的实例与请求流程 在阅读源码之前&#xff0c;先大概了解一下axios实例的属性和请求整体流程&#xff0c;带着这些概念&#xff0c;阅读源码可以轻松不少&#xff01; 下图是axios实例属性的简图。 可以看到axios的实例上&#xff0c;其实主要就这三个东西&#xff1a…

Sora是什么?

文章目录 前言Sora是什么&#xff1f;功能特色优点 缺点Sora模型的工作原理如何使用Sora模型Sora模型的应用场景Sora模型带来的问题虚假信息版权问题 后记 前言 Sora是美国人工智能研究公司OpenAI发布的一款令人惊叹的人工智能文生成视频大模型。近年来&#xff0c;人工智能技…