大数据面试总结 四

1、当hadoop集群中某一个节点挂了,内部数据流程是如何进行的?

每一个datanode都会定期向namenode发送heardbeat消息,当一段时间namenode没有接收到某一个datanode的消息,此时namenode就会将该datanode标记为死亡,并不会向他们发送任何的IO请求,同时任何注册到失效的namenode上的数据不会提供给hdfs所使用,当某些块的副本数小于指定的数量的时候,namenode会不断的跟踪哪些副本是需要复制的,并在必要的时候进行复制。

(官网可以了解到将datanode标记成死亡节点一般默认的时间是10分钟,但是也可以通过修改配置文件来修改下线的时间。)

2、namenode和secondarynamenode分别存储了什么数据

namenode:

1、负责接收客户端的读、写的请求

2、保存文件的时候会保存元数据,例如文件的大小、文件的归属、文件的大小

3、也会收集block的信息

secondarynamenode:

主要是用来存储日志文件,fismage和edits,定期的合并这两个日志文件。

3、集群中如何添加节点

4、mysql与orcal的区别:

1、一个是收费的,另一个是开源的

2、存储的数据量不同,orcal存储的数据量可以很大,但是mysql不可以

5、怎么检查数据有没有出现什么问题:

1、查看建表语句,看创建表时字段是否完整、语言格式是否一致

6、orcal是一个什么类型的数据库:

1、是一个关系型数据库,可以是因高吞吐量的数据库,可移植性比较好

7、sql中常见的函数有:

时间函数:

        时间转成时间戳:unix_timestamp

        时间戳转成时间:from_timestamp

        时间相减:datadiff

窗口函数:

        rank、会跳跃 1224

        descrank、1223

        rownmber 1234

聚合函数:sum、avg

字符串函数:substring、concat

8、orcal中的冷备份与热备份的区别与各自的优缺点:

热备份:针对归档模式的数据库,在数据库继续工作的时候进行备份,但是对于冷备份来说,指的是数据库关闭后对数据进行备份,是用于所有模式的数据库。

优缺点:

        热备份:数据在备份的时候数据库可以继续进行工作,还可以恢复到任意的时间点

        冷备份:操作比较简单,性能比热备份较强。

9、sql中常见的操作:

表操作:

删除表数据:truncate table 表名

修改表的名称:alter table 表名 rename to 新的表名

新增列:alter table 表名 add 列名

修改列名:alter table 表名 change 原表名 新表名 列类型

删除列:drop table 表名 drop 列名

插入数据:

insert into 表名 (列名1,列名2,列名3)values(值1,值2,值3)

更型数据:update 表名 set 列名=列值

10、数据库中笛卡尔积

指的是在数据库中,两张表在关联的时候不指定任何的关联的条件。

11、flnik中chekpoint的流程:

1、由flink创建checkpointcoordinator(检查点协调器)

2、coordinator会向所有的sourceoperater发送barrier栅栏,当sourceoperater接收到后,就会暂停一切活动(暂停的时间会比较短),并执行state快照,当一切都执行完

向coordinator进行汇报并将barrier发送到下游的operater

3、当下游的operater接收到barrier后也会向所有的sourceoperater,就会执行第二步的操作。一直到将barrier发送到sinkoperater中

4、当sink接收到这个barreier后,依旧执行步骤二,当coordinator接收到所有的operater返回的ok,本次快照拍摄结束。

12、开启checkpoint的方式:

开启checkpoint:默认情况下是禁止的,可以通过调用 StreamExecutionEnvironmentenableCheckpointing(n) 来启用 checkpoint,里面的 n 是进行 checkpoint 的间隔,单位毫秒。

也可以在在flink-conf.yaml配置文件中开启checkpoint。

13、flink中的state与checkpoint的主要的区别:

state:指的是某一个task或者是莫一个operater

checkpoint:指的是在某一个特定的时间的快照。

14、spark中如何解决重用:

对重复使用的RDD进行持久化:cache缓存、checkpoint持久化、广播变量

persist:cache则是persist的简化方式,cache底层是调用persist的无参构造器,无参构造器调用的是persist(StorageLevel.MEMORY_ONLY)。
15、cache与checkpoint的区别:

1、cache是基于内存的,然而对于checkpoint来说是基于磁盘的,也可以存储在hdfs等持久化存储。

16、 flink中的状态容错:savepoint、checkpoint

区别:

1、触发条件:savepoint需要手动出发,但是checkpoint是自动的触发

2、主要作用:savepoint主要是用来有计划的恢复,例如调剂并发啊等一些可能。checkpoint是当出异常的时候会自动的触发

3、特点:savepoint持久,可以手动触发恢复,但是checkpoint轻量,可以自动的触发回复。

17、怎么解决kafka数据量过大:

1、可以增加topic的分区数,可以提高并行处理更多的数据

kafka-topics.sh --zookeeper localhost:2181 --alter --topic my-topic --partitions 10

2、增加副本因子,可以提高数据的冗余,提高数据的可靠性

bin/kafka-topics.sh --zookeeper localhost:2181 --alter --topic my-topic --replication-factor 3

3、调整消费者的并行度

4、优化生产者配置:

batch.size:增加批处理提高吞吐量

5、配置清理策列:根据数据保留策略配置日志保留时间和日志大小,定期清理旧数据

6、扩大kafka集群的规模:增加broker节点的数量

18、实时计算与实时查询的区别:

实时计算指的是来一条数据就计算一条数据

实时查询指的是在海量的数据中查询数据

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/760538.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TouchGFX之性能测量

TouchGFX Core开放了几个信号,可用于测量性能。 当这些信号在内部触发时,用户可在应用程序中同步触发单个GPIO,从而实现“渲染时间”和其他有用信号的可视化。 信号在GPIO.hpp中定义 /* 用于操作GPIO的接口类,以便在目标硬件上进…

力扣---完全平方数

思路: 还是比较好想的,g[i]定义为和为 i 的完全平方数的最少数量。那么递推关系式是g[i]min(g[i-1],g[i-4],g[i-9],...)1,数组初始化是g[0]0,g[1]1。注意这里要对g[0]初始化,(举个例子)因为在遍历到g[4]时&…

数据库迁移测试

数据库 数据源变更:数据库名称、数据库类型等,一般情况下在同类型的数据库之间迁移比较常见,但是也存在不同类型的数据库之间的迁移,例如:oracle到MySQL等等,非关系型数据库到关系型,关系型到非…

14 网络管理与网络安全(1)

1.网络管理 在网络管理中,一般采用网络管理者-网管代理模型。管理者实质上是运行在计算机操作系统之上的一组应用程序,代理位于被管理的设备内部。一个管理者可以和多个代理之间进行信息交换。网络管理一般采用集中式网络管理或者分布式网络管理。集中式…

基于Springboot+Vue3的大学生毕业作业设计之—招投标分析系统

有系统开发需求可私信我提供帮助哦 ~ 部分 import cn.hutool.core.bean.BeanUtil; import cn.hutool.core.collection.CollectionUtil; import cn.hutool.core.util.ObjectUtil; import cn.hutool.core.util.StrUtil; import com.baomidou.mybatisplus.core.conditions.query.L…

七、Java中SpringBoot组件集成接入【Minio文件服务器】

七、Java中SpringBoot组件集成接入【Minio文件服务器】 1.Minio介绍2.搭建Minio服务2.1Windows部署2.2Linux部署2.3docker部署 3.Minio可视化操作4.SpringBoot接入Minio1.添加maven依赖2.yaml配置文件3.配置类4.工具类5.控制类 5.常见问题6.其他参考文章 1.Minio介绍 对象存储…

解决vue3中刷新浏览器页面的axios请求状态变为canceled

最近在开发中要加一个悲观锁的功能,具体需求是:用户1和用户2不能同时打开一个模型进行编辑,用户1优先进入模型后,要对该模型进行上锁,关闭该模型或刷新页面时要进行解锁,此时在刷新页面时出现了问题。 刷新…

英伟达 GTC 2024大会不可错过的亮点!带你一窥AI和高性能计算的最新趋势!

会议之眼 快讯 2024年的英伟达GTC大会再次掀起了科技界的热潮,展示了该公司在人工智能、图形处理和高性能计算领域的最新突破。来自全球各地的科技领袖、工程师和创新者齐聚一堂,共同探讨未来技术的前沿。在这令人期待的盛会上,英伟达发布了一…

C#关键字 Event

作用: 事件(Event)基本上说是一个用户操作,如按键、点击、鼠标移动等等,或者是一些提示信息,如系统生成的通知。应用程序需要在事件发生时响应事件。例如,中断。C# 中使用事件机制实现线程间的…

vue前端下载文件,java后端

vue前端 <template><div><button click"downloadFile">Download File</button></div> </template><script> import axios from axios;export default {methods: {async downloadFile() {try {const response await axio…

Java多态性:灵活性与扩展性的杰作

多态 在Java编程世界中&#xff0c;多态性是一种重要的概念。它不仅是面向对象编程的核心原则之一&#xff0c;而且是Java语言中实现灵活性和扩展性的关键。本文将深入探讨Java中多态性的概念、原理以及使用多态性的好处&#xff0c;并提供相应的代码示例加以说明。 多态的概…

5611: 【J1】【搜索】网格寻路

题目描述 给你一个 n * m 的网格&#xff0c;其中每个单元格不是 0&#xff08;空&#xff09;就是 1&#xff08;障碍物&#xff09;。每一步&#xff0c;您都可以在空白单元格中上、下、左、右移动。 如果您最多可以消除 k 个障碍物&#xff0c;请找出从左上角 (1, 1) 到右下…

GraalVM详细安装及打包springboot、java、javafx使用教程(打包javafx项目篇)

前言 在当前多元化开发环境下&#xff0c;Java作为一种广泛应用的编程语言&#xff0c;其应用部署效率与灵活性的重要性日益凸显。Spring Boot框架以其简洁的配置和强大的功能深受开发者喜爱&#xff0c;而JavaFX则为开发者提供了构建丰富桌面客户端应用的能力。然而&#xff…

Windows东方通下载及使用

把安装包都拖到桌面来&#xff0c;可以拖一个解压包进去 下载东方通可以不用配环境变量 双击安装包 下一步 点击接受 选择版本&#xff0c;都可以 选择安装路径 下一步 点击安装 改端口号 移到桌面 把安装包里面的文件拖进去 过期了&#xff0c;记得改时间 点击时间面板&…

A4H124-24FX P0973JN FOXBORO 福克斯波罗交换机模块

堆栈连接 交换机具有前面板RJ45端口&#xff0c;用于堆叠配置中的连接。堆叠 用于连接的电缆必须是标准5类或更好的UTP电缆。 冗余电源能力 当连接到可选的外部设备时&#xff0c;A4具有电源冗余功能 冗余电源: STK‐RPS‐150PS&#xff0c;150瓦DC电源&#xff0c;为A4交换机提…

Google云计算原理与应用(四)

目录 七、海量数据的交互式分析工具Dremel&#xff08;一&#xff09;产生背景&#xff08;二&#xff09;数据模型&#xff08;三&#xff09;嵌套式的列存储&#xff08;四&#xff09;查询语言与执行&#xff08;五&#xff09;性能分析&#xff08;六&#xff09;小结 八、…

【考研数学】全年复习懒人包+资料分享

题主要真是能把这两样做透了&#xff0c;别说90&#xff0c;120都不是问题呀&#xff01;那么我们就先来说说你如何能把这1800做透吧。这可是人称考研数学路上最厚的一本习题册了。经常有人是做到一半就被劝退的&#xff01;假设你是挑题出来做&#xff0c;那也行&#xff0c;不…

三大排序(插入排序,选择排序,冒泡排序)

插入排序 原理&#xff1a;将第i个数通过不断与前面大于他的数交换&#xff0c;直到插入到前面合适的位置。 代码 void insert_sort(int arr[],int n){for(int i1;i<n;i){if(arr[i]<arr[i-1])for(int ji-1;j>0;j--){if(arr[j]>arr[j1])swap(arr[j],arr[j1]);els…

蓝桥杯刷题--python-23

2.危险系数 - 蓝桥云课 (lanqiao.cn) n, m map(int, input().split()) map_ [[] for i in range(n 1)] used [0 for i in range(n 1)] used_ [0 for i in range(n 1)] cnt 0 res [] for _ in range(m):u, v map(int, input().split())map_[u].append(v)map_[v].appen…

Yarn面试重点

文章目录 1. 简述Yarn集群的架构2. Yarn 的任务提交流程是怎样的&#xff1f;3. yarn的资源调度的三种模型 1. 简述Yarn集群的架构 YARN&#xff08;Yet Another Resource Negotiator&#xff09;是Hadoop 2.x引入的资源管理器&#xff0c;用于管理Hadoop集群中的资源和作业调…