Spark 大厂面试题

土哥今天给大家分享10道spark大厂面试题:

1、spark概括说是解决什么问题的?

 Spark主要解决海量数据的分析计算。 

2、spark运行模式有哪些?
  • Local:运行在一台机器上,测试用
  • Standalone:是Spark自身的一个调度系统。 对集群性能要求非常高时用。国内很少使用
  • Yarn:采用Hadoop的资源调度器。 国内大量使用
  • Mesos:国内很少使用。
3、spark常用端口号有哪些?
  • 4040 spark-shell任务端口
  • 7077 内部通讯端口。 类比Hadoop的8020/9000
  • 8080 查看任务执行情况端口。 类比Hadoop的8088
  • 18080 历史服务器。类比Hadoop的19888
  • 注意:由于Spark只负责计算,所有并没有Hadoop中存储数据的端口50070
4、Spark的action算子有哪些?(至少说出5个)
  • reduce
  • collect
  • count
  • first
  • take
  • takeOrdered
  • aggregate
  • fold
  • countByKey
  • save
  • foreach
5、 当Spark涉及到数据库的操作时,如何减少Spark运行中的数据库连接数?

使用foreachPartition代替foreach,在foreachPartition内获取数据库的连接。

6、如何用Spark实现TopN的获取(高频)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/7194.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MQ - 闲聊MQ一二事儿 (Kafka、RocketMQ 、Pulsar )

文章目录 MQ的发展史阶段一:追求解耦阶段二:追求吞吐量与一致性阶段三:追求平台化 MQ的通用架构主题topic、生产者producer、消费者consumer分区partition MQ 存储KafkaGood Design ---> 磁盘顺序写盘Poor Impact---> topic 数量不能过…

LabVIEW可重入VI,VI模板和动态VI之间的差异

LabVIEW可重入VI,VI模板和动态VI之间的差异 应该在何时使用可重入VI、模板VI和动态调用VI?这三种类型之间有什么区别? 可重入VI 当想要同时运行同一VI的多个实例时,将使用可重入VI。当VI不可重入时,VI只有一个数据空…

lama cleaner

这里写自定义目录标题 安装参数包含的额外plugins 安装 conda create --name lamacleaner python3.10 pip install -r requirements.txt pip install gfpgan pip install realesrgan pip install rembg pip install .如果安装本package报错,可以尝试改&#xff1…

后端(四):博客系统项目

咱们在这里实现的是后端项目,前端代码就提一提,不全做重点介绍,在开始讲解这个博客系统项目之前,我们先看看这个项目的前端界面: 登录界面: 个人主页: 博客详情页: 写博客页&#x…

Python 数据挖掘与机器学习教程

详情点击链接:Python 数据挖掘与机器学习教程 一:Python编程 Python编程 1、Python环境搭建( 下载、安装与版本选择)。 2、如何选择Python编辑器?(IDLE、Notepad、PyCharm、Jupyter…) 3、…

深入理解 Docker 容器卷

目录 一、什么是 Docker 容器卷二、容器卷的用途三、容器卷相关命令四、Docker 容器卷的操作步骤五、演示六、总结参考 Docker 容器卷是一种强大的功能,可以实现容器之间数据共享和持久化存储。本篇博客将介绍 Docker 容器卷的概念、用途和操作步骤,帮助…

常用API学习07(Java)

Date 在jdk1.8之前,java中的日期和时间是一类的,从1.8之后对日期和时间体系重新做了规划,划分出一个新的包 - java.time包,这个包中包含了日期、时间、时区、日历、单位。 Date,是java中最老的日期和时间类,后续退出…

Arcgis之 KML/KMZ文件转shp

一般我们在Goole Earth上勾画的区域导出后都为KML或者KMZ格式的,但无法在arcgis等软件上直接应用,故需进行一定的转换 1.打开ArcMap,选择ArcToolbox->Conversion Tools->From KML->KML To Layer 得到如下结果(由于本KML…

Ubuntu 20.04使用 VNC远程桌面连接避坑指南

Ubuntu 20.04使用 VNC远程桌面连接避坑指南 自从开始使用Ubuntu 20.04搭建深度学习服务器,就想到使用VNC远程桌面连接使用。可是之前一直使用的是Ubuntu18.04,心里想着设置应该不难,结果在配置的时候总出现无法连接的错误。下面我就分享一下…

pytest自动化测试框架tep环境变量、fixtures、用例三者之间的关系

tep是一款测试工具,在pytest测试框架基础上集成了第三方包,提供项目脚手架,帮助以写Python代码方式,快速实现自动化项目落地。 在tep项目中,自动化测试用例都是放到tests目录下的,每个.py文件相互独立&…

自动驾驶分级和技术架构

标题SAE 和 NHTSA自动驾驶分级 当前全球汽车行业中两个最权威的分级系统由美国国家公路交通安全管理局(NHTSA)和国际自动化工程师协会(SAE)提出。2013年,NHTSA将驾驶自动化的描述分为5个层级。2014年1月,SAE制定J3016自动驾驶分级…

Mybatis基础模块-日志管理

文章目录 1. 适配器模式2. Log2.1 默认实现StdOutImpl2.2 Log4jImpl 3. LogFactory4. 解析配置和应用4.1 settings配置4.2 解析 5. jdbc日志5. 1 类图5.2 BaseJdbcLogger5.3 ConnectionLogger5.4 ConnectionLogger的具体应用 1. 适配器模式 适配器使接口不兼容的对象可以相互合…

IDEA常用高效开发工具—screw一键生成数据库文档(仅需三步)

1.配置 引入screw核心... <!-- screw核心 --> <dependency><groupId>cn.smallbun.screw</groupId><artifactId>screw-core</artifactId><version>1.0.3</version> </dependency><!-- HikariCP --> <dependency…

LLDP协议(链路层链路发现协议)

文章目录 LLDP协议&#xff08;链路层链路发现协议&#xff09;TLVLLDPDULLDP工作机制LLDP 报文ethernet IISNAP LLDP协议&#xff08;链路层链路发现协议&#xff09; 随着网络技术的发展&#xff0c;接入网络的设备的种类越来越多&#xff0c;配置越来越复杂&#xff0c;来自…

1、Linux驱动开发:模块_加载卸载

目录 &#x1f345;点击这里查看所有博文 随着自己工作的进行&#xff0c;接触到的技术栈也越来越多。给我一个很直观的感受就是&#xff0c;某一项技术/经验在刚开始接触的时候都记得很清楚。往往过了几个月都会忘记的差不多了&#xff0c;只有经常会用到的东西才有可能真正记…

github上下载的vscode extension报找不到“vscode“模块的问题

问题来自于下载的 vscode 扩展源代码包 import * as vscode from "vscode"; 有问题的是这句&#xff0c;找不到 vscode 模块&#xff0c;错误代码 2307 主要是因为下载的源码工程里&#xff0c;没有 node_modules 这个文件夹&#xff0c;因为它本来就是需要被忽略…

97、Kafka的性能好在什么地方

Kafka的性能好在什么地方 一、顺序写二、零拷贝三、额外补充 kafka不基于内存&#xff0c;而是硬盘存储&#xff0c;因此消息堆积能力更强 一、顺序写 顺序写 : 利用磁盘的顺序访问速度可以接近内存&#xff0c;kafka的消息都是append操作&#xff0c;partition是有序的&#…

(数据结构)哈夫曼编码实现(C语言)

(数据结构)哈夫曼编码实现&#xff08;C语言&#xff09; 哈夫曼的编码:从一堆数组当中取出来最小的两个值&#xff0c;按照左下右大的进行绘制&#xff0c;将两个权值之和&#xff0c;放入队列当中&#xff0c;然后再进行取出两个小的&#xff0c;以此类推&#xff0c;直到全部…

VuePress在生产环境跳转子页报错 Failed to execute ‘appendChild‘ on ‘Node‘

记录一个使用VuePress时遇到的问题 使用VuePress做了一个文档网页&#xff0c;在开发环境的时候一切正常&#xff0c;但是发布到生产环境后&#xff0c;直接跳转二级页面会报错Failed to execute appendChild on Node 比如主页是http://sun/docs/.vuepress/dist/index.html#/…

SwiftUI-基础

应用入口 Main函数与App结构体的绑定&#xff0c;遵循App协议 main struct BaseApp: App {var body: some Scene {WindowGroup {ContentView()}} } 兼容UIApplicationDelegate main struct BasicApp: App {UIApplicationDelegateAdaptor(AppDelegate.self) var appDelegate…