土哥今天给大家分享10道spark大厂面试题:
1、spark概括说是解决什么问题的?
Spark主要解决海量数据的分析计算。
2、spark运行模式有哪些?
- Local:运行在一台机器上,测试用
- Standalone:是Spark自身的一个调度系统。 对集群性能要求非常高时用。国内很少使用
- Yarn:采用Hadoop的资源调度器。 国内大量使用
- Mesos:国内很少使用。
3、spark常用端口号有哪些?
- 4040 spark-shell任务端口
- 7077 内部通讯端口。 类比Hadoop的8020/9000
- 8080 查看任务执行情况端口。 类比Hadoop的8088
- 18080 历史服务器。类比Hadoop的19888
- 注意:由于Spark只负责计算,所有并没有Hadoop中存储数据的端口50070
4、Spark的action算子有哪些?(至少说出5个)
- reduce
- collect
- count
- first
- take
- takeOrdered
- aggregate
- fold
- countByKey
- save
- foreach
5、 当Spark涉及到数据库的操作时,如何减少Spark运行中的数据库连接数?
使用foreachPartition代替foreach,在foreachPartition内获取数据库的连接。