金仕达-上海
(1)自我介绍
(2)在离线数仓,实时数仓中担任的角色是什么,介绍项目?数据量有多大?
(3)实时的指标和离线指标怎么消除掉?有没有必要一致?
(4)Flink上有多少个指标,一个指标一个jar包吗?Flink亲自负责的有几个jar包产出?
(5)flink的开发中用了哪些算子?
(6)flink的异步join有了解吗?就是例如kafka 和 mysql的流进行join
(7)flink的boardcast join 的原理是什么?
(8)flink的双流join你们用的时候是 类似数据中的left join还是inner join,双流join中怎么确定左表还是右表【没太懂,好像应该是full join】
(9)flink集群有多大,怎么部署的?
(10)hadoop集群有多大,分给flink有多少资源,多少cpu,多少内存,多少slot?
(11)你自己写的那些jar包,用了多少cpu,用了内存,多少个slot?
(12)有没有关注你的jar包的处理性能,就是处理kafka的qps和tps?
(13)你们有用过flink的背压吗,怎么做优化还是调整?
(14)flink的知识点还有啥想介绍的?
(15)你们实际生产中checkPoint配置了没有,有配置重启策略吗?
(16)详细介绍下使用布隆过滤器去重,去重的效率或者去重性能能达到多少?就是说判断的延迟是多少。
(17)你们100W的日活,每天这套体系这套系统能够处理的上限产生延迟最大的支撑时间范围是多少?有没有关注到?【没太懂,录音40分钟半左右】
(18)sparkStreaming的最小的批的大小时间是多少?你们批大小是多少秒?你们所有批都是5s吗?还是不同指标批次时间不一样?这个5s是怎么设置出来的?
(19)sparkStreaming提交一个任务,有没有遇到这个错误, adress is already in use ,这个地址已经被使用了?是什么原因?
(20)所以sparkStreaming的开发中遇到过什么问题?
(21)搭过spark集群吗?有用过CDH吗?你们怎么搭的apache框架?怎么进行集群监控,例如哪些节点down掉,失效?