每次面试的时候,大家最后都会问,我还有哪些方面需要提升的,需要关注哪方面的东西。
给大家的建议主要是技术测的提升建议,做技术一定要成体系化、并有深度。基于以上是写本文的原因。关于数仓技术-统计分析领域,由浅到深,依次为:
1.基础:会拖拉拽图表(精通Excel透视、熟练使用Showx、Tableau分析型工具)
2.小成:【本文重点】懂SQL、Hive SQL等基础统计语言,特别是开窗、上卷、调优能力=;【本文重点】熟练掌握各种统计逻辑,新老用户、留存模型、等差分组(连续模型:连续登录等场景),并且对。
3.精深:已经深入了解如何定位性能问题,并精通和掌握各类性能问题解决方法;对框架底层有体系化的了解,熟悉或精读某个框架模块的源码,例如Spark AQE,要了解如何评估倾斜键,以及决策异常如何解决,是否有升级空间,如何给开源贡献代码;【后面可以单独拎一篇文章来详细讲】
################################################################
言归正传:SQL统计体系是什么样子的,如何掌握;
1.粗读SQL各类关键字语法、以及常用函数,走到见到问题,心中了解如何解决,例如算两个内容的字符长度差异、计算URLDecode了解&等特殊符号处理(开源函数低版本bug),开窗函数lag、lead的应用(following等)、行转列、列转行等等基础的使用。
2.在已经掌握基础语法的前提下,多刷题;按照类别去耍,立扣和牛客网有一些题,进阶的一些要必回。这里我列一些新的题,个人总结而来,如果可以完美理解和熟练掌握,基本可以完成各类统计需求和面试题。
最新文档:有道云笔记
1.找出连续 3 天及以上领取的低碳排放量(lowcarbon)在 100 以上的用户
2.计算每个用户范围内从第一行到当前行tsdiff大于等于60的总个数(分组号)
3.计算每个用户最大的连续登录天数,可以间隔一天。解释:如果一个用户在 1,3,5,6 登录游戏,则视为连续 6 天登录
4、打折日期交叉问题
如下为平台商品促销数据:字段为品牌,打折开始日期,打折结束日期
计算每个品牌总的打折销售天数,注意其中的交叉日期,比如 vivo 品牌,第一次活动时间为 2021-06-05 到 2021-06-15,第二次活动时间为 2021-06-09 到 2021-06-21 其中 9 号到 15号为重复天数,只统计一次,即 vivo 总打折天数为 2021-06-05 到 2021-06-21 共计 17 天
5、同时在线问题如下为某直播平台主播开播及关播时间,根据该数据计算出平台最高峰同时在线的主播人数。
6.每日新增用户数
7.每日累计用户数
8.八、按购买时间统计出每天的新客人数和老客人数
如果需要原题可以看我分享的笔记,或者联系元星 Q9715234 ,努力称为一个优秀的数据者。