【数仓统计】Spark hive SQL 统计数据分析一文全理解

每次面试的时候,大家最后都会问,我还有哪些方面需要提升的,需要关注哪方面的东西。

给大家的建议主要是技术测的提升建议,做技术一定要成体系化、并有深度。基于以上是写本文的原因。关于数仓技术-统计分析领域,由浅到深,依次为:

1.基础:会拖拉拽图表(精通Excel透视、熟练使用Showx、Tableau分析型工具)

2.小成:【本文重点】懂SQL、Hive SQL等基础统计语言,特别是开窗、上卷、调优能力=;【本文重点】熟练掌握各种统计逻辑,新老用户、留存模型、等差分组(连续模型:连续登录等场景),并且对。

3.精深:已经深入了解如何定位性能问题,并精通和掌握各类性能问题解决方法;对框架底层有体系化的了解,熟悉或精读某个框架模块的源码,例如Spark AQE,要了解如何评估倾斜键,以及决策异常如何解决,是否有升级空间,如何给开源贡献代码;【后面可以单独拎一篇文章来详细讲】

################################################################

言归正传:SQL统计体系是什么样子的,如何掌握;

1.粗读SQL各类关键字语法、以及常用函数,走到见到问题,心中了解如何解决,例如算两个内容的字符长度差异、计算URLDecode了解&等特殊符号处理(开源函数低版本bug),开窗函数lag、lead的应用(following等)、行转列、列转行等等基础的使用。

2.在已经掌握基础语法的前提下,多刷题;按照类别去耍,立扣和牛客网有一些题,进阶的一些要必回。这里我列一些新的题,个人总结而来,如果可以完美理解和熟练掌握,基本可以完成各类统计需求和面试题。

最新文档:有道云笔记

1.找出连续 3 天及以上领取的低碳排放量(lowcarbon)在 100 以上的用户

2.计算每个用户范围内从第一行到当前行tsdiff大于等于60的总个数(分组号)

3.计算每个用户最大的连续登录天数,可以间隔一天。解释:如果一个用户在 1,3,5,6 登录游戏,则视为连续 6 天登录

4、打折日期交叉问题

如下为平台商品促销数据:字段为品牌,打折开始日期,打折结束日期

计算每个品牌总的打折销售天数,注意其中的交叉日期,比如 vivo 品牌,第一次活动时间为 2021-06-05 到 2021-06-15,第二次活动时间为 2021-06-09 到 2021-06-21 其中 9 号到 15号为重复天数,只统计一次,即 vivo 总打折天数为 2021-06-05 到 2021-06-21 共计 17 天

5、同时在线问题如下为某直播平台主播开播及关播时间,根据该数据计算出平台最高峰同时在线的主播人数。

6.每日新增用户数

7.每日累计用户数

8.八、按购买时间统计出每天的新客人数和老客人数

如果需要原题可以看我分享的笔记,或者联系元星 Q9715234 ,努力称为一个优秀的数据者。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/654386.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

452. 用最少数量的箭引爆气球 - 力扣(LeetCode)

题目描述 有一些球形气球贴在一堵用 XY 平面表示的墙面上。墙面上的气球记录在整数数组 points ,其中points[i] [xstart, xend] 表示水平直径在 xstart 和 xend之间的气球。你不知道气球的确切 y 坐标。 一支弓箭可以沿着 x 轴从不同点 完全垂直 地射出。在坐标 …

带大家做一个,易上手的家常麻辣孜然牛蹄筋

首先 我们从冰箱中拿出牛蹄筋 泡水化开 一根大葱 一块生姜 大葱切段 生姜块 一把花椒 七个左右干辣椒 五个左右大料 三瓣蒜 切成蒜片 放入小碗中单独装起来 两个绿辣椒 首选螺丝椒 垃圾切成片 单独装起来 先将牛蹄筋 倒入锅中 然后加水 将牛蹄筋全部泡住即可 然后起锅烧…

1171. 距离(离线求LCA:tarjan算法)

1171. 距离 - AcWing题库 给出 n 个点的一棵树,多次询问两点之间的最短距离。 注意: 边是无向的。所有节点的编号是 1,2,…,n1。 输入格式 第一行为两个整数 n 和 m。n 表示点数,m 表示询问次数; 下来 n−1 行,每…

RT-Thread: STM32 SPI使用流程

1.添加驱动 ①点开设置界面 ②勾选看门 SPI 驱动 ③点击保存 ④查看添加的驱动文件 drv_spi.c 2.打开驱动头文件定义 ①打开配置文件 ②打开定义 3.打开需要开启的SPI总线 打开 drivers 目录下的 board.h 用SPI搜索,找到如下文字,打开对应的宏。 /*-…

程序运行只会占用到服务器里面一个核心使用,其他核心不工作,是什么问题

随着网络发展,在网络方面开展工作离不开服务器的使用,而在我们日常服务器运行使用过程中,可能会遇到各种问题,这些问题可能会影响服务器的性能和稳定性。最近德迅云安全就有遇到有用户来询问,自己服务器使用上很卡&…

巴厘行记(四)——乌布漫游

欢迎览阅《巴厘行记》系列文章 巴厘行记巴厘行记(一)——海神庙 巴厘行记(二)——乌布之夜 巴厘行记(三)——Auntie和Mudi 巴厘行记(四)——乌布漫游 巴厘行记(五&a…

Pytest单元测试框架

第一章、pytest概述 Pytest is a framework that makes building simple and scalable tests easy. Tests are expressive and readable—no boilerplate code required. Get started in minutes with a small unit test or complex functional test for your application or l…

深入理解与防范C语言中的栈溢出问题

一、引言 栈溢出是计算机安全领域中一个常见的漏洞,特别是在C语言编程中。由于C语言的灵活性和对内存管理的直接操作性,如果程序员在编写代码时不注意,就可能导致栈溢出的发生。本文将全面解析栈溢出的概念、原因、影响以及防范措施。 二、…

springboot+vue3支付宝接口案例-第二节-准备后端数据接口

springbootvue3支付宝接口案例-第二节-准备后端数据接口!今天经过2个小时的折腾。准备好了我们这次测试支付宝线上支付接口的后端业务数据接口。下面为大家分享一下,期间发生遇到了一些弯路。 首先,我们本次后端接口使用的持久层框架是JPA。这…

3d合并模型是重名材质---模大狮模型网

当合并3d模型时,如果存在重名的材质,可能会导致加载问题。这是因为3D软件在处理重名材质时可能会出现冲突。你可以尝试以下方法解决这个问题: 重命名材质:检查合并的模型中的材质,确保它们具有唯一的命名。修改重名的材…

Pyroch中transforms 图像增强发方法的应用

1 应用场景 在我们训练模型的时候,有的时候数据不够,就需要通过水平翻转、垂直翻转、镜像、旋转、改变亮度、标准化等方式增加图像的多样性,此时可以调用Pytorch 中的Transforms完成这些操作 2 导入相应的库 from torchvision import tran…

多场景建模:美团HiNet

HiNet: Novel Multi-Scenario & Multi-Task Learning with Hierarchical Information Extraction 背景: 美团的多场景多任务(ctr、ctcvr) 解决方案 通过分层来分别学习多场景多任务 方案详情 点评:在底层Embedding时用…

如何实现Win系统ssh连接Ubuntu使用vscode远程敲代码

最近,我发现了一个超级强大的人工智能学习网站。它以通俗易懂的方式呈现复杂的概念,而且内容风趣幽默。我觉得它对大家可能会有所帮助,所以我在此分享。点击这里跳转到网站。 文章目录 前言1、安装OpenSSH2、vscode配置ssh3. 局域网测试连接…

opencv#35 连通域分析

连通域分割原理 像素领域介绍: 4邻域是指中心的像素与它邻近的上下左右一共有4个像素,那么称这4个像素为中心像素的4邻域。 8邻域是以中心像素周围的8个像素分别是上下左右和对角线上的4个像素。 连通域的定义(分割)分为两种:以4邻域为相邻判定条件的连通域分割和…

让AI帮你说话--GPT-SoVITS教程

有时候我们在录制视频的时候,由于周边环境嘈杂或者录音设备问题需要后期配音,这样就比较麻烦。一个比较直观的想法就是能不能将写好的视频脚本直接转换成我们的声音,让AI帮我们完成配音呢?在语音合成领域已经有很多这类工作了&…

ChatGPT的工作原理

ChatGPT正在做什么...以及为什么它有效? GPT代表"Generative Pre-trained Transformer",是一种基于Transformer架构的生成式预训练模型。只需一次添加一个单词 当ChatGPT生成文本时,它通过不断询问“给定到目前为止的文本,下一个单词应该是什么?”来进行预测。在…

快捷键:IDEA 清理无效导入依赖

快捷键:IDEA 清理无效导入依赖 要批量清理无用的import语句(类级别的依赖),可以使用快捷键: Windows/Linux系统:Ctrl Alt OmacOS系统:Cmd Option O 这个快捷键的作用是优化导入&#xff…

1.Mybatis入门

目录 前言 1入门 1.1 入门程序实现 1.2 数据准备 ​编辑 1.3 配置Mybatis 1.4 编写SQL语句 1.5 单元测试 1.6 解决SQL警告与提示 2. JDBC介绍(了解) 2.1 介绍 2.2 代码 2.3 问题分析 2.4 技术对比 3. 数据库连接池 3.1 介绍 3.2 产品 4. lombok 4.1 介绍 4.…

flink源码分析 - jar包中提取主类和第三方依赖

flink版本: flink-1.11.2 提取主类代码位置: org.apache.flink.client.program.PackagedProgram#getEntryPointClassNameFromJar 提取第三方依赖代码位置:org.apache.flink.client.program.PackagedProgram#getJobJarAndDependencies 代码逻辑比较简单,此处不再赘…

AOP+Redisson 延时队列,实现缓存延时双删策略

一、缓存延时双删 关于缓存和数据库中的数据保持一致有很多种方案,但不管是单独在修改数据库之前,还是之后去删除缓存都会有一定的风险导致数据不一致。而延迟双删是一种相对简单并且收益比较高的实现最终一致性的方式,即在删除缓存之后&…