数据分析面试八股文--技能软件类

Excel

数据透视表

数据透视表(Pivot Table)是 Excel 中一个强大的功能,用于快速汇总、排序、重新组织和分析数据集,可以在面试中被要求展示如何创建和使用数据透视表来进行数据分析。

考察点可能包括:

  • 创建数据透视表
  • 分类、汇总数据
  • 使用数据透视表进行数据分析和解释结果

表的关联(VLOOKUP)

VLOOKUP函数在 Excel 中用于查找和检索表格中的数据。面试可能会包含如何使用 VLOOKUP或 INDEX 和MATCH 函数来关联不同的数据表。

考察点可能包括:

  • 理解 VLOOKUP 的基本用法
  • 处理 VLOOKUP 返回的错误
  • 使用 INDEX和MATCH作为VLOOKUP的替代方案

常用函数

Excel 中的函数是日常工作的基础,如 IF,SUMIF,SUMIFS,COUNTIF,COUNTIFS 等,用于处理条件运算和汇总数据。

考察点可能包括:

  • 使用条件函数进行数据分析
  • 对数据集进行求和、计数等操作
  • 复杂公式的构建能力

SQL

基础查询

我比较喜欢在 group by 和 having 这两个函数给实习生埋坑,所以大家在做聚合的时候注意分辨

排序(ORDER BY)

在 SQL中,ORDER BY 子句用于根据指定的列排序查询结果。
考察点可能包括:

  • 使用 ORDER BY对结果集按一个或多个列升序或降序排序
  • 理解如何结合 ASC(升序)和DESC(降序)关键词使用

聚合函数

聚合函数用于在 SQL 查询中执行计算,如COUNT(),SUM(),AVG(),MIN(),MAX()等
考察点可能包括:

  • 使用聚合函数对数据进行汇总
  • 理解聚合函数与 NULL 值的关系
  • 使用 DISTINCT关键词进行去重计算

分组(GROUP BY)

GROUP BY 子句用于根据一个或多个列对结果集进行分组。
考察点可能包括

  • 结合聚合函数使用 GROUPBY 进行数据分组统计
  • 理解分组后如何筛选数据(使用HAVING子句)

过滤(WHERE)

WHERE 子句用于过滤查询结果,根据指定的条件返回满足条件的记录。
考察点可能包括:

  • 使用比较运算符(如=,><,<,=,<=)进行数据过滤
  • 使用逻辑运算符(如AND,OR,NOT)组合多个条件
  • 理解 WHERE和 HAVING 的区别和适用场景

表连接(JOIN)

SQL的 JOIN 子句用于结合两个或多个表中的行。
考察点可能包括:

  • 理解并使用不同类型的 J0IN(如INNERJOIN,LEFT JOIN,RIGHT JOIN,FULL OUTER JOIN)
  • 使用ON 子句指定连接条件
  • 处理多表连接时的名称冲突问题

表合并(UNION)

UNION 操作符用于合并两个或多个SELECT 语句的结果集。
考察点可能包括:

  • 使用 UNION和UNION ALL的区别
  • 确保参与合并的各个查询结果具有相同数量的列和相似的数据类型

子查询

子查询(Subquery)指嵌套在另一个查询中的 SELECT 语句。
考察点可能包括:

  • 编写在 WHERE 子句中使用的子查询
  • 理解相关子查询(Correlated Subquery)和独立子查询的区别及用法
  • 在SELECT列表、FROM 子句和 HAVING 子句中使用子查询

高级查询

SQL 一般面试中出现的高级查询主要是指窗口函数。

SQL 窗口函数概要

SOL窗口函数(Window Functions)允许对一组行(称为窗口)进行计算,这些行与查询结果中的当前行有某种关系。与聚合函数不同,窗口函数不会将行组合成单个输出行——它们只计算每个行对应的值。窗口函数在执行数据分析、生成报告、计算运行总计和平均值等操作时非常有用。

窗口函数的一般格式

<窗口函数>OVER(
[PARTITION BY<co1>,<co12>,...
[ORDER BY<co13>,<co14>,...]
[frame clause]
)
  • PARTITION BY 子句将结果集分成多个分区,并且窗口函数在每个分区内独立计算。
  • ORDER BY 子句定义了在每个分区内数据的排序方式。
  • frame clause 定义了窗口的具体范围,例如 ROWS BETWEEN...PRECEDING AND ...FOLLOWING

窗口函数的分类

专有窗口函数(或排名窗口函数)

这些函数通常用来分配一个序号给结果集中的每一行。

包括的函数有:

  • ROW NUMBER():为每个窗口内的行提供一个唯一的序号。
  • RANK():为窗口内的行提供一个排名,相同值的行会得到相同的排名,排名之间会留有“间隔”。
  • DENSE RANK():类似于 RANK(),但排名之间不会留有“间隔”。
  • NTILE(n):将窗口内的行分配到指定数量的相等分组中。

聚合类窗口函数

这些函数在窗口的每一行上应用聚合,但不将结果合并为单个值。
包括的函数有:

  • SUM():计算窗口内所有行的总和。
  • AVG():计算窗口内所有行的平均值。
  • MIN()/MAX():找出窗口内所有行的最小值/最大值,
  • COUNT():计算窗口内的行数。

这些聚合窗口函数与它们在标准聚合中的用法类似,但是加上了 OVER 子句,它们就可以在每一行上返回一个值,而不是对整个查询结果或分组进行聚合。

聚合类窗口函数示例

SELECTemployee id,department,salary,AVG(salary) OVER (PARTITION BY department) as avg_department_salary
FROM
employees;

在这个例子中, AVG(salary) OVER (PARTITION BY department)是一个聚合类窗口函数。它会计算每个部门内部的平均薪水,但是不会合并为单个值,而是会为每一行返回平均薪水,从而允许我们看到每个员工的薪水与其所在部门平均薪水的对比。

Python

python 以下只是简单的概述。

数据分析三板斧概述

数据分析的“三板斧"指的是三个在 Python 数据分析领域广泛使用的库:NumPy,Pandas,和 Matplotlib。这三个库提供了处理和分析数据的强大工具。

NumPy

NumPy(Numerical Python)是一个开源 Python 库,用于支持大型多维数组和矩阵运算。此外,NumPy 还提供了大量的数学函数来操作这些数组。
常用方法:

  • np.array():创建数组
  • np.arange():返回一个有终点和起点的固定步长的排列
  • np.ones()、np.zeros():创建指定长度或形状的全0或全1数组
  • np.linspace():返回在指定的时间间隔内计算的均匀间隔的数字。np.reshape():给予数组一个新的形状而不改变其数据
  • np.reshape():给予数组一个新的形状而不改变其数据
  • np.matmul() 或 @ 操作符:矩阵乘法
  • np.mean()、np.median()、np.std():计算数组的平均值、中位数和标准差

Pandas

Pandas 是一个强大的 Pthon 数据分析工具库,提供了快速、灵活和富有表现力的数据结构,旨在使“关系”或"标签”数据的操作既简单又直观。
常用方法:

  • pd.series()、pd.DataFrame():创建序列或数据帧
  • df.head()、df.tail():查看数据帧的前几行或后几行
  • df.loc[]、df.iloc[]:基于标签或位置的索引
  • df.groupby():对数据进行分组
  • df.merge()、df.join():合并或连接不同的数据帧
  • df.pivot table():创建透视表
  • df.plot():基础绘图

Matplotlib

Matplotlib 是 Python 的一个绘图库,提供了一个类似于 MATLAB 的绘图系统,
常用方法:

  • plt.plot():绘制线性图表
  • plt.scatter():绘制散点图
  • plt.bar():绘制条形图
  • plt.hist():绘制直方图
  • plt.xlabel()、plt.ylabel():设置 x轴和 y轴标签
  • plt.title():设置图表标题
  • plt.legend():添加图例
  • plt.show():显示图表

机器学习知识点

分类

分类是监督学习的一个核心任务,旨在预测目标变量的类别标签。常用的分类算法包括逻辑回归、决策树、随机森林、支持向量机,(SVM)神经网络等。

回归

回归也是监督学习的一个任务,但它预测的是连续的数值,而不是类别标签。常见的回归算法有线性回归、岭回归、套索回归、弹性网络、决策树回归等。

聚类

聚类是一种无监督学习技术,用于将数据集中的样本分组,使得同一组内的样本彼此相似,而不同组的样本不相似。常用的聚类算法包括 K-Means、层次聚类、DBSCAN、高斯混合模型等。

数理统计

概率

概率是衡量某个事件发生的可能性的数学分支。它为随机变量的行为建模和推理提供了基础。

  • 随机变量:描述随机现象数值结果的变量。
  • 概率分布:随机变量可能取得的每个结果及其概率
  • 条件概率:一个事件在另一个事件已经发生条件下的概率。
  • 贝叶斯定理:描述两个事件概率之间关系的定理,用于概率的更新和预测。

参数估计

参数估计是统计学中估计总体参数(如均值、方差)的过程。它包括点估计和区间估计

  • 点估计:使用样本数据估计一个未知参数的单一值。
  • 区间估计:使用样本数据估计未知参数的一个区间,以及这个区间覆盖未知参数的概率(置信水平)

假设检验

假设检验是用来决定样本数据是否支持某个关于总体参数的假设

  • 零假设:假设检验中的默认假设,通常表示为没有效应或没有差异。
  • 备择假设:与零假设相对立的假设,通常表示为研究者想证明的效应或差异。
  • P 值:在零假设为真的条件下,获得当前结果及更极端结果的概率。一个小的 P值(通常小于 0.05)被认为是反对零假设的证据。
  • 显著性水平:一个统计结果达到预设的显著性水平,提示数据提供了足够的证据反对零假设。

A/B 测试

A/B 测试是一种统计方法,用于比较两个或多个技术或方法(例如,网页设计、产品功能等)的效果,通常用于在线产品优化。

  • 控制组:在 A/B 测试中不会接受变更的组别,用于作为基准进行比较。
  • 实验组:在 A/B 测试中会接受变更的组别,用于测试新的技术或方法
  • 结果测量:在 A/B 测试中,你需要定义成功的指标,比如点击率、转化率或用户留存率。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/32121.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

音视频开发29 FFmpeg 音频编码- 流程以及重要API,该章节使用AAC编码说明

此章节的一些参数&#xff0c;需要先掌握aac的一些基本知识&#xff1a;​​​​​​aac音视频开发13 FFmpeg 音频 --- 常用音频格式AAC&#xff0c;AAC编码器&#xff0c; AAC ADTS格式 。_ffmpeg aac data数据格式-CSDN博客 目的&#xff1a; 从本地⽂件读取PCM数据进⾏AAC格…

cgroups v1简介

cgroup 概念 Cgroup&#xff0c;全称Control Group&#xff08;控制组&#xff09;&#xff0c;是Linux系统内核提供的一个特性&#xff08;Linux 2.6.24内核开始将Cgroup加入主线&#xff09;。 主要作用&#xff1a; 限制和隔离一组进程对系统资源的使用&#xff0c;也就是…

【CARD】多变化字幕的上下文感知差异提炼(ACL 2024)

摘要 Multi-change captioning旨在用自然语言描述图像对中的复杂变化。和图像字幕相比&#xff0c;这个任务要求模型具有更高层次的认知能力来推理任意数量的变化。本文提出一种新的上下文感知差异提取网络&#xff08;CARD&#xff09;。给定一个图像对&#xff0c;CARD首先解…

vm.max_map_count是什么?起到什么作用

vm.max_map_count 是 Linux 内核中的一个参数&#xff0c;它决定了一个进程可以拥有的最大内存映射区域数。内存映射区域是指内存映射文件、匿名内存映射等。这个参数对于一些应用程序&#xff08;如 Elasticsearch&#xff09;特别重要&#xff0c;因为它们在运行时会创建大量…

socket通讯可以直接传地址吗?【面试】

在网络编程中&#xff0c;socket 通信不直接传输内存地址。这是因为网络通信是在不同的内存空间和可能不同的计算机之间进行的&#xff0c;内存地址在不同的进程和机器上没有意义。相反&#xff0c;socket 通信使用套接字&#xff08;socket&#xff09;&#xff1a; IP地址&a…

深入浅出Java的函数式编程

深入浅出Java的函数式编程 大家好&#xff0c;我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编&#xff0c;也是冬天不穿秋裤&#xff0c;天冷也要风度的程序猿&#xff01;今天我们将探讨Java中的函数式编程&#xff0c;这是一种强大的编程范式&#xff0c;它…

用 Terraform 初始化 GCP环境

前置准备 安装 Terraform 请参考 Terraform 官方文件 安装 Terraform。MacOS 可以使用 Homebrew 安装&#xff1a; brew install terraform 安装 Google Cloud SDK 请参考 Google Cloud SDK 官方文件 安装 Google Cloud SDK。MacOS 可以使用 Homebrew 安装&#xff1a; b…

Multigranularity and MultiscaleProgressive Contrastive Learning

这篇文章将一张图片划分为四个不同细粒度大小的图片&#xff0c;然后输出四个神经网络&#xff0c;这四个神经网络共享权重&#xff0c;得到四个输出&#xff0c;将这四个输出求交叉熵损失和对比学习损失&#xff0c;共同监督模型学习。 通过对比学习&#xff0c;最大化一个Bat…

Microsoft Edge无法启动搜索问题的解决

今天本来想清一下电脑&#xff0c;看到visual studio2022没怎么用了就打算卸载掉。然后看到网上有篇文章说进入C盘的ProgramFiles&#xff08;x86&#xff09;目录下的microsoft目录下的microsoft visual studio目录下的install目录中&#xff0c;双击InstallCleanup.exe&#…

谷歌浏览器与谷歌驱动匹配

网址&#xff1a;Chrome for Testing availability (googlechromelabs.github.io)

中医诊所处方药材管理系统有哪些必备功能?

随着信息技术的飞速发展&#xff0c;传统中医行业也迎来了数字化转型的浪潮。欣九康诊疗系统&#xff0c;具有全面的功能&#xff0c;可以作为一款合适中医诊所处方药材管理系统来使用。那么&#xff0c;中医诊所使用欣九康&#xff0c;有哪些独特的功能和优势呢?能否为中医诊…

Windows环境利用 OpenCV 中 CascadeClassifier 分类器识别人脸 c++

Windows环境中配置OpenCV 关于在Windows环境中配置opencv的说明&#xff0c;具体可以参考&#xff1a;VS2022 配置OpenCV开发环境详细教程。 CascadeClassifier 分类器 CascadeClassifier 是 OpenCV 库中的一个类&#xff0c;它用于实现一种快速的物体检测算法&#xff0c;称…

API接口技术开发分享;按关键字搜索淘宝、天猫商品API返回值接入说明

淘宝数据API的接入流程主要包括注册key账号、创建开发者应用、获取ApiKey和ApiSecret、申请API权限等步骤。淘通过这些接口可以获取商品、订单、用户、营销和物流管理等多方面的数据。以下是关于淘宝数据API接入流程的相关介绍&#xff1a; 注册key账号&#xff1a;进行账号注册…

JAVA医院绩效考核系统源码 功能特点:大型医院绩效考核系统源码

JAVA医院绩效考核系统源码 功能特点&#xff1a;大型医院绩效考核系统源码 医院绩效管理系统主要用于对科室和岗位的工作量、工作质量、服务质量进行全面考核&#xff0c;并对科室绩效工资和岗位绩效工资进行核算的系统。医院绩效管理系统开发主要用到的管理工具有RBRVS、DRGS…

AUCell和AddModuleScore函数进行基因集评分

AUCell 和AddModuleScore 分析是两种主流的用于单细胞RNA测序数据的基因集活性分析的方法。这些基因集可以来自文献、数据库或者根据具体研究问题进行自行定义。 AUCell分析原理&#xff1a; 1、AUCell分析可以将细胞中的所有基因按表达量进行排序&#xff0c;生成一个基因排…

Unity核心

回顾 Unity核心学习的主要内容 项目展示 基础知识 认识模型制作流程 2D相关 图片导入设置相关 图片导入概述 参数设置——纹理类型 参数设置——纹理形状 参数设置——高级设置 参数设置——平铺拉伸 参数设置——平台设置&#xff08;非常重要&#xff09; Sprite Sprite Edit…

【Apache Doris】周FAQ集锦:第 7 期

【Apache Doris】周FAQ集锦&#xff1a;第 7 期 SQL问题数据操作问题运维常见问题其它问题关于社区 欢迎查阅本周的 Apache Doris 社区 FAQ 栏目&#xff01; 在这个栏目中&#xff0c;每周将筛选社区反馈的热门问题和话题&#xff0c;重点回答并进行深入探讨。旨在为广大用户和…

uvalde-bash提权

**后续需要虚拟机的私信我&#xff0c;我会打包进行文章发布链接&#xff0c;请持续关注&#xff01;&#xff01;&#xff01;** VM网络不通也没法改密码进去&#xff0c;只能下个VirtualBox和VMware互通了 vmware与virtualbox虚拟机互通_vmware和virtualbox互联-CSDN博客 但…

动态规划03(二维01背包,一维01背包,leetcode416)

参考资料&#xff1a; https://programmercarl.com/%E8%83%8C%E5%8C%85%E7%90%86%E8%AE%BA%E5%9F%BA%E7%A1%8001%E8%83%8C%E5%8C%85-1.html 46. 携带研究材料&#xff08;第六期模拟笔试&#xff09; 题目描述&#xff1a; 输入示例 6 1 2 2 3 1 5 2 2 3 1 5 4 3 输出示例 …

软件测试质量度量之 “三级指标体系”

管理学大师彼得 - 德鲁克曾说过&#xff1a;无数据不管理。 数字是人们快速认知事物的一种有效方式。无论在生活还是工作&#xff0c;对事还是对人都息息相关。碰上难以的用数字描述事物或现象肯定是没有找对适用的指标和度量方式。尤其对于质量工程方面的工作&#xff0c;定量…