数据分析面试题(11~20)

11、对数据分析的看法,你怎么理解数据分析师这个职业?

①职责是收集、处理和分析大量的数据,并从中提取出有用的信息。

②工作范围包括数据清洗、数据建模、数据可视化等。

数据收集和清洗:收集各种来源的数据,并清洗、转换为可分析的格式。

数据分析和建模:应用统计学、机器学习和数据挖掘技术对数据进行分析和建模,以发现隐藏的模式和见解。

数据可视化:使用图表、图形和仪表板将数据呈现给非技术人员,以便他们更好地理解数据。

解释和报告:解释分析结果,并撰写报告或演示,向业务决策者提供有关数据的见解和建议。

持续改进:监测和评估数据分析的有效性,并不断改进方法和流程。

12、rfm模型介绍一下?

①RFM模型是一种被广泛使用的营销模型,又称客户价值模型,通过R、F、M这3个指标对客户进行分类,用来衡量客户价值和创收能力。

②rfm由R、F、M三个指标组成。

Recency(最近购买时间):最近一次消费至今的时间。离得越远,用户越有流失可能,越应该唤醒用户。

Frequency(购买频率):一定时间内重复消费频率。频次越低,越需要用一次性手段(比如促销、赠礼),频次越高,越可以用持续性手段(积分)来维护。

Monetary(购买金额):  一定时间内累计消费金额。消费越多,用户价值越高,越应该重点关注。

13、请你说说假设检验是什么? 

假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。

14、假设检验的原理和步骤。

①原理:先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。

②步骤

(1)确定假设。首先明确定义零假设(H0)和备择假设(H1)。

(2)选择适当的检验方法。常见的假设检验方法包括 t 检验、ANOVA、卡方检验等。

(3)确定显著性水平α。通常选择0.05或0.01作为显著性水平。

(4)收集样本数据。收集与研究问题相关的样本数据,并确保数据满足所选假设检验方法的前提条件。

(5)计算统计量。根据收集到的样本数据,计算所选假设检验方法的统计量。统计量的计算方式根据所选的假设检验方法而异。

(6)计算 p 值。根据计算得到的统计量,利用统计分布的理论或抽样方法计算 p 值。p 值表示在零假设为真的情况下,观察到样本数据或更极端情况的概率。

(7)做出决策。比较计算得到的 p 值与显著性水平。如果 p 值小于显著性水平,则拒绝零假设,接受备择假设;如果 p 值大于等于显著性水平,则接受零假设。

(8)做出结论。根据假设检验的结果,对研究问题进行解释并做出相应的结论。

15、PCA知道吗? 

①定义:PCA是Principal Component Analysis(主成分分析)的缩写,是一种常用的降维技术。PCA利用降维(线性变换)的思想,把多个自变量转化为几个不相关的主成分,会损失少量信息。

②数学原理:主成分是原始变量的线性组合,主成分的数量相对于原始变量数量更少,主成分保留了原始成分的大量信息,各主成分之间相互独立。

③特征根(特征值)含义:每个主成分都会有一个特征根,表示主成分的重要性,特征根越大,表示该组成分越重要。

④方差贡献率:某一特征值除以所有特征值的和就是该特征向量的方差贡献率。

⑤PCA步骤

(1)标准化数据:对原始数据进行标准化处理,使得每个特征的均值为0,标准差为1。

(2)计算协方差矩阵:根据标准化后的数据计算特征之间的协方差矩阵。

(3)计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。

(4)选择主成分:根据特征值的大小,选择最重要的几个特征向量作为主成分。

(5)数据转换:将原始数据投影到选定的主成分上,得到降维后的数据。

16、评价指标有哪些? 

①准确率(Accuracy):分类任务中预测正确的样本数与总样本数之比。

②精确率(Precision):在所有被预测为正类别的样本中,真正为正类别的样本所占的比例 TP/(TP+FP)。

③召回率(Recall):在所有真正为正类别的样本中,被预测为正类别的样本所占的比例 TP/(TP+FN)。

④ROC曲线(Receiver Operating Characteristic Curve):以真正类别率(TPR,召回率)为纵轴,假正类别率(FPR,1-特异度)为横轴所绘制的曲线。

⑤AUC值(Area Under Curve):ROC曲线下的面积,用于衡量模型对正负样本的区分能力。

⑥F1分数(F1 Score):精确率和召回率的调和平均数,综合考虑了模型的准确性和完整性。

⑦均方误差(Mean Squared Error,MSE):回归任务中预测值与真实值之间差异的平方和的均值。

⑧平均绝对误差(Mean Absolute Error,MAE):回归任务中预测值与真实值之间差异的绝对值的平均值。

17、有哪些数据分析经历?

18、更倾向于业务方向还是技术方向?

业务方向和技术方向都需要,数据分析需要使用各种数据处理和分析工具、编程语言以及统计和机器学习算法等技术手段,而数据分析的最终目标是为业务决策提供支持和指导。

19、说一下abtest的流程?

①基本原理:ABtest就是当我们在A、B两个方案之间犹豫不决的时候,直接把两个方案测试一把,看看哪个效果好,把测试结果作为参考依据。

②流程

第一步:明确要检验的A、B两个对象

第二步:明确要检验的指标,是平均值,还是比例

第三步:根据检验目的,给出原假设/备选假设

第四步:根据要检验的指标,选择检验统计量

第五步:给定显著性水平,计算统计量,得出结果:支持原假设还是推翻原假设

20、ROC的了解情况,怎么画ROC? 

①ROC(Receiver Operating Characteristic)曲线是用于评估二分类模型性能的常用工具,它展示了在不同阈值下真正例率(True Positive Rate,TPR)与假正例率(False Positive Rate,FPR)之间的关系。

②基本步骤:

(1)计算预测概率:使用训练好的二分类模型对测试集样本进行预测,并得到每个样本属于正例的概率(预测概率)。

(2)选择阈值:选择一个阈值(通常在0到1之间),用于将预测概率转换为类别标签(正例或负例)。对于每个不同的阈值,都可以计算出对应的TPR和FPR。

(3)计算TPR和FPR:根据选择的阈值,分别计算出真正例率(TPR)和假正例率(FPR)。

        TPR = TP / (TP + FN),其中TP为真正例数,FN为假负例数。

        FPR = FP / (FP + TN),其中FP为假正例数,TN为真负例数。

(4)绘制ROC曲线:ROC曲线的横轴是FPR,纵轴是TPR,因此ROC曲线越靠近左上角(0,1),模型性能越好。

(5)计算AUC值:计算ROC曲线下的面积(AUC,Area Under Curve),AUC值用于量化模型的整体性能,取值范围在0到1之间。AUC值越接近1,表示模型性能越好;越接近0.5,则表示模型性能越一般;低于0.5则表示模型性能较差,甚至比随机猜测还要差。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/763581.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Orbit 使用指南06 | 创建基础环境 | Isaac Sim | Omniverse

如是我闻: 环境将模拟的不同方面如场景、观测和行动空间、重置事件等汇集在一起,为各种应用创建一个连贯的接口。在Orbit中,环境是作为envs.BaseEnv和envs.RLTaskEnv类实现的。这两个类非常相似,但envs.RLTaskEnv对强化学习任务很…

打气泵方案——汽车轮胎打气泵方案

打气泵控制方案功能介绍: 主控芯片和压力传感器:用于感测轮胎内部的气压,并通过大气压原理驱动气泵工作。 电机控制:通常采用MOS管和外部充气开关,以确保气压值的准确性。 显示功能:LED或LCD显示屏&#xf…

Linux系统磁盘动态扩容

文章目录 背景磁盘扩容CentOS 7、Aliyun Linux: MBR分区无损切换为GPT分区 背景 随着云计算的发展, 云上资源使用愈加灵活。 在日常使用ECS中,时常会遇到有状态服务随着运行时间越来越长,导致数据日积月累越来越多, 磁…

LangChain模块介绍

LangChain模块介绍 Model I/O Prompts 提示词 Template 模板 复用Selector 提示词选择器 根据不同的条件选择不同的提示词 Language Models 语言模型 LLM 指代续写模型 Chat 对话形态的大语言模型 区分不同的语言模型 Output Parsers JSONStructured Data Connection ​ 构…

MATLAB 2023a:强化学习算法的实战演练与性能评估

在深度学习领域,MATLAB 2023版深度学习工具箱以其完整的工具链和高效的运行环境,为研究人员和开发者提供了前所未有的便利。这一工具箱不仅集成了建模、训练和部署的全部功能,更以其简洁易用的语法和强大的算法库,为深度学习任务的…

leetcode每日一题1969

目录 一.题目原型: 二思路解析: 三.代码实现: 一.题目原型: 二思路解析: 灵神的做法非常让人惊叹: 理解就是,如果一个数大于另一个数要交换的1的权重,那么他们的乘积就变小。 那么一个大的数…

关闭Elasticsearch built-in security features are not enabled

禁用Kibana安全提示(Elasticsearch built-in security features are not enabled) Kibana提示#! Elasticsearch built-in security features are not enabled. Without authentication, your cluster could be accessible to anyone. See https://www.e…

鸿蒙开发图形图像:【图形子系统】

图形子系统 图形子系统主要包括UI组件、布局、动画、字体、输入事件、窗口管理、渲染绘制等模块,构建基于轻量OS应用框架满足硬件资源较小的物联网设备或者构建基于标准OS的应用框架满足富设备的OpenHarmony系统应用开发。 1.1 轻量系统 简介 图形子系统主要包括…

Redis五种数据结构,以及所对应在大厂中的实战应用

Redis五种数据结构,以及所对应在大厂中的实战 String应用场景(单值缓存、对象缓存、分布式锁、计数器、存储session集群共享、分布式全局序列号) Hash应用场景对象缓存、电商购物车、购物车操作优点:1. 同类别归类存储 2. 消耗更小…

实至名归!苏州金龙旅行家荣获“高端旅游之星”殊荣

荣光熠熠,加冕时刻!苏州金龙KLQ6127旅行家再度以出众实力,在高端用车领域璀璨夺目。 3月20日,见证中国品牌力量——2024(第四届)中国商用车品牌营销盛典在北京隆重举办。此次盛典旨在表彰卓越,…

DXP学习2- 绘制电气图【实验】

目录 一、实验目的 二、实验原理 1、创建一个新的项目文件。 2、新建原理图文件 3、设置原理图选项 4、放置元器件 5、其他电路元素的放置 6、对所有电路元素属性参数值的修改 三、实验设备 四、实验内容 1、绘制实验图2-1 元器件所在位置: 1,…

yank+mermaid+甘特图实例

因为notion对于mermaid支持很一般,尤其是甘特图,如果时间跨度大、节点多,字号会小到看不见,非常不方便。 同样的代码,在notion中如下图所示:(下图是我的一份年度规划) (…

STM32之HAL开发——初识HAL库

HAL库介绍 自从ST公司推出HAL库来替代原有的标准库,HAL库开始慢慢的被广大STM32开发者所接受,现在已经在实际的项目开发中大量使用,HAL库使得项目的移植变得简单容易。 Drivers:文件夹下是官方的 CMSISI 库, HAL 库&am…

全网最详细的生产小工单介绍——生产看板介绍篇

生产小工单,你了解多少?生产小工单在生产管理中扮演着怎样的角色?生产小工单适用于哪些对象和业务流程?生产小工单又能为企业带来哪些显著优势?如何高效搭建生产看板模板,让生产小工单发挥最大价值&#xf…

详解rtklib中main函数如何配置文件

目录 Step1:如何给rtklib中的主函数 rnx2rtkp 传参 Step2:给配置选项结构体赋默认值 Step3:继续配置 Step4:寻找 main 函数参数中的 -k Step5:依次遍历参数 Step1:如何给rtklib中的主函数 rnx2rtkp 传参…

基于51单片机的智能窗帘设计

标题:基于51单片机的智能窗帘设计 摘要: 随着智能家居的兴起,智能窗帘作为其中的重要组成部分,受到了广泛的关注。本文设计了一种基于51单片机的智能窗帘系统,该系统能够根据环境光线强度和用户设定,自动调…

第十四届蓝桥杯JavaB组省赛真题 - 阶乘求和

/ 10^9考虑前九位,% 10^9保留后9位 解题思路: 求获取结果的后九位数字,需要对10^9取余,因为202320232023这个数字的阶乘太大,必须要减少计算量,因为当一个整数乘以10^9后对其取余,那么结果都为0。 所以我…

Linux系统------------MySQL事务

目录 一、MySQL事务的概念 二、事务的ACID特点 ●原子性 ●一致性 ●隔离性 ●持久性 事务之间的相互影响有以下几种: ①脏读 ②不可重复读 ③幻读 ④丢失更新 三、Mysql及事务隔离级别 3.1Mysql及事务隔离级别 (1)read…

【微服务】Feign远程调用

📝个人主页:五敷有你 🔥系列专栏:微服务 ⛺️稳中求进,晒太阳 先来看我们以前利用RestTemplate发起远程调用的代码: 存在下面的问题:代码可读性差,编程体验不统一参数复杂URL…

vant4实现图片放大预览

页面引入showImagePreview (展示一个全屏的图片预览组件) import { showImagePreview } from vant;van-image 是用来展示的小图 点击小图 调用showImagePreview放大 <van-cell v-if"img ! null && img.length ! 0" title"图片预览"></van…