数据分析面试题(2023.09.08)

数据分析流程

总体分为四层:需求层、数据层、分析层和结论层

一、统计学问题

1、贝叶斯公式复述并解释应用场景

  • 公式:P(A|B)= P(B|A)*P(A) / P(B)
  • 应用场景:如搜索query纠错,设A为正确的词,B为输入的词,那么:

      a. P(A|B)表示输入词B实际为A的概率

      b. P(B|A)表示词A错输为B的概率,可以根据AB的相似度计算(如编辑距离)

      c. P(A)是词A出现的频率,统计获得

      d. P(B)对于所有候选的A都一样,所以可以省去
     

  • 朴素贝叶斯是在已知一些先验概率的情况下,由果索因的一种方法。朴素的意思是假设了事件相互独立。

2、参数估计

参数估计是指根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。它是统计推断的一种基本形式,是数理统计学的一个重要分支,分为点估计和区间估计两部分。

  • 点估计:依据样本估计总体分布中所含的未知参数或未知参数的函数。 

  •  区间估计(置信区间估计):依据抽取的样本,根据一定的正确度与精确度要求,构造出适当的区间,作为总体分布的未知参数或参数的函数的真值所在范围的估计。例如人们常说的由百分之多少的把握保证某值在某个范围内,即用区间估计的最简单的应用。 

3、极大似然估计

 极大似然估计是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。

4、假设检验

参数估计和假设检验是统计推断的两个组成部分,它们都是利用样本对总体进行某种推断,但推断的角度不同。

  • 参数估计讨论的是用样本估计总体参数的方法,总体参数μ在估计前是未知的。
  • 假设检验,是先对μ的值提出一个假设额,然后利用样本信息去检验这个假设是否成立。 

5、P值是什么? 

P值是用来判定假设检验结果的一个参数,也可以根据不同的分布使用分布的拒绝域进行比较。

P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明原假设情况的发生的概率很凶啊,而如果出现了,根据小概率原理,我们就有理由拒绝原假设。P值越小,我们拒绝原假设的理由越充分。总之,P值越小,表明结果越显著。但是检验的结果究竟时“显著的”“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。

6、置信度和置信区间

  • 置信区间:我们所计算出的变量存在范围
  • 置信度:就是我们对于这个数值存在于我们计算出的这个范围的可信程度。
  • 举例:①有95%的把握,真正的数值在我们所计算的范围里。95%是置信水平,而计算出的范围,就是置信区间。②如果置信度为95%,则抽取100个样本来估计总体的均值,由100个样本所构造的100个区间中,约有95个区间包含总体均值。

7、协方差和相关系数的区别和联系

  • 协方差:协方差表示的是两个变量的总体误差,这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致,也就是说如果其中一个大于自身期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值,如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
  • 相关系数:研究变量之间线性相关程度的量,取值范围是[-1,1],相关系数也可以看成协方差--一种剔除了两个变量量纲影响、标准化后的特殊协方差。

8、中心极限定理

  • 定义:①任何一个样本的平均值将会约等于其所在总体的平均值;②不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值周围,并且呈正态分布。
  • 作用:①在没有办法得到总体全部数据的情况下,我们可以用样本来估计总体;②根据总体的平均值和标准差,判断某个样本是否属于总体。

二、概率问题

1、54张扑克牌,分成2份,求着2份都有2张A的概率。

M表示这两个牌堆各有2个A的情况:M=4(25!25!)

N表示两个牌堆完全随机的情况:N=27!27!

概率为:M/N=926/53*17

2、男生点击率增加,女生点击率增加,总体为何减少?

因为男女的点击率可能有较大的差异,同时低点击率的群体的占比增大。

如原来男性20人,点击1人;女性100人,点击99人,总点击率100/120

现在男性100人,点击6人;女性20人,点击20人,总点击率26/120

三、数据库

1、什么是数据库,数据库管理系统,数据库系统,数据库管理员?

  • 数据库:数据库DataBase就是信息的集合或者说数据库是由数据库管理系统管理的数据的集合。
  • 数据库管理系统:数据库管理系统是一种操纵和管理数据库的大型软件,通常用于建立、使用和维护数据库。
  • 数据库系统:数据库系统通常由软件、数据库和数据库管理员组成。
  • 数据库管理员:数据库管理员负责全面管理和控制数据库系统。

2、什么是元组、码、候选码、主码、外码、主属性、非主属性

  • 元组:元组是关系数据库中的基本概念,关系是一张表,表中的每行(即数据库中的每条记录)就是一个元组,每列是一个属性,在二维表中,元组也称为行。
  • 码:码就是能唯一识别实体的属性,对应表中的列。
  • 候选码:若关系中的某一属性或属性组的值能唯一识别一个元组,而其任何子集都不能再表示,则称该属性组为候选码。在学生实体中,“学号”是能唯一的区分学生实体的,同时又假设“姓名”、“班级”的属性组合足以区分学生实体,那么{学号}和{姓名,班级}都是候选码。
  • 主码:主码也叫主键,主码是从候选码中选出来的,一个实体集中只能有一个主码,但可以有多个候选码。
  • 外码:外码也叫外键,如果关系中的一个属性是另外一个关系的主码,则这个属性是外码。
  • 主属性:候选码中出现过的属性称为主属性,比如工人(工号,身份证号,姓名,性别,部门)。显然工号和身份证号都能够唯一标示这个关系,所以都是候选码。工号、身份证号这两个属性就是主属性。如果主码是一个属性组,那么属性组中的属性都是主属性。
  • 非主属性:不包含在任何一个候选码中的属性称为非主属性。比如在关系——学生(学号,姓名,年龄,性别,班级)中,主码是“学号”,那么其他的“姓名”、“年龄”、“性别”、“班级”就都可以称为非主属性。

3、主键和外键有什么区别?

  • 主键:主键用于唯一表示一个元组,不能有重复,不允许有空,一个表只能有一个主键。
  • 外键:外键用来和其他表建立联系用,外键是另一表的主键,外键是可以有重复的,可以是空值,一个表可以有多个外键。

4、数据库的范式 

  • 第一范式(1NF):属性(回应表中的字段)不能再被分割,也就是这个字段只能是一个值,不能再被分为多个其他字段了(原子性)。1NF是所有关系型数据库的最基本要求,也就是说关系型数据库中创建的表一定满足第一范式。
  • 第二范式(2NF):2NF在1NF的基础之上,消除了非主属性对码的部分函数依赖。第二范式在第一范式的基础上增加了一个列,这个列称为主键,非主属性都依赖于主键。
  • 第三范式(3NF):3NF在2NF的基础之上,消除了非主属性对码的传递依赖。解决了数据冗余过大,插入异常,修改异常,删除异常的问题。比如在关系R(学号 ,姓名, 系名,系主任)中,学号 → 系名,系名 → 系主任,所以存在非主属性系主任对于学号的传递函数依赖,所以该表的设计,不符合3NF的要求。
  • 总结:1NF:属性不可再分。2NF:1NF的基础之上,消除了非主属性对于码的部分函数依赖。3NF:3NF在2NF的基础之上,消除了非主属性对于码的传递函数依赖 。

5、什么是函数依赖?部分函数依赖?完全函数依赖?传递函数依赖?

  • 函数依赖(functional dependency): 若在一张表中,在属性(属性组)X的值确定的情况下,必定能确定属性Y的值,那么就可以说Y函数依赖于X,写作X → Y。
  • 部分函数依赖:如果X → Y,并且存在X的一个真子集X0,使得X0→ Y,则称Y对X部分函数依赖。比如学生基本信息表R中(学号,身份证号,姓名)当然学号属性取值是唯一的,在R关系中,(学号,身份证号)->(姓名),(学号)->(姓名),(身份证号)->(姓名);所以姓名部分函数依赖与(学号,身份证号)。
  • 完全函数依赖(Full functional dependency) :在一个关系中,若某个非主属性数据依赖于全部关键字称之为完全函数依赖。比如学生基本信息表R(学号,班级,姓名)假设不同的班级学号有相同的,班级内学号不能相同,在R关系中,(学号,班级)->(姓名),但是(学号)->(姓名)不成立,(班级)->(姓名)不成立,所以姓名完全函数依赖于(学号,班级)。
  • 传递函数依赖(transitive functional dependency) :在关系模式R(U)中,设X,Y,Z是U的不同的属性子集,如果X确定Y、Y确定Z,且有X不包含Y,Y不确定X,(X∪Y)∩Z=空集合,则称Z传递函数依赖于X。传递函数依赖会导致数据冗余和异常。传递函数依赖的Y和Z子集往往同属于某一个事物,因此可将其合并放到一个表中。比如在关系R(学号 ,姓名, 系名,系主任)中,学号 → 系名,系名 → 系主任,所以存在非主属性系主任对于学号的传递函数依赖。(跟男朋友出去玩咯~晚点接着写

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/73301.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue-elementPlus自动按需导入和主题定制

elementPlus自动按需导入 装包 -> 配置 1. 装包(主包和两个插件包) $ npm install element-plus --save npm install -D unplugin-vue-components unplugin-auto-import 2. 配置 在vite.config.js文件中配置,配置完重启(n…

数学建模--Seaborn库绘图基础的Python实现

目录 1.绘图数据导入 2. sns.scatterplot绘制散点图 3.sns.barplot绘制条形图 4.sns.lineplot绘制线性图 5.sns.heatmap绘制热力图 6.sns.distplot绘制直方图 7.sns.pairplot绘制散图 8.sns.catplot绘制直方图 9.sns.countplot绘制直方图 10.sns.lmplot绘回归图 1.绘图数…

React中函数式组件与类组件有何不同?

Function Component 与 Class Component 有何不同 目录 Function Component 与 Class Component 有何不同 文章核心观点: 解释一下: 总结: 文章核心观点: Function components capture the rendered values.函数式组件捕获…

【漏洞复现】深信服科技EDR平台存在任意用户登录漏洞

漏洞描述 深信服终端检测响应平台EDR,通过云网端联动协同、威胁情报共享、多层级响应机制,帮助用户快速处置终端安全问题,构建轻量级、智能化、响应快的下一代终端安全系统。 该EDR系统存在任意用户登录漏洞,攻击者通过漏洞可以登录系统后台并获取服务器的敏感信息…

3D印刷电路板在线渲染查看工具

从概念上讲,这是有道理的,因为PCB印制电路板上的走线从一个连接到下一个连接的路线基本上是平面的。 然而,我们生活在一个 3 维世界中,能够以这种方式可视化电路以及相应的组件,对于设计过程很有帮助。本文将介绍KiCad…

在ubuntu20.04上安装arm-linux-gcc 4.4.3

1下载地址 [http://www.friendlyelec.com.cn/download.asp] 2.将 arm-linux-gcc-4.4.3.tar.gz 拷贝到 /bin目录 无法拷贝怎么办? 出现这种情况是 Linux 拷贝文件时权限不够, 运行命令 sudo nautilus, 打开一个具有管理员权限的文件管理器&am…

微电网的概念

微电网分布式控制理论与方法  顾伟等 微电网的概念和作用 微电网是由多种分布式电源、储能、负载以及相关监控保护装置构成的能够实现自我控制和管理的自治型电力系统,既可以与电网并网进行,也可以以孤岛运行。 分布式发电是指将容量在兆瓦以内的可再…

原生JavaScript+PHP多图上传实现

摘要 很多场景下需要选择多张图片上传&#xff0c;或者是批量上传以提高效率&#xff0c;多图上传的需求自然就比较多了&#xff0c;本文使用最简单的XMLHttpRequest异步上传图片。 界面 上传示例 代码 index.html <!DOCTYPE html> <html><head><titl…

docker 部署vue

1&#xff1a; 首先部署nginx docker run --name nginx -d -p 88:80 nginx 2&#xff1a;访问 http://xxxxxxx:88/ 3: 进入nginx docker exec -it nginx /bin/sh 4: 回到vs&#xff0c;编译项目 npm run build 得到dist文件夹 5&#xff1a;创建docker 6&#xff1a; 将…

蚂蚁发布金融大模型:两大应用产品支小宝2.0、支小助将在完成备案后

9月8日&#xff0c;在上海举办的外滩大会上&#xff0c;蚂蚁集团正式发布金融大模型。据了解&#xff0c;蚂蚁金融大 模型基于蚂蚁自研基础大模型&#xff0c;针对金融产业深度定制&#xff0c;底层算力集群达到万卡规模。该大 模型聚焦真实的金融场景需求&#xff0c;在“认知…

2023 INCLUSION·外滩大会丨拓数派科技战略深度披露,大模型数据计算系统蓄势待发

近日&#xff0c;被亿欧网誉为最值得关注的全球化大模型数据计算科技新锐拓数派亮相在黄浦区世博园举行的2023 INCLUSION外滩大会。作为国际顶尖的科技盛会&#xff0c;来自全球各地的著名经济学家、诺奖得主、企业家和技术大咖们济济一堂&#xff0c;围绕“科技创造可持续未来…

无涯教程-JavaScript - IMLOG10函数

描述 IMLOG10函数以x yi或x yj文本格式返回复数的公共对数(以10为底)。可以从自然对数计算复数的公共对数,如下所示: $$\log_ {10}(x yi)(\log_ {10} e)\ln(x yi)$$ 语法 IMLOG10 (inumber)争论 Argument描述Required/OptionalInumberA complex number for which you …

word文档如何引用参考文献

参考 word文档如何引用参考文献 说明

JavaScript事件处理

表单事件 表单事件在HTML表单中触发 (适用于所有 HTML 元素&#xff0c;但该HTML元素需在form表单内)&#xff1a; 案例演示1&#xff1a;当文本框获取焦点&#xff0c;文本框背景为红色&#xff0c;当文本框失去焦点&#xff0c;文本框背景为黄色 <!DOCTYPE html> <…

C++零碎记录(三)

作者&#xff1a;小王同学在积累 链接&#xff1a;https://www.zhihu.com/question/437657370/answer/1692846096 来源&#xff1a;知乎 著作权归作者所有。商业转载请联系作者获得授权&#xff0c;非商业转载请注明出处。 5. 构造函数和析构函数 5.1 构造函数和析构函数的…

【VR】Network Manager HUD

&#x1f4a6;本专栏是我关于VR开发的笔记 &#x1f236;本篇是——Network Manager HUD Network Manager HUD组件 简介基础知识 简介 网络管理器 HUD是一种快速启动工具&#xff0c;可帮助您立即开始构建多人游戏&#xff0c;而无需首先构建用于游戏创建/连接/加入的用户界面…

SpotBugs代码检查:在整数上进行没有起任何实际作用的位操作(INT_VACUOUS_BIT_OPERATION)

https://spotbugs.readthedocs.io/en/latest/bugDescriptions.html#int-vacuous-bit-mask-operation-on-integer-value-int-vacuous-bit-operation 在整数上进行无用的与、异或操作&#xff0c;实质上没有做任何有用的工作。 例如&#xff1a;v & 0xffffffff 再例如&…

聚观早报|小米14渲染图曝光;蚂蚁金融大模型正式发布

【聚观365】9月9日消息 小米14渲染图曝光 蚂蚁金融大模型正式发布 路特斯推出全电动轿车Emeya 上汽集团8月整车销量42.3万辆 ChatGPT网站流量连续三个月下滑 小米14渲染图曝光 高通旗下全新一代旗舰芯片骁龙8 Gen3将于10月24-26日举办的骁龙技术峰会上亮相&#xff0c;相…

《protobuf》基础语法

文章目录 消息体定义字段规则编译选项实战&#xff1a;编写一个通讯录文件 消息体定义 文件内定义 message Phone {string number 1; }message PeopleInfo {string name 1;int32 age 2;Phone phone 3; }内嵌定义 message PeopleInfo {string name 1;int32 age 2;messa…

Vue3_pinia使用

安装 cnpm install pinia 新建store目录&#xff0c;在store目录下创建loginUser.js import { defineStore } from pinia import {ref} from vue export const userLoginStore defineStore(loginUser, () > {let loginUserInfo ref({})function setUserInfo(data){this.…