数据分析------统计学知识点(一)

1.在统计学中,均值分类有哪些?

算术均值:平均值,所有数值加总后除以数值的个数

几何均值:所有数值相乘后,再取其n次方根,n是数值的个数

调和均值:是数值倒数的算术均值的倒数

加权均值:每个数值有不同的权重,将每个数值乘以其权重,加总后除以权重的总和

2.什么时候平均值才存在价值?

平均值反映了一组数据的中心位置,它存在价值的情况通常是:

数据分布相对均匀,没有极端的离群值。

当我们需要比较不同数据集的总体趋势时,分析的目的是了解整体情况,而不是个体差异。

3.如何才能反映真实情况?

为了更准确地反映真实情况,我们需要:

考虑数据的分布,是否有离群值或偏斜。

使用其他统计量,如中位数、众数、方差和标准差等,来补充均值的信息。

在适当的情况下使用加权均值,确保每个数据点的贡献与其重要性相称。

分析不同的子组的均值,而不是只看整体均值。

4.从均值到辛普森悖论

辛普森悖论是一个统计现象,说明当数据从分组中合并时,会产生误导性的统计结果。即使在每一个子组中一种趋势很明显,但合并这些子组后,趋势就可能完全反转。

例如:A、B两医院,分别治疗相同疾病,A治疗100名轻症患者,成功率90%;A治疗10名重症患者,成功率20%;B治疗10名轻症患者,成功率100%;B治疗100名重症患者,成功率30%。

①不考虑患者病情严重程度,单纯计算平均成功率:

A总成功率:(100*0.9+10*0.2)/(100+10)=83.0%

B总成功率:(10*1+100*0.3)/(100+10)=36%   A比B优秀

②考虑患者病情严重程度时,B对每种类型患者都有更高的成功率。

5.辛普森悖论的启示

总是要注意数据背后的具体情况,不要只基于表面的统计结果做决定。分析数据时要细致,特别是在处理不同群体或类别的数据时,要考虑它们的组合效应。在做出重要的数据驱动决策时,应从多个角度审视数据,使用多种统计方法,以避免出现误导性的结论。

6.互联网企业在数据分析过程中常见的辛普森悖论场景

①用户活跃度分析

假设一个互联网公司在分析两个不同的功能模块对用户活跃度的影响。单独看一个模块时,功能A似乎比B更能提高用户活跃度。但当两个模块的用户数据合并起来分析时,结果可能反映出B整体上对提高用户活跃度更有效。这可能是因为A的用户本来就活跃,而不是A本身更优秀。

②在线广告效果评估

在线广告投放可能在不同的用户群体中表现出不同的转化率。如针对年轻用户的广告A和针对老年用户的广告B,在各自目标群体取得了高转化率,但若年轻用户群体本身的转化率就高于老年用户群体,合并两个广告的数据后可能会出现广告B的整体转化率反而更高的辛普森悖论。

③A/B测试

互联网公司常常使用A/B测试来决定产品变更是否有效。若在A/B

测试中,每个子群体(例如:按地区、设备类型或用户行为划分)都显示新版本优于旧版本,但是当所有子群体的数据合并时,总体结果却显示旧版本表现更好,这是辛普森悖论的一个经典案例。

④用户评分与推荐系统

在电子商务平台,不同的产品的评分可能因为评分人群的不同而出现偏差。例如,一个产品在男性用户中评分很高,在女性用户中评分很低。若男性用户是主要的评分群体,该产品的总体评分可能会很高,这可能误导推荐系统将该产品推荐给不太喜欢它的女性用户。

⑤客户满意度调查

若一个互联网服务公司对不同服务进行满意度调查,可能发现某些具体服务领域客户满意度很高,但当所有服务数据汇总时,整体满意度却很低,这可能是因为那些服务领域的用户基数较小,而大多数用户实际上使用的是其他服务。

7.如何识别面试问题是否为辛普森悖论场景?

辛普森悖论的出现提醒数据分析师在分析数据时,要考虑到不同子群体的影响,以及他们在整体数据中的权重。在解释数据和做出基于数据的决策时,必须仔细考虑数据的分层和分组效应,避免错误的推断。

正确做法是:深入了解数据的上下文,分层分析,以及使用适当的统计方法来减少误导性结论的风险。

8.什么是大数定律?

例如:一枚公平的硬币正面朝上和反面朝上的概率都是50%。若你只抛一次,结果可能是正,也可能是反,无法预测。但若你抛100次,200次,甚至更多次,你会发现正面和反面各自出现的次数越来越接近一半。

大数定律的直观展现:

随着试验次数的增加,样本均值(在上例中即是正面出现的比例)越来越接近总体均值(50%)

数据分析中,大数定律告诉我们,只要样本量足够大,就可以通过样本来估计整个群体的特性。

(减少偶然性,更准确了解总体特性)

虽然正反面概率各位50%,但是抛10次不一定正反各5次。

——>抛的次数不够多,我们看到的结果都是各种偶然的极端情况。

9.什么是小数定律?

例如:一朋友第一次打篮球就投了三分球,你立刻得出结论:他是篮球高手——>掉入小数陷阱,结论仅基于极有限的信息——只有一次投篮的结果。

小数定律:指当数据量太小,无法代表整体时,我们可能会得出错误的结论。小样本可能会受到极端值或偶然性的强烈影响,导致我们对情况的误解。

数据分析中,避免小数陷阱意味着不能仅根据少量数据做出决策,而应该寻求更多的证据。

10.互联网企业中常见的这两类场景

①A/B测试

互联网公司经常进行A/B测试来改进网站或应用,当测试新功能时,公司流量分成两部分,一部分用户看到旧版本(A组),另外一部分看到新版本(B组)。通过比较两组的表现,数据分析师可了解哪个版本更好。

  • 若测试的用户数量足够大,大数定律能保证结果可靠性
  • 若样本太小,可能会出现小数陷阱,导致错误决策。

②用户反馈

用户评论与反馈是互联网公司的重要信息来源。但仅有极端满意或极不满意的用户才会留下评论,这可能导致数据偏差。若公司只关注这些小数陷阱的评论,而不是通过调查or其他方式获取大量的用户意见,则可能会对用户满意度有一个不准确评估。

③产品销量分析

若一新产品在上市后的第一个月销量爆棚,若企业立即决定大量生产,则他们可能未考虑到这可能是因为早期的宣传造成的短期效应,这种对初期小量数据的过度依赖,即是小数陷阱的体现。在未有足够数据支持之前,做出重大决策可能会造成资源浪费或其他问题。

④用户行为分析

互联网公司通过分析用户的在线行为来改善服务和推荐算法,若分析数据量不够大,则无法准确捕捉用户的真实偏好。此时,大数定律的缺失会使得算法优化基于不准确的假设,从而降低用户满意度。

⑤产品迭代

产品经理通常根据数据来迭代产品。若他们基于的是短期内收集到的少量数据,那么可能无法真实反应市场的需求,从而陷入小数陷阱。相反,若等待收集到足够的用户数据,应用大数定律的原则,则得出的结论将更加可靠。

墨菲定律:任何可能出错的事情,最终都会出错

11.期望的定义与数学原理

期望(Expectation):表示随机变量的平均值,是对随机事件结果的预期

E(X)=x1p1+x2p2+…+xnpn

X随机变量,xi是X的第i个可能取值,pi是X取xi的概率,n是X所有可能取数个数

例如:骰子6个面,每个面朝上的概率是1/6,若将骰子的点数看作一随机变量X,则E(X)=1*(1/6)+2*(1/6)+3*(1/6)+4*(1/6)+5*(1/6)+6*(1/6)=3.5

若我们多次掷骰子,所有结果的平均值都会无限接近3.5

12.期望与平均值的关系

期望是一种理论上的平均,是基于概率分布计算出来的

平均值是实际结果的算术平均。当随机事件重复进行的次数足够多时,平均值会收敛到期望;但在有限的尝试中,平均值会偏离期望

期望是事前的准备,平均值是事后的统计。

如例11,掷骰子不可能3.5点,在一次or几次掷骰子的结果中,平均点数可能是1,2,4,5,只有次数不断增加,最终所有结果的平均值才会接近3.5.

13.如何避免墨菲定律

①降低事情出错的概率:以等红灯老是撞上红灯为例,若我们提前10分钟,则遇到多个红灯导致迟到的概率就会降低。

②改变对结果的预期:若每次出门都期望一路畅通,则碰到红灯时挫败感会很强,若将可能遇到几个红灯纳入预期中,实际遇到红灯,心理落差就不会那么大。

③从长期来看,趋势会向期望靠拢,要学会从长远角度看问题,单次墨菲定律会让人沮丧,但只要判断是正确的,结果就会向好的方向发展。

14.期望在互联网的应用

①A/B测试中,产品经理会将用户随机分成两组,分别展示不同的方案,并观察用户的反应。若新方案的转化率期望比对照组高出2%,且这个差异有统计学意义,则可能认为新方案是有效的。

②广告投放中,广告主关系的核心指标是ROI投资回报率,若一广告点击率期望5%,平均点击单价2元,则广告主目标每花一元获得至少2元的收益,则该广告就是值得投放的,若实际点击率远低于5%,则需要优化广告的创意和投放策略。

③算法工程师在设计算法时,也会评估算法的期望复杂度。对于一个排序算法,若输入数据的规模是n,算法的期望时间复杂度是O(nlogn),这这个算法是可以接受的。若一个算法的期望复杂度是O(n^2),在数据规模较大时,就可能导致性能问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/845170.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

细说ARM MCU中的MX_GPIO_Init()函数的实现过程

目录 1、建立.ioc工程 2、 MX_GPIO_Init()函数 (1)MX_GPIO_Init()函数的类型 (2)MX_GPIO_Init()函数中用到的结构体变量 (3)MX_GPIO_Init()函数使能时钟 (4)MX_GPIO_Init()函数…

vue3学习使用笔记

1.学习参考资料 vue3菜鸟教程:https://www.runoob.com/vue3/vue3-tutorial.html 官方网站:https://cn.vuejs.org/ 中文文档: https://cn.vuejs.org/guide/introduction.html Webpack 入门教程:https://www.runoob.com/w3cnote/webpack-tutor…

Proteus 安装报错There is a problem with this Windows lnstaller package

Proteus 安装常见问题 1.安装秘钥(许可证)的时候报错 报错信息如下所示: There is a problem with this Windows lnstaller package. A program required for this instalt to compiete coutd notbe run,contact your support personnet or packagevendor. 这个是…

在Ubuntu乌班图上安装Docker

最近在学习乌班图相关的内容,找了一些文档安装的都是报错的,于是记录一下学习过程,希望也能帮助有缘人,首先查看乌班图的系统版本,我的是如下的: cat /proc/version以下是在Ubuntu 20.04版本上安装Docker。…

Apache Druid 代码执行(CVE-2021-25646)漏洞复现

Druid简介与漏洞成因 Apache Druid是一个高性能的实时分析型数据库,旨在对大型数据集进行快速查询分析。Druid最常被当做数据库来用以支持实时摄取、高性能查询和高稳定运行的应用场景,同时,Druid也通常被用来助力分析型应用的图形化界面&am…

3---C++之list(逻辑梳理、简单使用演示、部分源码实现)

一、先决知识点1——认识list: list底层实现是双向链表,但是不是循环链表。list是否使用哨兵节点,是细节问题,C标准并未规定。list是链表,他的优势在于对节点的操作会十分灵活,因此它在需要频繁插入和删除元…

【UnityShader入门精要学习笔记】第十六章 Unity中的渲染优化技术 (下)

本系列为作者学习UnityShader入门精要而作的笔记,内容将包括: 书本中句子照抄 个人批注项目源码一堆新手会犯的错误潜在的太监断更,有始无终 我的GitHub仓库 总之适用于同样开始学习Shader的同学们进行有取舍的参考。 文章目录 减少需要处…

德人合科技——天锐绿盾内网安全管理软件 | -文档透明加密模块

天锐绿盾文档加密功能能够为各种模式的电子文档提供高强度加密保护,丰富的权限控制以及灵活的应用管理,帮助企业构建更严密的立体保密体系。 PC地址: https://isite.baidu.com/site/wjz012xr/2eae091d-1b97-4276-90bc-6757c5dfedee ————…

Chatglm3-6b报错处理

目录 AttributeError: ChatGLMTokenizer object has no attribute sp_tokenizer AttributeError: ChatGLMConfig object has no attribute max_sequence_length AttributeError: ChatGLMConfig object has no attribute position_encoding_2d AttributeError: ChatGLMConfi…

BioVendor—sHLA-G ELISA试剂盒

人类白细胞抗原-G (HLA-G)与其他MHC类基因的不同之处在于它的低多态性和产生七种HLA-G蛋白的选择性剪接,这些蛋白的组织分布局限于正常的胎儿和成人组织,这些组织对先天和后天免疫细胞都具有耐受性。可溶性HLA-G是一种免疫抑制分子,诱导活化的…

详细解析Barlow Twins:自监督学习中的创新方法

首先先简单了解一下机器学习中,主要有三种学习范式:监督学习、无监督学习和自监督学习: 监督学习:依赖带标签的数据,通过输入输出映射关系进行训练。无监督学习:不依赖标签,关注数据的内在结构…

pikachu靶场(unsafe upfileupload(文件上传)通关教程)

目录 client check 1.在桌面新建一个文本文档 2.保存为.png格式 3.打开网站 4.按照图中操作 5.点击forward 6.访问 MIME type 1.新建一个php文件,里面写上 2.上传文件,就是我们保存的文件 3.打开抓包工具,点击开始上传 4.修改Conen…

ADC数模转换器

一、ADC(Analog-Digital Converter)模拟-数字转换器 1、ADC可以将引脚上连续变化的模拟电压转换为内存中存储的数字变量,建立模拟电路到数字电路的桥梁 2、12位逐次逼近型ADC,1us转换时间 3、输入电压范围:0~3.3V&a…

20分钟快速入门SQL

SQL(Structured Query Language,结构化查询语言)是一种专门用来管理和操作关系型数据库的编程语言。以下是SQL入门的一些基础概念和教程: 1. SQL基础 数据库(Database):存储数据的集合。表&am…

【K8s】专题四(2):Kubernetes 控制器之 Deployment

以下内容均来自个人笔记并重新梳理,如有错误欢迎指正!如果对您有帮助,烦请点赞、关注、转发!欢迎扫码关注个人公众号! 目录 一、基本介绍 二、工作原理 三、相关特性 四、资源清单(示例) 五…

C-数据结构-平衡二叉树

平衡二叉树(Balanced Binary Tree)是一种二叉树,其中任意节点的两棵子树的高度差不超过 1。也可以说是一棵空树或者左右子树高度差不超过 1 的二叉树。 特点和性质 高度平衡:平衡二叉树是一种高度平衡的二叉树,任意节…

Java进阶指南:高级面试问题与精辟解答(六)

Java 面试问题及答案 1. 请解释 Java 中的多线程概念,并说明如何实现一个简单的多线程程序? 答案: 多线程是 Java 中的一个核心概念,它允许同时执行多个任务,从而提高程序的效率和响应性。在 Java 中,可以…

Golang获取文件名扩展名/后缀

在Go语言中,可以使用path/filepath 标准库中的Ext函数来获取文件的扩展名(也就是后缀)。以下是一个简单的示例代码: package mainimport ("fmt""path/filepath" )func main() {fileName : "example.txt…

【Linux】多线程——线程概念|进程VS线程|线程控制

> 作者:დ旧言~ > 座右铭:松树千年终是朽,槿花一日自为荣。 > 目标:理解【Linux】多线程——线程概念|进程VS线程|线程控制 > 毒鸡汤:有些事情,总是不明白,所以我不会坚持。早安! &…

产品上市新闻稿怎么写?纯干货

一个产品的上市,想要达到一个非常好的宣传效果,前期的预热造势是必不可少的,投放产品上市新闻稿到权威专业的媒体,潜移默化去影响用户的心智,产品上市新闻稿怎么写?接下来伯乐网络传媒就来给大家分享一下&a…