从0开始学统计-多个婴儿连续夭折是谋杀吗?

1.什么是小概率事件?

小概率事件是指在一次随机试验中发生概率非常低的事件。一般来说,小概率事件的发生概率远低于一定的阈值,通常取0.05或0.01。在统计学中,这些阈值被称为显著性水平(significance level),一般用α表示。

P值(P-value)是统计学中用于衡量样本数据对原假设的支持程度的一个指标。在假设检验中,P值表示在原假设为真的情况下,观察到的样本数据或更极端情况出现的概率。

如果观察到的P值小于显著性水平(通常是0.05或0.01),我们通常会拒绝原假设,认为观察到的样本数据在给定的显著性水平下是统计上显著的,即我们有足够的证据拒绝原假设,接受备择假设。这意味着我们认为观察到的样本数据对应的事件是小概率事件,即在原假设为真的情况下,观察到这种极端情况的概率非常低。

总之,小概率事件指的是在一次随机试验中发生概率非常低的事件,而P值则是在统计学中用于衡量样本数据对原假设的支持程度的一个指标。

2.什么是概率独立性?

概率独立性是指两个或多个事件之间的发生不受彼此影响的情况。简而言之,如果事件A 的发生与否不会对事件B 的发生概率产生影响,或者反之亦然,则称事件A 和事件 B 是概率独立的。

具体来说,如果事件A 的发生概率与事件 B的发生概率之间不存在任何关系,并且知道事件A 是否发生对于预测事件B 的发生没有任何帮助,那么我们就可以说事件A 和事件 B 是概率独立的。

概率独立性是概率论中的一个重要概念,它在许多领域都有广泛的应用,例如统计学、生物学、经济学等。在实际问题中,概率独立性通常是假设条件之一,用于简化问题的分析和计算。

突发性婴儿猝死综合征(SIDS)与英国法律的故事,涉及到概率独立性的问题。

SIDS是指在婴儿睡眠期间突然死亡的情况,发生概率非常低,大概在八千五百分之一,原因至今未明。我们认为发生SIDS是小概率事件。如果小概率事件频繁发生,那么就要怀疑背后有什么样的故事。英国的警方跟法庭认为。如果一个家庭先后发生多起婴儿猝死的事件,那么就可以是疏忽致死而非自然死亡,就要追究家庭的责任。这个就是小概率事件的应用,因此英国著名的儿科医生就用这个观点来做专家证人。他认为一个家庭连续出现两个SIDS的概率是:

在这里插入图片描述
但英国皇家统计协会指出,同一个家庭,猝死的婴儿之间,它并不是一个独立随机事件,而是存在一个关联。比如说基因,同一个家庭生的婴儿,他的基因可能有高度的相似性,从而让一个已经遭受打击的家庭再次遭受打击。所以上述计算方法是不成立的。因为这个原因,2004年,英国政府宣布对258起已经结案的家长谋杀婴儿案件重新进行审理。

3.统计学中有哪些常见的数据类型?

在统计学中,常见的数据类型包括以下几种:

(1) 定性数据(Qualitative Data):也称为分类数据,是描述性质或特征的数据,通常是非数字型的。定性数据可以进一步分为名义数据和有序数据。

  • 名义数据:数据之间没有顺序或等级关系,仅表示分类或标签。例如:性别、颜色、品牌等。

  • 有序数据:数据之间存在一定的顺序或等级关系,但没有固定的数值差距。例如:教育程度(小学、初中、高中)。

(2) 定量数据(Quantitative Data):也称为数值数据,是用数字表示的数据,用于量化特征或属性。

  • 连续型数据:可以取任意值的数据,通常表示测量的结果。例如:身高、体重、温度等。

  • 离散型数据:只能取有限个数值的数据,通常表示计数结果。例如:家庭成员数、学生人数等。

这些数据类型在统计学中用于描述和分析不同类型的数据,并采用不同的统计方法和技术进行处理和解释。

4.定量数据的分布形式?

定量数据的分布形式通常可以分为对称分布和非对称分布两种。

(1)对称分布(Symmetric Distribution):在对称分布中,数据的分布形状相对均匀,以中心点对称分布。也就是说,数据在中心点(均值)的两侧是对称的。典型的对称分布包括正态分布(也称为高斯分布)和均匀分布。

-正态分布:正态分布是最常见的对称分布,其形状呈钟形曲线,两侧尾部逐渐变细。在正态分布中,均值、中位数和众数重合,且相等。

-均匀分布:在均匀分布中,数据在给定的范围内等可能地分布,没有出现任何偏向某个方向的情况。

(2)非对称分布(Skewed Distribution):在非对称分布中,数据的分布形状不对称,呈现出一个尾部比另一个长或短的情况。非对称分布可以进一步分为正偏态分布和负偏态分布。

-正偏态分布(右偏态):在正偏态分布中,数据的尾部向右延伸,即数据分布的右侧尾部比左侧更长。也就是说,大部分数据分布在左侧,而右侧存在少量极端值。均值大于中位数,且众数位于最左侧。

-负偏态分布(左偏态):在负偏态分布中,数据的尾部向左延伸,即数据分布的左侧尾部比右侧更长。也就是说,大部分数据分布在右侧,而左侧存在少量极端值。均值小于中位数,且众数位于最右侧。

对称分布和非对称分布形态的特征对于数据分析和解释具有重要意义,可以帮助我们了解数据的分布情况及其可能的影响。

老张选健身班的故事可以说明数据分布形式的重要性:

48岁的老张想选一个成员们年龄和自己年龄相仿的健身班,分别有以下三个班的平均年龄:17岁,25岁和38岁。老张自然而然地选择了平均年龄为38岁的班级。结果一去上课傻眼了,班上绝大部分学员年龄都在20左右。但是有几位祖师爷的年龄远远超过20岁,在这里,平均年龄被这几位祖师爷拉大了。祖师爷的年龄在这里显得很不协调,虽然均值是38岁,但班上没有一个人在38岁上下。

为什么会这样呢,因为班级的年龄分布是非对称分布而不是正态分布,此时的均值不等于中位数和众数。

5.对称分布数据和非对称分布数据,如何描述数据的集中度?

对称分布数据描述数据集中度:

(1) 均值(Mean):

  • 对称分布数据的均值通常位于分布的中心,因为数据在均值两侧是对称的。

  • 均值可以作为数据集中度的一个指标,但需要注意异常值对均值的影响。

(2)中位数(Median):

  • 对称分布数据的中位数与均值相等,因为数据在中心对称,中位数是将数据分为两等分的数值。

  • 中位数是对称分布数据集中度的一个稳健指标,不受异常值的影响。

    (3) 众数(Mode):

  • 对称分布数据的众数与均值和中位数相等,因为数据在分布形状上呈现对称的特点。

  • 众数是数据集中出现频率最高的数值。

(4)标准差(Standard Deviation):

  • 标准差是数据集各数据点与均值之间的平均偏差的平方根,它能够反映数据的离散程度。标准差越大,数据集的分散程度越高,集中度越低;标准差越小,数据集的分散程度越低,集中度越高。

非对称分布数据的描述数据集中度:

(1) 中位数(Median):

  • 非对称分布数据的中位数是更稳健的集中度指标,因为它不受异常值的影响。

  • 中位数反映了数据集中度的中心位置,通常比均值更适用于描述非对称分布数据的集中度。

(2) 四分位数(Quartiles):四分位数将数据集分为四个等分,有三个数,分别是第一四分位数(Q1)、第二四分位数(Q2)、第三四分位数(Q3)。第一四分位数和第三四分位数能够帮助我们了解数据的分布情况和集中度。

综上所述,对称分布数据和非对称分布数据在描述数据集中度时,采用的统计指标和解释可能存在差异。对称分布数据的均值、中位数和众数通常一致,而非对称分布数据则需要更谨慎地选择适当的集中度指标,以更准确地描述数据的中心位置。这些方法可以帮助我们了解数据集中度的不同方面,从而更好地理解数据的分布特征和数据集的形态。

打印机报修的故事可以帮助我们理解判断数据集中度的重要性:

假设你是一家打印机生产商的分析员,你的老板给了你去年一年公司销售的57334台打印机的报修情况,同时给了你对手公司994773台打印机的报修情况,让你对比两家打印机的质量。你很快分析完了,对手每台打印机在保修期内平均反馈问题2.8个,而你的公司平均反馈问题是9.1个,数据结果显示你公司的产品质量不如对手公司。分析完之后你就把信息发给老板了,刷起了手机,碰巧就看了这篇推文,里面提到如果数据不是对称分布,那么平均数不能够代表数据集中度,而且平均数很容易受到异常值的影响。

你马上开始分析两组数据的中位数,发现对手公司的中位数是2,而你公司的中位数是1,这说明在你公司的数据中有异常值抬高了平均数。你很快找到了问题所在,原来是你公司有一个批次的产品质量不稳定,被频繁报修,而其他批次的产品质量没有问题。也就是说公司不需要更新或者重组整个生产流程和设备,只需要找到那一个批次产品的问题就行了。也说明你公司的产品并不比对手公司差。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/15797.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

题解:CF1016E Rest In The Shades

题意 平面上有一个点光源 s s s 并以每秒 1 1 1 单位长度的速度从点 ( a , s y ) (a,sy) (a,sy) 移动到点 ( b , s y ) (b,sy) (b,sy)&#xff0c;其中 s y < 0 sy<0 sy<0&#xff1b;在 x x x 轴正方向上有 n n n 不相交、不接触的挡板&#xff0c;第 i i i …

【Spring Boot】响应式编程

响应式编程 1.WebFlux2.比较 MVC 和 WebFlux2.1 工作方式2.2 Spring MVC 与 Spring WebFlux 的区别2.3 使用 WebFlux 的好处 3.Mono 和 Flux3.1 Mono 和 Flux 是什么3.2 Mono 和 Flux 的区别 4.开发 WebFlux 的流程4.1 注解式开发流程4.2 响应式开发流程 5.用注解式开发实现 He…

基于开源ATmega8 无感BLDC程序移植到ATmega328PB

基于开源ATmega8 无感BLDC程序移植到ATmega328PB &#x1f516;基于Atmel Studio 7.0开发环境。&#x1f955;开源原项目资源地址&#xff1a;https://svn.mikrokopter.de/websvn/listing.php?repnameBL-Ctrl&path%2F&&#x1f4cd;原理图和PCB资源 BL-Ctrl v2.0 in E…

Win32 API

个人主页&#xff1a;星纭-CSDN博客 系列文章专栏 : C语言 踏上取经路&#xff0c;比抵达灵山更重要&#xff01;一起努力一起进步&#xff01; 一.Win32 API 1.Win32 API介绍 Windows这个多作业系统除了协调应⽤程序的执⾏、分配内存、管理资源之外&#xff0c;它同时也是…

Redis内存回收-内存淘汰策略

LFU的访问次数之所以叫做逻辑访问次数&#xff0c;是因为并不是每次key被访问都计数&#xff0c;而是通过运算&#xff1a; 生成0~1之间的随机数R计算 (旧次数 * lfu_log_factor 1)&#xff0c;记录为P如果 R < P &#xff0c;则计数器 1&#xff0c;且最大不超过255访问…

9.任务调度

一、开启任务调度器 1.函数 vTaskStartScheduler() 函数 vTaskStartScheduler()用于启动任务调度器&#xff0c;任务调度器启动后&#xff0c;FreeRTOS 便会开始 进行任务调度&#xff0c;除非调用函数 xTaskEndScheduler()停止任务调度器&#xff0c;否则不会再返回。函数 vTa…

Centos修改系統語言

一、使用命令行修系统语言 1、显示系统当前语言环 [rootkvm-suma ~]# localectl System Locale: LANGen_US.utf8 VC Keymap: cn X11 Layout: cn 2、查看系统支持字符集 [rootkvm-suma ~]# locale -a 2、设置系统语言环境 [rootkvm-suma ~]# localectl set-locale LANGz…

【GESP试卷】2024年03月Scratch四级试卷

2024年GESP03月认证Scratch四级试卷 分数&#xff1a;100 题数&#xff1a;27 一、单选题(共15题&#xff0c;每题2分&#xff0c;共30分) 010203040506070809101112131415CDBBACBCDCDADBA 1、小杨的父母最近刚刚给他买了一块华为手表&#xff0c;他说手表上跑的是鸿蒙&…

【雷丰阳-谷粒商城 】【分布式基础篇-全栈开发篇】【00】补充

持续学习&持续更新中… 守破离 【雷丰阳-谷粒商城 】【分布式基础篇-全栈开发篇】【00】补充 插件IDEAVsCode MavenvagrantDocker解决MySQL连接慢问题启动&#xff08;自动&#xff09;Docker注意切换到root用户远程访问MySQL MyBatisPlus代码地址参考 插件 IDEA Mybati…

【数据挖掘】四分位数识别数据中的异常值(附代码)

写在前面&#xff1a; 首先感谢兄弟们的订阅&#xff0c;让我有创作的动力&#xff0c;在创作过程我会尽最大能力&#xff0c;保证作品的质量&#xff0c;如果有问题&#xff0c;可以私信我&#xff0c;让我们携手共进&#xff0c;共创辉煌。 路虽远&#xff0c;行则将至&#…

STM32F1之OV7725摄像头

目录 1. 摄像头简介 2. OV7725 摄像头简介 3. OV7725 引脚 4. OV7725 功能框架图 5. SCCB时序 5.1 SCCB 的起始、停止信号及数据有效性 5.2 SCCB 数据读写过程 1. 摄像头简介 在各类信息中&#xff0c;图像含有最丰富的信息&#xff0c;作为机…

SVM原问题与对偶问题

目的&#xff1a;求出我们的f(X)&#xff0c;它代表着我们X映射到多维的情况&#xff0c;能够帮我们在多维中招到超平面进行分类。 1.优化问题&#xff1a; 1.1推荐好书&#xff1a; 1.2 优化理论中的原问题&#xff1a; 原问题和限制条件如下&#xff1a; 这是一个泛化性…

【漏洞复现】英飞达医学影像存档与通信系统 WebJobUpload 任意文件上传漏洞

0x01 产品简介 英飞达医学影像存档与通信系统 Picture Archiving and Communicaton System&#xff0c;它是应用在医院影像科室的系统&#xff0c;主要的任务就是把日常产生的各种医学影像(包括核磁&#xff0c;CT&#xff0c;超声&#xff0c;各种X光机&#xff0c;各种红外仪…

LeetCode - 数组 - 四数之和

题目地址 描述 给你一个由 n 个整数组成的数组 nums &#xff0c;和一个目标值 target 。请你找出并返回满足下述全部条件且不重复的四元组 [nums[a], nums[b], nums[c], nums[d]] &#xff08;若两个四元组元素一一对应&#xff0c;则认为两个四元组重复&#xff09;&#x…

cs与msf权限传递以及mimikatz抓取win2012明文密码

简单的介绍 cs与msf的简单介绍 我查找过资料得出&#xff0c;Cobalt Strike 的前身是 Armitage&#xff0c;而 Armitage 又可以理解为 Metasploit Framework 的图形界面版&#xff0c;因此 Cobalt Strike 与 Metasploit Framework 在很多地方都是兼容的&#xff0c;所以我们便…

人工智能 框架 paddlepaddle 飞桨 使用指南 使用例子 线性回归模型demo 详解

安装过程&使用指南&线性回归模型 使用例子 本来预想 是安装 到 conda 版本的 11.7的 但是电脑没有gpu 所以 安装过程稍有变动,下面简单讲下 conda create -n paddle_env117 python=3.9 由于想安装11.7版本 py 是3.9 所以虚拟环境名称也是 paddle_env117 activa…

下载和安装AD19 - Altium Designer 19.1.9 Build 167

虽然有AD24 的安装资源&#xff0c;但是我比较喜欢19 这个数字[doge] 下载 仍然是从毛子网站源头进货&#xff1a;https://rutracker.net/forum/viewtopic.php?t5754276&#xff0c;网盘: https://pan.baidu.com/s/1ic31N4h7HS2FBu7JFll0YQ?pwdvjum 提取码: vjum 安装 压…

【DevOps】深入了解RabbitMQ:AMQP协议基础、消息队列工作原理和应用场景

目录 一、核心功能 二、优势 三、核心概念 四、工作原理 五、交换机类型 六、消息确认 七、持久性和可靠性 八、插件和扩展 九、集群和镜像队列 十、客户端库 十一、管理界面 十二、应用场景 RabbitMQ是一个基于AMQP协议的消息队列中间件&#xff0c;提供高可用、可…

[MRCTF2020]Xor

32位程序 主要逻辑 flagMSAWB~FXZ:J:tQJ"N bpdd}8g for i in range(len(flag)):print(chr(ord(flag[i])^i),end)

react 权限树形结构实现

项目背景 react ant design 实现效果 1 将后台返回的平铺数据 , 转成树形结构 const [roleId, setRoleId] useState() //存储角色id// 弹权限弹窗const empowerHandle async record > {setRoleId(record.roleId)//获取单独的权限const res1 await getPermission({ role…