【个人学习笔记】概率论与数理统计知识梳理【六】

文章目录

  • 第六章 样本及抽样分布
  • 一、随机抽样
  • 二、直方图与箱线图
    • 2.1 直方图
    • 2.2 箱线图
  • 三、抽样分布
  • 总结


第六章 样本及抽样分布

好久没更新了,重新捡起来把它更完吧,可能会再开一个机器学习的笔记系列,参考用书是周志华的西瓜书。前五章主要是概率论,现在开始的后面四章则主要是数理统计。数理统计就是将概率论的知识合理地应用到现实中的随机现象的研究中。


一、随机抽样

在概率论中,我们往往是在已知随机变量的分布的情况下去研究它的数字特征之类的。而在现实中的复杂的随机现象,我们并不能一开始就知道其分布,所以数理统计研究的主要工作就是如何通过对随机变量进行观察统计分析的方法,对其分布做出推断。

所以我们的着眼点不能再是概率分布了,而应该回到更早的随机试验随机变量的概念重新出发。首先数理统计都是研究数的,对于定性描述的随机变量也都可以通过定量化变成数,这一点是毋庸置疑的,但是明确这一点是必要的。

首先是统计分析的几个基本概念,从小学开始学统计,这几个概念也是反反复复接触了。总体:试验中所有的观察值称为总体。个体:总体包含的每个具体的观察值称为个体。容量:总体中包含的个体数量称为容量。容量有限的为有限总体,无限的为无限总体。总体的观察值就是随机变量的取值,总体对应着一个随机变量,数理统计对总体的研究就是对其对应的随机变量的研究。样本:从总体中抽取一部分个体,这些个体就叫样本。在相同条件下对总体进行独立重复的多次观察得到一系列个体就称为简单随机样本,从获取方式可以知道它的性质就是独立同分布。对于无限总体,抽取样本不会影响其分布,所以可以直接采用不放回抽样获取简单随机样本;而有限总体采用放回抽样也能获得简单随机样本,但是操作麻烦,当总体容量远大于样本容量时,可以用不放回抽样来近似放回抽样。

二、直方图与箱线图

2.1 直方图

好家伙,这东西着实没什么可讲,就当个可查阅词典,把直方图的画法过一遍吧

频率直方图是一种描绘样本各个区间数据发生频率的图形。作图之前先对样本做简单统计,得到最大值与最小值,再根据想要划分的区间的多少来确定组距,最后计算落在每个区间内的数据的频率,根据频率与组距的比值作出图像。如下图:
在这里插入图片描述
所以频率直方图中矩形的面积才是频率,而不是高度。

2.2 箱线图

样本分位数:样本的p分位数(0<p<1)记为 x p x_p xp,它满足至少有np个观察值小于等于 x p x_p xp,至少有n(1-p)个观察值大于等于 x p x_p xp
这个概念是不是很熟悉,中位数不就是这里所说的0.5分位数,一般记为 Q 2 Q_2 Q2。常用的分位数还有0.25分位数、0.75分位数,记作 Q 1 , Q 3 Q_1,Q_3 Q1Q3,称为第一四分位数和第三四分位数。

有了这些,箱线图就出来了,将各个分位数的观察值以及最大最小值标注在数轴上,然后像下图一样画好箱子就行了。箱线图的好处在于,当把两个数据集的箱线图放在一个数轴下时,可以明显的看出来两者的差异。
在这里插入图片描述
在数据集中总有一些与众不同的数据,它和其他数据相差甚远,这种数据称为异常值。在箱线图中确定异常值的方法,是看它是否落在区间 ( Q 1 − 1.5 I Q R , Q 3 + 1.5 I Q R ) (Q_1-1.5IQR,Q_3+1.5IQR) (Q11.5IQR,Q3+1.5IQR)内,落在区间外就会被认为是异常值,在箱线图中用一个*符号表示即可。其中 I Q R = Q 3 − Q 1 IQR=Q_3-Q_1 IQR=Q3Q1,称为四分位数间距。

三、抽样分布

统计量:设 X 1 , X 2 , . . . X N X_1,X_2,...X_N X1,X2,...XN是来自总体X的一个样本, g ( X 1 , X 2 , . . . X N ) g(X_1,X_2,...X_N) g(X1,X2,...XN)是样本的函数,若g中不含未知参数,则称其为统计量, g ( x 1 , x 2 , . . . x n ) g(x_1,x_2,...x_n) g(x1,x2,...xn)为其观察值。
常见的统计量有样本平均值,样本方差,标准差,原点矩等等,其定义与之前的随机变量的相关概念的定义的差别就是将期望变成了统计平均。而样本方差有一点不同,其求平均时分母为样本容量n-1,而不是n。这与估计有关,后面会讲。

经验分布函数 S ( x ) = n u m b e r ( X ≤ x ) S(x)=number(X\leq x) S(x)=number(Xx)为样本中小于x的个体的个数,那么总体X的经验分布函数的定义为: F n ( x ) = S ( x ) n , x ∈ R F_n(x)=\frac{S(x)}{n},x\in R Fn(x)=nS(x)xR 其中n为样本容量。

可以看到经验分布函数其实就是用分布函数的定义,将样本中频率作为概率得到的。该经验分布函数被证明当n趋近于无穷大时,是一致收敛于总体的分布函数F(x)的。

统计量是随机变量的函数,所以它也是随机变量,那么也就有其服从的分布,将统计量的分布称为抽样分布

总结

提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/728765.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android 14.0 首次开机默认授予app运行时权限(去掉运行时授权弹窗)

1.概述 在14.0的系统rom产品定制化开发中&#xff0c;在6.0以后对于权限的申请&#xff0c;都需要动态申请&#xff0c;所以会在系统首次启动后&#xff0c;在app的首次运行时&#xff0c; 会弹出授权窗口&#xff0c;会让用户手动授予app运行时权限&#xff0c;在由于系统产品…

6、JavaWeb-Mybatis

P116 Mybatis-入门 Mybatis是一款优秀的持久层框架&#xff0c;用于简化JDBC的开发。 持久层就是三层控制中的Dao层&#xff0c;数据访问层/持久层&#xff0c; P117 Mybatis-入门-快速入门程序 步骤&#xff1a; 创建springboot工程&#xff0c;数据表和实体类 引入mybat…

【办公类-39-03】批量下载微信公众号图片(三)-微信公众号链接的爬虫下载

背景需求&#xff1a; 测试两种公众号图片下载&#xff0c; 1、UIBOT下载速度慢&#xff0c;也需要有UIBOT软件 【办公类-39-01】批量下载微信公众号图片&#xff08;一&#xff09;UIBOT图片下载-CSDN博客文章浏览阅读289次。【办公类-39-01】批量下载微信公众号图片&#…

Python笔记(三)—— Python循环语句

循环普遍存在于日常生活中&#xff0c;同样&#xff0c;在程序中&#xff0c;循环功能也是至关重要的基础功能。 循环在程序中同判断一样&#xff0c;也是广泛存在的&#xff0c;是非常多功能实现的基础&#xff1a; bilibili循环轮播图 循环和判断一样&#xff0c;同样是程序…

XXE-XML实体注入漏洞

目录 1.xml基础 1.1什么是xml 1.2xml文档结构 1.3 什么是DTD 1.4 什么是实体 1.5 什么是外部实体 2.xxe漏洞 2.1xxe漏洞基本介绍 2.2xxe漏洞的危害 经典漏洞案例分析 3.xxe漏洞挖掘和利用 3.1. 识别潜在的XML入口 3.2. 检查XML处理逻辑 3.3. 构造试探Payload 常…

Redis核心数据结构之字典(一)

字典 概述 字典又称为符号表(symbol table)、关联数组(associative array)或映射(map)&#xff0c;是一种保存键值对(key-value pair)的抽象数据结构&#xff0c;在字典中&#xff0c;一个键(key)可以和一个值(value)进行关联(或者说将键映射为值)&#xff0c;这些关联的键和…

OpenText Availability——适用于 Windows 和 Linux 服务器的高可用性和灾难恢复解决方案

OpenText Availability——适用于 Windows 和 Linux 服务器的高可用性和灾难恢复解决方案 连续复制&#xff0c;最大限度地减少数据丢失快速故障转移&#xff0c;最大限度地减少停机时间可忽略的性能影响支持物理、虚拟和基于云的系统平台 停机从多种途径侵扰 IT 企业。 从相…

最佳牛围栏(二分 + 前缀和)

最佳牛围栏 原题链接&#xff1a;https://www.acwing.com/problem/content/104/ 题目 思路 我们发现若是枚举答案的话&#xff0c;那么我们判断是否存在一个平均值大于等于mid&#xff0c;如果最优解是x&#xff0c;那么mid < x的时候&#xff0c;必然可以找到一段&#x…

算法---双指针练习-1(移动零)

移动零 1. 题目解析2. 讲解算法原理数组划分&#xff0c;数组分块&#xff08;核心思想&#xff09;如何做到 3. 编写代码 1. 题目解析 题目地址&#xff1a;点这里 2. 讲解算法原理 数组划分&#xff0c;数组分块&#xff08;核心思想&#xff09; dest一般初始化为-1&#x…

计算机设计大赛 深度学习的视频多目标跟踪实现

文章目录 1 前言2 先上成果3 多目标跟踪的两种方法3.1 方法13.2 方法2 4 Tracking By Detecting的跟踪过程4.1 存在的问题4.2 基于轨迹预测的跟踪方式 5 训练代码6 最后 1 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 基于深度学习的视频多目标跟踪实现 …

16、电源管理入门之驱动Runtime PM管理

目录 1. 框架介绍 1.1 为什么需要Runtime PM Framework? 1.2 系统框架图 2. Drivers 3. Runtime PM core 4. power domain framework 5. runtime pm的sysfs 6参考: Runtime PM管理也就是设备驱动里面的电源管理,即设备驱动结构体里面的struct dev_pm_ops,只控制设…

bun实现HTTP服务器

Bun 提供了原生 Bun.serve API。它实现了 fetch 以及Node.js的 http 和 https 模块。 这些模块已被重新实现&#xff0c;以使用 Bun 的快速内部 HTTP 基础设施。随意直接使用这些模块;像 Express 这样依赖于这些模块的框架应该开箱即用。有关详细的兼容性信息&#xff0c;请参阅…

【HarmonyOS】ArkTS-箭头函数

箭头函数 箭头函数是 比普通函数 更简洁 的一种函数写法 () > {}() > {// 函数体 }let 函数名 () > {// 函数体 }let 函数名 () > {// 函数体 } 函数名(实参1, 实参2)let 函数名 (形参1: 类型, 形参2: 类型) > {// 函数体 } 函数名(实参1, 实参2)let 函数名 …

变频器学习

西门子变频器 SINAMICS V20 入门级变频器 SINAMICS G120C

《Trustzone/TEE/安全-实践版》介绍

第一章&#xff1a;课程说明和准备 课程介绍和说明 资料准备 为什么使用qemu_v8环境&#xff1f; 为什么选择香橙派开发板&#xff1f; optee qemu_v8环境展示 香橙派optee环境展示 第二章&#xff1a;Qemu环境搭建 ubuntu20.04的安装(virtualboxubuntu20.04) 搭建optee qem…

利用“定时执行专家”循环执行BAT、VBS、Python脚本——含参数指定功能

目录 一、软件概述 二、VBS脚本执行设置 三、触发器设置 四、功能亮点 五、总结 在自动化办公和日常计算机任务管理中&#xff0c;定时执行脚本是一项非常重要的功能。今天&#xff0c;我将为大家带来一款名为“定时执行专家”的软件的评测&#xff0c;特别是其定时执行VB…

Unity3D学习之XLua实践——背包系统

文章目录 1 前言2 新建工程导入必要资源2.1 AB包设置2.2 C# 脚本2.3 VSCode 的环境搭建 3 面板拼凑3.1 主面板拼凑3.2 背包面板拼凑3.3 格子复合组件拼凑3.4 常用类别名准备3.5 数据准备3.5.1 图集准备3.5.2 json3.5.3 打AB包 4 Lua读取json表及准备玩家数据5 主面板逻辑6 背包…

寻找旋转排序数组中的最小值[中等]

优质博文IT-BLOG-CN 一、题目 已知一个长度为n的数组&#xff0c;预先按照升序排列&#xff0c;经由1到n次 旋转 后&#xff0c;得到输入数组。例如&#xff0c;原数组nums [0,1,2,4,5,6,7]在变化后可能得到&#xff1a; 【1】若旋转4次&#xff0c;则可以得到[4,5,6,7,0,1,2…

【自然语言处理六-最重要的模型-transformer-下】

自然语言处理六-最重要的模型-transformer-下 transformer decoderMasked multi-head attentionencoder和decoder的连接部分-cross attentiondecoder的输出AT(Autoregresssive)NAT transformer decoder 今天接上一篇文章讲的encoder 自然语言处理六-最重要的模型-transformer-…

吴恩达机器学习笔记十五 什么是导数 计算图 大型神经网络案例

假设函数 J(w)w^2&#xff0c;当 w3 时&#xff0c; J(w)3*39 当我们给w增加一个很小的量时&#xff0c;观察J(w)如何变化。 例如 w30.001&#xff0c; 则J&#xff08;w&#xff09;9.006001&#xff0c;因此当w3且增加一个变化量 ε 时&#xff0c;J(w)将会增加 6ε&#x…