概率与统计知识复习

一. 随机变量

1.1 概率分布

概率分布

定义 : 随机变量X取各个值$x_i$的概率称为X的概率分布. 对于离散型随机变量: $ P(X=x_i)=p_i, (i=1,2,3,...) $

特性 :
a. $p_i>0$
b. $\sum_i^{\infty} p_i =1 $

累积概率分布(CDF)

定义 : $F(x)=P(X \le x) $, 对于离散型随机变量 $F(x)=\sum_{x_i \le x} p_i $

连续型随机变量的分布函数(CDF)和概率密度函数(PDF)

$$ F(x)=\int_{-\infty}^{\infty} f(t) dt $$
称$f(x)$为X的概率密度函数(PDF)

性质:
$$ f(x)\ge 0, \int_{-\infty}^{\infty} f(x) dx =1 $$
$$P(a<x<b)= \int_{a}^{b} f(x) dx $$

1.2 随机变量的数值特征

1. 数学期望

定义 :
离散型: $$ E(X) = \sum_{i=1}^{N} p_i x_i $$ 其中$p_i$为$X_i$发生的概率, $\sum p_i =1 $
连续型: $$ E(X) = \int_{-\infty}^{\infty} x f(x) dx $$

特性: $$E(a+bX) = a+b E(X) $$ 式中: a,b为常数

2. 方差

定义:
离散型: $$\sigma^2_X = var(X)=E(X-E(X))^2 = \sum_{i=}^N p_i (x_i - \mu_X)^2 $$
连续型: $$\sigma^2_X = var(X)=\int_{-\infty}^{\infty} (x-\mu_X)^2 f(x) dx $$

性质: $$ var(a+bX) = b^2 var(X) $$

切比雪夫不等式: $$P(\mu - k \rho \le X \le \mu + k \rho) \ge 1-\frac{1}{k^2} $$

3. 偏度和峰度

r 阶矩: $E(X)^r $
r阶中心矩 : $E(X-\mu_X)^r $

偏度(skew) : $$ S = \frac{E(X-\mu_X)^3}{\sigma^3_X} $$
S = 0: 概率密度函数对称;
S > 0: 概率密度函数有长的右拖尾(右偏);
S < 0: 概率密度函数有长的左拖尾(左偏)

峰度(kurtosis): $$ K =\frac{E(X-\mu_X)^4}{\sigma^4_X}  $$
正态分布: K=3, S=0;
K > 3: 分布突起程度大于正态分布
K < 3: 分布较正态分布更平坦

1.3 随机变量的联合分布

联合概率

离散型 : $$P(X=x_i, Y=y_j) = p _k ( i,j = 1,2,....)$$
连续型: $$ P(a<X<b, c<Y<d) = \int_a^b dx \int_c^d f(x,y)dy $$

边际概率

离散型: $$ f_X(x) = P(X=x_i)=\sum_{j=1}^{\infty} p_{ij} $$
连续型: $$ f_X(x) = \int_{-\infty}^{\infty} f(x,y)dy $$

当两个随机变量相互独立时: $f(x,y) = f_X(x) f_Y(y) $

条件概率函数

离散型: $$P(X=x_i | Y = y_j) = \frac{P(X=x_i,Y=y_j}{P(Y=y_j)}  $$
连续型: $$f_X(x|y) = \frac{f(x,y)}{f_Y(y)} $$

协方差和相关系数

协方差: $$ cov(X,Y) = E[( X-\mu_X)(Y-\mu_Y)] $$
协方差度量两个变量的同时波动,如果两个变量同方向变动,则协方差为正,如果两个变量反方向变动,则协方差为负. 如果两个随机变量独立,则协方差为零

当两个变量不是独立的时, 用相关系数度量它们之间的相关程度. $$ \rho = \frac{cov(X,Y)}{\sigma_X \sigma_Y}  $$

二. 总体与样本

1. 基本统计量

样本均值

定义: $$ \bar x = \frac{1}{N} \sum_{i=1}^N x_i $$
其他还有加权平均, 几何平均, 中位数

样本标准差

定义: $$S_x = \sqrt{\frac{1}{N-1}\sum_{i=1}^N (x_i - \bar x)^2 } $$
式中除以N-1, 而不是N的原因是这样得到的样本方差估计量才是无偏的估计量.

样本协方差

定义: $$ C_{xy}=\frac{1}{N-1}\sum_{i=1}^N (x_i - \bar x)(y_i - \bar y) $$

样本相关系数: $$r = \frac{{\sum\limits_{i = 1}^N {({x_i} - \bar x)} ({y_i} - \bar y)}}{{\sqrt {\sum\limits_{i = 1}^N {{{({x_i} - \bar x)}^2}} \sum\limits_{i = 1}^N {{{({y_i} - \bar y)}^2}} } }} = \frac{C_{xy}}{ S_x S_y} $$

交叉相关系数: $$r(l) = \frac{C_{xy}(l)}{S_x S_y} , (l = 0,\pm 1, \pm 2, \cdots ) $$
其中:
$$\left\{ {\begin{array}{*{20}{c}}{\frac{1}{N}\sum\limits_{i = 1}^{N - 1} {({x_i} - \bar x)({y_{i + l}} - \bar y),(l = 0,1,2,...)} }\\{\frac{1}{N}\sum\limits_{i = 1}^{N - 1} {({y_i} - \bar y)({x_{i - l}} - \bar x),(l = 0, - 1, - 2,...)} }\end{array}} \right.$$

2. 估计量的性质

无偏性

估计量的均值等于未知参数的真值, 即 $ E(\hat \beta) = \beta $
因为 $E(\bar x) = \dfrac{1}{N}\sum E(x_i) = \mu_x $, 故$\bar x$是 $\mu_x$的无偏估计.

有效性

样本方差最小.
如$\bar x $是 $\mu_x$的最小方差无偏估计

一致性

样本容量增加时, 估计量越来越接近真值. 即: $$ \mathop{\lim} \limits_{N \to \infty} P(|\beta - \hat \beta| < \delta) = 1 $$

三. 重要的概率分布

正态分布

$$ f(x) = \frac{1}{\sigma \sqrt{2\pi}}e^{-(x-\mu)^2/(2\sigma^2)}  $$

标准正态分布( $\mu=0,\sigma=1$):
$$ f(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2} $$

性质:

  • 正态分布随机变量的线性组合仍服从正态分布
    如: $ X \sim N(\mu_x, \sigma^2_x), Y \sim N(\mu_y,\sigma^2_y) $, 假定X,Y相互独立, 则它们的线性组合 $z=aX+bY$也服从正态分布
    $$ Z \sim N(a\mu_x+b\mu_y, a^2\sigma^2_x + b^2 \sigma^2_y) $$

根据这个性质, 任何正态分布都可以化为标准正态分布,即
$$ Z=\frac{X-\mu}{\sigma} \sim N(0,1) $$
并且有
$$ P(a<X<b)= P(\frac{a-\mu}{\sigma} < \frac{X-\mu}{\sigma} < \frac{b-\mu}{\sigma}) $$

使用标准正态分布时, 常用记号$z{\alpha}$表示满足条件 $P(Z>z{\alpha}) = \alpha $的点,称$z_{\alpha}$为标准正态分布上的$\alpha$分位数.
同时有 $$ P(-z_{\alpha/2}< Z < z_{\alpha/2}) = 1 -\alpha $$

比如常用$\alpha=0.05$, 于是有$P(-1.96<Z<1.96)=95%$, 对于任意正态分布有 $P(\mu-1.96\sigma <X<\mu+1.96\sigma) = 95% $

131717565041921.png

正态分布检验

Jarque-Bera统计量是用来检验一组样本是否能够认为来自正态总体的一种方法.
统计量: $$ JB = \frac{T-k}{6} [S^2+\frac{1}{4}(K-3)^2 ] $$
S,K分别为偏度和峰度, 若为原始数据,k=0, 若序列是通过模型估计得到的,k为估计的参数个数.
在正态分布的假设下, JB统计量服从$\chi^2(2)$分布

$\chi^2 $分布

标准正态分布的平方服从自由度为1的$\chi^2$分布, 即$Z^2 \sim \chi^2(1) $
自由度是平方和中的独立变量个数.

如果$Z_1,Z_2,\cdots,Z_k$是k个独立的服从标准正态分布的随机变量,则它们的平方和服从自由度为k的$\chi^2$分布, 即:
$$ \sum Z_i^2 \sim \chi_k^2$$

131717571762550.jpg

重要性质:
1). $\chi^2$分布只取正值,并且是偏斜分布,其偏度取决于自由度大小,自由度越大越右偏, 随着自由度增大,逐渐接近正态分布.
2). $\chi^2$分布的期望为自由度k, 方差为2k
3). 如果来自方差为$\sigma^2$的一个正态分布的N个观测值的样本方差为$s^2$,则有 $(N-1)s^2/\sigma^2 \sim \chi^2(N-1) $

t分布

如果Z服从标准正态分布, X服从自由度为k的$chi^2$分布,并且两者相互独立,则随机变量 $t = Z/\sqrt{X/k} $ 服从自由度为k的t分布.
131717574268006.png

对于一般正态分布,对样本均值$\bar x$进行标准化后,可得到:
$$Z=\frac{(\bar x - \mu)}{s/\sqrt{N}}  \sim t_{N-1} $$

重要结论: 总体方差$\sigma^2$已知时,标准化的统计量Z服从标准正态分布, 当总体方差未知时,用样本标准差代替总体标准差, 但不再服从标准正态分布,而是服从自由度为N-1的t分布.

性质:
1). t分布是对称的
2). 期望值为0, 方差为 $k/(k-2)$ ( 方差大于标准正态分布的方差1, 故t分布的尾部比正态分布更厚)
3). 自由度增大时, t分布趋近于正态分布, 因此也有 $P(-1.96<t<1.96) \approx 95% $

F分布

如果两个服从$chi^2$分布的随机变量相互独立,其自由度分别为$k_1,k_2$,则 $$ F(k_1,k_2) =\frac{\chi^2(k_1)/k_1}{\chi^2(k_2)/k_2} \sim  F(k_1,k_2) $$

131717578483178.jpg
性质:
1). F分布与$chi^2$分布类似,只取非负值,并且是斜分布
2). 随着自由度增大,F分布趋近于正态分布

从t分布和F分布的定义可以看出, t分布的平方服从$F(1,k)$, 即 $t_k^2 \sim F(1,k) $
当$k_2$无限大时,F的分母收敛为1, 这时F分布与$\chi^2$分布存在如下关系 $$F(k_1,k_2) = \chi^2(k_1)/k_1 $$

四. 统计推断

1. 参数估计

进行参数估计的方法通常有

  • 矩估计 , 如用样本均值(样本一阶矩)作为总体均值(总体一阶矩)的估计方法
  • 极大似然估计

参数估计的置信度与置信区间
如果随机变量$X \sim N(\mu_x,\sigma^2) $,则有 $$\bar x \sim N(\mu_x, \sigma^2/N) $$
将其标准化得到 $$ Z=\frac{(\bar x - \mu_x)}{\sigma/\sqrt{N}} \sim N(0,1) $$
一般情况下,方差$\sigma^2$是未知的,但可以用样本估计量 $s^2=\sum (x_i-\bar x)^2/(N-1)$来代替,于是有 $$ t = \frac{\bar x - \mu_x}{s/\sqrt{N}} \sim t(N-1) $$
得到 $$P(-t_{\alpha/2} < \frac{\bar x - \mu_x}{s/\sqrt{N}} <t_{\alpha/2}) = 1-\alpha $$
整理得 $$P(\bar x - t_{\alpha/2} s/\sqrt{N} < \mu_x < \bar x + t_{\alpha/2} s/\sqrt{N}) = 1-\alpha $$
即置信度为$1-\alpha$ 的置信区间.

注意理解: 置信区间是随机的,根据不同的观测值会得到不同的区间,而总体均值$\mu_x$虽然未知, 却是一个固定值,所以置信区间应该理解为该区间包含真实$\mu_x$的概率是 $1-\alpha$. 而不能理解为$\mu_x$落在区间中的概率.

2. 假设检验

假设检验的基本思想是小概率反证法。即认为小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生.
反证法是在进行假设检验时,先假设H0正确,在此假设下,若小概率事件A出现的概率很小,例如P(A)=0.01, 经过取样试验,A出现了,则认为假设不合理,不应该接受.于是否定H0. 反之试验中A没有出现, 从而做出接受H0的结论.

  • 原假设 H0
    是关于总体的而非样本的统计量的假设
    总是假设原假设是成立的
    总是有等号 ( =, ≥ 或 ≤ )
  • 备选假设H1
    是原假设的对立
    备选假设是试图要建立的检验
    总是有不等号 (≠, < 或 > )

  • 显著性水平
    原假设为真时, 拒绝原假设的概率

  • 假设检验的步骤
    1) 提出原假设和备选假设
    2) 确定适当的假设检验统计量
    3) 规定显著性水平
    4) 计算检验统计量的值
    5) 做出统计决策
    根据给定的显著性水平,查表得出相应的临界值,并将统计量值与显著性水平下的临界值进行比较,从而得出接受或拒绝原假设的结论.

  • 两类错误
    1) 弃真错误 - 原假设是正确的却拒绝了. 犯这类错误的概率是 P( 拒绝H0 | H0为真)=α
    2) 取伪错误 - 原假设为假却接受了, 犯这类错误的概率为 β

    假设检验中只控制犯第一类错误的概率,而不考虑第二类错误(通常以扩大样本容量的方式来减小其犯错的概率).
    对于给定的显著性水平$\alpha$,根据$\alpha$分为点的定义,由 $P(拒绝H_0 | H_0为真)=\alpha$,求出拒绝域. 如果统计量的值落在拒绝域内则拒绝H0.

    131717581142864.png

131717583321863.png

131717585352334.png

  • P值与临界值的关系
    131717587234277.png
    在右侧可见统计量的值越大,P值越小,就越能拒绝原假设.


来自为知笔记(Wiz)


转载于:https://www.cnblogs.com/crossmind/p/3841296.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/293364.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mathwin.top 联系我们_设计:“有目的”的“因果联系”

什么是设计&#xff0c;康石石估计这是很多同学的疑问&#xff0c;甚至这个疑问会一直拖到从业以后的N多年。 似乎到现在&#xff0c;设计都仍没有一个明确的定义&#xff0c;当然康石石并没有野心试图为设计定义&#xff0c;谨希望通过此篇文章&#xff0c;帮助同学们更加深入…

吴继业:LinkedIn商业分析部如何运用大数据实现商业价值

为什么80%的码农都做不了架构师&#xff1f;>>> 吴继业&#xff1a;LinkedIn商业分析部如何运用大数据实现商业价值 LinkedIn的三大商业解决方案为公司带来了丰厚的利润&#xff0c;这三大解决方案包括人才解决方案、市场解决方案和高级订阅服务。对其内容详细…

2022年终结版WPF项目实战合集发布

前言在年中, 组织了一个WPF公益视频教程, 在半天内凑集了2W的费用由此启动了该视频录制计划, 到目前为止, 视频教程已经结束。在这里非常感谢参与本次教程以及长期支持的同学, 下面将主要讲解关于本次视频公开的计划以及后期的计划。视频公开计划本次视频合集共58集, 包含了WPF…

vim文本编辑器

vi命令是UNIX操作系统和类UNIX操作系统中最通用的全屏幕纯文本编辑器。Linux中的vi编辑器叫vim&#xff0c;它是vi的增强版&#xff08;vi Improved&#xff09;&#xff0c;与vi编辑器完全兼容&#xff0c;而且实现了很多增强功能。vim功能十分强大&#xff0c;具有很多有优点…

第一个发现我嫂子有喜的竟然是......

1 第一个发现我嫂子有喜的竟然是他们家的狗......▼2 有一个温柔的妈妈是什么体验▼3 希望你尊重一下你男朋友▼4 今天考试了不知道各位召唤师考得怎么样了▼5 山东人表示并没有▼6 关键是&#xff0c;你说你没钱他们还都不信▼7 哇&#xff01;不愧是大师▼7 数学可以…

读书笔记--互联网必读《长尾理论》作者克里斯.安德森

《长尾理论》 1.长尾市场................................................................................................................... 2 2.大热门的兴衰起伏.................................................................................................…

@order注解_别再用ifelse了,用注解去代替他吧

来自公众号&#xff1a;咖啡拿铁策略模式经常在网上看到一些名为“别再if-else走天下了”&#xff0c;“教你干掉if-else”等之类的文章&#xff0c;大部分都会讲到用策略模式去代替if-else。策略模式实现的方式也大同小异。主要是定义统一行为(接口或抽象类)&#xff0c;并实现…

我们能复活恐龙吗?

全世界只有3.14 % 的人关注了爆炸吧知识鲁迅曾经说过&#xff1a;“不会画漫画的段子手不是好英语老师”咳咳~ 图图君就是这样一位专注知识科普的双语漫画家长按二维码带你去图图君家串串门儿我们到底能不能复活恐龙&#xff1f;长按二维码关注回复“恐龙”寻找答案吧在这里你不…

eks volumn s3_威客电竞 深渊联赛S3欧洲区总决赛,Secret成就八连冠

威客电竞&#xff0c;亚洲领先的专业电竞赛事预测平台。DOTA PIT深渊联赛线上赛第三赛季经过为期一周的激烈比赛&#xff0c;Secret战队在11支参赛队伍中一路杀进总决赛&#xff0c;与VP.P战队展开巅峰对决。最终Secret战队3:0完胜VP.P战队斩获DOTA PIT S3欧洲区冠军&#xff0…

初探IdentityServer4(客户端模式)

Oatuth2协议的客户端模式介绍Client Credentials Grant &#xff08;客户端模式&#xff09;是Oauth2.0协议中&#xff0c;四种模式自建单的一种。它由两部分构成&#xff0c;客户端和认证服务器。认证服务器确认客户端无误后返回一个token&#xff0c;客户端请求带着token访问…

研究表明:胸部大小其实早已.....

1 这样就能不战而胜了&#xff08;素材源于网络&#xff0c;侵删&#xff09;▼2 说好的情比金坚呢&#xff1f;▼3 整挺好&#xff0c;锅都不用洗了&#xff08;via.豆瓣撕破伤口、&#xff09;▼4 就是这么自信▼5 什么丝袜这么厉害▼6 好家伙&#xff0c;请问还需要女婿…

Java学习笔记之 IO包 字节流

IO包最重要的五个类和一个接口 File/OutputStream/InputStream(字节流)/Writer/Reader(字符流) 一个接口&#xff1a;Serializable File类&#xff1a; 字节流&#xff1a; OutputStream与InputStream是抽象类 OutputStream是整个IO包中&#xff0c;字节输出流的最大类 Fi…

bootstrap bootstraptable 固定列_1个Excel公式按条件自定义格式显示固定电话号码

点击右上角“关注”&#xff0c;每天免费获取干货教程前面写了很多篇关于数据查询、数据统计、数据分析、公式排错的教程&#xff0c;今天换一个口味&#xff0c;写个关于自定义格式显示数据的教程。因为工作中很多时候都需要按照指定的要求将数据源整理成固定的格式&#xff0…

记一次引入Elasticsearch的系统架构实战

前言我曾经面试安踏的技术岗&#xff0c;当时面试官问了我一个问题&#xff1a;如果你想使用某个新技术但是领导不愿意&#xff0c;你怎么办&#xff1f;对于该问题我相信大家就算没有面试被问到过&#xff0c;现实工作中同事之间的合作也会遇到。 因此从我的角度重新去回答这…

【 Tomcat 】tomcat8.0 调优配置

2019独角兽企业重金招聘Python工程师标准>>> 1、优化内核及TCP连接&#xff1a; fs.file-max 655350  # 系统文件描述符总量 net.ipv4.ip_local_port_range 1024 65535  # 打开端口范围 net.ipv4.tcp_max_tw_buckets 2000  # 设置tcp连接时TIME_WAIT个数 n…

[转]ORACLE 异常错误处理

本文转自&#xff1a;http://www.cnblogs.com/soundcode/archive/2012/01/10/2318385.html 本篇主要内容如下&#xff1a; 5.1 异常处理概念 5.1.1 预定义的异常处理 5.1.2 非预定义的异常处理 5.1.3 用户自定义的异常处理 5.1.4 用户定义的异常处理 5.2 异常错误传播 5.2.1 在…

abb机器人指令手册_第1519课 ABB机器人初级教程

每一位读者都是我分享的动力&#xff0c;感谢大家关注&#xff01;第15课 系统输入输出与IO信号的关联第16课 示教器可编程按钮的使用第17课 什么是程序数据第18课 程序数据的类型与分类第19课 创建程序数据第15课第16课第17课第18课第19课每一位读者都是我分享的动力&#xff…

Java学习笔记之 IO包 字符流

字符流&#xff1a;Writer/Reader(字符流) 通过子类FileWriter和FileReader实现父类实例化 package iotest; import java.io.File; import java.io.Writer; import java.io.Reader; import java.io.FileWriter; import java.io.FileReader; public class OutputStreamDemo2 { p…

ci框架(二)

自定义SQL语句 当提供的API满足不了我们对SQL语句的要求的时候&#xff0c;我们通常是自己来写SQL语句&#xff0c;CI也提供了比较强大了&#xff0c;能够满足我们需求的一般的sql的API。 $res$…