第七章 假设检验

假设检验的目的是通过收集到的数据,来验证某个想要得到的结论。
假设检验的思想是:小概率反证法思想。
显著性检验是本章的主要内容。下面从实际例子来通俗的理解一下显著性检验。
显著性检验中有几个概念不太好理解。

嫌犯X是否有罪

 有这样一个事件:2016年5月5日下午3-4点之间张三家里的电视机被偷了。邻居王五看到嫌犯X,在2016年5月5日下午3点15从张三家里拿着一台电视机鬼鬼祟祟地走出来。警察到嫌犯X家里,发现了张三家的电视。
 依据上面的描述判断嫌犯X是否真的偷了张三家的电视。这就是:通过收集到的数据,来验证某个想要得到的结论。
 事件A:王五看到嫌犯X从张三家里拿着一台电视机(人证)。
 事件B:嫌犯X家里有张三家的电视(物证)。
 事件C:张三报警说家里丢了一台电视机。

1设立假设

 做原假设H0:嫌犯X无罪。这是基于“疑罪从无”的原则出发的。先假设一个人没有罪,再用证据证明有罪,才可以确定有罪。这就是说为什么H0假设是一个强假设,是被保护的假设。
 备择假设H1:嫌犯X有罪。

真实情况根据证据证明
-无罪有罪
无罪正确犯第I类错误
有罪犯第II类错误正确

2判断依据

 真实情况只有嫌犯X知道,但是又没有依据可以判定X说的是否正确。所以只能做假设检验。 
 在X无罪的前提下,事件A和B同时发生的概率:P{(AB)|X}α=0.00001 ,就证明嫌犯X有罪。证据是已经存在的事实。一个概率万分之一的事情是一个小概率事件。在一次试验中小概率事件发生的可能性几乎不存在,可以推测一定是前提错了。也就是说H0:嫌犯X无罪 是错误的。证明H1:嫌犯X有罪 成立。
 那么这个结果要求在多大概率上保证了嫌犯X有罪呢?是在(1-α)概率上保证了嫌犯X有罪。
 大家可以看到,这里只考虑了可以证明嫌犯X有罪的证据,并没有考虑嫌犯X无罪的证据。因为前提就是嫌犯X无罪。

3根据资料,计算概率

 如果X无罪,也就是说如果X没有偷东西,并且张三报警自己丢了电视机,那X从张三家里拿电视机这件事情发生的概率应该为0。这是依据常识(社会规范)来的。P(A|X)=0
 如果X没有偷东西,那张三家的电视在他家里这件事情(事件B)的概率大于0,暂时随意给定一个值例如0.5,可能是真正的小偷为了栽赃陷害X放在他家里。P(B|X)=0.5
 P{(AB)|X}=0
 

4根据样本得出结论

 P{(AB)|X}=0α成立。推出H0不成立,H1成立。嫌犯X有罪。在这个例子中以(1-0)的概率保证了这个结论是正确的。
 

假设检验的步骤

 下面用数理统计的语言描述一下假设检验。

1 建立两个完全对立的假设

 原假设H0,备择假设H1

选择原假设的一些原则

 1 错误拒绝假设A的后果更严重,则选择做原假设。
 假设A:新药有某种毒副作用。
 假设B:新药没有毒副作用。
 如果把“有毒副作用”错认为“无毒副作用”后果更严重。如果把“没有毒副作用”错认为“有毒副作用”后果较轻。则选择A做原假设。
 这里有一个原则是“疑罪从无”。如果认为有罪则一定要有证据证明有罪,否则就是无罪。如果法官判犯人无罪,只能说明没有证据证明这个人有罪。所以一定要用证据来证明后果比较严重的结论。原假设,就是用证据来证明的那个结论。
 2 原假设一般为维持现状的假设。
 例如:原假设:药物没有减肥效果。
 3 原假设取简单假设。
 原假设选择只有一种情况的假设。
 H0是一个被保护的假设,一定要慎重选择。
 

参数假设的形式

  1. 左边检验 H0:θ=θ0H1:θ<θ0
    左边检验的第二种形式是H0:θθ0H1:θ<θ0
  2. 右边检验 H0:θ=θ0H1:θ>θ0
    右边检验的第二种形式是H0:θθ0H1:θ>θ0
  3. 双边检验 H0:θ=θ0H1:θθ0

检验假设的方法

 1 临界值法
 2 P值法

2 给出检验统计量,确定拒绝域的形式

 检验统计量:如果统计量T=T(X1,X2,...Xn)的取值大小和原假设H0是否成立有密切联系,则被称为检验统计量。
 拒绝域:对应于拒绝原假设H0时,样本值的范围称为拒绝域。拒绝域是参考H1得到的。
 两类错误:如果原假设为真,根据样本拒绝了原假设,这时候的错误称为第I类错误–弃真。如果原假设为假,根据样本接受了原假设,这时候的错误称为第II类错误–取伪。
 α=P{I}=P{H0|H0}
 β=P{II}=P{H0|H0}
 例如:H0:μ=0H1:μ>0,注意到X¯¯¯μ的无偏估计X¯¯¯取值的大小反映了μ的取值情况。当原假设成立的时候,X¯¯¯的取值应该比较小。所以
 当X¯¯¯C的时候,拒绝原假设H0
 当X¯¯¯<C的时候,接受原假设H0
 
 图中蓝色曲线表示H0为真,X¯¯¯C拒绝原假设,也就是犯了第I类错误。
 图中红色的线表示H0为假,X¯¯¯<C接受了原假设,也就是犯了第II类错误。
 在样本量n一定的情况下,这两类错误的概率是互相制约的。Neyman-Pearson原则要求首先控制第I类错误的概率不能超过某个常数α(0,1),再寻找检验,使得第II类错误的概率尽可能得小。α称为显著性水平α的取值多为:0.001,0.005,0.1。
 只对第I类错误的概率加以控制,而不考虑第II类错误的概率的检验,称为显著性检验
 

3 根据显著性水平和统计量的分布确定临界值

临界值法

P值法

 无论哪种形式都要求知道统计量的分布。

4 根据样本得出结论

临界值法

P值法

 结合第三步算出来的数值,与拒绝域想比较看是否成立。

例子

 题目:某种减肥药广告宣称, 连续使用该种减肥药一个星期便可达到减肥的效果。为了测定其广告是否有效做了测试。记录服用减肥药前后的体重。测得服药前体重-服药后体重差值:1.5,0.6,-0.3,1.1,-0.8,0,2.2,-1.0,1.4。假定总体σ2=0.36。取显著水平α=0.05

假设

 原假设H0:该减肥药无效,μ=0;(减肥药如果没有效果,平均每个人的体重变化应该是0)
 备择假设H1:该减肥药有效,μ>0

提出检验统计量和拒绝域的形式

 需要判断的是总体均值μ,根据第六章参数估计得知样本均值X¯¯¯μ的无偏估计。所以选择X¯¯¯作为检验统计量。
 在第五章抽样分布中知道单个正态总体的抽样分布X¯¯¯~N(μ,σ2/n)或者X¯¯¯μσ/(n)~N(0,1)。
 H0μ=0,所以X¯¯¯也要尽可能等于0。可以设定一个值C,当X¯¯¯<C的时候,接受原假设。当X¯¯¯C,时拒绝原假设。根据H1得到拒绝域:W={(X1,X2,...Xn):X¯¯¯>C}

确定临界值

 当H0:μ=0成立的时候,X¯¯¯σ/(n)~N(0,1),也就是说X¯¯¯0.6/3~N(0,1)

临界值法

 P{X>C|μ=0}=P{X¯¯¯0.6/3>C0.6/3}=1Φ(C0.6/3)α=0.05
 Φ(C0.6/3)10.05=0.95
 查表知道Φ(1.645)=0.95,得到C0.6/31.645,得到C0.329。要使得第II类错误尽可能小,所以C=0.329
 根据样本值计算x¯=0.522

P值法

 根据样本值计算x¯=0.522
 计算一下在H0条件下,目前的样本发生的概率:P{X¯¯¯>x¯|μ=0}P{X¯¯¯0.6/3>0.5220.6/3}=1Φ(2.61)=10.9955=0.0045 (这里如果忘记了参考第二章随机变量中,普通正态分布与标注正态分布的换算)

4 根据样本得出结论

临界值法

 临界值C=0.329,x¯=0.522x¯>C符合拒绝域W={(X1,X2,...Xn):X¯¯¯>C}。所以拒绝H0,接受H1

P值法

 P{X¯¯¯>x¯|μ=0}=0.0045<α=0.05,所以拒绝H0,接受H1。在这个例子中,可以保证 0.9955的概率,接受H1是一件正确的事情。

心得

 我认为P值法是比较好理解的。我只要计算一下在H0条件下,已经发生的事情(样本)落在拒绝域的概率P。P比显著性水平要小的时候,结合小概率事件不会在一次试验中发生,就可以拒绝H0,接受H1。否则就接受H0
 临界值法是根据要求的显著性水平,算出统计量的一个临界值。
 记住拒绝域是由H1决定的。
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/424934.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第七章 假设检验(2)

接上文。 正态总体均值、方差的假设检验 单个正态总体均值的假设检验、方差的假设检验&#xff1b;成对数据均值的假设检验、两个正态总体方差比的检验。根据检验统计量的分布分别称为:z检验、t检验、卡方检验、F检验。 分布原假设H0检验统计量备择假设H1拒绝域单正态(σ2已知…

第二十二期:动画讲解TCP,再不懂请来打我

TCP 三次握手过程对于面试是必考的一个&#xff0c;所以不但要掌握 TCP 整个握手的过程&#xff0c;其中有些小细节也更受到面试官的青睐。 前言 TCP 三次握手过程对于面试是必考的一个&#xff0c;所以不但要掌握 TCP 整个握手的过程&#xff0c;其中有些小细节也更受到面试官…

第二十三期:你用的Windows操作系统是不是盗版?微软知道吗

长期以来&#xff0c;一些小白对于微软操作系统的“正版”“盗版”“原版”的含义不太明确&#xff0c;从根本上说Windows原始版权属于微软&#xff0c;我们没有那个技术去开发盗版操作系统&#xff0c;很多人用的可能是二次修改的版本&#xff0c;而操作系统的激活方式&#x…

[Leetcode][第109题][JAVA][有序链表转换二叉搜索树][分治][快慢指针][中序遍历]

【问题描述】[中等] 【解答思路】 1. 分治 快慢指针 复杂度 class Solution {public TreeNode sortedListToBST(ListNode head) {return buildTree(head, null);}public TreeNode buildTree(ListNode left, ListNode right) {if (left right) {return null;}ListNode mid …

第四十六期:关于云存储的五大优势

5G时代&#xff0c;越来越多的企业开始选择在云上存储数据&#xff0c;对于IT部门来说&#xff0c;了解云存储的优势是很有必要的。今天给大家介绍云存储的五大优势&#xff0c;以及它们如何帮助用户解决一些常见IT问题。 1、可扩展性 传统存储系统以及横向扩展增加的节点&…

第四十七期:毕业3年Java程序员,年薪20W,他是如何达到的?

Java架构师&#xff0c;首先要是一个高级java攻城狮&#xff0c;熟练使用各种框架&#xff0c;并知道它们实现的原理。jvm虚拟机原理、调优&#xff0c;懂得jvm能让你写出性能更好的代码;池技术&#xff0c;什么对象池&#xff0c;连接池&#xff0c;线程池…… Java架构师&…

【数据结构与算法】散列表

一、散列表的由来&#xff1f; 1.散列表来源于数组&#xff0c;它借助散列函数对数组这种数据结构进行扩展&#xff0c;利用的是数组支持按照下标随机访问元素的特性。 2.需要存储在散列表中的数据我们称为键&#xff0c;将键转化为数组下标的方法称为散列函数&#xff0c;散列…

第八章方差分析以及线性回归(1)

方差分析 方差分析是由英国统计学家Fisher在20世纪20年代提出的。  方差分析的目的是推断两个或者两个以上的总体均值是否有差异的显著性检验。 单因素方差分析 例子 保险公司为了了解某一险种在4个不同地区索赔额情况是否存在差异。收集了四个地区一年的索赔额记录。这四个…

第四十八期:只因写了一段爬虫,公司200多人被抓!

刚从朋友听到这个消息的时候&#xff0c;我有点不太相信&#xff0c;做为一名程序员来讲&#xff0c;谁还没有写过几段爬虫呢&#xff1f;只因写爬虫程序就被端有点夸张了吧。 作者&#xff1a;纯洁的微笑|2019-10-17 09:51 “一个程序员写了个爬虫程序&#xff0c;整个公司20…

[Leetcode][第647题][JAVA][回文子串][动态规划][中心扩展][Manacher 算法]

【问题描述】[中等] 【解答思路】 1. 暴力 首先明确如何判断一个字符串是否为回文字符串。第一个字符与最后一个字符相同&#xff0c;第二个字符与倒数第二个字符相同…关于中心位置轴对称。 本题要求一共有多少个回文子串&#xff0c;那么就需要判断&#xff0c;索引[i, j]的…

玩转oracle 11g(52):Oracle导出导入表(.sql、.dmp文件)两种方法

提示&#xff1a;在导入sql和dmp文件之前&#xff0c;先建立用户&#xff0c;指明表空间。其中要注意用户名和表空间最好跟sql文件中的一样。 方法一&#xff1a;.sql文件的导出与导入 导出步骤 使用PL/SQL Developer登录你需要备份的数据库&#xff1b;选择工具->导出用…

第八章方差分析以及线性回归(2)

一元线性回归 变量间的关系 变量与变量之间的关系分为确定性关系和相关性关系。  确定性关系是指当自变量给定一个值的时候&#xff0c;就能计算出应变量的值。例如物体下落高度h与下落时间t的关系&#xff1a;h12gt2。  相关性关系是指变量之间的关系不确定&#xff0c;表…

Creating a Pulsing Circle Animation

Creating a Pulsing Circle Animation 原文 https://www.kirupa.com/animations/creating_pulsing_circle_animation.htm Outside of transitions that animate between states, we dont see a whole lot of actual animation in the many UIs we interact with. We dont have …

第四十九期:化繁为简的五种码农必备工具

如今&#xff0c;开发工具已成为了软件开发过程中必不可少的组成部分。本文将向您介绍当前软件开发市场上颇具影响力的五种化繁为简的码农必备工具。 不知您是否已经发现&#xff1a;那些以任务为中心的软件开发工作&#xff0c;会比独立的研究式开发复杂得多。针对软件产品的开…

第五十期:工作强度超996,失业半年即出局,硅谷为何如此“嗜血”?

在硅谷&#xff0c;靠创业发财的人被称为中了“硅谷六合彩”&#xff0c;大多数个体的艰难挣扎&#xff0c;最终换来了硅谷长久的繁荣昌盛。 划重点 1、在硅谷&#xff0c;靠创业发财的人被称为中了“硅谷六合彩”。 2、谷歌的合同工必须比正式工早两小时到公司打卡&#xff…

【数据结构与算法】二叉树

树 1.树、二叉树 2.二叉查找树 3.平衡二叉树、红黑树 4.递归树 一、树 1.树的常用概念 根节点、叶子节点、父节点、子节点、兄弟节点&#xff0c;还有节点的高度、深度以及层数&#xff0c;树的高度。 2.概念解释 节点&#xff1a;树中的每个元素称为节点 父子关系&#xff…

第二十四期:面试问:Kafka为什么速度那么快?该怎么回答

针对Kafka的基准测试可以参考&#xff0c;Apache Kafka基准测试&#xff1a;每秒写入2百万(在三台廉价机器上)下面从数据写入和读取两方面分析&#xff0c;为什么Kafka速度这么快 Kafka的消息是保存或缓存在磁盘上的&#xff0c;一般认为在磁盘上读写数据是会降低性能的&#x…

【数据结构与算法】平衡二叉树、红黑树

1.树、二叉树 2.二叉查找树 3.平衡二叉树、红黑树 4.递归树 一&#xff0c;什么是“平衡二叉查找树” 1&#xff0c;定义&#xff1a;二叉树中任意一个节点的左右子树的高度相差不能大于1。 所以&#xff1a;完全二叉树&#xff0c;满二叉树都是平衡二叉树&#xff0c;非完全…

第五十一期:互联网不如国企,去BAT的程序员都是diao丝?

要说互联网是目前最热门的行业&#xff0c;应该没人反驳吧。尤其是技术&#xff0c;大家都想毕业后去BAT大厂&#xff0c;甚至比如微软、google等外企科技公司&#xff0c;学编程出身的高校学子&#xff0c;去国企的还是比较少。除非为了拿一线城市的户口&#xff0c;不然可能真…

文档排序--相似度模型--VSM

说明&#xff1a;文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。文章不是翻译&#xff0c;是我对课程的理解。 上文提到文档排序函数是TR的核心。文档排序函数的实现有几种思路&#xff0c;其中一种是基于相似度的模型。这种模型具体是用空间向量模型(Vector Sp…