【统计的思想】假设检验(二)

假设检验是根据人为设定的显著水平,对被测对象的总体质量特性进行统计推断的方法。

如果我们通过假设检验否定了零假设,只是说明在设定的显著水平下,零假设成立的概率比较小,并不是说零假设就肯定不成立。如果零假设事实上是成立的,我们就犯了弃真错误,也就是第一类错误。这种错误出现的可能性,叫做弃真概率。

如果我们通过假设检验接受了零假设,也只是因为测试结果和期望的差异并不显著,并不足以推翻零假设,并不是说零假设就肯定成立。如果零假设事实上并不成立,我们就犯了取伪错误,也就是第二类错误。这种错误出现的可能性,叫做取伪概率。

显然,如果减小显著水平,就更不容易推翻零假设,所以弃真概率会变小,但相应的取伪概率就会变大;而增大显著水平的话,就更容易推翻零假设,取伪概率会变小,但弃真概率就会变大。

那怎么才能同时减小弃真概率和取伪概率呢?一般要在减小显著水平的同时,增加样本量。来看一个例子。

很多人以为结核病已经绝迹了,实际上并不是。2023年世卫组织发布的报告说,结核病发病率高达万分之5.2,仍然是世界上最常见的传染病之一。结核病的传统药物治愈率是60%。最近有一家药厂研制了一种新药,随机找了50名患者做临床试验,治愈率达到了70%。那么,我们能不能下结论说,这种新药的药效比传统药物更好呢?

我们来做假设检验:

  1. 建立零假设。假设新药的药效跟传统药没有差别,治愈率还是60%;

  2. 设定显著水平。取α=0.01;

  3. 计算测试结果的发生概率。如果新药的治愈率是60%,就是说每个人被治愈的可能性都是60%,那么50人里有70%的人、也就是35人被治愈的概率是多少呢?可以用二项分布来计算,算出来的概率是0.04;

  4. 统计推断。由于测试结果的发生概率比显著水平0.01要大,所以我们会接受零假设,结论是新药跟传统药没有显著差别。

但是如果我们扩大临床试验的规模,把人数增加到120人,样本治愈率还是70%,用同样的方法算下来,概率是0.006,就比显著水平0.01要小了,于是零假设就被推翻了,结论就会变成“新药的药效要明显好于传统药物”。

这两个结论,哪一个更靠谱呢?很明显是后者。因为样本量越大, 样本就越能代表总体,抽样误差就越小。把样本量增大到120之后,发现假设检验的结论变了,说明之前样本量是50的时候,我们犯了取伪错误。

所以我们说,要想同时减小弃真概率和取伪概率,一般就需要增加样本量。这跟统计抽样测试里的结论是类似的。当然样本量越大,测试成本也越高。

在统计抽样测试中,我们可以借助操作特性曲线,来描述测试设计方案背后的生产方风险和使用方风险,给测试结论做一个必要的补充。这是统计抽样测试缓解测试可信性问题的常规思路。

操作特性曲线

海旭老师,公众号:重新认识测试设计【统计的思想】统计抽样测试(二)

其实还有一个办法,可以达到类似的效果,就是用假设检验。

还是来看例子:假设待测批的批量是5000,要求不合格率不超过25%,抽取了305件样品做检验,有92件不合格,样本的不合格率是30.2%。那么,待测批是不是一个合格批呢?按统计抽样测试的判断,结论应该是不合格,但这个结论不一定靠谱,有可能犯弃真错误,所以需要用操作特性曲线来补充说明。

如果用假设检验,应该怎么做呢?在前面的文章中,我们已经介绍过抽样分布的一组基本规律:

① 样本量越大,样本均值越趋近于服从正态分布;

② 样本均值的数学期望与总体的数学期望相同;

③ 样本均值的方差等于总体方差除以样本量。

抽样分布的基本规律

海旭老师,公众号:重新认识测试设计【统计的思想】假设检验(一)

如果我们把不合格的样本记作1,合格的样本记作0,那样本均值就等同于样本不合格率。这样,上述基本规律就能应用于统计抽样测试了,即:

① 当样本量n很大的时候,样本不合格率近似服从正态分布;

② 样本不合格率的数学期望,等于整批的不合格率p;

③ 样本不合格率的方差,等于p(1-p)/n。因为整批服从伯努利分布,方差是p(1-p)。

基于此,我们就可以做假设检验了:

  1. 建立零假设。假设整批的不合格率是25%,是一个合格批;

  2. 设定显著水平。这里取α=0.05;

  3. 计算测试结果发生的概率。既然样本不合格率服从正态分布,均值是25%,方差是:\sigma_{\hat{p}}=\sqrt{\frac{p(1-p)}{n}}=0.0248

    那么样本不合格率达到30.2%以上的概率,就是:P(T)=1-\Phi\left( \frac{0.302-0.25}{0.0248} \right)=0.0179

  4. 统计推断。测试结果发生的概率比显著水平小,所以否定零假设。

最终的测试结论是,在显著水平0.05的概率意义下,待测批不合格。可以看到,假设检验是从显著水平的角度来补充测试结论的,同样能缓解测试可信性问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/68351.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025多目标优化创新路径汇总

多目标优化是当下非常热门且有前景的方向!作为AI领域的核心技术之一,其专注于解决多个相互冲突的目标的协同优化问题,核心理念是寻找一组“不完美但均衡”的“帕累托最优解”。在实际中,几乎处处都有它的身影。 但随着需求场景的…

DeepSeek-R1试用

最近DeepSeek太火了,对配置要求不高。刚好放假,下载试试。发现开源大模型的生态做的挺好的,几分钟就能在本地部署一个大模型。 配置 NVIDIA RTX 2060 6GB(最低要求 NVIDIA GTX 1060 6GB ) 下载Ollama Ollama是一个…

Android中Service在新进程中的启动流程2

目录 1、Service在客户端的启动入口 2、Service启动在AMS的处理 3、Service在新进程中的启动 4、Service与AMS的关系再续 上一篇文章中我们了解了Service在新进程中启动的大致流程,同时认识了与客户端进程交互的接口IApplicationThread以及与AMS交互的接口IActi…

计网week1+2

计网 一.概念 1.什么是Internet 节点:主机及其运行的应用程序、路由器、交换机 边:通信链路,接入网链路主机连接到互联网的链路,光纤、网输电缆 协议:对等层的实体之间通信要遵守的标准,规定了语法、语义…

windows下部署安装 ELK,nginx,tomcat日志分析

1.安装包 如上就是elk- windows下部署需要用到的安装包 (ps:注意版本需要对应,另外es7版本对应是 jdk8,若更高版本 请自行查询版本对应号)。 下载地址: Past Releases of Elastic Stack Software | Elastic 此地址可…

docker安装MySQL8:docker离线安装MySQL、docker在线安装MySQL、MySQL镜像下载、MySQL配置、MySQL命令

一、镜像下载 1、在线下载 在一台能连外网的linux上执行docker镜像拉取命令 docker pull mysql:8.0.41 2、离线包下载 两种方式: 方式一: -)在一台能连外网的linux上安装docker执行第一步的命令下载镜像 -)导出 # 导出镜…

【AI论文】魔鬼在细节:关于在训练专用混合专家模型时实现负载均衡损失

摘要:本文重新审视了在训练混合专家(Mixture-of-Experts, MoEs)模型时负载均衡损失(Load-Balancing Loss, LBL)的实现。具体来说,MoEs的LBL定义为N_E乘以从1到N_E的所有专家i的频率f_i与门控得分平均值p_i的…

C语言编程笔记:文件处理的艺术

大家好,这里是小编的博客频道 小编的博客:就爱学编程 很高兴在CSDN这个大家庭与大家相识,希望能在这里与大家共同进步,共同收获更好的自己!!! 本文目录 引言正文一、为什么要用文件二、文件的分…

OpenAI的真正对手?DeepSeek-R1如何用强化学习重构LLM能力边界——DeepSeek-R1论文精读

2025年1月20日,DeepSeek-R1 发布,并同步开源模型权重。截至目前,DeepSeek 发布的 iOS 应用甚至超越了 ChatGPT 的官方应用,直接登顶 AppStore。 DeepSeek-R1 一经发布,各种资讯已经铺天盖地,那就让我们一起…

Baklib如何重塑内容中台的智能化推荐系统实现个性化服务

内容概要 在数字内容日益丰富的今天,内容中台的智能化推荐系统显得尤为重要。它通过分析和处理海量的数据,为用户提供个性化的内容推荐,从而提升用户体验。在智能化推荐系统中,主要由以下几个部分构成: 部分主要功能…

从零推导线性回归:最小二乘法与梯度下降的数学原理

​ 欢迎来到我的主页:【Echo-Nie】 本篇文章收录于专栏【机器学习】 本文所有内容相关代码都可在以下仓库中找到: Github-MachineLearning 1 线性回归 1.1 什么是线性回归 线性回归是一种用来预测和分析数据之间关系的工具。它的核心思想是找到一条直…

【MySQL】 数据类型

欢迎拜访:雾里看山-CSDN博客 本篇主题:【MySQL】 数据类型 发布时间:2025.1.27 隶属专栏:MySQL 目录 数据类型分类数值类型tinyint类型数值越界测试结果说明 bit类型基本语法使用注意事项 小数类型float语法使用注意事项 decimal语…

数字人+展厅应用方案:开启全新沉浸式游览体验

随着人们生活质量的不断提升,对于美好体验的追求日益增长。在展厅展馆领域,传统的展示方式已难以满足大众日益多样化的需求。而通过将数字人与展厅进行深度结合,可以打造数字化、智能化新型展厅,不仅能提升展示效果,还…

RK3588平台开发系列讲解(ARM篇)ARM64底层中断处理

文章目录 一、异常级别二、异常分类2.1、同步异常2.2、异步异常三、中断向量表沉淀、分享、成长,让自己和他人都能有所收获!😄 一、异常级别 ARM64处理器确实定义了4个异常级别(Exception Levels, EL),分别是EL0到EL3。这些级别用于管理处理器的特权级别和权限,级别越高…

K8s运维管理平台 - xkube体验:功能较多

目录 简介Lic安装1、需要手动安装MySQL,**建库**2、启动命令3、[ERROR] GetNodeMetric Fail:the server is currently unable to handle the request (get nodes.metrics.k8s.io qfusion-1) 使用总结优点优化 补充1:layui、layuimini和beego的详细介绍1.…

无人机红外热成像:应急消防的“透视眼”

无人机红外热成像:应急消防的“透视眼” 亲爱的小伙伴们,每年一到夏天,应急消防的战士们就像上紧了发条的闹钟,时刻准备应对各种灾害。炎热天气让火灾隐患“蹭蹭”往上涨,南北各地还有防洪救灾、台风、泥石流等灾害轮…

14-6-3C++STL的list

&#xff08;一&#xff09;list的插入 1.list.insert(pos,elem);//在pos位置插入一个elem元素的拷贝&#xff0c;返回新数据的位置 #include <iostream> #include <list> using namespace std; int main() { list<int> lst; lst.push_back(10); l…

【Linux】 冯诺依曼体系与计算机系统架构全解

Linux相关知识点可以通过点击以下链接进行学习一起加油&#xff01;初识指令指令进阶权限管理yum包管理与vim编辑器GCC/G编译器make与Makefile自动化构建GDB调试器与Git版本控制工具Linux下进度条 冯诺依曼体系是现代计算机设计的基石&#xff0c;其统一存储和顺序执行理念推动…

【C++ 动态规划】1024. 视频拼接|1746

本文涉及知识点 C动态规划 LeetCode1024. 视频拼接 你将会获得一系列视频片段&#xff0c;这些片段来自于一项持续时长为 time 秒的体育赛事。这些片段可能有所重叠&#xff0c;也可能长度不一。 使用数组 clips 描述所有的视频片段&#xff0c;其中 clips[i] [starti, end…

EasyExcel写入和读取多个sheet

最近在工作中&#xff0c;作者频频接触到Excel处理&#xff0c;因此也对EasyExcel进行了一定的研究和学习&#xff0c;也曾困扰过如何处理多个sheet&#xff0c;因此此处分享给大家&#xff0c;希望能有所帮助 目录 1.依赖 2. Excel类 3.处理Excel读取和写入多个sheet 4. 执…