做数据分析为何要学统计学(5)——什么问题适合使用卡方检验?

卡方检验作为一种非常著名的非参数检验方法(不受总体分布因素的限制),在工程试验、临床试验、社会调查等领域被广泛应用。但是也正是因为使用的便捷性,造成时常被误用。本文参阅相关的文献,对卡方检验的适用性进行粗浅的论述。

首先,从技术角度来看,(1)卡方检验的样本涉及的因素(也就是变量)需要两个(含)以上,而且是定性变量(分类变量,定类变量),其值可以是数字,也可以符号,但是即使是数字也不具备数量的含义,只是用于区分。比如性别变量,它的值可以是男或女,也可以是0或1,A或B;(2)其样本数据是由多个因素在不同水平(取值)情况下共同决定的数据,直观上表现为列联表(交互分类表,交叉表),形如下表。

某项产品的地区调查(人)
北京上海
满意600480
一般120150
不满意8070

上表涉及的因素(变量)有两个,分别是地区和满意度,其值分别是[北京,上海]和[满意,一般,不满意]。而样本是由两个变量的不同取值作用下的统计数据,可以是总和,也可以是平均数,或者其他统计量。

其次,从应用的角度来看,我们的目的是要进行无差异推断,或者不相关推断(无差异等价于不相关)。比如上述问题可以回答北京、上海两地对该产品的满意度是否无差异,或者说对该产品的满意度是否与上述地区不相关。通过即调用卡方检验函数,获得p=0.00472,在显著性水平0.05下,两地满意度无差异(或与地区不相关)的假设被拒绝。于是我们可以认为“两地对某产品的满意度是有差异的”或“某产品的满意度与地区有相关性”。代码如下:

#chi2_contingency是卡方检验函数
from scipy.stats import chi2_contingency
import numpy as np
#定义样本数据
X= np.array([[600,120,80],[480,150,70]])
chi2_contingency(X)
结果:(10.714285714285714, 0.004714356473549276, 2, array([[576., 144.,  80.],[504., 126.,  70.]]))。这些数值分别为卡方值、p值、自由度和理论值。

还有一种特殊情况,就是样本数据只有一组,也就是说表面上看因素只有一个,这种情况实际是进行“试验值(实际值,经验值)与理论值的无差异”推断。如下例:

进行抛硬币试验,进行七轮,每轮抛20次,数据如下表所示。是否可以认为硬币正面与反面(只有这两种情况)朝上的概率相同。

硬币正面向上的频数
第一轮第二轮第三轮第四轮第五轮第六轮第七轮
812107989

乍一看,此样本只有一组数据,而结合要解答的问题,实际上还有一组数据,即理论值。该理论值是等概率条件下硬币正面向上的次数,也就是每轮都是10。于是样本就变成了

硬币正面向上的频数
第一轮第二轮第三轮第四轮第五轮第六轮第七轮
812107989
10101010101010

通过将上述样本数据带入卡方检验函数,p=0.98928。即在显著性水平0.05下,我们接受“硬币正面与反面朝上的概率相同”这一假设。

再来看一个例子,某餐厅对一年内每周内每天的营业额进行统计(均值),看看营业情况是否存在时间方面的差异,数据如下。

一周的营业额统计(万元)

周一周二周三周四周五周六周日
9116781510

该问题同样是一种“试验值(实际值,经验值)与理论值的无差异”推断问题。只不过理论值的与上例不同。如果我们认为营业额与时间无关,也就意味的每天营业额是相同的,于是理论值将由每天营业额的均值来体现。即样本数据为:

一周的营业额统计(万元)

周一周二周三周四周五周六周日
9116781510
9.429.429.429.429.429.429.42

通过将上述样本数据带入卡方检验函数,p=0.85073。即在显著性水平0.05下,我们接受“营业额不存在时间方面的差异”这一假设。尽管从表面来看,该结果不太容易被接受,似乎周末营业情况更好,但是放眼总体(更长的时间范围),并不能支持直观感受。

***********************接下来划重点,举一个非常有代表性的误用卡方检验的例子***************

某调查机构调查了不同收入水平话费支出的情况,试图分析收入水平是否与话费支出水平相关。数据如下

收入

3000

4000500060007000800010000
话费90100150180200300400

然后对两组数据进行了卡方检验,p=0.000006。结论:拒绝两者不相关的假设。也就是说收入水平与话费支出水平是相关的。从结果来看是没有问题的,两组数据确实是显著正相关的,其皮尔逊相关系数corr=0.9758。但是从样本数据本身来看,不符合使用卡方检验的适用条件。因为:

(1)收入和话费两个因素不是定性变量,而是定量变量。

(2)样本值也不是两个因素共同确定的数值,而是归属于每个因素本身。

对于此类问题使用相关系数才是合理的。

如果上述调查结果改为不同收入水平和话费支出水平下的用户数量,则可以应用卡方检验。比如数据转换为

30004000500060007000800010000
<=90853024718123
90-100710011291295
100-150152075141068
150-2005459019161
200-250698350113
250-300316151415806
>30029419132090

使用卡方检验后1.12896*10^{-300}<0.05,于是我们可以拒绝收入水平与话费支出水平不相关的假设,也就是说收入水平会影响(或决定)话费支出水平。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/215717.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

原来使用代码也可以画时序图,用这个Mermaid就行,真香

本文首发于我的个人掘金博客&#xff0c;看到很多人都比较喜欢这篇文章&#xff0c;分享给大家。 个人博客主页&#xff1a;https://www.aijavapro.cn 个人掘金主页&#xff1a;juejin.cn/user/2359988032644541/posts 个人知识星球: 觉醒的新世界程序员 一、背景 在软件开发和…

spring数据校验

我是南城余&#xff01;阿里云开发者平台专家博士证书获得者&#xff01; 欢迎关注我的博客&#xff01;一同成长&#xff01; 一名从事运维开发的worker&#xff0c;记录分享学习。 专注于AI&#xff0c;运维开发&#xff0c;windows Linux 系统领域的分享&#xff01; 本…

数据库(一)| 数据库概述、基本概念、关系型数据库特点、超键候选码等

文章目录 1 数据库的一些基础概念1.1 数据库和数据库管理系统1.2 关系模式和关系实例1.3 数据库模式和数据库实例 2 数据库组织形式2.1 数据采用文件的缺点2.2 使用数据库管理系统的 优点 3 关系型数据库特点4 三个层次的数据抽象Data Abstraction5 超键、候选码、主码、外码 1…

php之jwt使用

PHP JWT&#xff08;JSON Web Token&#xff09;是一种用于身份验证和授权的开放标准。JWT是一个包含有关用户或实体身份信息的安全令牌&#xff0c;它由三部分组成&#xff1a;头部&#xff08;Header&#xff09;、载荷&#xff08;Payload&#xff09;和签名&#xff08;Sig…

计算机网络编程

网络编程 Java 是第一大编程语言和开发平台。它有助于企业降低成本、缩短开发周期、推动创新以及改善应用服务。如今全球有数百万开发人员运行着超过 51 亿个 Java 虚拟机&#xff0c; Java 仍是企业和开发人员的首选开发平台。 课程内容的介绍 1. 计算机网络基础 2. So…

数据结构基础介绍

一.起源及重要性 1968 年&#xff0c;美国的高德纳 Donakl E . Kn uth 教授在其所写的《 计算机程序艺术》第一卷《基本算法 》 中&#xff0c;较系统地阐述了数据的逻辑结构和存储结构及其操作&#xff0c; 开创了数据结构的课程体系 &#xff0c;数据结构作为一门独立的…

B029-JDBC增强

目录 PreparedStatement 查询1.sql注入2.Statement分析 (面试题)3.PreparedStatement (面试题) 登录功能的完善事务链接池概念实现DBCP连接池实现第一种配置方式第二种配置方式 返回主键BaseDao的抽取 PreparedStatement 查询 1.sql注入 就是在sql的字符串拼接的时候&#xf…

基于单片机的定时插座在智能家居中的应用

近年来&#xff0c;随着科学技术的发展迅速&#xff0c;人们对智能化的要求越来越高。越来越多的智能化产品进入千家万户&#xff0c;如电脑电视、扫地机器人、智能空气净化器等。这些家居电器和电子产品大都需要连接电源&#xff0c;为满足多种用电器的正常使用&#xff0c;延…

DevEco Studio 生成HPK文件

DevEco Studio 生成HPK文件 一、安装环境 操作系统: Windows 10 专业版 IDE:DevEco Studio 3.1 SDK:HarmonyOS 3.1 二、生成HPK文件 生成的HPK文件存放在entry文件夹下。下图是未生成HPK的样式。 生成HPK&#xff1a;菜单Build->Build Hap(s)/APP(s)->Build Hap(s)…

启动jar包命令

一、Windows环境 找到jar包的位置&#xff1b; 按shift键&#xff0c;点击鼠标右键&#xff0c;选中在此处打开PowerShell窗口&#xff1b; 此时进入命令行工具 输入java -jar .\java_web-0.0.1-SNAPSHOT.jar&#xff08;注意空格&#xff09;。 二、Linux环境 2.1 方式一 …

039.Python面向对象_三大特性综合案例2

我 的 个 人 主 页&#xff1a;&#x1f449;&#x1f449; 失心疯的个人主页 &#x1f448;&#x1f448; 入 门 教 程 推 荐 &#xff1a;&#x1f449;&#x1f449; Python零基础入门教程合集 &#x1f448;&#x1f448; 虚 拟 环 境 搭 建 &#xff1a;&#x1f449;&…

一、微前端目标、前端架构的前生今世、微前端架构优势和劣势、软件设计原则与分层

1、目标 2、前端架构的前世今生 ① 初始&#xff1a;无架构&#xff0c;前端代码内嵌到后端应用中 ② 后端 MVC 架构&#xff1a;将视图层、数据层、控制层做分离 缺点&#xff1a;重度依赖开发环境&#xff0c;代码混淆严重&#xff08;在调试时&#xff0c;需要启动后端所有…

小型洗衣机哪个牌子质量好?迷你洗衣机排名前十名

随着内衣洗衣机的流行&#xff0c;很多小伙伴在纠结该不该入手一款内衣洗衣机&#xff0c;专门来洗一些贴身衣物&#xff0c;答案是非常有必要的&#xff0c;因为我们现在市面上的大型洗衣机只能做清洁&#xff0c;无法对我们的贴身衣物进行一个高强度的清洁&#xff0c;而小小…

【CCF BDCI 2023】多模态多方对话场景下的发言人识别 Baseline 0.71 NLP 部分

【CCF BDCI 2023】多模态多方对话场景下的发言人识别 Baseline 0.71 NLP 部分 概述NLP 简介文本处理词嵌入上下文理解 文本数据加载to_device 函数构造数据加载样本数量 len获取样本 getitem 分词构造函数调用函数轮次嵌入 RobertaRoberta 创新点NSP (Next Sentence Prediction…

23种设计模式之装饰者模式(被装饰者,接口层,装饰抽象层,具体装饰者)

23种设计模式之装饰者模式 文章目录 23种设计模式之装饰者模式设计思想装饰者模式的优点装饰者模式的缺点装饰者模式的优化方法UML 解析预设场景 代码释义总结 设计思想 原文:装饰器模式&#xff08;Decorator Pattern&#xff09;允许向一个现有的对象添加新的功能&#xff0…

应用在LED灯光控制触摸屏中的触摸芯片

LED灯光控制触摸屏方法&#xff0c;包括&#xff1a;建立触摸屏的触摸轨迹信息与LED灯光驱动程序的映射关系&#xff1b;检测用户施加在触摸屏上的触摸轨迹&#xff0c;生成触摸轨迹信息&#xff1b;根据生成的触摸轨迹信息&#xff0c;调用对应的LED灯光驱动程序&#xff0c;控…

智能优化算法应用:基于头脑风暴算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用&#xff1a;基于头脑风暴算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用&#xff1a;基于头脑风暴算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.头脑风暴算法4.实验参数设定5.算法结果6.…

智能优化算法应用:基于蝙蝠算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用&#xff1a;基于蝙蝠算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用&#xff1a;基于蝙蝠算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.蝙蝠算法4.实验参数设定5.算法结果6.参考文献7.MA…

酷开科技多维度赋能营销,实力斩获三项大奖

在数智化新阶段、广告新生态、传播新业态的背景下&#xff0c;“第30届中国国际广告节广告主盛典暨网易传媒态度营销峰会”于11月18日在厦门国际会展中心盛大举行。来自全国的品牌方、战略决策者、媒体平台和品牌服务机构等汇聚一堂。在50000&#xff0b;现场观众和数千万线上观…

vue elementui点击按钮新增输入框(点多少次就新增多少个输入框,无限新增)

效果如图&#xff1a; 核心代码&#xff1a; <div v-for"(item,index) in arrayData" :key"item.id">//上面这个是关键代码&#xff0c;所有思路靠这个打通<el-inputtype"input" //除了输入框&#xff0c;还有textarea等placeholder&…