【数据分析系列】交叉列联表与卡方检验:数据解读与Python实践应用

目录

一、交叉列联表和卡方检验的关系

(一)什么是交叉列联表

(二)什么是卡方检验

(三)除了卡方检验,列联表分析还可以结合其他统计方法

二、列联表只能用于两个分类变量吗?

三、卡方检验:统计量与P值的协同作用及应用指南

卡方检验中的卡方统计量和P值的作用:

四、列联表和卡方检验实例

(一)数据收集

(二)列联表构造

(三)卡方检验步骤

Step1:建立原假设

Step2:计算期望频数/理论频数:

Step3:计算卡方统计量:

​编辑

Step4:确定自由度:

Step5:查χ2方分布临界值表,确定接受域

在卡方检验中,确定P值通常有以下几种方法:

五、Python实现交叉列联分析和卡方检验

 (一)导入库

(二)输入列联表数据

(三)使用chi2_contingency函数执行卡方检验

(四)输出卡方统计量

(五)输出P值 

(六) 输出自由度

(七) 输出理论频数

一、交叉列联表和卡方检验的关系

(一)什么是交叉列联表

交叉列联表是一种统计表格,用于展示两个或多个分类变量之间的频数分布情况。它通过将变量的不同类别交叉组合,形成一个表格,其中每个单元格表示相应类别的组合出现的频数。

例如,假设我们有一个关于学生性别和喜欢的学科的调查数据:男生中有30人喜欢数学,10人喜欢英语;女生中有20人喜欢数学,30人喜欢英语。我们可以将这些数据整理成一个交叉列联表,如下所示:

(二)什么是卡方检验

卡方检验是一种统计方法,用于检验两个分类变量之间是否独立。它通过比较观察频数和期望频数之间的差异来判断变量之间是否存在关联。

在交叉列联表中,我们可以使用卡方检验来分析变量之间的关系。例如,在上面的例子中,我们可以使用卡方检验来检验学生的性别是否与他们喜欢的学科有关。

(三)除了卡方检验,列联表分析还可以结合其他统计方法

  1. 费舍尔精确检验(Fisher's Exact Test):适用于样本量较小的情况,当样本量较大时,其结果与卡方检验相似。
  2. 列联系数(如Phi系数、Cramer's V系数):用于衡量变量之间的关联强度。
  3. 修正的卡方检验或Yates' continuity correction:用于处理某些特殊情况下的数据偏差。
  4. 多维度扩展分析:对多个变量进行Log-linear模型分析,探索变量间的复杂关系和相互作用模式。

二、列联表只能用于两个分类变量吗?

虽然列联表最基础的形式是用于展示两个分类变量之间的频数分布情况,但这并不意味着它仅限于两个变量。列联表同样可以扩展以分析多个分类变量之间的关系,这种情况下通常称为多维列联表或多路列联表。

在多维列联表中,表格会有更多的维度,用来表示三个或三个以上变量的交叉分类。例如,如果你正在分析学生的学科成绩(优秀、良好、及格、不及格)、性别(男、女)以及是否参加过辅导班(是、否)之间的关系,那么就需要一个三维列联表来呈现这些变量的所有可能组合及其频数分布。

多维列联表可能会更加复杂,难以直接可视化,因此在分析时可能需要借助特定的统计软件来进行汇总和解释,也可能需要应用更高级的统计方法,如对多个变量进行的log-linear模型分析,来探索变量间的复杂关系和相互作用模式。

三、卡方检验:统计量与P值的协同作用及应用指南

卡方检验中的卡方统计量通常指计算得出的测试统计值,而P值则代表在原假设为真的条件下,观察到的统计量或更极端情况的概率。在实际应用中,两者都非常重要,但通常以P值作为判断假设是否成立的最终标准。

卡方检验中的卡方统计量和P值的作用:

1. 卡方统计量的计算与意义
   - 卡方统计量是通过比较观察频数与理论频数之间的差异来计算的。
   - 它反映了数据与预期模式之间的偏离程度。
   - 卡方值越大,表明观察数据与理论预期的差异越大,进而说明原假设可能不成立。

2. P值的获取与解释
   - P值是依据卡方统计量、数据的自由度以及预设的显著性水平(通常为0.05)来获取的[。
   - P值小,意味着在原假设成立的条件下,出现当前结果或更极端情形的概率低,因此有理由拒绝原假设。
   - 相反,P值较大时,没有足够证据拒绝原假设,从而认为数据与预期模式相符。

3. P值的确定:
   - 根据卡方统计量和相应的自由度,查找卡方分布表或使用统计软件得到P值。
   - P值表示在原假设成立的情况下,观察到当前卡方统计量或更极端情况的概率。

4. 结论推断:
   - 如果P值小于或等于显著性水平(通常为0.05),则拒绝原假设,认为分类变量之间存在显著关系。
   - 如果P值大于显著性水平,则没有足够证据拒绝原假设,认为分类变量之间无显著关系。

综上所述,卡方统计量提供了量化的数据变异性大小,而P值给出了这种变异性是否具有统计学意义的概率解释。两者共同构成了完整的卡方检验流程,协助研究者做出更准确的统计推断。在具体应用时,应结合研究目的和数据特性选择合适的检验方法,并正确解读卡方统计量与P值,以便得出科学合理的结论。

四、列联表和卡方检验实例

让我们通过一个详细的实例来理解列联表和卡方检验的应用。假设我们想要探究大学生的专业选择(文科 vs. 理科)与其性别(男 vs. 女)之间是否存在关联。这是一个典型的定类变量间关系的研究问题,非常适合使用列联表和卡方检验。

(一)数据收集

(二)列联表构造

(三)卡方检验步骤

Step1:建立原假设
  • 零假设 (H0): 学生的性别与其专业选择之间是相互独立的,即性别不影响专业选择。
  • 备择假设 (H1): 学生的性别与其专业选择之间存在关联。

Step2:计算期望频数/理论频数

对于每个单元格,根据行总和与列总和计算如果两个变量完全独立时该单元格应有的频数。

在这个表格中,我同时展示了:

  • 每个格子左上角的实际观察频数(最初提供的数据);
  • 每个格子右下角的计算出的期望频数(基于假设变量间独立的理论值)。

这样的展示方式有助于直观对比实际数据与理论期望之间的差异,进而进行卡方检验分析,判断这些差异是否具有统计学意义。

Step3:计算卡方统计量

计算得出的卡方统计量(χ²)大约为0.646。

Step4:确定自由度

对于2x2表,自由度 = (行数 - 1) * (列数 - 1) = (2-1)*(2-1) = 1。

Step5:查χ2方分布临界值表,确定接受域

假设显著性水平a取0.05

使用卡方分布表来确定P值。根据计算的卡方统计量(χ²)和确定自由度(df),得到p值为0.818,0.42>0.05,则P值大于显著性水平,则没有足够证据拒绝原假设,认为分类变量之间无显著关系,即学生的性别与其专业选择之间是相互独立的,即性别不影响专业选择。
在卡方检验中,确定P值通常有以下几种方法:
  1. 查表法

    • 使用卡方分布表来确定P值。首先,你需要计算卡方统计量(χ²)和确定自由度(df)。
    • 在卡方分布表中找到对应的自由度,然后找到大于或等于你的卡方统计量的值。
    • 对应的表格值就是你的P值或者P值范围。
  2. 统计软件

    • 使用统计软件(如SPSS、R、Stata、Excel等)进行卡方检验,软件会直接给出P值。
    • 在R语言中,可以使用chisq.test()函数来进行卡方检验,它会返回包括P值在内的完整检验结果。
    • 在Excel中,可以使用CHIDIST函数来计算给定卡方值和自由度的P值。
  3. 在线计算器

    使用在线卡方检验P值计算器输入你的卡方统计量和自由度,计算器会给出P值

五、Python实现交叉列联分析和卡方检验

 (一)导入库

from scipy.stats import chi2_contingency
import numpy as np

(二)输入列联表数据

# 假设observed是观察频数列联表,例如此例题中的两个分类变量的频数分布
observed = np.array([[ 20, 30],[25, 25]])

(三)使用chi2_contingency函数执行卡方检验

chi2, p, dof, expected = chi2_contingency(observed)

(四)输出卡方统计量

print("Chi-square statistic:", chi2)

(五)输出P值 

print("Expected frequencies:")
print(expected)
print("P-value:", p)

(六) 输出自由度

print("Degrees of freedom:", dof)

(七) 输出理论频数

print("Expected frequencies:")
print(expected)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/849351.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决 windows11 文件夹中右键没有出现Git Bash Here的问题?

电脑刚从w10升级到了w11,想要从git拉去项目,但是发现右键菜单下找不到git,如图: 百度了一下,看了看这位大佬 这篇文章 的配置,确实能打开,但右键菜单下还是没有,于是继续搜寻问题的…

小华半导体MCU方案选型和应用

小华半导体有限公司是中国电子信息产业集团有限公司旗下集成电路业务平台华大半导体有限公司的核心子公司,目前团队规模约300人,其中75%以上为研发人员,国内细分行业规模最大,核心骨干拥有国际MCU大厂25年以上从业经验。 小华半导…

支付平台界面感知评估

目标: 了解本地用户在本地语言下对产品用户界面 (UI) 的感受和体验: 界面的目的是否对本地用户清晰,并且是否符合本地文化和国家标准;界面中的文本是否正确显示,是否存在语法、拼写或其他错误,包括品牌一致…

target resources requests storage size is smaller than the source

在进行dv克隆时,通过如下方式: kind: DataVolume metadata:annotations:cdi.kubevirt.io/storage.deleteAfterCompletion: "false"name: 7713bb8fdecd462fa0ca726e21cd9fa3-1namespace: default spec:pvc:accessModes:- ReadWriteManyresourc…

oracle视图无法删除,orcl视图删除卡住怎么办

话说,这是一个来自周四加班夜晚的故事,当时我的PL/SQL卡住了,每次查询这个表时都会卡住。 经过一番研究,我找到了解决办法,分为三个步骤: 使用以下查询语句获取正在执行的SQL查询的SID和OracleID&#xf…

C++类的初始化

Dog *anew Dog() 和 Dog *anew Dog{} 区别 在C中,new Dog()和new Dog{}这两种形式都用于动态分配Dog类的对象,但它们在对象初始化上有细微的差别。这些差别源自于C11引入的统一初始化语法(uniform initialization),也…

Puppeteer实战案例:自动化抓取社交媒体上的媒体资源

在当今数字化时代,社交媒体已成为人们获取信息、分享生活和进行商业推广的重要平台。随着社交媒体内容的爆炸性增长,自动化抓取社交媒体上的媒体资源变得尤为重要。本文将介绍如何使用Puppeteer这一强大的自动化工具来实现这一目标。 1. Puppeteer简介 …

数据库优化策略总结

优化的核心:减少子任务或者让子任务更快 减少数据扫描行数或者在服务器层缓存查询结果 总体来说,数据库查询优化策略可以归纳为以下几点: 创建缓存:利用redis等缓存技术存储查询结果,减少数据库访问次数&#xff0c…

扯什么蛋,c++ 当然就是整个计算机科学

1,ideal Lang 计算机科学,在程序设计语言上的发展,整体处在相对低级的阶段,主要是相对于 ideal Language 而言的。 这个世界上存在一种语言,及其编译器,它能够达到一个效果: 人类写得任何一段代…

操作HTML元素

Web应用不仅需要Web服务器端执行处理,有时也需要在Web浏览器端执行处理。 可以在Web浏览器上执行的编程语言是Javascript,很多web浏览器都支持这一语言。要操作HTML元素,就需要使用管理Html结构的api,而实现这一处理的就是Dom。 有了Dom&am…

Outlook英文邮箱的一些使用技巧

以下是Outlook英文邮箱的一些使用技巧,清晰地按照功能分点表示和归纳: 1. 邮件管理 邮件延迟处理:使用“Snooze”功能,可以将邮件延迟到指定时间再次出现在收件箱中。邮件分类:Outlook自动提供“Focused Inbox”功能…

数据结构~~排序

目录 一、排序的概念 二、插入排序 直接插入排序 希尔排序 三、选择排序 选择排序 堆排序 四、交换排序 冒泡排序 快速排序 递归实现 非递归实现 五、归并排序 递归 非递归 六、非比较排序(计数排序) 七、其他排序 基数排序 桶排序 八…

Erlang

官网地址: Index - Erlang/OTP windows环境变量配置 创建新系统变量 ERLANG_HOME 在path加入上述配置

DENet:融合全局与局部,多模块策略,超越传统分割方法,提升青光眼筛查精度

DENet:融合全局与局部,多模块策略,超越传统分割方法,提升青光眼筛查精度 提出背景精细拆解A. 全局视网膜图像层面B. 视盘区域层面 提出背景 论文:https://arxiv.org/pdf/1805.07549 代码:https://github.…

探索HTML5 Geolocation:精准定位网页的新纪元

在互联网技术日新月异的今天,地理定位已经成为众多Web应用不可或缺的一部分,而HTML5 Geolocation API正是这一领域的关键技术。本文将深入剖析HTML5 Geolocation API的工作原理、使用方法,并通过实战代码示例,带你领略其在现代网页…

C++ 并发编程指南(13)线程池原理与实践 | 13.1、实现原理

文章目录 一、线程池原理与实践1、线程池的概念2、线程创建和销毁的开销有哪些?2.1、系统资源消耗2.2、初始化与清理2.3、上下文切换2.4、性能影响2.5、线程池的优势总结 3、线程池的机制 前言: 在多线程编程中,线程池是一种常用的技术&#…

串联式固定测斜仪无需钢丝绳、安装方便、可回收利用边坡基坑矿山地灾常用

一、固定式测斜仪的简介 固定测斜仪是一种用于长期自动监测各种结构物的深层水平位移的设备,获取土体内部的位移变化趋势,监测数据上传至安锐测控云平台,用户即可实时查看结构深层水平位移数据,实时预警,保障结构的安全…

python最新ARIMA模型预测未来汽车销售额

用新版本ARIMA编译运行时会出现一些问题 如ARIMA模型,用BIC矩阵确定p、q参数的时候BIC矩阵输出全是None 如model.summary2()是没有的 arima.py # -*- coding: utf-8 -*-import pandas as pd import matplotlib.pyplot as plt plt.rcParams[font.sans-serif] = [SimHei…

小炒 20240606

1 一些人做“人上人”的念头是从小就被植入到脑子里的,凡事都要和人比较,只有在比较中找到优越感,高人一头才能显得自己优秀。 比不上行内精英,就去和部门同事比,比不过同事,就去和亲戚、家人比&#xff…

实时跨境电商数据监控:快速响应市场变化与竞争动态

在电商领域,市场变化与竞争动态无时无刻不在影响着商家的业务决策。实时数据监控作为一种高效的工具,能够帮助电商平台快速响应这些变化,从而保持竞争优势。实时数据分析涵盖了从价格动态监控到客户行为分析等多个方面,以下将详细…