【数据分析系列】交叉列联表与卡方检验:数据解读与Python实践应用

目录

一、交叉列联表和卡方检验的关系

(一)什么是交叉列联表

(二)什么是卡方检验

(三)除了卡方检验,列联表分析还可以结合其他统计方法

二、列联表只能用于两个分类变量吗?

三、卡方检验:统计量与P值的协同作用及应用指南

卡方检验中的卡方统计量和P值的作用:

四、列联表和卡方检验实例

(一)数据收集

(二)列联表构造

(三)卡方检验步骤

Step1:建立原假设

Step2:计算期望频数/理论频数:

Step3:计算卡方统计量:

​编辑

Step4:确定自由度:

Step5:查χ2方分布临界值表,确定接受域

在卡方检验中,确定P值通常有以下几种方法:

五、Python实现交叉列联分析和卡方检验

 (一)导入库

(二)输入列联表数据

(三)使用chi2_contingency函数执行卡方检验

(四)输出卡方统计量

(五)输出P值 

(六) 输出自由度

(七) 输出理论频数

一、交叉列联表和卡方检验的关系

(一)什么是交叉列联表

交叉列联表是一种统计表格,用于展示两个或多个分类变量之间的频数分布情况。它通过将变量的不同类别交叉组合,形成一个表格,其中每个单元格表示相应类别的组合出现的频数。

例如,假设我们有一个关于学生性别和喜欢的学科的调查数据:男生中有30人喜欢数学,10人喜欢英语;女生中有20人喜欢数学,30人喜欢英语。我们可以将这些数据整理成一个交叉列联表,如下所示:

(二)什么是卡方检验

卡方检验是一种统计方法,用于检验两个分类变量之间是否独立。它通过比较观察频数和期望频数之间的差异来判断变量之间是否存在关联。

在交叉列联表中,我们可以使用卡方检验来分析变量之间的关系。例如,在上面的例子中,我们可以使用卡方检验来检验学生的性别是否与他们喜欢的学科有关。

(三)除了卡方检验,列联表分析还可以结合其他统计方法

  1. 费舍尔精确检验(Fisher's Exact Test):适用于样本量较小的情况,当样本量较大时,其结果与卡方检验相似。
  2. 列联系数(如Phi系数、Cramer's V系数):用于衡量变量之间的关联强度。
  3. 修正的卡方检验或Yates' continuity correction:用于处理某些特殊情况下的数据偏差。
  4. 多维度扩展分析:对多个变量进行Log-linear模型分析,探索变量间的复杂关系和相互作用模式。

二、列联表只能用于两个分类变量吗?

虽然列联表最基础的形式是用于展示两个分类变量之间的频数分布情况,但这并不意味着它仅限于两个变量。列联表同样可以扩展以分析多个分类变量之间的关系,这种情况下通常称为多维列联表或多路列联表。

在多维列联表中,表格会有更多的维度,用来表示三个或三个以上变量的交叉分类。例如,如果你正在分析学生的学科成绩(优秀、良好、及格、不及格)、性别(男、女)以及是否参加过辅导班(是、否)之间的关系,那么就需要一个三维列联表来呈现这些变量的所有可能组合及其频数分布。

多维列联表可能会更加复杂,难以直接可视化,因此在分析时可能需要借助特定的统计软件来进行汇总和解释,也可能需要应用更高级的统计方法,如对多个变量进行的log-linear模型分析,来探索变量间的复杂关系和相互作用模式。

三、卡方检验:统计量与P值的协同作用及应用指南

卡方检验中的卡方统计量通常指计算得出的测试统计值,而P值则代表在原假设为真的条件下,观察到的统计量或更极端情况的概率。在实际应用中,两者都非常重要,但通常以P值作为判断假设是否成立的最终标准。

卡方检验中的卡方统计量和P值的作用:

1. 卡方统计量的计算与意义
   - 卡方统计量是通过比较观察频数与理论频数之间的差异来计算的。
   - 它反映了数据与预期模式之间的偏离程度。
   - 卡方值越大,表明观察数据与理论预期的差异越大,进而说明原假设可能不成立。

2. P值的获取与解释
   - P值是依据卡方统计量、数据的自由度以及预设的显著性水平(通常为0.05)来获取的[。
   - P值小,意味着在原假设成立的条件下,出现当前结果或更极端情形的概率低,因此有理由拒绝原假设。
   - 相反,P值较大时,没有足够证据拒绝原假设,从而认为数据与预期模式相符。

3. P值的确定:
   - 根据卡方统计量和相应的自由度,查找卡方分布表或使用统计软件得到P值。
   - P值表示在原假设成立的情况下,观察到当前卡方统计量或更极端情况的概率。

4. 结论推断:
   - 如果P值小于或等于显著性水平(通常为0.05),则拒绝原假设,认为分类变量之间存在显著关系。
   - 如果P值大于显著性水平,则没有足够证据拒绝原假设,认为分类变量之间无显著关系。

综上所述,卡方统计量提供了量化的数据变异性大小,而P值给出了这种变异性是否具有统计学意义的概率解释。两者共同构成了完整的卡方检验流程,协助研究者做出更准确的统计推断。在具体应用时,应结合研究目的和数据特性选择合适的检验方法,并正确解读卡方统计量与P值,以便得出科学合理的结论。

四、列联表和卡方检验实例

让我们通过一个详细的实例来理解列联表和卡方检验的应用。假设我们想要探究大学生的专业选择(文科 vs. 理科)与其性别(男 vs. 女)之间是否存在关联。这是一个典型的定类变量间关系的研究问题,非常适合使用列联表和卡方检验。

(一)数据收集

(二)列联表构造

(三)卡方检验步骤

Step1:建立原假设
  • 零假设 (H0): 学生的性别与其专业选择之间是相互独立的,即性别不影响专业选择。
  • 备择假设 (H1): 学生的性别与其专业选择之间存在关联。

Step2:计算期望频数/理论频数

对于每个单元格,根据行总和与列总和计算如果两个变量完全独立时该单元格应有的频数。

在这个表格中,我同时展示了:

  • 每个格子左上角的实际观察频数(最初提供的数据);
  • 每个格子右下角的计算出的期望频数(基于假设变量间独立的理论值)。

这样的展示方式有助于直观对比实际数据与理论期望之间的差异,进而进行卡方检验分析,判断这些差异是否具有统计学意义。

Step3:计算卡方统计量

计算得出的卡方统计量(χ²)大约为0.646。

Step4:确定自由度

对于2x2表,自由度 = (行数 - 1) * (列数 - 1) = (2-1)*(2-1) = 1。

Step5:查χ2方分布临界值表,确定接受域

假设显著性水平a取0.05

使用卡方分布表来确定P值。根据计算的卡方统计量(χ²)和确定自由度(df),得到p值为0.818,0.42>0.05,则P值大于显著性水平,则没有足够证据拒绝原假设,认为分类变量之间无显著关系,即学生的性别与其专业选择之间是相互独立的,即性别不影响专业选择。
在卡方检验中,确定P值通常有以下几种方法:
  1. 查表法

    • 使用卡方分布表来确定P值。首先,你需要计算卡方统计量(χ²)和确定自由度(df)。
    • 在卡方分布表中找到对应的自由度,然后找到大于或等于你的卡方统计量的值。
    • 对应的表格值就是你的P值或者P值范围。
  2. 统计软件

    • 使用统计软件(如SPSS、R、Stata、Excel等)进行卡方检验,软件会直接给出P值。
    • 在R语言中,可以使用chisq.test()函数来进行卡方检验,它会返回包括P值在内的完整检验结果。
    • 在Excel中,可以使用CHIDIST函数来计算给定卡方值和自由度的P值。
  3. 在线计算器

    使用在线卡方检验P值计算器输入你的卡方统计量和自由度,计算器会给出P值

五、Python实现交叉列联分析和卡方检验

 (一)导入库

from scipy.stats import chi2_contingency
import numpy as np

(二)输入列联表数据

# 假设observed是观察频数列联表,例如此例题中的两个分类变量的频数分布
observed = np.array([[ 20, 30],[25, 25]])

(三)使用chi2_contingency函数执行卡方检验

chi2, p, dof, expected = chi2_contingency(observed)

(四)输出卡方统计量

print("Chi-square statistic:", chi2)

(五)输出P值 

print("Expected frequencies:")
print(expected)
print("P-value:", p)

(六) 输出自由度

print("Degrees of freedom:", dof)

(七) 输出理论频数

print("Expected frequencies:")
print(expected)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/849351.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决 windows11 文件夹中右键没有出现Git Bash Here的问题?

电脑刚从w10升级到了w11,想要从git拉去项目,但是发现右键菜单下找不到git,如图: 百度了一下,看了看这位大佬 这篇文章 的配置,确实能打开,但右键菜单下还是没有,于是继续搜寻问题的…

小华半导体MCU方案选型和应用

小华半导体有限公司是中国电子信息产业集团有限公司旗下集成电路业务平台华大半导体有限公司的核心子公司,目前团队规模约300人,其中75%以上为研发人员,国内细分行业规模最大,核心骨干拥有国际MCU大厂25年以上从业经验。 小华半导…

支付平台界面感知评估

目标: 了解本地用户在本地语言下对产品用户界面 (UI) 的感受和体验: 界面的目的是否对本地用户清晰,并且是否符合本地文化和国家标准;界面中的文本是否正确显示,是否存在语法、拼写或其他错误,包括品牌一致…

target resources requests storage size is smaller than the source

在进行dv克隆时,通过如下方式: kind: DataVolume metadata:annotations:cdi.kubevirt.io/storage.deleteAfterCompletion: "false"name: 7713bb8fdecd462fa0ca726e21cd9fa3-1namespace: default spec:pvc:accessModes:- ReadWriteManyresourc…

Puppeteer实战案例:自动化抓取社交媒体上的媒体资源

在当今数字化时代,社交媒体已成为人们获取信息、分享生活和进行商业推广的重要平台。随着社交媒体内容的爆炸性增长,自动化抓取社交媒体上的媒体资源变得尤为重要。本文将介绍如何使用Puppeteer这一强大的自动化工具来实现这一目标。 1. Puppeteer简介 …

数据结构~~排序

目录 一、排序的概念 二、插入排序 直接插入排序 希尔排序 三、选择排序 选择排序 堆排序 四、交换排序 冒泡排序 快速排序 递归实现 非递归实现 五、归并排序 递归 非递归 六、非比较排序(计数排序) 七、其他排序 基数排序 桶排序 八…

Erlang

官网地址: Index - Erlang/OTP windows环境变量配置 创建新系统变量 ERLANG_HOME 在path加入上述配置

DENet:融合全局与局部,多模块策略,超越传统分割方法,提升青光眼筛查精度

DENet:融合全局与局部,多模块策略,超越传统分割方法,提升青光眼筛查精度 提出背景精细拆解A. 全局视网膜图像层面B. 视盘区域层面 提出背景 论文:https://arxiv.org/pdf/1805.07549 代码:https://github.…

串联式固定测斜仪无需钢丝绳、安装方便、可回收利用边坡基坑矿山地灾常用

一、固定式测斜仪的简介 固定测斜仪是一种用于长期自动监测各种结构物的深层水平位移的设备,获取土体内部的位移变化趋势,监测数据上传至安锐测控云平台,用户即可实时查看结构深层水平位移数据,实时预警,保障结构的安全…

python最新ARIMA模型预测未来汽车销售额

用新版本ARIMA编译运行时会出现一些问题 如ARIMA模型,用BIC矩阵确定p、q参数的时候BIC矩阵输出全是None 如model.summary2()是没有的 arima.py # -*- coding: utf-8 -*-import pandas as pd import matplotlib.pyplot as plt plt.rcParams[font.sans-serif] = [SimHei…

实时跨境电商数据监控:快速响应市场变化与竞争动态

在电商领域,市场变化与竞争动态无时无刻不在影响着商家的业务决策。实时数据监控作为一种高效的工具,能够帮助电商平台快速响应这些变化,从而保持竞争优势。实时数据分析涵盖了从价格动态监控到客户行为分析等多个方面,以下将详细…

BeatGAN:使用对抗生成时间序列的异常心律检测

BeatGAN:使用对抗生成时间序列的异常心律检测 原创 小王搬运工 时序课堂 2024-06-07 14:28 四川 论文地址:https://dl.acm.org/doi/abs/10.5555/3367471.3367658 论文源码:https://github.com/Vniex/BeatGAN 期刊:IJCAI19: Pro…

视觉SLAM十四讲:从理论到实践(Chapter9:后端1)

前言 学习笔记,仅供学习,不做商用,如有侵权,联系我删除即可 一、目标 1.理解后端的概念。 2.理解以EKF为代表的滤波器后端的工作原理。 3.理解非线性优化的后端,明白稀疏性是如何利用的。 4.使用g2o和Ceres实际操作…

浅浅写一个Word、PowerPoint、Excel文档转PDF工具

前言 最近在搞知识库,需要把各种 Word、PowerPoint、Excel 文件转换成 PDF 文件,不然 Word 中的表格中的文字提取会出现一些问题;使用 Office 或者 WPS 将大量文件转换成 PDF 需要频繁重复打开文件,点击保存为PDF,然后…

谁懂啊!第一次用AI绘画做表情包,居然直接爆收入了!

大家好,我是设计师阿威 我的第一套表情包上周六上午11点终于在微信的表情商店上架啦! 为什么说“终于”? 那是因为背后是无数次的努力–>被退回–>反复修改–>再提交–>再被退回–>再精心修改–>终于通过啦!…

电脑知识 如何看懂串口通信协议(程序员视角)

目录 前言 一、串口文档 二、明确身份 三、串口设置 四、看懂命令格式 五、看懂发送命令的格式 1.帧头和帧尾 2.帧内数据长度 3.帧内数据/具体命令 4.整体命令 5.真正的命令字和命令值 六、第一个案例 1.发送命令 2.雷达的回答 七、作者的话 前言 用一个案例&#…

提升学校管理效率,智慧校园解决方案来袭

你是不是曾为学校管理效率低下而困扰?是不是对传统的教育模式感到力不从心?现在,一个划时代的解决方案来啦——智慧校园! 随着科技的不断发展,智慧校园正逐渐改变着学校的管理方式。通过将信息技术与教育相结合&#x…

照片数据恢复,6个策略轻松恢复!

“我在电脑上保存了很多照片,在清理电脑时一不小心误删了,现在完全没办法将它们找回,大家有什么方法吗?希望给我一些建议。” 在数字时代,照片成为了我们记录生活、珍藏回忆的重要载体。无论是旅行中的风景照、家庭聚会…

为什么C#越学越陌生,搞那么多奇怪的东西?

绝大多数编程语言,除了基础语法,其他的都是可选的工具,可用可不用,顺手你就用,不顺手就别用。 刚好我有一些资料,是我根据网友给的问题精心整理了一份「C语言的资料从专业入门到高级教程」, 点…

钉钉二次开发-企业内部系统集成官方OA审批流程

场景:企业内部开发人员不足,需要从以前集成Activiti的方式转换成集成钉钉官方OA审批流程,提高开发效率和系统稳定性。 摘要:企业内部系统集成Acitiviti开源工作流存在的问题: 1. 企业需要单独搭建工作流服务&#xff…