统计学中常用的数据分析方法汇总

文章目录

  • 一、描述统计
  • 二、假设检验
  • 三、信服分析
  • 四、列联表分析
  • 五、相关分析
  • 六、方差分析

一、描述统计

描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析、离中趋势分析和相关分析三大部分。

  1. 集中趋势分析集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。例如被试的平均成绩多少?是正偏分布还是负偏分布?
  2. 离中趋势分析离中趋势分析主要靠全距、四分差、平均差、方差(协方差:用来度量两个随机变量关系的统计量)、标准差等统计指标来研究数据的离中趋势。例如,我们想知道两个教学班的语文成绩中,哪个班级内的成绩分布更分散,就可以用两个班级的四分差或百分点来比较。
  3. 相关分析相关分析探讨数据之间是否具有统计学上的关联性。这种关系既包括两个数据之间的单一相关关系,如年龄与个人领域空间之间的关系,也包括多个数据之间的多重相关关系——如年龄、抑郁症发生率、个人领域空间之间的关系;既包括A大B就大(小),A小B就小(大)的直线相关关系,也可以是复杂相关关系(A=Y-B*X);既可以是A、B变量同时增大这种正相关关系,也可以是A变量增大时B变量减小这种负相关,还包括两变量共同变化的紧密程度——即相关系数。实际上,相关关系唯一不研究的数据关系,就是数据协同变化的内在根据——即因果关系。获得相关系数有什么用呢?简而言之,有了相关系数,就可以根据回归方程,进行A变量到B变量的估算,这就是所谓的回归分析,因此,相关分析是一种完整的统计研究方法,它贯穿于提出假设,数据研究,数据分析,数据研究的始终。
  4. 推论统计推论统计是统计学乃至于心理统计学中较为年轻的一部分内容。它以统计结果为依据,来证明或推翻某个命题。具体来说,就是通过分析样本与样本分布的差异,来估算样本与总体、同一样本的前后测成绩差异,样本与样本的成绩差距、总体与总体的成绩差距是否具有显著性差异。正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。

常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。

二、假设检验

  1. 参数检验参数检验是在已知总体分布的条件下(一般要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。1)U验 :使用条件:当样本含量n较大时,样本值符合正态分布
    2)T检验 使用条件:当样本含量n较小时,样本值符合正态分布A:单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别;B:配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面为相似;C:两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。
  2. 非参数检验非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。A:虽然是连续数据,但总体分布形态未知或者非正态;B:体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下。

主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。

三、信服分析

介绍:信度(Reliability)即可靠性,它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。 信度指标多以相关系数表示,大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性)。信度分析的方法主要有以下四种:重测信度法、复本信度法、折半信度法、α信度系数法。
1.重测信度法编辑这一方法是用同样的问卷对同一组被调查者间隔一定时间重复施测,计算两次施测结果的相关系数。显然,重测信度属于稳定系数。重测信度法特别适用于事实式问卷,如性别、出生年月等在两次施测中不应有任何差异,大多数被调查者的兴趣、爱好、习惯等在短时间内也不会有十分明显的变化。如果没有突发事件导致被调查者的态度、意见突变,这种方法也适用于态度、意见式问卷。由于重测信度法需要对同一样本试测两次,被调查者容易受到各种事件、活动和他人的影响,而且间隔时间长短也有一定限制,因此在实施中有一定困难。
2.复本信度法编辑让同一组被调查者一次填答两份问卷复本,计算两个复本的相关系数。复本信度属于等值系数。复本信度法要求两个复本除表述方式不同外,在内容、格式、难度和对应题项的提问方向等方面要完全一致,而在实际调查中,很难使调查问卷达到这种要求,因此采用这种方法者较少。
3.α信度系数法编辑α信度系数是目前最常用的信度系数,其公式为:α=(k/(k-1))*(1-(∑Si2)/ST2)其中,K为量表中题项的总数, Si^2 为第i题得分的题内方差, ST^2为全部题项总得分的方差。从公式中可以看出,α系数评价的是量表中各题项得分间的一致性,属于内在一致性系数。这种方法适用于态度、意见式问卷(量表)的信度分析。总量表的信度系数最好在0.8以上,0.7-0.8之间可以接受;分量表的信度系数最好在0.7以上,0.6-0.7还可以接受。Cronbach 's alpha系数如果在0.6以下就要考虑重新编问卷。检査测量的可信度,例如调查问卷的真实性。分类:1. 外在信度:不同时间测量时量表的一致性程度,常用方法重测信度。2. 内在信度:每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。

四、列联表分析

列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数表。列联表又称交互分类表,所谓交互分类,是指同时依据两个变量的值,将所研究的个案分类。交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。用于分析离散变量或定型变量之间是否存在相关。
列联表分析的基本问题是,判明所考察的各属性之间有无关联,即是否独立。如在前例中,问题是:一个人是否色盲与其性别是否有关?在r×с表中,若以pi、pj和pij分别表示总体中的个体属于等级Ai,属于等级Bj和同时属于Ai、Bj的概率(pi,pj称边缘概率,pij称格概率),“A、B两属性无关联”的假设可以表述为H0:pij=pi·pj,(i=1,2,…,r;j=1,2,…,с),未知参数pij、pi、pj的最大似然估计(见点估计)分别为行和及列和(统称边缘和)为样本大小。根据K.皮尔森(1904)的拟合优度检验或似然比检验(见假设检验),当h0成立,且一切pi>0和pj>0时,统计量的渐近分布是自由度为(r-1)(с-1) 的Ⅹ分布,式中Eij=(ni·nj)/n称为期望频数。当n足够大,且表中各格的Eij都不太小时,可以据此对h0作检验:若Ⅹ值足够大,就拒绝假设h0,即认为A与B有关联。在前面的色觉问题中,曾按此检验,判定出性别与色觉之间存在某种关联。需要注意:若样本大小n不是很大,则上述基于渐近分布的方法就不适用。 对此,在四格表情形,R.A.费希尔(1935)提出了一种适用于所有n的精确检验法。其思想是在固定各边缘和的条件下,根据超几何分布(见概率分布),可以计算观测频数出现任意一种特定排列的条件概率。把实际出现的观测频数排列,以及比它呈现更多关联迹象的所有可能排列的条件概率都算出来并相加,若所得结果小于给定的显著性水平,则判定所考虑的两个属性存在关联,从而拒绝h0。对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。

五、相关分析

研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。1. 单相关:两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量;2. 复相关 :三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关;3. 偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。

六、方差分析

使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。分类:

  1. 单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系
  2. 多因素有交互方差分析:一项实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系
  3. 多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系
  4. 协方差分析:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,使之影响了分析结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法。七、回归分析
  5. 一元线性回归分析只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布。2. 多元线性回归分析使用条件分析多个自变量与因变量Y的关系,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布 。变量筛选方式:选择最优回归方程的变量筛选法包括全横型法(CP法)、逐步回归法,向前引入法和向后剔除法
    横型诊断方法
    残差检验:观测值与估计值的差值要跟从正态分布
    强影响点判断:寻找方式一般分为标准误差法、Mahalanobis距离法
    共线性诊断:诊断方式:容忍度、方差扩大因子法(又称膨胀系数VIF)、特征根判定法、条件指针CI、方差比例,处理方法:增加样本容量或选取另外的回归如主成分回归等
  6. Logistic回归分析线性回归模型要求因变量是连续的正态分布变量,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况分类:Logistic回归模型有条件与非条件之分,条件Logistic回归模型和非条件Logistic回归模型的区别在于参数的估计是否用到了条件概率。
  7. 其他回归方法非线性回归、有序回归、Probit回归、加权回归等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/474856.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java组装树状结构数据集合_JAVA构建List集合为树形结构

package com.zving.tree;import java.util.ArrayList;import java.util.List;/*** 树形结构实体类* author clove*/public class Node {private int id;private int pid;private String name;private String type;private List children new ArrayList<>();public Node(…

过拟合(overfitting)和欠拟合(underfitting)出现原因及如何避免方案

文章目录欠拟合一、什么是欠拟合&#xff1f;二、欠拟合出现原因三、解决欠拟合(高偏差)的方法过拟合一、什么是过拟合&#xff1f;二、过拟合出现原因三、解决过拟合(高方差)的方法欠拟合 一、什么是欠拟合&#xff1f; 欠拟合是指模型不能在训练集上获得足够低的误差。换句…

斯坦佛编程教程-Unix编程工具(五)

Unix Shell 这个部分是总结一下在Unix shell中使用的大多数的命令。 文件命令 cd directory 改变路径&#xff0c;如果directory没有指明&#xff0c;那么就返回home目录。 pwd 显示当前路径。 ls 显示目录下的内容&#xff0c;ls -a会显示以点开头的文件&#xff0c;ls…

LeetCode MySQL 612. 平面上的最近距离

文章目录1. 题目2. 解题1. 题目 表 point_2d 保存了所有点&#xff08;多于 2 个点&#xff09;的坐标 (x,y) &#xff0c;这些点在平面上两两不重合。 写一个查询语句找到两点之间的最近距离&#xff0c;保留 2 位小数。 | x | y | |----|----| | -1 | -1 | | 0 | 0 | …

数据库开发设计规范及表结构设计原则

文章目录一. 命名规范二. 库表基础规范三. 字段规范四. 索引规范五. SQL设计①.正规化表设计原则②.SQL设计③.“三少原则”六. 行为规范一. 命名规范 1.库名、表名、字段名必须使用小写字母&#xff0c;并采用下划线分割 (1)MySQL有配置参数lower_case_table_names1&#xff…

python离散点的线性回归_用python玩点有趣的数据分析——一元线性回归分析实例...

http://python.jobbole.com/81215/本文参考了博乐在线的这篇文章&#xff0c;在其基础上加了一些自己的理解。其原文是一篇英文的博客&#xff0c;讲的十分通俗易懂。本文通过一个简单的例子&#xff1a;预测房价&#xff0c;来探讨怎么用python做一元线性回归分析。1. 预测一下…

[BTS] WCF-SAP Connect to SAP gateway failed

日志名称: Application来源: BizTalk Server日期: 2012/11/15 15:58:24事件 ID: 5743任务类别: (1)级别: 警告关键字: 经典用户: 暂缺计算机: AppTestSrv.AppCenter.xz描述:The ad…

LeetCode MySQL 1112. 每位学生的最高成绩

文章目录1. 题目2. 解题1. 题目 表&#xff1a;Enrollments ------------------------ | Column Name | Type | ------------------------ | student_id | int | | course_id | int | | grade | int | ------------------------ (student_id…

设计精美Power Bi报告的诀窍以及让人眼前一亮的精美Power Bi图表

文章目录设计精美Power Bi报告诀窍一、使用对齐工具二、一次调整多个视觉效果三、使用主题四、使用搜索更快地格式化五、添加令人惊叹的图像形状元素六、对数据使用适当的可视化效果让人眼前一亮的精美Power Bi图表Infographic DesignerWalkers Animated PictogramAnimated Bar…

python模块的函数_python模块内置函数

python提供了一个内联模块buildin&#xff0c;该模块定义了一些软件开发中经常用到的函数&#xff0c;利用这些函数可以实现数据类型的转换、数据的计算、序列的处理等。 模块的内置函数: 1、apply()&#xff1a;可以调用可变参数列表的函数&#xff0c;把参数存在一个元组或者…

大学英语四六各项分值

听力&#xff1a;248.5 听力客观题&#xff08;单选&#xff09;&#xff1a;25&#xff05;合177.5分每个7.1分&#xff1b;听力主观题&#xff08;复合式听写&#xff09;&#xff1a;10&#xff05;合71分&#xff0c;前八个每个3.55分共28.4分&#xff0c;后三个每个14.…

[Hands On ML] 7. 集成学习和随机森林

文章目录1. 投票分类2. Bagging、Pasting3. Out of Bag 评价4. 随机贴片与随机子空间5. 随机森林6. 极端随机树 Extra-Trees7. 特征重要程度8. 提升方法8.1 AdaBoost8.2 梯度提升8.3 Stacking本文为《机器学习实战&#xff1a;基于Scikit-Learn和TensorFlow》的读书笔记。 中文…

dll侧加载_WORD打开时出现加载DLL错误解决方法

WORD打开时出现加载DLL错误解决方法1、接下来看看解决办法&#xff0c;按组合键WIN R或者按开始---运行&#xff0c;打开运行窗口&#xff0c;2、在运行对话框中输入或者复制粘贴“%USERPROFILE%\AppData\Roaming\Microsoft\Templates”(注意双引号就不要输入咧)&#xff0c;输…

SQL Server时间函数

一、统计语句 1、–统计当前【>当天00点以后的数据】 SELECT * FROM 表 WHERE CONVERT(Nvarchar, dateandtime, 111) CONVERT(Nvarchar, GETDATE(), 111) ORDER BY dateandtime DESC2、–统计本周 SELECT * FROM 表 WHERE datediff(week,[dateadd],getdate())03、–统计…

LeetCode 635. 设计日志存储系统(map)

文章目录1. 题目2. 解题1. 题目 你将获得多条日志&#xff0c;每条日志都有唯一的 id 和 timestamp&#xff0c;timestamp 是形如 Year:Month:Day:Hour:Minute:Second 的字符串&#xff0c;例如 2017:01:01:23:59:59&#xff0c;所有值域都是零填充的十进制数。 设计一个日志…

PHP中file() 函数和file_get_contents() 函数的区别

PHP中file() 函数和file_get_contents() 函数的作用都是将整个文件读入某个介质&#xff0c;其主要区别就在于这个介质的不同。 file() 函数是把整个文件读入一个数组中&#xff0c;然后将文件作为一个数组返回。数组中的每个单元都是文件中相应的一行&#xff0c;包括换行符在…

ios 桥接文件找不到文件_电脑文件搜索神器,没有找不到的东西

随着工作或学习&#xff0c;使用电脑的时间增长&#xff0c;里面的文件也会越来越多。有时候想找某个文件&#xff0c;可能就突然忘了把它放在哪了。如果能想起文件名&#xff0c;那么还可以用电脑自带的搜索或者everything这类的软件进行搜索。但如果连文件名都忘了呢&#xf…

SQL行列问题

日常工作中&#xff0c;为了让数据的可读性更强&#xff0c;经常会对数据格式进行转化操作。总结一下日常工作中遇到的关于行列操作问题。 单行拆分成多行 --创建测试数据 CREATE TABLE fwj.customer ( id STRING, name STRING, mobiles STRING);INSERT INTO fwj.customer SEL…

LeetCode 296. 最佳的碰头地点(坐标独立+中位数的地方最近)

文章目录1. 题目2. 解题1. 题目 有一队人&#xff08;两人或以上&#xff09;想要在一个地方碰面&#xff0c;他们希望能够最小化他们的总行走距离。 给你一个 2D 网格&#xff0c;其中各个格子内的值要么是 0&#xff0c;要么是 1。 1 表示某个人的家所处的位置。这里&…

laravel 判断字符串包含_laravel 字符串操作大全

我们在使用laravel的时候常常会遇到一些字符串的操作&#xff0c;下面就为大家介绍laravel常用字符串的操作函数&#xff1a;// 将 UTF-8 的值直译为 ASCII 类型的值Str::ascii($value)Str::camel($value)Str::contains($haystack, $needle)Str::endsWith($haystack, $needles)…