应用统计基本内容(简略版)
描述统计:统计图表,集中趋势(平均数,中数,众数),离散趋势(极差,离均差,平均差,方差,标准差,差异系数,z分数)
数学基础(概率论基础,抽样分布理论)
推断统计:参数估计,假设检验(参数检验(t检验,z检验,方差分析),非参数检验(卡方检验)),协方差分析,线性回归
相关系数(皮尔逊积差相关,斯皮尔曼等级相关,肯德尔等级,点二列等)
当我看到如此繁多的内容,内心是多么的崩溃,当我尝试去学习,一遍一遍的翻完,学完一遍,才发现并不是想象中的困难。为了巩固,理解,激励自己继续学下去。希望自己能够坚持下去。
当我们完成数据的收集之后,结果往往是包含许多繁杂的,杂乱无章的数据。随之而来的问题就是如何让数据变得更加清晰,容易理解呢。这就是描述统计的工作了。我们需要把大量的数据转换成图表的形式。这样就方便我们更进一步的分析数据了。直方图
在学习图表之前有必要知道一些关于测量方面的概念,我们收集的大部分数据都是通过测量得到的,测量是通过一定的法则用测量工具对事物属性的定量描述,生活中涉及比较多的测量方式有物理测量(长度,身高,体重),生理测量(血压,心率),心理测量(智力,情绪,性格)等,每种测量的得到的数据就可以形成不同的量表,量表按照测量尺度可以分为四类,分别是称名量表,顺序量表,等距量表以及等比量表。量表按照数据的连续性可以分为二类,分别是连续型数据和离散型数据。
称名量表:里面包括的数据是不同名称的种类,是对我们测量的数据进行标注和分类,比如动漫的种类(魔幻,耽美,爱情),但是不做任何数量的区别。关键字:种类
顺序量表:按照一定的顺序组织的种类组成,比如成绩的评分(优秀,良好,及格),根据事物的大小和顺序进行排列。关键字:种类 顺序
等距量表:是由间距大小相等的有顺序的类别组成,间距相等指的是单位的间隔相等。但是等距量表的零点是任意的不是0,比如温度,海拔高度,考试分数,单位与单位之间都是相等的距离,并且海拔为0,温度为0,分数为0,并不是指没有海拔,温度,分数,0是我们规定的0,并不是真正的没有。好比你数学成绩考试0分,不代表你数学能力为0,只说明你考试的那部分内容不懂罢了。关键字:种类 顺序 等距 没有零点 可以加减运算 不可乘除
等比数据:目前最高级的量表,具有以上量表的全部特点,而且有零点,比如身高,体重,长度。当他们为0时,就是没有。种类 顺序 等距 有零点 可乘除
连续型数据:指在一定区间内可以任意取值、数值是连续不断的、相邻两个数值可作无限分割(即可取无限个数值)的数据。比如50--55之间包含无数的数值。
离散型数据:离散数据是指其数值只能用自然数或整数单位计算的数据。例如:企业个数、职工人数,班级人数等。
我们知道了这些量表,就可以学习接下来的图表了。
1.频数分布表
简单的频数分布表通过列出从小到大的测量分数来表示测量尺度。
频数分布表
2.分组频数分布表
当数据特别多的时候,简单的频数分布看似并不是太有效了,你能想象出一张纸还不够你写完数据。分组频数分布表,需要把数据进行分组。分组需要遵循一定的步骤以及原则;
我们以一个简单的例子说明一下(原则并不绝对,目的只是让这些数据整理起来更加方便,看起来更加清晰。给我们提供了方向。)
例:一位教师获得了一组N=25(一共有25名学生)的考试成绩。为了整理这些数据,将他们列入频数分布表中,这些分数是:
82 75 88 93 53 84 87 58 72 94 69 84 61 91 64 87 84 70 76 89 75 80 73 78 60
第一步计算行数(最大值-最小值+1),在这组数据中,最小值是53,最大值是94,所以如果在分布表中列出每个分数,则需要42行.因为42行过于繁琐,我们要对其进行分组。
分组频数分布表应该包括大约10个分组区间(10行),这样就给我们提供组距的选择(一般组距有四种选择 2,5,10,20),我们去尝试每一个,最后发现当组距为5的时候,行数为9,正好满足。
下一步就是确定分组区间值(比如50--54),因为最小的值为53,所以最小的区间应该包含这个值。因为每个分组区间的下限为5的倍数(分组下限应该为组距的倍数),所以分组区间下限为50。区间的宽度为5,所以最小的区间应该包含5个值。50 51 52 53 54 。下一个分组区间下限为55,上限为59.以此类推。
一旦你列好了分组区间值,在加上频数,就完成了分组频数分布表的编写。例题答案
值得注意的,分组频数分布表有一个缺陷,就是容易丢失具体的信息,比如数据中包含54.5,但是分组区间(50--55)中你并不能看出有54.5。还有区间(50--55)的区间界限是49.5和55.5。两个界限之间的距离(6点)是区间宽度。注意:(连续型数据之间可以有无限的可能值。这个适用于分组频数分布表中。而频数分布表则不适用,只能离散型。)