数据的描述统计量

一、本文简介  

  一组样本数据分布的数值特诊可以从三个方面进行描述:

1、数据的水平:也称为集中趋势或位置度量,反应全部数据的数值大小。

2、数据的差异:反应数据间的离散程度。

3、分布的形状:反应数据分布的偏度和峰度。

本文基于R实现描述数据的各统计量的计算方法。

 

二、描述水平的统计量

> head(iris[,-5],20)Sepal.Length Sepal.Width Petal.Length Petal.Width
1           5.1         3.5          1.4         0.2
2           4.9         3.0          1.4         0.2
3           4.7         3.2          1.3         0.2
4           4.6         3.1          1.5         0.2
5           5.0         3.6          1.4         0.2
6           5.4         3.9          1.7         0.4
7           4.6         3.4          1.4         0.3
8           5.0         3.4          1.5         0.2
9           4.4         2.9          1.4         0.2
10          4.9         3.1          1.5         0.1
11          5.4         3.7          1.5         0.2
12          4.8         3.4          1.6         0.2
13          4.8         3.0          1.4         0.1
14          4.3         3.0          1.1         0.1
15          5.8         4.0          1.2         0.2
16          5.7         4.4          1.5         0.4
17          5.4         3.9          1.3         0.4
18          5.1         3.5          1.4         0.3
19          5.7         3.8          1.7         0.3
20          5.1         3.8          1.5         0.3

2.1、平均数

> mean(iris$Sepal.Length)
[1] 5.843333

  

2.2、分位数

1、中位数

> median(iris$Sepal.Length)
[1] 5.8

 

2、四分位数

> quantile(iris$Sepal.Length,probs = c(0.25,0.75),type = 6)
25% 75% 
5.1 6.4 

  

3、百分位数

> quantile(iris$Sepal.Length,probs = c(0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9),type = 6)10%  20%  30%  40%  50%  60%  70%  80%  90% 
4.80 5.00 5.23 5.60 5.80 6.10 6.30 6.58 6.90 

  

2.3、众数

> which.max(table(iris$Sepal.Length))
5 
8 

 

三、描述差异的统计量

3.1、极差和四分位数

1、极差

> range<-max(iris$Sepal.Length)-min(iris$Sepal.Length)
> range
[1] 3.6

 

2、四分位差

> IQR(iris$Sepal.Length,type = 6)
[1] 1.3

  

3.2、方差和标准差

> var(iris$Sepal.Length)
[1] 0.6856935
> sd(iris$Sepal.Length)
[1] 0.8280661

 

3.3、变异系数

> mean<-apply(iris[,1:4],1,mean)
> sd<-apply(iris[,1:4],1,sd)
> cv<-sd/mean
> x<-data.frame("平均数"=mean,"标准差"=sd,"变异系数"=cv)
> round(x,4)平均数 标准差 变异系数
1    2.550 2.1794   0.8547
2    2.375 2.0370   0.8577
3    2.350 1.9975   0.8500
4    2.350 1.9122   0.8137
5    2.550 2.1564   0.8456
6    2.850 2.2308   0.7828
7    2.425 1.9363   0.7985
8    2.525 2.1093   0.8354
9    2.225 1.8228   0.8192
10   2.400 2.0688   0.8620
11   2.700 2.3080   0.8548
12   2.500 2.0166   0.8066
13   2.325 2.0320   0.8740
14   2.125 1.8839   0.8866
15   2.800 2.5665   0.9166
16   3.000 2.4671   0.8224
17   2.750 2.3072   0.8390
18   2.575 2.1438   0.8325
19   2.875 2.3698   0.8243
20   2.675 2.1731   0.8124

 

> boxplot(iris[,1:4],notch = TRUE,col = "lightblue",ylab="花瓣长度",xlab="长度")

 

3.4、标准分数

> as.vector(round(scale(iris[,1:4]),4))[1] -0.8977 -1.1392 -1.3807 -1.5015 -1.0184 -0.5354 -1.5015[8] -1.0184 -1.7430 -1.1392 -0.5354 -1.2600 -1.2600 -1.8638[15] -0.0523 -0.1731 -0.5354 -0.8977 -0.1731 -0.8977 -0.5354[22] -0.8977 -1.5015 -0.8977 -1.2600 -1.0184 -1.0184 -0.7769[29] -0.7769 -1.3807 -1.2600 -0.5354 -0.7769 -0.4146 -1.1392[36] -1.0184 -0.4146 -1.1392 -1.7430 -0.8977 -1.0184 -1.6223[43] -1.7430 -1.0184 -0.8977 -1.2600 -0.8977 -1.5015 -0.6561[50] -1.0184  1.3968  0.6722  1.2761 -0.4146  0.7930 -0.1731[57]  0.5515 -1.1392  0.9138 -0.7769 -1.0184  0.0684  0.1892[64]  0.3100 -0.2939  1.0345 -0.2939 -0.0523  0.4307 -0.2939[71]  0.0684  0.3100  0.5515  0.3100  0.6722  0.9138  1.1553[78]  1.0345  0.1892 -0.1731 -0.4146 -0.4146 -0.0523  0.1892[85] -0.5354  0.1892  1.0345  0.5515 -0.2939 -0.4146 -0.4146[92]  0.3100 -0.0523 -1.0184 -0.2939 -0.1731 -0.1731  0.4307[99] -0.8977 -0.1731  0.5515 -0.0523  1.5176  0.5515  0.7930
[106]  2.1214 -1.1392  1.7591  1.0345  1.6384  0.7930  0.6722
[113]  1.1553 -0.1731 -0.0523  0.6722  0.7930  2.2422  2.2422
[120]  0.1892  1.2761 -0.2939  2.2422  0.5515  1.0345  1.6384
[127]  0.4307  0.3100  0.6722  1.6384  1.8799  2.4837  0.6722
[134]  0.5515  0.3100  2.2422  0.5515  0.6722  0.1892  1.2761
[141]  1.0345  1.2761 -0.0523  1.1553  1.0345  1.0345  0.5515
[148]  0.7930  0.4307  0.0684  1.0156 -0.1315  0.3273  0.0979
[155]  1.2450  1.9333  0.7862  0.7862 -0.3610  0.0979  1.4745
[162]  0.7862 -0.1315 -0.1315  2.1627  3.0805  1.9333  1.0156
[169]  1.7039  1.7039  0.7862  1.4745  1.2450  0.5567  0.7862
[176] -0.1315  0.7862  1.0156  0.7862  0.3273  0.0979  0.7862
[183]  2.3922  2.6216  0.0979  0.3273  1.0156  1.2450 -0.1315

 

四、描述分布形状的统计量

4.1、偏度系数

> library(agricolae)
> skewness(iris$Sepal.Length)
[1] 0.314911

 

4.2、峰度系数

> kurtosis(iris$Sepal.Length)
[1] -0.552064

 

转载于:https://www.cnblogs.com/RHadoop-Hive/p/10167495.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/484499.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Science:细胞如何测量自身的大小?答案是:DNA含量

图片显示的是一个茎尖分生组织(在中间)&#xff0c;在它的两侧出现了花蕾。绿色标记的细胞即将进入DNA复制。来源&#xff1a;生物通自从350多年前科学家在显微镜下发现细胞以来&#xff0c;他们就注意到每一种细胞都有其特有的大小。从微小的细菌到几英寸长的神经元&#xff0…

Windows 程序设计技巧

#include<iostream> #include<windows.h>using namespace std;int main() {int nSelect ::MessageBox(NULL,"windows 程序设计","测试",MB_OKCANCEL);if (nSelect IDOK){printf("OK!");}else{printf("Cancel!");}return…

洛谷P1558 色板游戏

题目背景 阿宝上学了&#xff0c;今天老师拿来了一块很长的涂色板。 题目描述 色板长度为\(L\)&#xff0c;\(L\)是一个正整数&#xff0c;所以我们可以均匀地将它划分成\(L\)块\(1\)厘米长的小方格。并从左到右标记为\(1, 2, ... L\)。 现在色板上只有一个颜色&#xff0c;老师…

兰德公司发布《美国5G时代》报告

来源&#xff1a;微信公众号科技咨询频道作者&#xff1a;谢黎、张志强&#xff0c;中国科学院成都文献情报中心兰德公司2021年5月24日发布《美国5G时代&#xff1a;在保障国家和人民的同时获得竞争优势》报告。报告援引美国国防创新委员会、联邦政府的观点&#xff0c;声称5G是…

7-3 银行排队问题之单队列多窗口服务 (25 分)

7-3 银行排队问题之单队列多窗口服务 (25 分) 假设银行有K个窗口提供服务&#xff0c;窗口前设一条黄线&#xff0c;所有顾客按到达时间在黄线后排成一条长龙。当有窗口空闲时&#xff0c;下一位顾客即去该窗口处理事务。当有多个窗口可选择时&#xff0c;假设顾客总是选择编号…

Win32 程序运行原理

处理器的3工作方式&#xff1a;实模式&#xff0c;保护模式&#xff0c;虚拟86模式。CPU的主要工作在保护模式下。Windows操作系统就是运行在保护模式下的&#xff1b;Windows多任务的实现&#xff1a;任务间的切换提供了良好条件&#xff0c;多任务隔离&#xff0c;每个任务都…

40年诞生7位诺奖得主,美国贝尔实验室做对了什么?

贝尔实验室从1940年到1979年&#xff0c;共40年&#xff0c;历经4位总裁。这4位总裁在不同时期根据当时的形势&#xff0c;都提出了自己的管理方针&#xff0c;领导着该实验室近万名工作人员和几千名的科学家和工程师为世界和美国的科技发展作出了重要的贡献。来源&#xff1a;…

图书管理销售系统需求分析报告,对性能的规定以及运行环境规定部分

负责人&#xff1a;皮皮周(20160401085) 国字号(20160401105 完成工作&#xff1a; 3.3对性能的规定3.3.1精度 软件的输入精度:如果输入为数字,小数点后保留2位有效数字;如果输入为字符串,其长度限定为16位。 输出数据精度的要求: 如果输出为数字,小数点后保留…

7-4 堆栈模拟队列 (25 分)

7-4 堆栈模拟队列 (25 分) 设已知有两个堆栈S1和S2&#xff0c;请用这两个堆栈模拟出一个队列Q。 所谓用堆栈模拟队列&#xff0c;实际上就是通过调用堆栈的下列操作函数: int IsFull(Stack S)&#xff1a;判断堆栈S是否已满&#xff0c;返回1或0&#xff1b; int IsEmpty (…

H5唤醒app,不完全兼容

---ps---最近新发现一个开源的H5唤醒app的库&#xff1a;建议使用第三方开源库https://github.com/suanmei/callapp-lib实现&#xff1b;或者极光魔链&#xff08;后期可能会收费&#xff09;https://www.cnblogs.com/SimonHu1993/p/10578775.html<script type"text/ja…

7-5 列车厢调度 (25 分)

7-5 列车厢调度 (25 分) 1 <--移动方向/ 3 \2 -->移动方向大家或许在某些数据结构教材上见到过“列车厢调度问题”&#xff08;当然没见过也不要紧&#xff09;。今天&#xff0c;我们就来实际操作一下列车厢的调度。对照上方的ASCII字符图&#xff0c…

64位系统下,一个32位的程序究竟可以申请到多少内存,4GB还是更多

前言&#xff1a; cpu的位是指一次性可处理的数据量是多少&#xff0c;1字节8位&#xff0c;32位处理器可以一次性处理4个字节的数据量&#xff0c;依次类推。32位操作系统针对的32位的CPU设计。64位操作系统针对的64位的CPU设计。操作系统只是硬件和应用软件中间的一个平台。我…

长二F发射神十二飞船圆满成功!三名航天员飞向空间站天和核心舱

来源&#xff1a;中国航天科技集团文&#xff1a;陈立 刘岩编辑&#xff1a;杨成 高一鸣校对&#xff1a;林佳昕监制&#xff1a;索阿娣6月17日9时22分长征二号F运载火箭点火起飞中国航天员聂海胜、刘伯明、汤洪波乘坐神舟十二号载人飞船在“神箭”长二F托举下从酒泉卫星发射中…

codevs 3288 积木大赛

3288 积木大赛 &#xff08;2013年NOIP全国联赛提高组&#xff09; 时间限制: 1 s 空间限制: 128000 KB 题目等级 : 钻石 Diamond 题目描述 Description 春春幼儿园举办了一年一度的“积木大赛”。今年比赛的内容是搭建一座宽度为 n 的大厦&#xff0c;大厦可以看成由 n 块宽…

定义变量类型

typedef unsigned long DWORD; typedef int BOOL; typedef unsigned char BYTE; typedef unsigned short WORD; typedef float FLOAT; typedef void far *LPVOID; typedef int INT; typedef unsigned int UINT; 变量的“匈牙利表示法”&#xff1a; lp为前缀&#xff1a;指针类…

.net core中不支持GB2312编码的问题

今天在用core实现读取文件内容时出现了中文乱码的问题&#xff0c;特此记录下。代码如下&#xff1a;static void Main(string[] args){string path "F:\\1.txt";StreamReader sr new StreamReader(path, Encoding.Default);String line;while ((line sr.ReadLine…

java中Scanner类的使用

1.导入包 java.util.Scanner; 代码 import java.util.Scanner;&#xff08;不要忘记分号&#xff09; 2.创建Scanner对象 代码&#xff1a;Scanner inputnew Scanner(System.in); 3.创建变量接受输入 代码&#xff1a; int ainput.nextInt(); 显然&#xff0c;此代码只能输入一…

脑机融合技术的哲学审思

来源&#xff1a;《科学技术哲学研究》2020年第6期作者&#xff1a;张学义&#xff08;东南大学哲学与科学系&#xff09;潘平平&#xff08;华为南京所&#xff09;庄桂山&#xff08;东南大学成贤学院&#xff09;国家社科基金重大项目“问题哲学理论前沿与理论创新研究”(18…

“哪里有人喜欢孤独,不过是害怕失望罢了”———村上春树《东尼泷谷》观后感...

每个人发自内心的感受&#xff0c;都是孤独的&#xff0c;哪怕表面多么欢快。 ——By 浪漫Chopin 配乐&#xff1a; http://music.163.com/song/498210/?userid539620943 东尼的一生都是孤独的&#xff0c;生下来父亲带他到处流浪&#xff0c;对他不管不问。 他自己做饭&…