数据的描述统计量

一、本文简介  

  一组样本数据分布的数值特诊可以从三个方面进行描述:

1、数据的水平:也称为集中趋势或位置度量,反应全部数据的数值大小。

2、数据的差异:反应数据间的离散程度。

3、分布的形状:反应数据分布的偏度和峰度。

本文基于R实现描述数据的各统计量的计算方法。

 

二、描述水平的统计量

> head(iris[,-5],20)Sepal.Length Sepal.Width Petal.Length Petal.Width
1           5.1         3.5          1.4         0.2
2           4.9         3.0          1.4         0.2
3           4.7         3.2          1.3         0.2
4           4.6         3.1          1.5         0.2
5           5.0         3.6          1.4         0.2
6           5.4         3.9          1.7         0.4
7           4.6         3.4          1.4         0.3
8           5.0         3.4          1.5         0.2
9           4.4         2.9          1.4         0.2
10          4.9         3.1          1.5         0.1
11          5.4         3.7          1.5         0.2
12          4.8         3.4          1.6         0.2
13          4.8         3.0          1.4         0.1
14          4.3         3.0          1.1         0.1
15          5.8         4.0          1.2         0.2
16          5.7         4.4          1.5         0.4
17          5.4         3.9          1.3         0.4
18          5.1         3.5          1.4         0.3
19          5.7         3.8          1.7         0.3
20          5.1         3.8          1.5         0.3

2.1、平均数

> mean(iris$Sepal.Length)
[1] 5.843333

  

2.2、分位数

1、中位数

> median(iris$Sepal.Length)
[1] 5.8

 

2、四分位数

> quantile(iris$Sepal.Length,probs = c(0.25,0.75),type = 6)
25% 75% 
5.1 6.4 

  

3、百分位数

> quantile(iris$Sepal.Length,probs = c(0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9),type = 6)10%  20%  30%  40%  50%  60%  70%  80%  90% 
4.80 5.00 5.23 5.60 5.80 6.10 6.30 6.58 6.90 

  

2.3、众数

> which.max(table(iris$Sepal.Length))
5 
8 

 

三、描述差异的统计量

3.1、极差和四分位数

1、极差

> range<-max(iris$Sepal.Length)-min(iris$Sepal.Length)
> range
[1] 3.6

 

2、四分位差

> IQR(iris$Sepal.Length,type = 6)
[1] 1.3

  

3.2、方差和标准差

> var(iris$Sepal.Length)
[1] 0.6856935
> sd(iris$Sepal.Length)
[1] 0.8280661

 

3.3、变异系数

> mean<-apply(iris[,1:4],1,mean)
> sd<-apply(iris[,1:4],1,sd)
> cv<-sd/mean
> x<-data.frame("平均数"=mean,"标准差"=sd,"变异系数"=cv)
> round(x,4)平均数 标准差 变异系数
1    2.550 2.1794   0.8547
2    2.375 2.0370   0.8577
3    2.350 1.9975   0.8500
4    2.350 1.9122   0.8137
5    2.550 2.1564   0.8456
6    2.850 2.2308   0.7828
7    2.425 1.9363   0.7985
8    2.525 2.1093   0.8354
9    2.225 1.8228   0.8192
10   2.400 2.0688   0.8620
11   2.700 2.3080   0.8548
12   2.500 2.0166   0.8066
13   2.325 2.0320   0.8740
14   2.125 1.8839   0.8866
15   2.800 2.5665   0.9166
16   3.000 2.4671   0.8224
17   2.750 2.3072   0.8390
18   2.575 2.1438   0.8325
19   2.875 2.3698   0.8243
20   2.675 2.1731   0.8124

 

> boxplot(iris[,1:4],notch = TRUE,col = "lightblue",ylab="花瓣长度",xlab="长度")

 

3.4、标准分数

> as.vector(round(scale(iris[,1:4]),4))[1] -0.8977 -1.1392 -1.3807 -1.5015 -1.0184 -0.5354 -1.5015[8] -1.0184 -1.7430 -1.1392 -0.5354 -1.2600 -1.2600 -1.8638[15] -0.0523 -0.1731 -0.5354 -0.8977 -0.1731 -0.8977 -0.5354[22] -0.8977 -1.5015 -0.8977 -1.2600 -1.0184 -1.0184 -0.7769[29] -0.7769 -1.3807 -1.2600 -0.5354 -0.7769 -0.4146 -1.1392[36] -1.0184 -0.4146 -1.1392 -1.7430 -0.8977 -1.0184 -1.6223[43] -1.7430 -1.0184 -0.8977 -1.2600 -0.8977 -1.5015 -0.6561[50] -1.0184  1.3968  0.6722  1.2761 -0.4146  0.7930 -0.1731[57]  0.5515 -1.1392  0.9138 -0.7769 -1.0184  0.0684  0.1892[64]  0.3100 -0.2939  1.0345 -0.2939 -0.0523  0.4307 -0.2939[71]  0.0684  0.3100  0.5515  0.3100  0.6722  0.9138  1.1553[78]  1.0345  0.1892 -0.1731 -0.4146 -0.4146 -0.0523  0.1892[85] -0.5354  0.1892  1.0345  0.5515 -0.2939 -0.4146 -0.4146[92]  0.3100 -0.0523 -1.0184 -0.2939 -0.1731 -0.1731  0.4307[99] -0.8977 -0.1731  0.5515 -0.0523  1.5176  0.5515  0.7930
[106]  2.1214 -1.1392  1.7591  1.0345  1.6384  0.7930  0.6722
[113]  1.1553 -0.1731 -0.0523  0.6722  0.7930  2.2422  2.2422
[120]  0.1892  1.2761 -0.2939  2.2422  0.5515  1.0345  1.6384
[127]  0.4307  0.3100  0.6722  1.6384  1.8799  2.4837  0.6722
[134]  0.5515  0.3100  2.2422  0.5515  0.6722  0.1892  1.2761
[141]  1.0345  1.2761 -0.0523  1.1553  1.0345  1.0345  0.5515
[148]  0.7930  0.4307  0.0684  1.0156 -0.1315  0.3273  0.0979
[155]  1.2450  1.9333  0.7862  0.7862 -0.3610  0.0979  1.4745
[162]  0.7862 -0.1315 -0.1315  2.1627  3.0805  1.9333  1.0156
[169]  1.7039  1.7039  0.7862  1.4745  1.2450  0.5567  0.7862
[176] -0.1315  0.7862  1.0156  0.7862  0.3273  0.0979  0.7862
[183]  2.3922  2.6216  0.0979  0.3273  1.0156  1.2450 -0.1315

 

四、描述分布形状的统计量

4.1、偏度系数

> library(agricolae)
> skewness(iris$Sepal.Length)
[1] 0.314911

 

4.2、峰度系数

> kurtosis(iris$Sepal.Length)
[1] -0.552064

 

转载于:https://www.cnblogs.com/RHadoop-Hive/p/10167495.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/484499.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Science:细胞如何测量自身的大小?答案是:DNA含量

图片显示的是一个茎尖分生组织(在中间)&#xff0c;在它的两侧出现了花蕾。绿色标记的细胞即将进入DNA复制。来源&#xff1a;生物通自从350多年前科学家在显微镜下发现细胞以来&#xff0c;他们就注意到每一种细胞都有其特有的大小。从微小的细菌到几英寸长的神经元&#xff0…

Windows 程序设计技巧

#include<iostream> #include<windows.h>using namespace std;int main() {int nSelect ::MessageBox(NULL,"windows 程序设计","测试",MB_OKCANCEL);if (nSelect IDOK){printf("OK!");}else{printf("Cancel!");}return…

兰德公司发布《美国5G时代》报告

来源&#xff1a;微信公众号科技咨询频道作者&#xff1a;谢黎、张志强&#xff0c;中国科学院成都文献情报中心兰德公司2021年5月24日发布《美国5G时代&#xff1a;在保障国家和人民的同时获得竞争优势》报告。报告援引美国国防创新委员会、联邦政府的观点&#xff0c;声称5G是…

40年诞生7位诺奖得主,美国贝尔实验室做对了什么?

贝尔实验室从1940年到1979年&#xff0c;共40年&#xff0c;历经4位总裁。这4位总裁在不同时期根据当时的形势&#xff0c;都提出了自己的管理方针&#xff0c;领导着该实验室近万名工作人员和几千名的科学家和工程师为世界和美国的科技发展作出了重要的贡献。来源&#xff1a;…

7-5 列车厢调度 (25 分)

7-5 列车厢调度 (25 分) 1 <--移动方向/ 3 \2 -->移动方向大家或许在某些数据结构教材上见到过“列车厢调度问题”&#xff08;当然没见过也不要紧&#xff09;。今天&#xff0c;我们就来实际操作一下列车厢的调度。对照上方的ASCII字符图&#xff0c…

64位系统下,一个32位的程序究竟可以申请到多少内存,4GB还是更多

前言&#xff1a; cpu的位是指一次性可处理的数据量是多少&#xff0c;1字节8位&#xff0c;32位处理器可以一次性处理4个字节的数据量&#xff0c;依次类推。32位操作系统针对的32位的CPU设计。64位操作系统针对的64位的CPU设计。操作系统只是硬件和应用软件中间的一个平台。我…

长二F发射神十二飞船圆满成功!三名航天员飞向空间站天和核心舱

来源&#xff1a;中国航天科技集团文&#xff1a;陈立 刘岩编辑&#xff1a;杨成 高一鸣校对&#xff1a;林佳昕监制&#xff1a;索阿娣6月17日9时22分长征二号F运载火箭点火起飞中国航天员聂海胜、刘伯明、汤洪波乘坐神舟十二号载人飞船在“神箭”长二F托举下从酒泉卫星发射中…

.net core中不支持GB2312编码的问题

今天在用core实现读取文件内容时出现了中文乱码的问题&#xff0c;特此记录下。代码如下&#xff1a;static void Main(string[] args){string path "F:\\1.txt";StreamReader sr new StreamReader(path, Encoding.Default);String line;while ((line sr.ReadLine…

脑机融合技术的哲学审思

来源&#xff1a;《科学技术哲学研究》2020年第6期作者&#xff1a;张学义&#xff08;东南大学哲学与科学系&#xff09;潘平平&#xff08;华为南京所&#xff09;庄桂山&#xff08;东南大学成贤学院&#xff09;国家社科基金重大项目“问题哲学理论前沿与理论创新研究”(18…

“哪里有人喜欢孤独,不过是害怕失望罢了”———村上春树《东尼泷谷》观后感...

每个人发自内心的感受&#xff0c;都是孤独的&#xff0c;哪怕表面多么欢快。 ——By 浪漫Chopin 配乐&#xff1a; http://music.163.com/song/498210/?userid539620943 东尼的一生都是孤独的&#xff0c;生下来父亲带他到处流浪&#xff0c;对他不管不问。 他自己做饭&…

“新一代城市大脑建设与发展“专家研讨会

2021年6月城市大脑全球标准研究组成员在国家级核心期刊发表论文&#xff08;6月末出版&#xff09;&#xff0c;阐述了关于城市大脑的最新进展&#xff0c;基于城市大脑全球标准研究&#xff0c;形成新一代城市大脑的“1N”模式建设方案和九个实施步骤&#xff1b;突出了直接应…

进程的控制——获取系统进程信息

获取系统进程 ToolHelp函数&#xff1b;CreateToolhelp32Snapshot函数获取当前系统内执行的进程拍快照&#xff08;Snapshot&#xff09;&#xff0c;即获得进程列表&#xff1b;Process32First函数和Process32Next函数遍历列表&#xff1b;快照头文件&#xff1a;#include<…

Science: 四万张大脑图像首次揭示人脑白质的基因基础

来源&#xff1a;青牛帮脑白质&#xff0c;是大脑内部神经纤维聚集的地方&#xff0c;由于其区域比细胞体聚集的大脑表层颜色浅&#xff0c;故名脑白质。人到了大约二十岁时&#xff0c;白质才会在不同脑区逐渐发育完全&#xff0c;而其生长的时机与成熟程度&#xff0c;会影响…

IMT-2030(6G)推进组发布《6G总体愿景与潜在关键技术》白皮书

来源&#xff1a;中国信通院CATCT编辑&#xff1a;蒲蒲当前&#xff0c;新一轮科技革命和产业变革突飞猛进&#xff0c;随着5G商用的大规模部署&#xff0c;全球业界已开启对下一代移动通信&#xff08;6G&#xff09;的探索研究。日前&#xff0c;IMT-2030(6G)推进组&#xff…

PHP中foreach遍历循环的使用(两种用法)

foreach在循环遍历数组时是很便利的&#xff0c;PHP提供了两种方法&#xff1a;1. 输出不显下标 2.输出显示下标 (注意&#xff1a; foreach不支持消除错误信息) 题目如图 输出不显下标&#xff1a; foreach($ students as $key) { echo " $key"."< br/>…

【博客园2018总结帖】21天,在Github上获取 6300 star

大家好&#xff0c;我是程序员小吴。12月初我在GitHub上上传了一个仓库&#xff0c;到现在为止获取了 6300 star&#xff0c;下面和大家聊聊关于项目启动的初衷、面临的一些困难和未来的计划。 「LeetcodeAnimation」的萌芽&#xff1f; 在刷Leetcode的过程中&#xff0c;遇到很…

最强原创综述!当强化学习邂逅组合优化

『运筹OR帷幄』转载来源&#xff1a;运筹OR帷幄作者&#xff1a;黄含驰未来智能实验室的主要工作包括&#xff1a;建立AI智能系统智商评测体系&#xff0c;开展世界人工智能智商评测&#xff1b;开展互联网&#xff08;城市&#xff09;云脑研究计划&#xff0c;构建互联网&…

数学认知中的具身进路及其哲学观初探

来源&#xff1a;《科学技术哲学研究》2020年第6期作者&#xff1a;王东&#xff08;北京工商大学马克思主义学院&#xff09;吴彤&#xff08;清华大学人文学院&#xff09;国家社会科学基金重大课题“科学实践哲学与地方性知识研究”(13&ZD068)从数学思想史以及数学哲学的…

李德毅院士:探索新一代人工智能产业发展

来源&#xff1a;主线科技2021年5月14日&#xff0c;主线科技联合中国人工智能学会智驾专委会正式发起成立“新一代人工智能物流创新中心”&#xff0c;并携手福佑卡车开启中国首个干线物流自动驾驶商业项目。在此次活动上&#xff0c;中国工程院院士、CAAI名誉理事长、主线科技…