今天我们开始来学习描述统计量吧!
位置的度量
位置的度量就是用来描述定量资料的集中趋势的统计量,常用的有均值、众数、中位数、百分位数等。
1.均值 mean( )
形式:
mean(x, trim = 0, na.rm = FALSE)
x 是对象(如向量、矩阵、数组或数据框)
trim 是计算均值前去掉与均值差较大数据的比例,缺省值为0,即包括全部数据
na.rm = TRUE 时,允许数据中有缺失数据
trim 的取值在 0 到 0.5 之间,表示计算均值前去掉异常值的比例。将向量 w 中的第一个数值改成 750 ,来看看 trim 参数好不好用吧!
当 x 是矩阵或数组时,函数 mean( ) 的返回值,不是向量,而是一个数,是矩阵中全部数据的平均值。
如果需要各行或各列的平均值,需要调用 apply( ) 函数
如果 x 是数据框,则 mean( ) 的返回值就是向量
2. sum( ) / weighted.mean( )
形式:
sum(x, na.rm = FALSE)
weighted.mean(x, w, na.rm = FALSE)
w 是数据 x 的求和权数,与 x 的维数相同
其他参数的含义见上
关系式:mean(x) = sum(x) / length(x)
3.顺序统计量 sort( )
将 n 个数据按从小到大的顺序排列为:X(1) <= x(2) <= …… <= x(n)
最小统计量为 X(1), 最大统计量为 X(n)
形式:
sort(x, partial = NULL, na.last = NA, decreasing = FALSE)
x 可以是数值、或字符、或逻辑型向量
partial 是部分排序的指标向量
na.last 是控制缺失数据的参数, na.last = NA(缺省值),不处理缺失数据;na.last = TRUE ,缺失数据排在最后;na.last = FALSE, 缺失数据排在最前。
decreasing 是逻辑变量,控制数据排列的顺序, decreasing = FALSE(缺省值),从小到大排序;decreasing = TRUE ,从大到小排序
用 sort( ) 给观测值排序
4.中位数 median( )
中位数的一显著特点是不受异常值的影响,具有稳健性
形式:
median(x, na.rm = FALSE)
5.百分数 quantile( )
百分位数是中位数的推广, quantile( ) 函数计算观测值的百分数
形式:
quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE)
probs 是相应的百分位数,缺省时为( 0, 0.25, 0.5, 0.75, 1), 其中 seq(from = value_1, to = value_2, step = value_3 )
分散程度的度量
表示数据分散(或变异)程度的特征量有:方差、标准差、极差、四分位极差、变异系数和标准误等
1.方差、标准差与变异系数
以样本数据来衡量总体统计量
注:下文中的bar{x} 均为样本均值
方差公式:
方差形式:var( )
标准差公式:
标准差形式:sd( )
变异系数公式:
变异系数的计算需要自行编写函数来计算
2.极差、四分位极差与标准误
数据越分散,其极差越大。
公式:x(n) - x(1)
样本上、下四分位数之称为四分位差(或半极差),对具有异常值的数据来说,具有稳健性。
公式:Q(3) - Q(1)
标准误公式:
分布形状的度量
如偏度系数和峰度系数
偏度系数 g1 公式:
峰度系数 g2 公式:
哇~今天的内容都学会啦!是不是跟统计学很一样呢对呀!小编下一节会将啥咧?下一节咱们用图来描述数据咋样?够高 level 吧哇塞酷炫!盘他!!扫码关注一个吧~~