统计中集中趋势的衡量标准

一、说明

   统计中的中心趋势是用于表示大量数值数据的中间值或中心值的数值。这些获得的数值在统计学中称为中心值或平均值。 任何统计数据或序列的中心值或平均值是代表整个数据或其相关频率分布的变量的值。这样的值具有重要意义,因为它描绘了整个数据的性质或特征,否则很难观察到。

目录

  • 集中趋势意义的测量
  • 集中趋势的措施
  • 意味 着
  • 中位数
  • 模式
  • 常见问题

二、集中趋势意义的测量

   数据集的代表值,通常是中心值或最常出现的值,可以大致了解整个数据集,称为集中趋势度量。

集中趋势的措施
一些最常用的集中趋势指标是:

  • 均值
  • 中位数
  • 模式
  • 集中趋势
    在这里插入图片描述

2.1 均值

   一般而言,平均值用于数据的算术平均值,但除了算术平均值之外,还有使用不同公式计算的几何平均值和谐波平均值。在本文中,我们将讨论算术平均值。

2.1.1 未分组数据的平均值

   算术平均值 (\bar{x}) 定义为单个观测值的总和 (x我) 除以观测值总数 N。换言之,平均值由所有观测值的总和除以观测值总数得出。

x ˉ = ∑ x i N \bold{\bar{x} = \frac{\sum x_i}{N}} xˉ=Nxi

或:

   平均值 = 所有观测值的总和÷观测值总数

   示例:如果有 5 个观测值,分别为 27、11、17、19 和 21,则均值 (\bar{x}) 由下式给出

x ˉ = ( 27 + 11 + 17 + 19 + 21 ) ÷ 5 \bar{x}= (27 + 11 + 17 + 19 + 21) ÷ 5 xˉ=27+11+17+19+21÷5
x ˉ ⇒ = 95 ÷ 5 \bar{x}⇒ = 95 ÷ 5 xˉ⇒=95÷5
x ˉ ⇒ = 19 \bar{x}⇒ = 19 xˉ⇒=19

2.1.1 分组数据的平均值

   分组数据的均值 ( x ˉ ) (\bar{x}) xˉ 定义为观测值 ( x i ) (x_i) xi及其相应的频率 ( f i ) (f_i) fi 除以所有频率的总和 ( f i ) (f_i) (fi)

x ˉ = ∑ f i x i ∑ f i \bold{\bar{x} = \frac{\sum f_i x_i}{\sum f_i}} xˉ=fifixi

   示例:如果值 ( x i ) (x_i) xi观测值及其频率 ( f i ) (f_i) (fi)如下所示:

( x i ) (x_i) xi4615108
( f i ) (f_i) fi5108710

   则上述分布的算术平均值 (\bar{x}) 由下式给出

x ˉ = ( 4 × 5 + 6 × 10 + 15 × 8 + 10 × 7 + 9 × 10 ) ÷ ( 5 + 10 + 8 + 7 + 10 ) \bar{x}= (4×5 + 6×10 + 15×8 + 10×7 + 9×10) ÷ (5 + 10 + 8 + 7 + 10) xˉ=4×5+6×10+15×8+10×7+9×10÷5+10+8+7+10

x ˉ ⇒ = ( 20 + 60 + 120 + 70 + 90 ) ÷ 40 \bar{x}⇒ = (20 + 60 + 120 + 70 + 90) ÷ 40 xˉ⇒=20+60+120+70+90÷40

x ˉ ⇒ = 360 ÷ 40 \bar{x}⇒ = 360 ÷ 40 xˉ⇒=360÷40

x ˉ ⇒ = 9 \bar{x}⇒ = 9 xˉ⇒=9

   相关资源,

   使用直接法的平均值
   算术平均值的快捷方法
   使用步进偏差法的平均值

三、均值类型

   平均值可以分为三个不同的类组,它们是

  • 算术平均值
  • 几何平均数
  • 谐波平均值

3.1 算术平均值

   算术平均值的公式由下式给出

x ˉ = ∑ x i N \bold{\bar{x} = \frac{\sum x_i}{N}} xˉ=Nxi

   这里

   x1、x2、x3, . . ., xn是观察结果,以及,N 是观测值的数量。

3.2 几何平均值

   几何平均值的公式由下式给出

G.M. = x 1 ⋅ x 2 ⋅ x 3 ⋅ … ⋅ x n n \bold{\text{G.M.} = \sqrt[n]{x_1\cdot x_2\cdot x_3\cdot \ldots \cdot x_n}} G.M.=nx1x2x3xn

   这里x1、x2、x3, . . ., xn是观察结果,以及,n 是观测值的数量。

3.3 调和均值

   调和均值的公式由下式给出

H. M.  = n 1 / x 1 + 1 / x 2 + … + 1 / x n \bold{\text{H. M. } = \frac{n }{1/x_1 + 1/x_2 +\ldots + 1/x_n}} H. M. =1/x1+1/x2++1/xnn

H. M.  = n ∑ ( 1 / x i ) \bold{\text{H. M. } = \frac{n }{\sum (1/x_i)}} H. M. =1/xin

   这里,x1、x2, . . ., xn是观察结果,以及,n 是观测值的数量。

3.4 算术平均值属性

   算术平均值有多种属性,其中一些如下:

  • 与算术平均值的偏差的代数和为零,即 . ∑ ( x i − x ˉ ) = 0 \bold{\sum{(x_i - \bar{x})} = 0} xixˉ=0
  • 如果 x ˉ \bold{\bar{x}} xˉ是观测值的算术平均值,并且将 a 添加到每个观测值中,则新的算术平均值由下式给出 x ′ ˉ = x ˉ + a \bold{\bar{x'} =\bar{x}+a} xˉ=xˉ+a
  • 如果 x ˉ \bold{\bar{x}} xˉ是观测值的算术平均值,并且从每个观测值中减去 a,则新的算术平均值由下式给出 x ′ ˉ = x ˉ − a \bold{\bar{x'} =\bar{x}-a} xˉ=xˉa
  • 如果 x ˉ \bold{\bar{x}} xˉ是观测值的算术平均值,并且 a 乘以每个观测值,则新的算术平均值由下式给出 x ′ ˉ = x ˉ × a \bold{\bar{x'} =\bar{x}\times a} xˉ=xˉ×a
  • 如果 x ˉ \bold{\bar{x}} xˉ是观测值的算术平均值,并且每个观测值除以 a,则新的算术平均值由下式给出 x ′ ˉ = x ˉ ÷ a \bold{\bar{x'} =\bar{x}\div a} xˉ=xˉ÷a

四、均值作为集中趋势度量的缺点

   尽管均值是计算数据集集中趋势的最通用方法,但它不能始终给出正确的想法,尤其是当数据集之间存在较大差距时。

4.1 中位数

   任何分布的中位数是将分布分成两个相等部分的值,使得其上方的观测值数等于其下方的观测值数。因此,中位数称为任何给定数据的中心值,无论是分组的还是未分组的。

4.2 未分组数据的中位数

   要计算中位数,观测值必须按升序或降序排列。如果观测值总数为 N,则有两种情况

   案例 1:N 为奇数

   中位数 = [(n + 1) ÷ 2] 处的观察值第位置

   当 N 为奇数时,计算中位数,如下图所示。

   n 为奇数时的中位数

   案例 2:N 为偶数

   中位数 = (n ÷ 2) 处观测值的算术平均值第和 [(n ÷ 2) + 1]第位置

   当 N 为偶数时,计算中位数,如下图所示。

   n 为偶数时的中位数

   示例 1:如果观测值为 25、36、31、23、22、26、38、28、20、32,则中位数由下式给出

   按升序排列数据:20、22、23、25、26、28、31、32、36、38

   N = 10,即使如此

   中位数 = (10 ÷ 2)th 和 [(10 ÷ 2) + 1]th 位置值的算术平均值

   ⇒ 中位数 = (第 5 位的值 + 第 6 位的值) ÷ 2

   ⇒ 中位数 = (26 + 28) ÷ 2

   ⇒ 中位数 = 27

   示例 2:如果观测值为 25、36、31、23、22、26、38、28、20,则中位数由下式给出

   按升序排列数据:20、22、23、25、26、28、31、36、38

   N = 9 是奇数

   中值 = [(9 + 1) ÷ 2] 处的值第位置

   ⇒ 中位数 = 5 时的值第位置

   ⇒ 中位数 = 26

4.3 分组数据的中位数

   分组数据的中位数如下:

中位数 = l + N / 2 − c f f × h \bold{中位数 =l+ \frac{N/2 - c_f}{f} \times h} 中位数=l+fN/2cf×h

   这里

  • l 是中位数类的下限,
  • n 是观测值的总数,
  • cf是前一个类的累积频率,
  • f 是每个类的频率,并且
  • h 是班级规模。
       示例:计算以下数据的中位数。
10 – 2020 – 3030 – 4040 – 5050 – 60
频率5101285

解决:

为给定数据创建下表。

频率累积频率
频率累积频率
10 – 2055
20 – 301015
30 – 401227
40 – 50835
50 – 60540
当 n = 40 且 n/2 = 20 时, 因此,30 – 40 是中位数。

l = 30,cf= 15,f = 12,h = 10

将值放入公式中 中位数 = l + N / 2 − c f f × h \bold{中位数 =l+ \frac{N/2 - c_f}{f} \times h} 中位数=l+fN/2cf×h

中位数 = 30 + (20 – 15)/12) × 10

⇒ 中位数 = 30 + (5/12) × 10

⇒ 中位数 = 30 + 4.17

⇒ 中位数 = 34.17

因此,该数据集的中值为 34.17

五、模式

模式是该观测值的值,该观测值具有与之对应的最大频率。换句话说,对数据的观察在数据集中发生的最大次数。

5.1未分组数据的模式

未分组数据的模式可以通过观察频率最高的观测值来简单地计算。让我们看一个计算未分组数据模式的示例。

数据集的众数是数据集中频率最高的项,如下图所示。

未分组数据的模式

示例:求观测值 5、3、4、3、7、3、5、4、3 的模式。

解决:

创建一个包含每个观测值的表,其频率如下所示:

xi5347
fi2421

   由于 3 出现的最大次数,即在给定数据中出现 4 次;

   因此,给定未分组数据的模式为 3。

5,2 分组数据模式

   查找分组数据模式的公式为:

M o d e = l + [ f 1 − f 0 2 f 1 − f 0 − f 2 ] × h \bold{Mode = l +\left [\frac{f_1-f_0}{2f_1-f_0-f_2}\right]×h} Mode=l+[2f1f0f2f1f0]×h

这里

  • l 是模态类的下限,
  • h 是班级人数,
  • f1是模态类的频率,
  • f0是进行模态类的类的频率,并且
  • f2是继承模态类的类的频率。

   示例:找到数据集的模式,如下所示。

上课间隔10-2020-3030-4040-5050-60
频率58121610

解决:

   由于频率最高的类间隔是 40-50,因此频率为 16。因此,40-50 是模态类。

   因此,l = 40 , h = 10 , f 1 = 16 , f0 = 12 , f2= 10

   在公式 M o d e = l + [ f 1 − f 0 2 f 1 − f 0 − f 2 ] × h \bold{Mode = l +\left [\frac{f_1-f_0}{2f_1-f_0-f_2}\right]×h} Mode=l+[2f1f0f2f1f0]×h中插入值,我们得到

   模式 = 40 + (16 – 12)/(2 × 16 – 12 – 10) × 10

   ⇒模式 = 40 + (4/10)×10

   ⇒模式 = 40 + 4

   ⇒模式 = 44

   因此,这组数据的模式为 44。

   了解有关分组数据的均值、中位数和众数的详细信息

5.3 集中趋势测量之间的经验关系

   这三个中心趋势通过经验公式相互关联,如下:

2 × 均值 + 众数 = 3 × 中位数 2 × 均值 + 众数 = 3 × 中位数 2×均值+众数=3×中位数

   当给定另外两个中心趋势时,此公式用于计算其中一个中心趋势。

   关于集中趋势措施的常见问题
   1. 什么是统计学中集中趋势的衡量标准?
   数据集的集中趋势度量表示数据集的中心值或典型值,可用于对数据进行进一步分析。

   2. 是什么意思?
   平均值是数据集的平均值,也可以按算术、几何和和谐方式计算。通常,术语“平均值”是指数据的算术平均值。

   3. 什么时候均值是衡量集中趋势的良好指标?
   当数据呈正态分布且数据集中没有极值或异常值时,均值是集中趋势的良好度量。

   4. 什么是中位数?
   中位数是数据集的中间值,当按递增或递减顺序排列时,即在中位数两侧的观测值数量相等。

   5. 中位数何时是衡量集中趋势的良好指标?
   当数据集偏斜或数据集中存在极值或异常值时,中位数是集中趋势的良好度量。

   6. 什么是模式?
众数是给定数据集的最高频率观测。

   7. 模式何时是衡量集中趋势的良好指标?
   当观测频率数据集中存在明显的峰值时,该模式可以很好地衡量集中趋势。

   8. 一个数据集可以有多个模式吗?
   是的,一个数据集可以有多个模式,因为可以有两个具有相同频率数的观测值。

   9. 集中趋势的目的是什么?
   集中趋势的主要目标是提供一个值,该值有效地表示一组收集的数据。此值旨在捕获数据的核心或典型方面,提供整体信息的简明摘要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/640936.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

针对特定领域较小的语言模型是否与较大的模型同样有效?

经过2023年的发展,大语言模型展示出了非常大的潜力,训练越来越大的模型成为有效性评估的一个关键指标,论文《A Comparative Analysis of Fine-Tuned LLMs and Few-Shot Learning of LLMs for Financial Sentiment Analysis》中,作…

阿里云 SAE 2.0 正式商用:极简易用、百毫秒弹性效率,降本 40%

作者:黛忻 本文主要介绍阿里云 Serverless 应用引擎(以下简称 SAE )如何帮助企业跨越技术鸿沟,从传统应用架构无感升级到 Serverless 架构,以更高效、更经济的方式进行转型,快速进入云原生快车道&#xff0…

【Android】TypedArray的使用

介绍 看电池电量组件BatteryMeterView的时候看到的。 Array是个数组,所有TypedArray也是个容器,基本是用于自定义View里面的(至少我目前见过的全部都在自定义View里面)。 使用 1.自定义View public class RoundSeekbarView e…

【深度学习】BasicSR训练过程记录,如何使用BasicSR训练GAN

文章目录 两种灵活的使用场景项目结构概览简化的使用方式 项目结构解读1. 代码的入口和训练的准备工作2. data和model的创建2.1 dataloader创建2.2 model的创建 3. 训练过程 动态实例化的历史演进1. If-else判断2. 动态实例化3. REGISTER注册机制 REGISTER注册机制的实现1. DAT…

嵌入式基础知识-测试基础概念

本篇来介绍嵌入式项目开发中,软件测试的相关基础知识。 1 测试基础知识 测试是指:在规定的条件下对程序进行操作,以发现错误,对软件质量进行评估 测试的对象包括程序、数据和文档 对于测试,并不是只有测试人员才需…

读AI3.0笔记04_视觉识别

1. 两次飞跃 1.1. ConvNets是当今计算机视觉领域深度学习革命的驱动力 1.1.1. 20世纪80年代便由法国计算机科学家杨立昆提出,而他则是受到了福岛邦彦提出的神经认知机(Neocognitron)的启发 1.2. ImageNet竞赛被看作计算机视觉和人工智能进…

Docker 配置 Gitea + Drone 搭建 CI/CD 平台

Docker 配置 Gitea Drone 搭建 CI/CD 平台 配置 Gitea 服务器来管理项目版本 本文的IP地址是为了方便理解随便打的,不要乱点 首先使用 docker 搭建 Gitea 服务器,用于管理代码版本,数据库选择mysql Gitea 服务器的 docker-compose.yml 配…

Kubernetes(K8S)拉取本地镜像部署Pod 实现类似函数/微服务功能(可设置参数并实时调用)

以两数相加求和为例,在kubernetes集群拉取本地的镜像,实现如下效果: 1.实现两数相加求和 2.可以通过curl实时调用,参数以GET方式提供,并得到结果。(类似调用函数) 一、实现思路 需要准备如下的…

分布式websocket IM聊天系统相关问题问答【第九期】

前言 上期视频讲解了自己关于聊天系统的设计的时候出现了一些不一样的声音。不了解情况的可以看上上期视频。这期主要是讨论。IM聊天系统设计方案多。我的先说明一下自己的技术背景互相之间才能更好的理解。 本期对应视频 目前已经写的文章有。并且有对应视频版本。 git项目地…

FPGA中跨时钟域传数据——(1)单bit脉冲

FPGA中跨时钟域传数据——(1)单bit脉冲 亚稳态模型由快时钟传到慢时钟由慢时钟传到快时钟 亚稳态模型 必须在建立时间和保持时间内,数据不变化,否则会产生亚稳态。 由快时钟传到慢时钟 在快时钟里面进行数据展宽(…

牛客周赛 Round 20 解题报告 | 珂学家 | 状压DP/矩阵幂优化 + 前缀和的前缀和

前言 整体评价 这场比赛很特别,是牛客周赛的第20场,后两题难度直线飙升了。 前四题相对简单,E题是道状压题,历来状压题都难,F题压轴难题了,感觉学到了不少。 A. 赝品 先求的最大值 然后统计非最大值的个…

位置无关码PIC详解:原理、动态链接库、代码重定位

静态链接库将代码和数据在编译时整合到可执行文件,使程序独立运行。动态链接库允许在程序运行时加载,而不是在编译时将库的代码和数据静态地合并到可执行文件中。这允许多个程序共享同一份库,减小程序体积。由于动态链接库在编译时并未确定其…

【Electron】Electron是什么

1. Electron是什么 Electron是使用JavaScript、HTML和CSS构建跨平台(Windows、MacOs、Linux)的桌面应用。Electron其实就是一个可以展示网页内容的壳子,相当于一个独立的浏览器,可以提供给你一些接口,去调用系统的资源…

微软 Power Apps model drven app 模型驱动应用使用Plugin插件实现业务流程跳转阶段功能

微软 Power Apps model drven app 模型驱动应用使用Plugin插件实现业务流程跳转阶段功能 模型驱动应用使用插件实现跳转业务流程阶段跳转功能 在实际操作中总会遇到使用业务流程的需求,那么如何使用plugin实现跳转阶段的功能呢 需求背景是主表上有业务流程&#x…

在Python环境中运行R语言的配环境实用教程

前情提要 在做一些生物信息与医学统计的工作,本来偷懒希望只靠python完成的,结果还是需要用R语言,倒腾了一会儿,调成功了,就记录一下这个过程。 我的环境: win10, pycharm, R-4.3.2 首先,我们…

Redis 面试题 | 05.精选Redis高频面试题

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

muduo网络库剖析——线程Thread类

muduo网络库剖析——线程Thread类 前情从muduo到my_muduo 概要框架与细节成员函数使用方法 源码结尾 前情 从muduo到my_muduo 作为一个宏大的、功能健全的muduo库,考虑的肯定是众多情况是否可以高效满足;而作为学习者,我们需要抽取其中的精…

OpenCV书签 #差值哈希算法的原理与相似图片搜索实验

1. 介绍 差值哈希算法(Difference Hash Algorithm,简称dHash) 是哈希算法的一种,主要可以用来做以图搜索/相似图片的搜索工作。 2. 原理 差值哈希算法通过计算相邻像素的差异来生成哈希,即通过缩小图像的每个像素与平…

高效构建Java应用:Maven的使用总结

一、Maven简介和快速入门 1.1 Maven介绍 Maven-Introduction Maven 是一款为 Java 项目构建管理、依赖管理的工具(软件),使用 Maven 可以自动化构建、测试、打包和发布项目,大大提高了开发效率和质量。 总结:Maven…

excel(wps)之vlookup函数合并sheet数据

VLOOKUP函数是Excel中的一个纵向查找函数,它与LOOKUP函数和HLOOKUP函数属于一类函数,在工作中都有广泛应用,例如可以用来核对数据,多个表格之间快速导入数据等函数功能。功能是按列查找,最终返回该列所需查询列序所对应…