什么是正态分布

最重要的连续分布的通用名是概率密度函数,而标准正态分布(Standard Normal Distribution) 是最重要的概率密度函数。这个连续分布之所以重要,我认为是因为它非常常见,换句话说,我们会很常用到它。标准正态分布(Standard Normal Distribution)的英文中的normal有正常,通用等意思,也就是说在生活中有很多东西都具有一般的、通用的模式,这个连续分布可以用来表达这种模式。正态分布,我将它理解为正常的常见的形态分布。

数据分布可以有多种形式,有的分布集中在左边,如:
在这里插入图片描述
有的数据会集中右边,如:
请添加图片描述
也有的数据分布得相对均匀,如:
请添加图片描述

在大多数数据分布中,许多情况下,数据往往围绕着一个中心值,没有左偏或右偏差,这种数据分布非常接近正态分布,这又再次说明正态分布的实用性和重要性。
请添加图片描述
在上面这张图中,曲线代表的是正态分布,黄色的柱状图表示的数据很接近正态分布,用正态分布去近似的表示一些实际数据(很接近正态分布)是非常有价值的事情。

那么正态分布都有什么特点呢?

  1. 平均值 = 中位数 = 众数(mean = median = mode),这一大特点就说明了大多数据是围绕着一个中心值(这个中心值=平均值=中位数=众数)转的。
  2. 将正态分布用笛卡尔坐标(二维坐标)上表示出来,可以看到它是关于中心值对称的。
  3. 由第2点可知,有50%的数据小于或等于中心值,有50%的数据大于或等于中心值。

我们再来看看正态分布的标准差。什么是标准差呢?有什么用?标准差是衡量数字如何分布的指标。 简单地说就是每个数据离平均值的平均距离。如平均值是5,标准差是3,那么我们就知道在这些数据中,每个点与平均值的距离,平均是3那么远。

下面这些也是正态分布的一些重要特点:
σ :表示标准差,读sigma
μ:表示平均值 ,读mu

  1. 68%的数据落在 [μ-σ,μ+σ]
    请添加图片描述
  2. 95%的数据落在[μ-2σ,μ+2σ]
    在这里插入图片描述
  3. 99.7%的数据落在[μ-3σ,μ+3σ]
    请添加图片描述
    距离平均值多少个标准差(standard deviations),被称为"Standard Score"、“sigma(σ)” 、 “z-score”。
    将一个数值转成一个Standard Score,只是就是计算这个数据离平均值有多少个标准差,计算方式如下:
    • 用这个数据减去平均值
    • 然后除以标准差

上面这两个步骤就是正态分布转换成标准正态分布的过程。

请添加图片描述
z :z-score,和Standard Score一个意思,只是正态分布有它自己一个更特别的叫法。
μ:平均值 (mu)
σ:表示标准差 (sigma)
x:要被标准化的值,如下文中的1.85

举个例子:
以下图是一个学校的学生的身高正态分布图,平均值、中位数、众数都是1.4,标准差是0.15(1.55-1.4 或1.7-1.55等等,因为正态分布是以标准差来划分区间的)如果有个学生的身高是1.85,那么他的Standard Score就是:

  • 用1.85减去平均值: 1.85 - 1.4 = 0.45
  • 然后除以标准差: 0.45 / 0.15 = 3

所以这个1.85的学生的Standard Score是3 。说明这个学生高出平均值3个标准差,

假如某个学生的身高是0.95,那么通过计算得到的Standard Score是-3,说明这个学生比平均值矮了3个标准差。

在这个例子的正态分布图中,平均值、中位数、众数都是1.4,说明这个学校的学生身高1.4的学生是居多的。

请添加图片描述
在刚刚上面这个例子中,我们将一些具体的数值转换成标准差的个数来表示,这就叫标准化。
请添加图片描述
上图左边的图,用具体的值来表示分布,叫正态分布,把数值都转换成标准差个数来表示的正态分布图叫标准正态分布。我们可以将任何正态分布转化成标准正态分布。

为什么我们要做标准化呢?
其中一个最有说服力的理由就是可以帮助我们对数据做出决策。我从网上找来了这样一个例子来说明我们如何利用标准化对数据进行决策。

首先考试成绩的分布是符合正态分布的,否则我们没有理由去做正态分布来对数据进行相应的处理。话说在我第一次高中数学考试中,我们的成绩如下:

20, 15, 26, 32, 18, 28, 35, 14, 26, 22, 17

假设满分是60,那么我们在这次考试中大多数人都失败了。于是数学老师决定标准化这些分数,决定只有那些低于平均分一个标准差的同学都是不及格的。

通过计算可知,平均分(mean)为23,标准差(standard deviation)为6.6,标准化为每个同学的成绩的Standard scores(标准分)分别为):

-0.45, -1.21, 0.45, 1.36, -0.76, 0.76, 1.82, -1.36, 0.45, -0.15, -0.91

那么只有-1.21 和 -1.36是低于平均分1个标准差的,也就是说这次考试只有两人是不及格的。

上面就是利用标准化数据来对数据进行决策的一个例子了。

下面这张图显示了以0.5个标准差累积的百分比,只要符合正态分布,那么百分比的值都符合下图。
请添加图片描述
其实利用这张图我们还可以快速知道一些信息,比如说你已经知道你的考试成绩高于平均分0.5个标准差,

  • 即[0,0.5]累知的百分比是19.1%,
  • 小于平均分的百分比是50%

那么我们就知道理论上有69.1%(19.1%+50%)的同学的成绩低于你。虽然用真实数据来计算时,这个比值可能会有些差异。但是这种理论值已经很有价值了。

个人观点:其实近似的数据已经很能够给我们信息参考,帮助做决策,而至于非常具体的数值其实没有那么必要。

我找到了一个得用标准正态分布做生产决策的一个例子:有一家公司将盐包装在 1 公斤装的袋子中。生产部门抽样,称了一些样品的重量,得到了一些重量数据。
1007g, 1032g, 1002g, 983g, 1004g, …
他们计算平均值为1010g,标准差为20g。根据测量的数据,画了以下正态分布图。
请添加图片描述
由上图我们可知,有31%袋子装了盐是小于1000g的。这是一个不好的信号,必须要改进。袋子装多少盐是一个很随机的事件,但是是有办法减少这种缺斤少两的情况的。

企业做了如下思考:

  • 如果将1000g放在-3个标准差处,那就意味着只有0.1%甚至更少的袋子是装了少于1000g的,但是这可能有些困难的,几乎就是要保证100%的袋子都不小1000g
  • 如果将1000g放在-2.5个标准差处,因为在3个标准差以外的部分占比约0.1%,3到2.5之间是0.5%,所以加在一起是0.6%。那就是说只有0.6%的袋子装了少于1000g的盐。

决定了要将1000g放在-2.5个标准差处,那么要怎样做才可以让数据按这个来分布呢(1000g在-2.5 Standard scores处)

  • 增加每一袋子的盐量(这是通过改变平均值来实现的)
  • 或者让每袋子的盐量装得更精确些(恰是1000g,这是通过减少标准差来实现的。)

方案一:如果是通过增加每一袋子的盐量,以此增大平均值,使用-2.5个标准差处是1000g,因为标准差是20g,所以需要2.5 x 20 = 50g,所以平均值是1050g才能保证-2.5个标准差处是1000g,调整过后的正态分布如下:
请添加图片描述
方案二:如果我们想保持当前的平均值1010g,那么我们可以通过减少标准差,也就是提高装盐量的精确度,-2.5个标准差处是1000g,与平均值1010g相差10g,10g/2.5=4g,即标准差为4g,就能够保证平均值(1010g)不变,同时使-2.5个标准差处是1000g。调整过后的正态分布如下:
请添加图片描述
方案三:当然我们也可以适当调高平均值,也适当减少标准差来实现。就是前两个方案的融合。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/32398.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++基础编程100题-012 OpenJudge-1.3-10 计算并联电阻的阻值

更多资源请关注纽扣编程微信公众号 http://noi.openjudge.cn/ch0103/09/ 描述 对于阻值为r1和r2的电阻,其并联电阻阻值公式计算如下: R 1/(1/r1 1/r2) 输入 两个电阻阻抗大小,浮点型,以一个空格分开。 输出 并联之后的阻…

【tomcat】tomcat系统架构以及核心启动流程

对于web后端开发工程师来说,tomcat作为一个应用服务器框架本质上就是一个HTTP服务Servlet容器。研究过spring、spring mvc源码的同学应该了解,spring mvc其实就是基于Servlet规范实现的请求的转发路由、转发处理。而Spring和SpringMVC就是通过web.xml文件…

Elasticsearch过滤器(Filter):原理及使用

Hi~!这里是奋斗的小羊,很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~~ 💥💥个人主页:奋斗的小羊 💥💥所属专栏:C语言 🚀本系列文章为个人学习…

【MATLAB源码-第227期】基于matlab的北方苍鹰优化算法(NGO)机器人栅格路径规划,输出做短路径图和适应度曲线。

操作环境: MATLAB 2022a 1、算法描述 鼠群优化算法(Rat Swarm Optimization, RSO) 简介 鼠群优化算法(Rat Swarm Optimization, RSO)是一种模仿鼠类群体觅食行为的优化算法。该算法属于群体智能算法,通…

ElementPlus el-date-picker日期时间选择器组件禁用此刻之前的时间(精确时分秒)

需求:如上图所示,此刻之前的日期和时间都不可选,也就是选择当天的话需要限制时间选择器,如果选择的是今天之后的日期则不需要限制时间选择器。 实现思路 限制日期 使用DateTimePicker 日期时间选择器 的disabled-date 限制时间…

yolov8训练初体验

最近在爬一些数据,有些网址的验证码比较难搞,于是使用yolov8来解决。 一、数据打标签并转为txt 使用的软件为X-AnyLabeling。内置各种模型,方便打标。 打标完成后由于是json格式,所以我们使用python转换即可 import json import…

awdawdad

作者主页: 作者主页 本篇博客专栏:C 创作时间 :2024年6月20日 最后: 十分感谢你可以耐着性子把它读完和我可以坚持写到这里,送几句话,对你,也对我: 1.一个冷知识: …

阿赵UE引擎C++编程学习笔记——C++自定义蓝图函数

大家好,我是阿赵。   使用UE引擎,大部分功能都可以使用蓝图的自带节点去完成。但有时候我们也需要扩展一些蓝图没有的功能。这一篇主要学习一下怎样用C给蓝图新增自定义的函数节点。 一、 新建蓝图函数库 在添加C类的时候,选择蓝图函数库&…

指纹浏览器与虚拟机的区别及在跨境电商中的应用

在如今数字化世界中,隐私和安全变得愈发重要。许多人在网络上进行敏感操作,如网上购物、在线银行、社交媒体管理等。为了保护自己的隐私,人们常常会寻求一些额外的工具,比如指纹浏览器和虚拟机。这两种工具在保护个人隐私方面都有…

Thinkphp5内核流浪猫流浪狗宠物领养平台H5源码

Thinkphp5内核流浪猫流浪狗宠物领养平台H5源码 可封装APP,适合做猫狗宠物类的发信息发布,当然懂的修改一下,做其他信息发布也是可以的。 Thinkphp5内核流浪猫流浪狗宠物领养平台H5源码

Linux常用命令(14)—查看文件内容(有相关截图)

写在前面: 最近在学习Linux命令,记录一下学习Linux常用命令的过程,方便以后复习。仅供参考,若有不当的地方,恳请指正。如果对你有帮助,欢迎点赞,关注,收藏,评论&#xf…

JavaScript 冷知识大赏:带你领略不一样的编程乐趣

个人主页:学习前端的小z 个人专栏:JavaScript 精粹 本专栏旨在分享记录每日学习的前端知识和学习笔记的归纳总结,欢迎大家在评论区交流讨论! 文章目录 💯JavaScript 中的小 tips📧1 严格模式💞…

Spring之IoC(容器配置、Spring坐标导入、获取bean)

这里的话,因为博主学习时间有限,并没有实际去操作,只是学习和了解一个大概的流程。 目录 一、引言 1、管理什么?(对象:Service、Dao ...) 2、如何将被管理的对象告知 IoC 容器?(用…

【ARM 安全系列介绍 3.7 -- SM4 对称加密算】

请阅读【嵌入式开发学习必备专栏 Cache | MMU | AMBA BUS | CoreSight | Trace32 | CoreLink | GCC | CSH | Armv8/v9 系统异常分析】 文章目录 SM4 加密算法简介SM4 工作模式算法步骤加密举例注意事项 Principle of SM4 encryption algorithm SM4 加密算法简介 SM4是一种分组…

如何基于Redis实现分布式锁?

分布式锁介绍 对于单机多线程来说,在 Java 中,我们通常使用 ReetrantLock 类、synchronized 关键字这类 JDK 自带的 本地锁 来控制一个 JVM 进程内的多个线程对本地共享资源的访问。 下面是我对本地锁画的一张示意图。 本地锁 从图中可以看出&#xf…

Unity 限时免费资源 - FANTASTIC万圣节资源包

Unity 资源 - FANTASTIC - Halloween Pack 万圣节包 前言资源包内容领取兑换码 前言 亲爱的 Unity 游戏开发者们,今天要给大家介绍一款限时免费的优质资源包 - FANTASTIC - Halloween Pack 万圣节资源包。 这个资源包为您的游戏创作带来了丰富的万圣节主题元素。其…

开关阀(3):Fisher DVC6200定位器原理及调试

Fisher DVC6200---Digital Valve Controllers( 数字阀门控制器)简写 DVC,而6200是Fisher DVC定位器发展的一个系列型号,是Fisher结合DVC2000、DVC6000系列,取其特点发展的有着高适用性和高可靠性的阀门定位器。 DVC6200 原理&…

Apriori 处理ALLElectronics事务数据

通过Apriori算法挖掘以下事务集合的频繁项集: 流程图 代码 # 导入必要的库 from itertools import combinations# 定义Apriori算法函数 def apriori(transactions, min_support, min_confidence):# 遍历数据,统计每个项的支持度 item_support {}for tr…

AI数据分析:根据时间序列数据生成动态条形图

动态条形竞赛图(Bar Chart Race)是一种通过动画展示分类数据随时间变化的可视化工具。它通过动态条形图的形式,展示不同类别在不同时间点的数据排名和变化情况。这种图表非常适合用来展示时间序列数据的变化,能够直观地显示数据随…

亚马逊卖家注册业务类型怎么选?VC账号能申请?

在亚马逊卖家注册时,业务类型的选择是非常重要的,因为它将直接影响您的销售策略、费用结构以及您在平台上的权限。目前,亚马逊主要的卖家业务类型包括专业卖家和个人卖家,而VC(Vendor Central)账号和VE&…