拿了年终奖后,发现自己又拖后腿了?对不起,可能事实并没有那么糟糕...

全世界只有3.14 % 的人关注了

爆炸吧知识

不平凡的2020年早已过去了,打工人们已经跨过了2021年的门槛。2021年将会怎么样,那只有到2021年结束后我们才会知道。

但我们的情绪常常毫无例外地会被“年终奖”这个关键词所扰动,无论在什么时候,也无论是兴奋的还是沮丧的。

当然土豪除外,因为他们不需要年终奖。 

     

某联招聘的《2020年白领年终奖调研报告》在2021年2月1日发布了。这是份直击广大人民群众灵魂的报告,让我们先看看其中的“2020年不同城市白领年终奖均值”Top35情况。

有没有很扎心,有没有感觉到“伤害性不强,侮辱性极大”!

对,没错,我知道我又属于了那些拖后退的人之一。不说了,先去厕所里哭晕一会…

             

但哭归哭,晕归晕,在擦干眼泪后,我仔细想了一想,然后弱弱地直接对自己说,它给我传导了错误信息。也许我真的没有那么差劲,而且怎么也得找个理由对我的父母、另一半、亲朋好友好好解释一番。

是的,“平均值”这个统计方法在有时候真的很是不靠谱(我真的不是在狡辩)。要知道在统计学中,计算“平均数“的方法可不仅仅只有”平均值“,还包括”中位数“和”众数“。”平均值“、”中位数“和”众数“都是对数据集中数据中心的度量,只不过计算方法和特质不一样而已。

所谓平均值(这里是专指算术平均值,不是几何平均值等其他计算方法),是将数据集中所有数据值的总和除以数据值的个数的方法,即设数据集中有一组n个数据{ x1,x2,…,xn},则其平均数

例如,我所在的部门,我和我的同事一共9个屌丝,发了如下的年终奖{5万,6万, 6万, 7万, 8万,9万,8万,10万,11万}(再一次申明,这是样例数据,我们真的没有发这么多),按照平均数公式计算则为

(5 + 6 +6 + 7 + 8 + 9 + 8 + 10 + 11) ÷ 9 = 7.778万

那么这组打工人的平均年终奖图形化的情况大概是这样的:

 

当有某个熟人问我年终奖发了多少时,日常生活拮据的我为了防止被他借钱,只告诉了ta一个最小值。但ta一脸的愤怒,不屑地指出我是多么地不厚道。我只好又告诉那个平均数,ta还是继续摇着头。我咬咬牙,一不做二不休,无奈地说出了最高的那个年终奖钱数。这倒ta彻底地怒了:“据我所知应该至少是七位数吧,你这么的不真诚。”what?平均百万的年终奖,为什么我才拿了6位数还没到的钞票,现在该轮到我愤怒了。

这是怎么回事?原来隔壁部门有一位大神级人物突然加入我们屌丝团队,一起计算了平均值,那么效果就不一样了。大神的年终奖为1000万,按照最新的数据计算年终奖平均值则为

(5 + 6 +6 + 7 + 8 + 9 + 8 + 10 + 11 + 1000) ÷ 10= 107万

 

哎哟喂,原来我们都是平均年终奖过百万的人群了,这样气氛就不一样了!

但这样科学吗?当然不科学!

这就是我们经常诟病的统计学“平均值陷阱”:我家年收入2万,隔壁家年收入为3万元,而对面别墅区一家的年收入是2995万,大家一平均,全是年收入千万的富裕家庭了。

平均值是人类数学智慧的结晶,要知道人类仅仅从“三只老虎“、”三棵树“、”三座山“抽象出”3“这个数量就花费了几十万年(或上百万年)的时间。平均值曾经破解了古代统计学上著名时间难题。

比如,据印度史诗《摩诃婆罗多》(Mahabharata)记载﹐在公元前四世纪,古印度部落首领帕纳通过平均值估算了一棵尾避多伽(vibhitaka)果树两个枝干上的叶子和果实的数量。他的具体方法是先统计某一根树枝上的叶子和果实的数量,然后乘以两个树干上的树枝数。

帕纳用这种方法计算的结果是那棵树总共结了2095个水果和 50 000 000 片叶子。最后他发动了自己的族人,经过一个晚上的详细统计,发现他的平均值估算结果与真实情况非常接近。

但在很多场景下,平均值对数据集的集中性进行考量是有问题的,特别在一组统计样本中出现了极端数值的时候。

于是,由于平均值在现实世界中各种问题,所谓数量统计学中的“中位数”计算就渐渐浮出水面了。

人类最早有文本记录的“中位数”出现在大航海时代的1599年,航海家爱德华·赖特在他所著的一本关于航海的书模糊地提到了“中位数”。

爱德华·赖特绘制的航海图(1599-1600)

在变化无常的海浪中,爱德华·赖特和他的同事需要使用各类测量仪器在大海上进行导航和定位。通过长期对航海数据(例如方位和距离等)观测、记录和分析,他发现最中间的测量数据是最有可能是接近描述真相的测量结果。但从赖特的那本书来看,他是否真的发现中位数还不确定。

人类社会进化到科学爆炸式的十九世纪。在整个十九世纪,很多科学家因为不同的理由使用了中位数作为平均值的替代计算。

1874年,德国心里物理学家费希纳(Gustav TheodorFechner,1801年4月19日-1887年11月18日)使用了中位数试图描述许多社会学和心理学现象。这种统计学的研究方法之前在天文学中被证明是有用的。于是,费大神主张用中位数去度量不规则的非对称数据中心位置。

1882年,现代数理统计的奠基人、英国维多利亚时期百科全书式的科学家、探险家高尔顿(FrancisGalton,1822年2月16日-1911年1月17日)第一次使用英语术语“中位数(Median)”,正式开启了对这一统计概念的认知。高尔登通过对大量的数据进行归纳分析,发现中位数很重要,因为它易于计算,并且表达直观清晰又准确。于是,高尔顿的精心设计,在1889年公布了较为复杂的四分位数法来表达中位数。

所谓的四分位数就是把数据集中的数据按数值大小长序排列后,分成4个部分,每个部分包括全部数据的四分之一即25%。每个部分划分的临界值就是所谓的四分位数。就像一个线段需要三点把它分为四段,四分位数有三个,分别是下四分位数、中位数和上四分位数,用Q1、Q2、Q3来表示。

设数据集中有序数据的个数为n,则Q1、Q2、Q3的位置计算公式为:

a

例如,使用上面用Q1、Q2、Q3三个公式对7个有序数值的数据集{2, 4, 4, 5, 6, 7, 8}进行四分位数计算则有:

不过,尽管有古诺(Antoine Augustin Cournot,1801年8月28日-1877年3月31日)、费希纳、高尔顿等大佬们的力挺,但在19世纪,“中位数“大多被科学家所忽视,而用平均数度量去数据的趋势则被普遍看好。

到20世纪,中位数越来越多应用于顺序数据的分析统计,因为使用平均值分析存在极端数据的数据集是存在很多缺点的。中位数比较平均值来说,分析大数据的中心趋势更加稳健(1953年,统计学界开始使用术语“稳健”来表示统计方法对异常值的不敏感性)。

随着21世纪大数据时代的到来,统计应用于越来越多的不规则数据的领域,统计方法的应用越来越广泛,而中位数已经变得越来越流行。

当然现在的中位数计算方法比高尔顿朝代要更加完整了。

其具体计算方法为:对于一组升序排列(从小到大)的数据集{},有中位数计算公式为:

 

例如,对于一个有n=15(奇数)个数据的数据集{3, 13,7, 5, 21, 23, 39, 23, 40, 23, 14, 12, 56, 23, 29},根据以上公式计算中位数则有:

例如,对于有n=14(偶数)个数据的数据集{3, 5,7, 12, 13, 14, 21, 23, 23, 23, 23, 29, 40, 56},根据以上公式计算中位数则有:

回到上面那个9个打工人再加一个大佬年终奖问题{5万,6万, 6万, 7万, 8万,9万,8万,10万,11万,1000万},排序后为{5万,6万, 6万, 7万, 8万,8万,9万,10万,11万,1000万},用中位值对其进行“平均数”的计算,则有

图形化分析结果为:

 

而所谓的“众数”就是一组数据中出现次数最多的数值(可能为零个、一个或多个),这个概念比较简单,比如数据集{1,2,3,3,4,5,6}的“众数”为3,而上面这个年终奖的例子中“众数”应为6万和8万。

因此,摒弃不靠谱的年终奖“平均值“107万,用”中位数“8万来考量所有样本年终奖情况。

如果能够这样公布年终奖的中位数,大家心里就会舒坦多了,不再泪流如河。

对于我们打工人来说,要时刻记住打工人的那句语录“生活中有80%的痛苦来源于打工,但不打工就会有100%的痛苦来源于没钱。”无论如何,我们还是要在2021年继续努力的,该搬砖的还得继续搬砖,虽然它已经只剩下不到十个月了。

最后,打工人已经开始了新的一年打工生涯。无论有没有年终奖,有多少年终奖,打工人们日子还是继续的!如果仍有人对你叽叽歪歪,那么你就把篇文章发到ta的眼前,然后请ta好好地认真读一遍,并且告诉ta在数据统计中种种陷阱里,有许多看似客观的数据分析隐藏着诸多不易察觉的谎言。

写在最后

用数学理解世间万物,用理性思维寻找解决问题的新角度。所以,超模君为大家准备了《数学之旅》!

在娱乐的同时,通俗易懂的感受数学之美,做到真正的寓教于乐!你还在等什么?赶紧开启你的数学之旅吧!

《数学之旅 · 闪耀人类的54位数学家》

 数学艺术礼盒

指导价219

新春价139

只需再+19元

买就送数理文化“鼠标垫”

预购从速!!!

点击小程序,即可购买

作者简介:晨星,湖北武汉人,副高职称,理学博士,高级程序员,IAMG(国际数学地质协会)会员,省级医学人工智能与大数据专委会委员。

本文系网易新闻·网易号“各有态度”特色内容

转载请在公众号中,回复“转载”

参考文献:

  1. 智联招聘.《2020年白领年终奖调研报告》. 2021

  2. StephenM. The history ofstatistics : the measurement of uncertainty before 1900[M]. Belknap Press ofHarvard University Press, 1987.

  3. Plackett R L . Studies in theHistory of Probability and Statistics: VII. The Principle of the ArithmeticMean[J]. Biometrika(1-2):130-135.

  4. Porter T M . The Rise of StatisticalThinking, 1820–1900[M]. 2020.

超模君每周分享来袭

????????????

“整整600页!国家奥数教头主编教材

扫描上方二维码

回复“600”领取资料全文


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/293551.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JAVA-MyBatis ORM

MyBatis 的前身就是 iBatis 。是一个数据持久层(ORM)框架。 iBATIS一词来源于“internet”和“abatis”的组合,是一个基于Java的持久层框架。iBATIS提供的持久层框架包括SQL Maps和Data Access Objects(DAO),同时还提供一个利用这…

AMD and CMD are dead之KMD.js依赖可视化工具发布

使用 require("MyAapp.DepTree", function (DepTree) {DepTree(({renderTo: "holder",width: "820",height: "580",data: [{ "name": "System" },{ "name": "Util" },{ "name": &q…

WPF中的触发器(Trigger)

这节来讲一下WPF中的触发器——Trigger。触发器,是指在既定条件或者特殊场景下被触发,从而去执行一个操作。在WPF中,触发器可以分为以下几类:基本触发器(Trigger);事件触发器(EventTrigger);数据触发器(Dat…

数学之美番外篇:平凡而又神奇的贝叶斯方法

概率论只不过是把常识用数学公式表达了出来。 ——拉普拉斯 记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数学系的课程还没有学到概率统计…

linux red hat 安装svn

安装步骤如下:1、yum install subversion 2、输入rpm -ql subversion查看安装位置,如下图:我们知道svn在bin目录下生成了几个二进制文件。输入 svn --help可以查看svn的使用方法,如下图。3、创建svn版本库目录mkdir -p /var/svn/s…

驰骋表单设计器 设计表单案例演示

为什么80%的码农都做不了架构师?>>> 我们以客户提供如下原始的word表单样本,使用驰骋表单设计器制作表单的过程介绍如下:工业设计和创意需求登记表原始表单图 在ccform表单设计器中,设计如下: 驰骋表单设计器&#xf…

这个避孕套让生活更和谐……

1 三连暴击▼2 开塞露还能这样用?▼3 这真不是打架?▼4 送礼佳品,必拉黑神器!▼5 孩子:爹妈,真的可以再考虑一下的......▼6 四只手才能拆的避孕套▼7 谭警官:莫挨我!&#xff…

WPF GridControl控件的用法举例

01—前言WPF中自带的表格控件是DataGrid,但是格式并不是很美观,我们一般用Dev中类似的控件GridControl来取代,这个控件功能相当强大。WPF数据网格(GridControl)是一个数据感知控件,用于以不同的布局显示和编…

推荐我看过的几本好书给大家!(2)

继续从亚马逊盗图!哈哈! 这本书感觉很不错,对于算法,个人觉得还是需要掌握的,毕竟你不可能一辈子都做最底层的程序员吧,想要获得提升,一方面是经验的积累,另外一方面则是一种厚积薄发…

activemq安全设置 设置admin的用户名和密码

ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件&#xff0c;找到 <bean id"securityConstraint" class"org.eclipse.jetty.http.security.Constraint"> <property name"name" value"BASIC" /> <p…

转:IOS开发之----Xcode非ARC项目中设置部分文件ARC支持

ARC是什么 ARC是iOS 5推出的新功能&#xff0c;全称叫 ARC(Automatic Reference Counting)。简单地说&#xff0c;就是代码中自动加入了retain/release&#xff0c;原先需要手动添加的用来处理内存管理的引用计数的代码可以自动地由编译器完成了。该机制在 iOS 5/ Mac OS X 10.…

C# ActionT和 FuncT委托

除了为每个参数和返回类型定义一个新委托类型之外&#xff0c;还可以使用 Action<T> 和 Func<T>委托。泛型 Action<T>委托表示引用一个 void 返回类型的方法。这个委托类存在不同的变体&#xff0c;可以传递至多 16 种不同的参数类型。没有泛型参数的 Action…

linux学习-简单命令介绍及安装VMware Tools

常用简单命令介绍 ethernet以太网pts&#xff1a;模拟终端图形界面&#xff1a;CtrlAltF1 字符界面&#xff1a;CtrlAltF2-F6切换虚拟终端&#xff1a;&#xff08;本机操作&#xff09;# chvt 1-6关闭图形界面,在纯字符界面下操作&#xff1a; init 3打开图形界面&#xff…

Unity手游之路lt;七gt;角色控制器

我们要控制角色的移动&#xff0c;能够所有细节都由自己来实现。控制角色模型的移动&#xff0c;同一时候移动摄影机&#xff0c;改变视角。当然Unity也提供了一些组件&#xff0c;能够让我们做更少的工作&#xff0c;实现我们所期望的功能。今天我们就一起系统来学习相关的内容…

《SAS编程与数据挖掘商业案例》学习笔记之十八

接着以前的《SAS编程与数据挖掘商业案例》&#xff0c;之前全是sas的基础知识&#xff0c;现在开始进入数据挖掘方面笔记&#xff0c;本文主要介绍数据挖掘基本流程以及应用方向&#xff0c;并以logistic回归为例说明。 一&#xff1a;数据挖掘综述 衡量一个数据挖掘模型价值的…