全世界只有3.14 % 的人关注了
爆炸吧知识
不平凡的2020年早已过去了,打工人们已经跨过了2021年的门槛。2021年将会怎么样,那只有到2021年结束后我们才会知道。
但我们的情绪常常毫无例外地会被“年终奖”这个关键词所扰动,无论在什么时候,也无论是兴奋的还是沮丧的。
当然土豪除外,因为他们不需要年终奖。
某联招聘的《2020年白领年终奖调研报告》在2021年2月1日发布了。这是份直击广大人民群众灵魂的报告,让我们先看看其中的“2020年不同城市白领年终奖均值”Top35情况。
有没有很扎心,有没有感觉到“伤害性不强,侮辱性极大”!
对,没错,我知道我又属于了那些拖后退的人之一。不说了,先去厕所里哭晕一会…
但哭归哭,晕归晕,在擦干眼泪后,我仔细想了一想,然后弱弱地直接对自己说,它给我传导了错误信息。也许我真的没有那么差劲,而且怎么也得找个理由对我的父母、另一半、亲朋好友好好解释一番。
是的,“平均值”这个统计方法在有时候真的很是不靠谱(我真的不是在狡辩)。要知道在统计学中,计算“平均数“的方法可不仅仅只有”平均值“,还包括”中位数“和”众数“。”平均值“、”中位数“和”众数“都是对数据集中数据中心的度量,只不过计算方法和特质不一样而已。
所谓平均值(这里是专指算术平均值,不是几何平均值等其他计算方法),是将数据集中所有数据值的总和除以数据值的个数的方法,即设数据集中有一组n个数据{ x1,x2,…,xn},则其平均数。
例如,我所在的部门,我和我的同事一共9个屌丝,发了如下的年终奖{5万,6万, 6万, 7万, 8万,9万,8万,10万,11万}(再一次申明,这是样例数据,我们真的没有发这么多),按照平均数公式计算则为
(5 + 6 +6 + 7 + 8 + 9 + 8 + 10 + 11) ÷ 9 = 7.778万
那么这组打工人的平均年终奖图形化的情况大概是这样的:
当有某个熟人问我年终奖发了多少时,日常生活拮据的我为了防止被他借钱,只告诉了ta一个最小值。但ta一脸的愤怒,不屑地指出我是多么地不厚道。我只好又告诉那个平均数,ta还是继续摇着头。我咬咬牙,一不做二不休,无奈地说出了最高的那个年终奖钱数。这倒ta彻底地怒了:“据我所知应该至少是七位数吧,你这么的不真诚。”what?平均百万的年终奖,为什么我才拿了6位数还没到的钞票,现在该轮到我愤怒了。
这是怎么回事?原来隔壁部门有一位大神级人物突然加入我们屌丝团队,一起计算了平均值,那么效果就不一样了。大神的年终奖为1000万,按照最新的数据计算年终奖平均值则为
(5 + 6 +6 + 7 + 8 + 9 + 8 + 10 + 11 + 1000) ÷ 10= 107万
哎哟喂,原来我们都是平均年终奖过百万的人群了,这样气氛就不一样了!
但这样科学吗?当然不科学!
这就是我们经常诟病的统计学“平均值陷阱”:我家年收入2万,隔壁家年收入为3万元,而对面别墅区一家的年收入是2995万,大家一平均,全是年收入千万的富裕家庭了。
平均值是人类数学智慧的结晶,要知道人类仅仅从“三只老虎“、”三棵树“、”三座山“抽象出”3“这个数量就花费了几十万年(或上百万年)的时间。平均值曾经破解了古代统计学上著名时间难题。
比如,据印度史诗《摩诃婆罗多》(Mahabharata)记载﹐在公元前四世纪,古印度部落首领帕纳通过平均值估算了一棵尾避多伽(vibhitaka)果树两个枝干上的叶子和果实的数量。他的具体方法是先统计某一根树枝上的叶子和果实的数量,然后乘以两个树干上的树枝数。
帕纳用这种方法计算的结果是那棵树总共结了2095个水果和 50 000 000 片叶子。最后他发动了自己的族人,经过一个晚上的详细统计,发现他的平均值估算结果与真实情况非常接近。
但在很多场景下,平均值对数据集的集中性进行考量是有问题的,特别在一组统计样本中出现了极端数值的时候。
于是,由于平均值在现实世界中各种问题,所谓数量统计学中的“中位数”计算就渐渐浮出水面了。
人类最早有文本记录的“中位数”出现在大航海时代的1599年,航海家爱德华·赖特在他所著的一本关于航海的书模糊地提到了“中位数”。
爱德华·赖特绘制的航海图(1599-1600)
在变化无常的海浪中,爱德华·赖特和他的同事需要使用各类测量仪器在大海上进行导航和定位。通过长期对航海数据(例如方位和距离等)观测、记录和分析,他发现最中间的测量数据是最有可能是接近描述真相的测量结果。但从赖特的那本书来看,他是否真的发现中位数还不确定。
人类社会进化到科学爆炸式的十九世纪。在整个十九世纪,很多科学家因为不同的理由使用了中位数作为平均值的替代计算。
1874年,德国心里物理学家费希纳(Gustav TheodorFechner,1801年4月19日-1887年11月18日)使用了中位数试图描述许多社会学和心理学现象。这种统计学的研究方法之前在天文学中被证明是有用的。于是,费大神主张用中位数去度量不规则的非对称数据中心位置。
1882年,现代数理统计的奠基人、英国维多利亚时期百科全书式的科学家、探险家高尔顿(FrancisGalton,1822年2月16日-1911年1月17日)第一次使用英语术语“中位数(Median)”,正式开启了对这一统计概念的认知。高尔登通过对大量的数据进行归纳分析,发现中位数很重要,因为它易于计算,并且表达直观清晰又准确。于是,高尔顿的精心设计,在1889年公布了较为复杂的四分位数法来表达中位数。
所谓的四分位数就是把数据集中的数据按数值大小长序排列后,分成4个部分,每个部分包括全部数据的四分之一即25%。每个部分划分的临界值就是所谓的四分位数。就像一个线段需要三点把它分为四段,四分位数有三个,分别是下四分位数、中位数和上四分位数,用Q1、Q2、Q3来表示。
设数据集中有序数据的个数为n,则Q1、Q2、Q3的位置计算公式为:
a
例如,使用上面用Q1、Q2、Q3三个公式对7个有序数值的数据集{2, 4, 4, 5, 6, 7, 8}进行四分位数计算则有:
不过,尽管有古诺(Antoine Augustin Cournot,1801年8月28日-1877年3月31日)、费希纳、高尔顿等大佬们的力挺,但在19世纪,“中位数“大多被科学家所忽视,而用平均数度量去数据的趋势则被普遍看好。
到20世纪,中位数越来越多应用于顺序数据的分析统计,因为使用平均值分析存在极端数据的数据集是存在很多缺点的。中位数比较平均值来说,分析大数据的中心趋势更加稳健(1953年,统计学界开始使用术语“稳健”来表示统计方法对异常值的不敏感性)。
随着21世纪大数据时代的到来,统计应用于越来越多的不规则数据的领域,统计方法的应用越来越广泛,而中位数已经变得越来越流行。
当然现在的中位数计算方法比高尔顿朝代要更加完整了。
其具体计算方法为:对于一组升序排列(从小到大)的数据集{},有中位数计算公式为:
例如,对于一个有n=15(奇数)个数据的数据集{3, 13,7, 5, 21, 23, 39, 23, 40, 23, 14, 12, 56, 23, 29},根据以上公式计算中位数则有:
例如,对于有n=14(偶数)个数据的数据集{3, 5,7, 12, 13, 14, 21, 23, 23, 23, 23, 29, 40, 56},根据以上公式计算中位数则有:
回到上面那个9个打工人再加一个大佬年终奖问题{5万,6万, 6万, 7万, 8万,9万,8万,10万,11万,1000万},排序后为{5万,6万, 6万, 7万, 8万,8万,9万,10万,11万,1000万},用中位值对其进行“平均数”的计算,则有
图形化分析结果为:
而所谓的“众数”就是一组数据中出现次数最多的数值(可能为零个、一个或多个),这个概念比较简单,比如数据集{1,2,3,3,4,5,6}的“众数”为3,而上面这个年终奖的例子中“众数”应为6万和8万。
因此,摒弃不靠谱的年终奖“平均值“107万,用”中位数“8万来考量所有样本年终奖情况。
如果能够这样公布年终奖的中位数,大家心里就会舒坦多了,不再泪流如河。
对于我们打工人来说,要时刻记住打工人的那句语录“生活中有80%的痛苦来源于打工,但不打工就会有100%的痛苦来源于没钱。”无论如何,我们还是要在2021年继续努力的,该搬砖的还得继续搬砖,虽然它已经只剩下不到十个月了。
最后,打工人已经开始了新的一年打工生涯。无论有没有年终奖,有多少年终奖,打工人们日子还是继续的!如果仍有人对你叽叽歪歪,那么你就把篇文章发到ta的眼前,然后请ta好好地认真读一遍,并且告诉ta在数据统计中种种陷阱里,有许多看似客观的数据分析隐藏着诸多不易察觉的谎言。
写在最后
用数学理解世间万物,用理性思维寻找解决问题的新角度。所以,超模君为大家准备了《数学之旅》!
在娱乐的同时,通俗易懂的感受数学之美,做到真正的寓教于乐!你还在等什么?赶紧开启你的数学之旅吧!
《数学之旅 · 闪耀人类的54位数学家》
数学艺术礼盒
指导价219
新春价139
只需再+19元
买就送数理文化“鼠标垫”
预购从速!!!
(点击小程序,即可购买)
作者简介:晨星,湖北武汉人,副高职称,理学博士,高级程序员,IAMG(国际数学地质协会)会员,省级医学人工智能与大数据专委会委员。
本文系网易新闻·网易号“各有态度”特色内容
转载请在公众号中,回复“转载”
参考文献:
智联招聘.《2020年白领年终奖调研报告》. 2021
StephenM. The history ofstatistics : the measurement of uncertainty before 1900[M]. Belknap Press ofHarvard University Press, 1987.
Plackett R L . Studies in theHistory of Probability and Statistics: VII. The Principle of the ArithmeticMean[J]. Biometrika(1-2):130-135.
Porter T M . The Rise of StatisticalThinking, 1820–1900[M]. 2020.
超模君每周分享来袭
????????????
“整整600页!国家奥数教头主编教材”
扫描上方二维码
回复“600”领取资料全文