统计了50万人的身高数据才发现:大家都爱虚报身高

640?wx_fmt=jpeg

作者

二胖并不胖


来源

大数据前言


已获原作者授权,如需转载,请联系原作者。



前些天在知乎上看到一个关于身高的问题。我想既然大家都对身高这么感兴趣,正好之前我在相亲网上爬了50万用户的信息,那不妨来做个统计。关于身高,看看我们能挖出哪些好玩的信息吧。


数据说明


1

数据来源


本次的统计数据来自某相亲网站,信息都是用户自己填写的。


正常情况下大家报身高都是往高虚报,极少人往矮报吧?所以,本次统计的身高结果应该会比真实情况更高一些,当然,这只是我二胖的个人揣测啦。


样本用户生活在北京、上海、广州和重庆四个城市,选择这四座城市的原因:

一是因为四座城市在祖国的不同方位,收集样本范围够广;

二是因为这四座城市都是大城市,外来人口较多,汇集了全国各地的人,能在一定程度上体现总体趋势。


2

年龄分布


这里我先对统计用户的年龄进行了可视化,x轴是年龄,y轴是人数,波峰是27岁。


640?wx_fmt=png


统计用户的年龄分布


除此之外我还分别统计了男性和女性的年龄分布,女性年龄的波峰出现在27岁,男性年龄的波峰出现在29岁。


总体平均年龄:32.332岁

男性平均年龄:33.239岁

女性平均年龄:31.929岁


3

性别分布



640?wx_fmt=png


640?wx_fmt=png


本次统计用户的性别分布情况


本次统计的用户中女性占了大多数。


其实是我爬数据的时候先抓取了女性数据,在女性数据抓取完成后才抓取的男性数据,而当我看数据库样本数据到50万的时候就把爬虫停了。


正态分布


在看统计结果之前,我们先提一下“正态分布”。


正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)。正态分布是一种概率分布。它是具有两个参数μ和σ的连续型随机变量的一种分布。


这里我们就不过多地介绍正态分布啦,我们只需知道,身高在样本数量足够大的时候应该服从正态分布(当然这是我的一己之见,如果有不同的意见,欢迎指正)。


正态分布的曲线图应该如下图所示(中间高,两边低,两侧大致对称),在这种情况下,数据才具有一定的真实性,否则数据就有一定的作假嫌疑。


640?wx_fmt=png


正态分布示意图


当然目测是不准确的,还需要通过方差、期望等来判断。不过当人肉眼都能看出一条曲线不符合正态分布时,那这个数据的真实性就真有待商榷了。


数据展示


好啦,讲完正态分布,我们来看看本次统计样本的身高分布图。

1

男性


640?wx_fmt=png


统计用户中男性的身高分布情况


可以看到男性身高的分布情况不那么符合正态分布。


波峰出现在170cm,人数是24515人。


身高人数前五名是:


640?wx_fmt=png


不知大家发现没有,这些身高都是极其常见的身高。


让二胖来揣测一下,大多数自报身高的情况下——不足170cm同学的都报170cm,不足175cm的都报175cm。


其实大家办理户口录入身高时就是这样操作的,常见身高就是这几个数字。所以二胖才在开头说,大家的真实身高应该会比统计值稍微低一些。


我们来算一下平均值,再把脏数据去除之后,算出来的所有男性的身高平均值是(单位cm)


640?wx_fmt=png



2

女性


女性的身高统计方式和男性一样,二胖就不过多解释了,这里直接展示统计结果:


640?wx_fmt=png


统计用户中女性的身高分布情况


女性身高分布图有点狠啊,160cm远远超过了其他身高值。


身高人数前五名是:


640?wx_fmt=png


女性平均身高(单位cm):


640?wx_fmt=png




结论


看完这个统计结果,二胖对比了一下国家公布的数字,下图是百度百科公布的2015年国家统计的身高数据:


640?wx_fmt=png


看样子相亲网站上的身高数据比国家的统计高出了约6厘米。


到底是因为相亲网上的用户中年轻人较多而年轻人又长得高,还是大家填写的身高数据水分比较大呢?


还有一种可能就是二胖此次统计的用户是城市居民,而城市居民的平均身高会相对高一些。


对此,你怎么看呢?

(——本文的数据分析和数据可视化全部由ElasticSearch完成。)


01

 微 信 群  


添加小编微信:tangguoyemeng,备注“进群”即可,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!


成为群成员,或拉人进群,

还有机会参与红包抽奖,获得免费赠书哦~~


02

 征 稿 


CSDN作为国内专业的云计算服务平台,目前提供云计算、大数据、虚拟化、数据中心、OpenStack、CloudStack、机器学习、智能算法等相关云计算观点、技术、平台、实践、云产业咨询等服务。CSDN 公众号也一直坚持「与千万技术人共成长」的理念,深度解读行业内热门技术与场景应用,致力于让所有开发者保持敏锐的技术嗅觉、对行业趋势与技术获得更广阔的认知。

文章题材

  • 首先你需要关注我们的公众号“CSDN云计算”,这样你会更准确了解我们需要的文章风格;

  • 侧重于云计算领域相关的文章,可以是技术、运维、趋势等方面的务实内容;

  • 原创,要求文章有鲜明观点和看法。

投稿须知

  •  稿费:根据原创性、实用性和时效性等方面进行审核,通过的文章会发布在本微信平台。一经采用,我们将支付作者酬劳。酬劳可能不多,这代表的是一个心意,更多是因为爱好,是有识之士抒发胸怀的一种方式;

  • 字数要求:稿件字数以2K-8K为宜,少于2K或多于8K都会一定程度降低阅读愉悦感;

  • 投稿邮箱:lijy@csdn.net。或者添加微信表明来意,微信号:tangguoyemeng。请备注投稿+姓名+公司职位


如果咱们的合作稳定又愉快,还可以签订合同长期合作哦!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/525541.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux系统批量装机,PXE+Kickstart实现无人值守批量安装Linux

PXEKickstart实现无人值守批量安装Linux实验准备:主机myrhel2作为服务器端,新建一个没有安装操作系统的虚拟主机,而且其与服务器端在同一个网段安装的条件:服务器端:支持TFTP:提供引导文件与系统安装所必须…

Python代码注释 - Python零基础入门教程

目录 一.什么是代码注释二.为什么写代码要注释三.代码注释的方式 1.单行注释,使用英文符号 #2.多行注释 方法一:英文状态下使用单引号 ”””方法二:英文状态下使用双引号 “” (和方法一有点类似)方法三:选中单行或者多行&#…

Cloud一分钟 | 阿里云将在英国大区设立数据中心

Hello,everyone:9月17日早,星期一,祝大家工作愉快!一分钟新闻时间:完01微 信 群 添加小编微信:tangguoyemeng,备注“进群公司职位”即可,加入【云计算学习交流群】&…

Python中文编码 - Python零基础入门教程

目录 一.前言二.为什么会出现乱码三.如何解决乱码四.重点总结五.猜你喜欢 一.前言 零基础 Python 学习路线推荐 : Python 学习目录 >> Python 基础入门 Python 到目前为止,一共有两个版本,分别是 2.x 和 3.x 版本,根据官方正式通知 2…

【拨云见日】企业上云时代,多样化的公有云服务你了解多少?

对于全球大中型企业来讲,高效、安全、稳定的公有云服务一直是企业拥抱数字时代的最佳上“云”方案。根据Gartner今年4月发布的报告称,2018年全球公有云服务市场规模预计达到1864亿美元,增长率21.4%。如果你也想搭上公有云的快速列车&#xff…

linux自带浏览器如何更新,在deepin上安装edge浏览器后更新系统报错的解决方案

有些人在deepin系统上安装完edge浏览器后采用sudo apt update命令更新系统,却报出了错误,更新失败。原因是更新deepin系统的时候,最好把其它的源禁用了,不然会有各样的问题。报有错误在更新系统时出现以下错误:命中:1 …

Python变量 - Python零基础入门教程

目录 一.前言 1.print 函数2.format 函数 a.format 函数不设置下标b.format 函数设置下标 3.占位符 二.整数三.浮点数四.字符串五.BOOL 值六.重点总结七.猜你喜欢 零基础 Python 学习路线推荐 : Python 学习目录 >> Python 基础入门 一.前言 何为 Python 变量&#xf…

数据海洋中的“智”臻架构 开启智慧计算新纪元——浪潮OpenPOWER FP5280G2服务器全面上市...

【2018年9月12日,北京】 浪潮商用机器有限公司宣布首款基于OpenPOWER9处理器的FP5280G2服务器正式上市。FP5280G2搭载全新OpenPOWER9处理器,是一款面向大规模数据中心的大数据分析应用设计的高端双路主流机架式服务器,以性能、存储及拓展等多…

Python运算符 - Python零基础入门教程

目录 一.算术运算符二.赋值运算符三.比较运算符四.运算符的优先等级五.重点总结六.猜你喜欢 零基础 Python 学习路线推荐 : Python 学习目录 >> Python 基础入门 什么是运算符?听着高大上,实际小学生都能把它玩的贼溜。比如:3 2 – 5…

Cloud一分钟 | 华为云EI接管了西二旗的红绿灯,西二旗交通有望改观

Hello,everyone:9月18日早,星期二,祝大家工作愉快!一分钟新闻时间:完01微 信 群 添加小编微信:tangguoyemeng,备注“进群公司职位”即可,加入【云计算学习交流群】&…

巨杉数据库完成C轮数千万美元融资

业界领先的金融级分布式数据库公司,巨杉数据库近日宣布完成由嘉实投资领投的C轮融资。本轮的领投方为嘉实投资,启明创投与DCM作为早期投资方跟投。SequoiaDB巨杉数据库成立6年来一直坚持技术驱动产品,专注打造金融级分布式数据库,…

Python 条件判断 if/else - Python零基础入门教程

目录 一.Python 条件判断 if/else 简介二.Python 条件判断 if/else 实战三.重点总结四.猜你喜欢 零基础 Python 学习路线推荐 : Python 学习目录 >> Python 基础入门 生活中我们总是面临各种选择,选择不同,结果也不同,不管我们是否愿意…

c语言十六进制字符串转整数,C语言-提取字符串中的十六进制数字并转换为一个十进制整数输出...

问题描述:提取字符串中的十六进制数字并转换为一个十进制整数输出源代码:/*十六进制转换成十进制*/#includeint main(void){int i,k;char hexad[80],str[80];long number;printf("Enter a string:");i0;while((str[i]getchar())!\n)i;str[i]\0…

你的数据还安全吗?

最近,动画片《工作细胞》火了,分分钟席卷了B站。这是一个关于你自身的故事,体内的故事。人体约有37兆2千亿个细胞,在这个神奇的世界中,细胞们每天也精神饱满、无休无眠地工作着。运送氧气的红细胞,与细菌战…

Python while循环 - Python零基础入门教程

目录 一.while 循环简介 二.while 循环语法三.while 循环实战四.while 死循环五.重点总结六.猜你喜欢 零基础 Python 学习路线推荐 : Python 学习目录 >> Python 基础入门 一.while 循环简介 都说程序源于生活,假如有这样一个场景:老师要求算出 …

昨天,阿里用“平头哥”死磕起了中国芯!

昨天,在 34 度阵雨天里,以「驱动数字中国」为主题的第十届云栖大会在杭州云栖小镇正式召开。在大会开场,即将接棒马云的阿里巴巴 CEO 张勇(逍遥子)刚上场就为大家解惑:阿里巴巴究竟是以技术驱动的企业还是以…

Python break/continue - Python零基础入门教程

目录 一.break二.continue三.重点总结四.猜你喜欢 零基础 Python 学习路线推荐 : Python 学习目录 >> Python 基础入门 在 Python while 循环 文章结尾,我们留下了一个 bug,当条件永远为 True 时,程序 while 循环陷入了死循环&#xf…

Cloud一分钟 | 阿里云推杭州城市大脑2.0:实时指挥200名交警;马云即将卸任阿里,蚂蚁云不断加快区块链产业布局...

Hello,everyone:9月19日早,星期三,祝大家工作愉快!一分钟新闻时间:完01微 信 群 添加小编微信:tangguoyemeng,备注“进群公司职位”即可,加入【云计算学习交流群】&…

Python for循环 - Python零基础入门教程

目录 一.for 循环语法二.for 循环实战三.重点总结四.猜你喜欢 零基础 Python 学习路线推荐 : Python 学习目录 >> Python 基础入门 在 Python 开发中,除了前篇文章介绍的 while 循环 还有一个 for 循环也经常使用,两者使用都是大同小异&#xff0…

Cloud一分钟 | 误删生产数据库血案,顺丰高级工程师被开除;阿里巴巴暂停美国云计算扩张?阿里云总裁正式回应:“不会减少投入”...

Hello,everyone:9月25日早,星期二,祝大家工作愉快!一分钟新闻时间:完01微 信 群 添加小编微信:tangguoyemeng,备注“进群公司职位”即可,加入【云计算学习交流群】&…