Excel中的散点图这么强大,学习了!

全世界只有3.14 % 的人关注了

数据与算法之美


平时见得最多的也许是柱形图了,但我个人最喜欢的却是散点图。在讲散点图之前,我先阐述一个不太严谨的个人观点。我认为,所有的数据图表都可以分为两类,一类是偏重于展示,一类是偏重于研究

 

如何理解?偏重于展示的图表,往往是将某个指标所蕴含的信息更为直观地表达,即该类图表中获取得的信息,是可以直接应用于业务决策的。比如某公司全国各省的销售员人均销售业绩的柱形图,孰高孰低被展现得很明显,那么哪些地区需要努力,或者哪些地区需要裁员,就可以进行决策了。


偏重于研究的图表,往往是显现出指标间的某些隐藏的关系,从图中得到的信息往往需要进一步的研究,才能落地为具体的业务判断或执行策略。


比如某公司人均销售业绩与员工离职率的散点图,你或许能看到两者存在某种数学关系,但你并不能获得显性的结论,而是需要通过进一步的研究,比如回归建模,才能提取出这种关系。


研究型的图表就像一扇门,经常能帮助我们打开另一番天地,获得的信息价值也更高;但相对的,也有更高的风险,许多时候你投入很多时间,获得的结论却没有价值。


散点图最核心的价值在于发现变量之间的关系,千万不要狭隘地将这个关系理解为线性回归关系。指标间的关系有很多,如线性关系、多项式关系、指数关系、对数关系等等,当然,没有关系也是一种重要的关系。


最基本的散点图我们来看一个典型的散点图,下图展示了一家外卖配送公司配送员人均负荷(一天需送掉的订单量)与订单的准时送达率。


640?


散点图的基本元素就是点,即通过两个变量(纵坐标轴和横坐标轴)的数值,将点打在图表对应的位置上,通过散点的分布,来观察两个变量之间的相互关系。通过上图我们就能直观地看到,人均配送负载和订单的准时送达率是负相关的关系,即人均配送负载越高,准时送达率越低,而人均配送负载越低,则准时送达率越高。我们通过添加一条趋势线,来使得这个关系更为明显。


对于一家外卖配送公司,这个结论似乎是一个常识,当一个人一天要配送的订单越多,则他就越难准时将所有订单送到。


其实,这个逻辑未必是成立的,真正的解读是:如果订单是循序渐进,在时间分布上平缓地递交给配送员,那么单再多,配送员能一单单送完,则超时率是依旧平稳地;但实际情况并非如此,外卖配送需求都是在高峰时间段脉冲式增长,这就导致配送压力大时,配送员同时承接了多个订单,这就导致了手头总有一部分订单会因为绕路配送而超时,这才导致了如下散点图上的反映。


640?


其实散点图的制作只需要三部操作:

1.点出散点图制作控件;

2.选择数据;

3.调整图表参数首先点击“插入”选项卡下的“图表”模块,在左边的图表选择项中,选择“XY(散点图)”,暂时先选择第一种类型,后面的几种类型会慢慢介绍。


如图2-2,点击“确定”按钮后,就会生成一个空的散点图。如图2-3,右键点击图形,选择“选择数据”,就会出现如图2-4的数据源选择框,在这里点击“编辑”按钮,进入如图2-5显示的“编辑数据序列”界面。在“编辑数据序列”这个界面当中,我们需要设置三个数据,第一个是图标标题,你可以选择某个单元格,会出现对你选中单元格的绝对引用参数;第二个是X轴上要显示的指标,你可以操作鼠标在Excel表中圈选,也可以自己输入绝对引用语句;第三个是Y轴上要显示的指标,方式与第二个相同。


640?

图2-2


640?

图2-3


640?

图2-4


选好数据后,一个最初级的散点图就会展现在你面前了。需要注意的是,最初的这个图往往没有你想象的漂亮,经常你会发现散点集中在某几个较小的区域。如图2-6,不要惊慌,这样的原因往往是你没有调整好横纵坐标轴的“坐标轴选项”。双击坐标轴,将数据展现区间调整好合适的范围。如图2-6,原来的横坐标轴区间是0.0-0.95,但是我们大部分的点集中在0.75-0.95之间,因此我们将横坐标轴区间调整到0.75-0.95,这样图表看上去就美观多了,更重要的数据间的关系也被清晰地呈现出来了。除了对坐标轴缩放的操作,我们还经常会用到“坐标轴选项”里的“单位”和网格线的格式,因为有时我们需要调整坐标轴的颗粒度,以使得散点的位置展示得更为精确。当散点较多且较为细密时,我们需要将网格线调整为虚线并弱化颜色,使得散点间的关系能更为突出。


640?

图2-5


640?


散点图只表达了两个变量的关系?不是的,我们还可以在点上做文章。可以用点的大小来衡量另一个变量。这样,散点图就变成了气泡图。为什么叫气泡图?答案非常直观,有大有小的圈圈,最像的就是气泡了。且我们在制作气泡图时,往往会设置颜色的透明度,以展示气泡的密集程度。这么一来,气泡图就更直观了~


640?

图2-8



如图2-8,我们用气泡的大小来表示配送费收入,这样我们就可以观察三个变量之间的关系了。我们看到,无论从人均负载的角度还是准时送达率的角度,配送费都没有呈现出与其他两个指标的相关关系。


小结一下,从图2-8中,我们能够获得的认知有如下几条:

1. 人均配送负载与准时送达率有明显的负相关关系,即一个指标随着另一个指标的增长而减少。

2. 每单的配送费与人均配送负载和准时送达率都没有呈现出明显的相关关系。

3. 样本点大部分集中在准时送达率87%-93%,人均负载11-15的区间范围内,说明配送员的一般状态就在这个范围内。


通过以上几点,相信大家以及能领略到散点图的强大了。我们更近一步,给散点图再增加一个变量,即用气泡的颜色来代表另一个变量。需要注意的是,用颜色代表的变量,不适合再用连续型变量了,最好是用类型变量或有序变量。在Excel中,我们不能直接通过导入数据来用颜色来代表某个变量。这是一点小小的遗憾,但我们依然可以手动将效果做出来。


640?

图2-9



如图2-9,四种气泡的颜色代表了四个配送团队。我们会明显的看到,红色的配送团队的准时率显著领先于其他团队,但在人均配送负载上则比较低,说明红色团队的工作量不是很大,因此效率较高。黑色团队的人均配送负荷较高,准时送达率较低,与红色团队的状况正好相反。蓝色团队的成员则分布非常分散,有的人负载高准时率低,有的人负载低准时率高,可见蓝色团队的管理方式和其他三个团队或许非常的不同,值得进一步的调查分析。


通过从散点图到气泡图的应用,我们不断地窥探出数据指标间的关系,并且挖掘出了许多新的信息,这真的是一个欣喜的发现过程。所以,你们应该能理解为什么我喜欢散点图了吧。


作者:胡晨川(中国统计网特邀认证作者)

版权归原作者所有,转载仅供学习使用,不用于任何商业用途,如有侵权请留言联系删除,感谢合作。


640?wx_fmt=png精品课程推荐:

640?wx_fmt=png

640?wx_fmt=png

选购数学科普正版读物

严选“数学思维好物”

送给孩子的益智礼物   |   办公室神器

算法工程师成长阅读   |   居家高科技

理工科男女实用型礼物精选   

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg640?wx_fmt=jpeg


数据与算法之美

用数据解决不可能


640?wx_fmt=jpeg



长按扫码关注

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/302436.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql修改字段的顺序_Mysql中如何修改字段的排列顺序?

创建数据表的数据,字段在表中的位置已经确定了。但要修改字段在表中的排列位置,则需要使用ALTER TABLE语句来处理。在MySQL中,修改字段排列位置的基本语法格式如下: ALTER TABLE MODLFY 字段名1 数据类型 FIRST|AFTER 字段名2 在上述格式中,“字段名1”指的是修改位置的字段…

趣读:程序员泪流满面的20个瞬间!

全世界只有3.14 % 的人关注了数据与算法之美【一】老板突然说,想跟你聊一聊你的年终review结果【二】记一次难忘的debug经历【三】——昨晚又加班了吧?——你怎么知道的?【四】老板定下了春节期间on call的人!【五】产品crash了,最…

记一次 .NET 某医院HIS系统 CPU爆高分析

一:背景 1. 讲故事前几天有位朋友加 wx 抱怨他的程序在高峰期总是莫名其妙的cpu爆高,求助如何分析?和这位朋友沟通下来,据说这问题困扰了他们几年????,还请了微软的工程师过来解决,无疾而终&#xff0c…

mysql判断表存在的sql语句_SQL 语句判断已知表是否存在_MySQL

问:怎样用SQL语句来判断已知表是否存在?答:具体解决方法如下:注释:以下代码为通常的引用Dao做的一模块以下为引用的内容:Function fExistTable(strTableName As String) As IntegerDim db As DatabaseDim i As IntegerSet db DBEngine.Workspaces(0).Databases(0)…

全球六大顶级域名动态:7月上旬.COM新增18.4万个

中国IDC评述网07月17日报道:据域名统计机构Whois Source公布的最新数据显示,截至7月15日,全球六大顶级域名(.COM、.NET、.ORG、.INFO和.US)的域名总量达到了 141,259,651个。其中,.COM域名注册量达104,165,…

如何用大数据找到男/女朋友?

全世界只有3.14 % 的人关注了数据与算法之美小柯25岁,单身男,热衷大数据,并决定认真钻研,用数据分析来实现自己的“脱单计划”。找女友第一步:整理思路找女友第二步:界定问题1、为什么要找女朋友&#xff0…

.NET5 开发手机提词应用,基于内嵌Web服务器及PowerPoint自动化

项目说明我使用电脑录制视频教程的时候,会展示PPT给观众,同时也有一些提示性的文字给我自己看。这就类似于很多电视节目录制现场的“提词器”。节目录制现场的提词器在PC环境下,PowerPoint也具有提词器功能,在编辑PPT的时候&#…

[Linux程序设计][调试][ElectricFence]

gcc –o test test.c –lefence 提前发现动态内存的错误 转载于:https://blog.51cto.com/honglei/934379

薄如冈本,37°恒温发热超薄保暖内衣,既要风度也要温度

问君能有几多愁恰似没穿秋裤遇寒流俗话说的好你在北方的暖气里穿着短袖我在南方的艳阳里瑟瑟发抖为了暖和一点大家都穿得里三层外三层的什么大衣棉袄厚外套都搬出来了但谁都不愿意在冬天穿的像个200斤的胖子好吗!?可是为了风度连狗命都不要了吗&#xff…

Blazor Day

关注我们Blazor 是一个 Web UI 框架,Blazor 旨在简化快速的单页面 .Net 浏览器应用的构建过程,它虽然使用了诸如 CSS 和 HTML 之类的 Web 技术,但它使用 C#语言和 Razor 语法代替 JavaScript 来构建可组合的 Web UI 。通过提供用于…

学会了Python之后,我的职业生涯突飞猛进

全世界只有3.14 % 的人关注了数据与算法之美身为职场人,收集上万条表格数据做商业分析,裁剪上千张图片,发送数百封邮件...这些都是经常会遇到的场景。我一直期待能有个工具解放我,直到我遇到了Python。Python的魅力很多小伙伴入坑…

Android网络编程

2019独角兽企业重金招聘Python工程师标准>>> Android平台有三种网络接口可以使用,他们分别是:java.net.*(标准Java接口)、Org.apache接口和Android.net.*(Android网络接口)。下面分别介绍这些接口的功能和作用。 1.标准Java接口 java.net.*提…

mac 启动mysql多实例_实践:mysql单机多实例部署(mac)

背景:在自己电脑搭建或测试分布式服务框架时,经常会用多个数据库实例模拟多个环境的情况,因此我把搭建多实例mysql的过程记录下来,方便互相学习和沟通。1.搭建环境1) mac 电脑,版本 10.15.62) mysql版本 8.0.202.搭建…

毫无疑问的是.NET 在信创常用软件适配清单之中

2020年8月份写了一篇文章《.NET Core也是国产化信息系统开发的重要选项》, 这又过去了大半年了,在信创领域发生了很大的变化,今天写这篇文章主要是想从信创常用软件适配清单 看一看.NET 在信创里面的情况。信创常用软件适配清单 是由中国电子…

学习Python编程的19个资源

全世界只有3.14 % 的人关注了数据与算法之美用Python编写代码一点都不难,事实上它一直被赞誉为最容易学的编程语言。如果你准备学习web开发, Python是一个不错的开始,甚至想做游戏的话,用Python来开发游戏的资源也有很多。这是快速…

读《精益商业思维》

五一假期读了程浩的《精益商业思维》,程浩是迅雷的联合创始人之一,现在是职业投资人, 全篇从创业者的角度,也从投资人的角度解析了创业的方法论。书中有大量的互联网公司的案例,都是我们耳熟能详的一些互联网企业&…

mysql中两根竖线什么意思_五线谱中两根竖线是什么意思?

五线谱中的竖线叫做终止线,写在乐曲结束处的右边一条略粗的双纵线。音乐总是由强拍和弱拍交替进行的,这种交替不能杂乱无章、任意安排,而是按照一定的规律构成最小的节拍组织一小节,然后以此为基础循环往复。比如,当两…

三张图读懂机器学习 :基本概念、五大流派与九种常见算法

全世界只有3.14 % 的人关注了数据与算法之美机器学习正在进步,我们似乎正在不断接近我们心中的人工智能目标。语音识别、图像检测、机器翻译、风格迁移等技术已经在我们的实际生活中开始得到了应用,但机器学习的发展仍还在继续,甚至被认为有可…

go 切片取最后一个元素_深挖 Go 之 forrange 排坑指南

今年做个 Dig101 系列,挖一挖技术背后的故事。Dig101: dig more, simplified more and know moregolang 常用的遍历方式,有两种:for 和 for-range。而 for-range 使用中有些坑常会遇到,今天我们一起来捋一捋。文章目录0x01 遍历取…

SqlServer SqlParser 介绍及基本使用

SqlServer SqlParser 介绍及使用示例Intro最近发现在 Nuget 上有一个 SqlServer 的 SqlParser,利用 SqlParser 我们做到可以解析 SQL 的每一部分 ,nuget 包是公开的,可以拿来即用,只是缺少使用示例,很多功能需要自己去…