一个数据人眼中的《上游思维》

20240427222338

最近读了《上游思维》这本书,很受启发,我想从一个数据人的角度来聊一聊我对这本书的读后感。上游思维本质上是帮助我们解决问题,我发现在解决问题相关的每个阶段:发现问题、找到解决问题的方法、解决问题的过程中、评估问题以及预防问题等,数据都发挥了不可替代的至关重要的作用。

利用数据发现问题

预见问题的能力让我们拥有了更多解决问题的空间,上游思维的重要一环就是我们要在问题的上游发现问题。发现问题靠的不是想象,而是数据(证据)。

书中举了一个例子。美国犹太保健集团是提供紧急医疗服务的一家企业,他们希望在人们拨打911后,救护车能够尽快抵达现场。因此,他们利用历史数据创建了复杂的模型,以预测911报警电话会在何时来自何地。在不进行任何数据分析之前,你不太可能知道“问题”出现在哪里,你甚至不知道当前的状况是否存在问题。

经过数据分析之后,犹太保健集团发现了明显的规律。有一些符合人的直觉,但也有一些出乎意料。比如在疗养院的用餐时段911电话会出现一个峰值

“如果你生活在这样的一个社区里,哪天意外出现心脏停搏,你的生死可能就取决于你住得离消防站有多近。” 所以美国犹太保健集团根据上面发现的规律,提前在特定的时间将救护车安排到特定的地点附近。一旦知道了问题是什么,解决方案可能是简单的。

病人显然也对他们获得的护理很满意:94%的患者表示愿意向其他人推荐犹太保健集团。

利用数据找到解决方案

如上文所说,一旦我们通过数据准确发现了问题,解决方案可能是很简单的。所以发现问题和解决问题常常是一回事。下面再看书里的另一个例子。

纽约市的审计长斯科特·斯金格开为帮助政府减少庭外和解而支付的赔偿金额,创建了全新的数据驱动工具,他的团队分析了全年大约3万起对政府提出的索赔案,据此绘制地图,编制索引,寻找其中的规律。

比如他们发现布鲁克林游乐场的一架秋千就导致了多起诉讼,因为秋千挂得太低,2013年就有5个孩子荡秋千时摔断了腿。所以,如果有人走过去把秋千升高六英寸,这个大问题就解决了。

类似这样的例子真的足够具有启发性,它让我真切感受到数据的强大力量。当然,这里并不局限于“大数据”,实际上,很多能产生洞见的数据并不大。

避免错误的报警

书里提到一个观点我深有同感:人是会对警报产生疲劳的,如果一切都能引发警报,那就没有什么能真正得到重视了。其实这就是“狼来了”的故事,但是在工作中真的每个人能记住这则寓言带来的警告吗?

我们要发现的是重要的问题,而不是对所有问题都进行响应。书里举了一个非常耐人寻味的例子。

在21世纪的头10年,韩国被确诊患有甲状腺癌的人数急剧上升。到2011年,甲状腺癌的发病率相比1993年翻了15倍。这是一个非常可怕的公共卫生问题。癌症并非传染性疾病,不应该传播得如此之快,这也太奇怪了。

研究发现,甲状腺癌数量飙升是因为韩国的卫生部门鼓励人们接受筛查,卫生部门发现大量民众的甲状腺里都生活着安静的“小乌龟”(慢性的危害性不大的癌症)。绝大多数病人接受了侵入性治疗,通常是接受手术,切除甲状腺。5年后,99.7%的人仍然活着。但是也有证据表明,这些人如果不进行甲状腺癌的筛查,大概率也一样能活五年,甚至更久。

这个例子可能有点争议,我认为提前发现癌症是没问题的,问题在于我们现在的医疗系统通常都会采取更激进的方式从而导致过度医疗(这是个系统问题,书中有讲到)。 事实就是韩国卫生部门对甲状腺癌这种大规模的筛查成了某种过度的报警,导致了很多本不该做手术的人都做了手术。

在解决问题的过程中

书中提到,要想让团队发挥出最佳水平,就要告知他们一个清晰明确、令人信服的目标,以及用于衡量进展的实时数据流,其余的就让他们自由发挥。作者管这个叫做计分牌。在解决问题的过程中我们要仔细选择数据/指标,你不可能用一个静态的数据去解决一个动态的问题,所以这个记分牌一定是实时更新的。

另外,作者还强调要对具体的案例进行分析以获得系统性解决方案的洞见。

宏观始于微观。在思考宏大的问题时,我们必须考虑庞大的数字。怎样才能帮助1000个人解决问题?你的第一反应可能会是:我们必须通盘考虑,因为我们没法逐个地帮助这1000人。但事实证明,这种观点大错特错。本书里的英雄人物经常会基于具体的名单来组织他们的工作。…… 我们从中得到的启示是:只有懂得如何帮助每个人,你才有可能帮助1000个人,乃至100万个人。

在衡量效果的过程中

2005年8月底,“卡特里娜”飓风袭击了新奥尔良。这是一场非常罕见的灾难,造成了重大损失。令人有些欣慰的是,就在这次飓风之前,新奥尔良曾经组织过一次飓风演习(模拟的飓风名字叫帕姆),帕姆飓风规模和卡特里娜飓风非常接近。那么这次演习有没有成功降低飓风带来的损失呢?

下面有一张对比图。

20240427221422

乍看起来,演习好像白做了,完全没有起到什么效果啊!但问题是,人们很难通过严格的对比实验,知道没有演习的时候造成的损失会不会更大,所以你用来衡量效果的指标到底是不是科学和严谨的,这点至关重要。

我们不妨再看一眼下面的这张图“

20240427221445

当然,这个基于模拟的数据也不完全是严谨的,但如果你相信第一张图的模拟结果,那么第二张图的结果一定也是接近真实的。那么这次演习无疑是相当成功的。

这个例子告诉我们:要避免错误的指标,要避免单一指标。

在预测未来

现在大数据+人工智能已经展现出了非常强大的预测能力,天气预报的准确度也得到了巨大的提升。不过在这里我想强调,很多时候预测未来是困难的,不要迷信关于预测的数据。

作者在书中提到了很多利用上有思维解决问题的成功案例,但也不无谦虚地在结尾说到,把这种成功的经验在更大范围内的推广不一定奏效,不能做出这样简单的预测。

“芝加哥大学犯罪实验室”的延斯·路德维格表示:“越来越多的人开始着手解决项目规模化的问题,但我们现在还处于非常初期的阶段。我们根本不知道要如何将对1000个孩子奏效的社会项目推广至5000个孩子。”

人脑天然容易接受的是线性思维,按照线性思维的推断,对1000个孩子奏效,很显然推广到5000个也应该奏效。但真实的世界是非线性的,这点在《规模》这本书里有更精彩的讨论。总之,我们应该要有规模思维,不同规模和不同尺度下,可能是完全不一样的规律。我们举个互联网产品中的例子:对1万个用户奏效的方案,推广到10倍甚至100倍的用户还会产生一样的效果吗?根据我粗浅的经验,答案通常是否定的。

总结

这是一本不错的书,里面的内容远远不至于我从数据人视角所谈的这些,非常值得一看。

如果你喜欢我的文章,欢迎到我的个人网站关注我,非常感谢!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/4171.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

电磁仿真--基本操作-CST-(4)

目录 1. 简介 2. 建模过程 2.1 基本的仿真配置 2.2 构建两个圆环体和旋转轴 2.3 切分圆环体 2.4 衔接内外环 2.5 保留衔接部分 2.6 绘制内螺旋 2.7 绘制外螺旋 2.8 查看完整体 2.9 绘制引脚 2.10 设置端口 2.11 仿真结果 3. 使用Digilent AD2进行测试 3.1 进行…

Stable Diffusion入门指南

SD 保姆教程,从原理功能到案例输出展示,最后简述 ControlNet 的使用技巧。 Stable Diffusion 的基本介绍 Stable Diffusion是一种基于扩散过程的图像生成模型,可以生成高质量、高分辨率的图像。它通过模拟扩散过程,将噪声图像逐…

大厂面试题:两道来自京东的关于MyBatis执行器的面试题

大家好,我是王有志。 今天给大家带来两道来自于京东关于的 MyBatis 面试题: MyBatis 提供了哪些执行器(Executor)?它们有什么区别?Mybatis 中如何指定 Executor 的类型? MyBatis 提供了哪些执…

自然语言处理的发展历程

1.自然语言处理发展的7个阶段 序号阶段时间贡献代表人物1起源期1913-1956思考使用图灵算法计量模型来描述自然语言,描述词语及词语之间的关系。这一阶段停留在理论层面做探索图灵、马尔可夫、香农2基于规则的形式语言理论期1957-1970形式语言理论的提出&#xff0c…

深度学习系列66:试穿模型IDM-VTON上手

1. 模型概述 如图,总体流程为: 输入为:衣服的编码xg;人物noise的编码xt;人物身上衣物的mask和人体pose分割(densepose);衣服部分经过两部分网络:1)高级语义网络IP-Adapter&#xff…

3122.使矩阵满足条件的最少操作次数

周赛第三题,知道要用动态规划,但是不知道怎么回到子问题 显然根据题意我们需要让每一列都相同,但是相邻列不能选择同一种数字,观察到数据nums[i]介于0-9,我们就以此为突破口. 首先我们用count[n][10], count[i][j]记录第i1列值为j的元素个数,转移方程如下: dfs(i,pre) max(dfs…

pytest-xdist:远程多主机 - 分布式运行自动化测试

简介:pytest-xdist插件使用新的测试执行模式扩展了pytest,最常用的是在多个CPU之间分发测试以加快测试执行,即 pytest -n auto同时也是一个非常优秀的分布式测试插件,分别支持ssh和socket两种方式实现master和worker的远程通讯。…

游戏新手村20:游戏落地页广告页如何设计

在互联网营销中,着陆页(Landing Page,有时被称为首要捕获用户页)就是当潜在用户点击广告或者搜索引擎搜索结果页后显示给用户的网页,LandingPage对于游戏广告的转化率和重要性就不言而喻了。 网页游戏LP页面 上图就是我们大家在浏览网站时不小心蹦出或者主动点击某…

python学习笔记12:小数类型的角度到度分秒的转换

目录 实现方式1 实现方式2 本博客讲述了两种计算方式及其代码的实现,并在最后对比了两种方法的结果差异。 比较结果显示,不同的实现方式之间可能存在数值误差。 实现方式1 具体计算步骤如下: 数值取整数部分得到度 108.5745800204 -->…

IIS中搭建.Net Core项目,步骤详解

一、准备服务器 1)安装IIS 这个比较简单,百度一下就行 2)安装 .NET Core 运行时 下载地址:下载 .NET(Linux、macOS 和 Windows) 因为我是本地开发,所以我下载的是SDK 安装成功之后显示如下: 检查是否安装…

万兆以太网MAC设计(6)IP协议报文格式详解以及IP层模块设计

文章目录 前言:IPv4报文协议格式二、IP_RX模块设计2.1、模块接口2.2、模块工作过程 三、IP_TX模块设计3.1、模块接口3.2、模块工作过程 四、仿真4.1、发送端4.2、接受端 前言:IPv4报文协议格式 参考:https://sunyunqiang.com/blog/ipv4_prot…

正点原子[第二期]Linux之ARM(MX6U)裸机篇学习笔记-5

前言: 本文是根据哔哩哔哩网站上“正点原子[第二期]Linux之ARM(MX6U)裸机篇”视频的学习笔记,在这里会记录下正点原子 I.MX6ULL 开发板的配套视频教程所作的实验和学习笔记内容。本文大量引用了正点原子教学视频和链接中的内容。…

txt大文件拆分(批量版)

之前的python程序只能拆分单个文件,这里重新加了个文件夹拆分的功能(打包好的exe文件在文章末尾) 使用步骤:运行代码–>把文件放到input文件夹里–>命令行界面回车–>output文件夹输出文件 outputPath "./output&q…

曲线「三分」

明明做作业的时候遇到了 n 个二次函数Si(x)ax^2bxc ,他突发奇想设计了一个新的函数F(x)max{Si(x)},i1,2……n 。 明明现在想求这个函数在 的最小值,要求精确到小数点后四位,四舍五入。 输入格式 输入包含 T组数据,每组第一行一…

神经网络的优化器

神经网络的优化器是用于训练神经网络的一类算法,它们的核心目的是通过改变神经网络的权值参数来最小化或最大化一个损失函数。优化器对损失函数的搜索过程对于神经网络性能至关重要。 作用: 参数更新:优化器通过计算损失函数相对于权重参数的…

【蓝桥杯省赛真题38】python字符串拼接 中小学青少年组蓝桥杯比赛 算法思维python编程省赛真题解析

目录 python字符串拼接 一、题目要求 1、编程实现 2、输入输出 二、算法分析 三、程序编写 四、程序说明 五、运行结果 六、考点分析 七、 推荐资料 1、蓝桥杯比赛 2、考级资料 3、其它资料 python字符串拼接 第十三届蓝桥杯青少年组python编程省赛真题 一、题目…

MySQL8.0 msi版本安装教程

MySQL8.0 msi 版本安装教程 1> 官网下载安装包 2> 安装MySQL 2.1双击打开下载的安装包,进入到下面这个页面,选择 Custom 选项,之后,点击next 说明: 2.2 选择所需产品,更改安装位置(当然也可以默认安…

性能分析与调优(超详细)

🍅 视频学习:文末有免费的配套视频可观看 🍅 关注公众号【互联网杂货铺】,回复 1 ,免费获取软件测试全套资料,资料在手,涨薪更快 常看到性能测试书中说,性能测试不单单是性能测试工程…

免费ChatGPT合集——亲测免费

1、YesChat 无需登录 网址:YesChat-ChatGPT4V Dalle3 Claude 3 All in One Freehttps://www.yeschat.ai/ 2. 讯飞星火 要登录 讯飞星火大模型-AI大语言模型-星火大模型-科大讯飞 3.通义千问 要登录 通义我是通义,一个专门响应人类指令的…

Unity打开Android文件管理器并加载文件

1、在AssetStore商店中加入免费插件 2、调用代码 3、使用UnityWebRequest加载路径数据