转自:通识联播
如涉版权请加编辑微信联系
因果推断的起源
朱迪亚·珀尔
但它(地球)仍在动。
——出自伽利略(1564—1642)
弗朗西斯·高尔顿爵士在皇家学院展示他的“高尔顿板”(Galton board)或称“梅花机”(quincunx)。
他将这种类似弹珠台的仪器看作对基因特性(如身高)遗传的类比。弹球会堆积成一个上边缘为钟形曲线的图案,该曲线与人类身高的分布曲线非常相似。那么,为什么人类一代传一代,其身高分布并没有像弹球那样散开?这一难题引领他走向了“向均值回归”(regression to the mean)现象的发现。(资料来源:由达科塔·哈尔绘制。)
近两个世纪以来,英国科学界最经久不衰的仪式之一便是在伦敦的英国皇家学院举办的“周五晚间演讲”。
19世纪,很多重大发现都是在这个会场上由演讲者首次对外宣布的:1839年,迈克尔·法拉第发表了他的摄影原理;1897年,约瑟夫·汤姆逊提出了电子理论;1904年,詹姆斯·杜瓦公布了氢液化理论。
每场演讲会都是一次盛典,毫不夸张地说,演讲会就是把科学当作舞台,而台下的观众则是精心打扮(男人必须身着礼服,佩戴黑领带)的英国社会上层精英。到了指定的时间,钟声敲响,人们将迎接晚会的发言人步入礼堂。依照传统,发言人会省去自我介绍或开场白,直接开始演讲。实验和现场演示都是这一壮观场面的重要组成部分。
1877年2月9日那天晚上的演讲者是弗朗西斯·高尔顿,英国皇家学院院士,他是查尔斯·达尔文的大表弟,著名的非洲探险家、指纹学创始人,维多利亚时期绅士科学家的典范。高尔顿演讲的题目是“典型的遗传规律”。当晚,他的实验仪器是一种奇怪的装置,他称之为“梅花机”,现在该装置常被称为“高尔顿板”。一个名为Plinko的类似游戏常出现在电视节目《价格猜猜看》中。高尔顿板由一块木板和其上按三角形阵列排布的大头针或钉子组成,操作者可以通过顶部的开口塞入小金属球。金属球会像弹球那样从上往下逐层弹跳下来,最后落进底部的一排插槽中(见章首插图)。对单个金属球来说,向左或向右弹落看上去完全是随机的。然而,如果你往高尔顿板里倒入很多小球,一个惊人的规律就出现了:在底部堆积的小球的上边缘总是会形成一个近似钟形的曲线。在最接近中心的插槽中,小球会堆得高高的,插槽中的球数从中间向两侧递减,直至为零。
这种规律性的图形模式有一个数学解释:单个球下落的整个路径就像一系列独立的硬币抛掷的结果一样。小球每撞上一根大头针,其或者弹向左边,或者弹向右边,表面上看,它的选择似乎是完全随机的。而所有结果之和,即往右弹落的次数与往左弹落的次数之差,则确定了小球最终会落于哪个插槽。根据1810年由皮埃尔–西蒙·拉普拉斯证明的中心极限定理[1],任何此类随机过程,即多次硬币抛掷之总效,都会导向相同的概率分布,这种概率分布被称为正态分布(或钟形曲线)[2]。高尔顿板只是拉普拉斯中心极限定理的一个直观演示。
中心极限定理确实是19世纪的数学奇迹。试想一下:虽然单个球的路径是不可预测的,但1000个球的路径的可预测性则非常高,这对《价格猜猜看》的制片人来说是一个很实用的事实。他们可以据此准确估算出在较长一段时间内参赛者在Plinko游戏中赢得的奖金数量。此外,尽管人类事物充斥着不确定因素,但同样的规律仍然让保险公司获利丰厚。
皇家学院中穿着考究的观众一定想知道这一切与遗传规律到底有什么关系,因为这是发言人约定的演讲主题。为了说明二者的联系,高尔顿向观众展示了他所收集的关于法国军队新兵身高的数据。这些数据也遵循正态分布:多数人是中等身材,特别高或特别矮的人很少。事实上,无论我们谈论的是1000名新兵的身高还是高尔顿板上的1000个小球的路径,相对应的插槽和身高类别中的数字几乎总是相同的。
因此,对高尔顿来说,梅花机就是一种关于身高遗传的模型,甚至可能也是关于许多其他遗传特征的模型。这是一个因果模型。简单来说,高尔顿相信,就像人类会遗传他们上一代的身高一样,金属小球也会“遗传”它们在梅花机中的位置。
但是,如果我们暂且接受这个模式,就会出现一个难题,这也是高尔顿当晚的主题。钟形曲线的宽度取决于放置在钉板顶部和底部之间钉子的行数。假设我们将行数加倍,我们就构建了一个能够表示两代遗传的模型,其中上半部分代表第一代,下半部分代表第二代。此时你就会发现,第二代比第一代出现了更多的变异情况,而在随后的几代中,钟形曲线会变得越来越宽。
然而,人类身高的真实状况并未出现此种趋势。事实上,随着时间的推移,人类身高分布的宽度保持了相对的恒定。一个世纪前没有身高9英尺[3]的人类,现在依然没有。那么,是什么因素解释了这种总体基因遗传的稳定性呢?自1869年高尔顿的《世袭的天才》(Hereditary Genius)出版以来,他已为这一谜题苦苦思索了八年。
正如书名所表明的,高尔顿真正感兴趣的不是弹珠游戏或人的身高,而是人类的智力。作为孕育了多位科学天才的大家族的成员之一,高尔顿自然乐意证明天赋在家族中代代相传。他在这本书中着手做的正是这项研究。他煞费苦心地编纂了605名英国“名门之秀”上溯4个世纪的家谱。但他发现,这些名门之秀的儿子和父亲并没有那么优秀,其祖父母和孙辈也并非都是卓越人才。
如今我们可以很容易地找到高尔顿研究方法中的缺陷。归根结底,卓越的定义究竟是什么?有没有这种可能,即名门望族的成员获得成功只是因为他们掌握的特权而不是因为其本身的才能?尽管高尔顿意识到了这种可能的解释,但他初心不改,反而以更大的决心徒劳地寻求一个的遗传学解释。
不过,高尔顿在此过程中还是有所发现的,特别是当他开始关注类似身高这样的遗传特征的时候。与“卓越”相比,身高特征更易测量,跟遗传的关联也更强。高个子男性的儿子往往身高也比普通人高——但很可能不如他们的父辈高;矮个子男性的儿子往往身高比一般人矮——但很可能不如他们的父辈矮。一开始,高尔顿称这种现象为“复归”(reversion),后又改称为“向均值回归”(regression toward mediocrity)[4]。我们可以在许多其他的情境中观察到这种现象。如果让学生参加基于同样复习资料的两次不同的标准化测试,那么,第一次测试得分较高的学生在第二次测试中的得分通常仍然高于均值,但没有第一次那么高。这种向均值回归的现象普遍存在于生活、教育和商业领域的方方面面。比如,棒球赛中的“年度新秀”(第一赛季表现异常出色的球员)经常会遭遇“新秀墙”,即在次年的比赛中陷入表现欠佳的低谷。
当然,高尔顿并不知道这些,他认为他偶然发现的是一条遗传规律,而不是统计规律。他认为,向均值回归的背后一定存在某个因。在皇家学院的讲座中,他说明了自己的观点。他向听众展示了两层的梅花机装置(见图2.1)。
图2.1 高尔顿板,弗朗西斯·高尔顿用以类比人类的身高遗传规律。(a)将许多小球扔进弹球仪器,随机向下弹跳的小球堆积成钟形曲线。(b)高尔顿指出,经过A和B两个通道,通过两层的高尔顿板(用以模拟两代人)下落的小球所堆积成的钟形曲线会变得更宽。(c)为了抵消这种曲线变宽的趋势,他安装了斜槽,以使“第二代”小球回到中心。斜槽是高尔顿对“向均值回归”这一现象的因果解释(资料来源:弗朗西斯·高尔顿《自然遗传》,1889)
经过第一组钉子阵列后,小球会通过一个斜槽向板子的中心集中,之后再通过第二组钉子阵列。高尔顿借助这一成功的演示,展示出斜槽的设置恰好抵消了正态分布的扩散趋势。这一次,钟形曲线在代代传递中保持了恒定的宽度。
因此,高尔顿推测,向均值回归是一个物理过程,一种自然方式,用以确保身高(或智力)的分布在代代相传中保持恒定。高尔顿告诉观众:“复归过程符合遗传变异的一般规律。”他将这一过程与胡克定律进行了比较,后者描述的是弹簧恢复到稳态长度的趋势。
请记住这个日子。1877年,高尔顿致力于寻求一个因果解释,并认为向均值回归是一个因果过程,就像物理定律一样。他错了,但他的错误绝非个例。时至今日,许多人仍在继续犯着同样的错误。例如,棒球专家总是试图寻找球员遭遇新秀墙的因果解释。他们会抱怨,“他变得过度自信了”,或者“其他球员搞清楚了他的弱点”。他们也许是对的,但新秀墙实际上并不需要一个因果解释,这种现象单凭概率规则就足以解释了。
现代统计学的解释很简单。正如丹尼尔·卡尼曼在他的著作《思考,快与慢》中总结的:“成功=天赋+运气,巨大的成功=更多的天赋+更多的运气。”一个赢得年度最佳新秀奖的球员可能的确比一般人更有才华,但他(更)可能也有很多的运气。在下个赛季,他可能就没有那么幸运了,他的平均击球率也会因此下降。
到1889年,高尔顿已想通了这一点。在此过程中,他在统计学脱离因果关系的路上迈出了第一大步。这既让人失望,也令人着迷。他的推理过程是微妙而晦涩的,但值得我们付出努力去理解。这是作为新生学科的统计学发出的第一声啼哭。
高尔顿开始收集各种“人体测量”方面的统计数据:身高、前臂长度、头部长度、头部宽度等。他注意到,譬如当他根据前臂长度计算身高时,同样的向均值回归的现象又出现了:高个子男性通常有长度大于均值的前臂,但又不会像他的身高那样远高于均值。显然,身高不是前臂长度的因,反之亦然。如果存在一个原因的话,那么应该说二者都是由基因遗传决定的。高尔顿开始使用一个新的词来描述这种关系:身高和前臂长度是“共同相关的”(co-related)。之后,他又将这个词简化为一个更普通的英语单词——“相关的”(correlated)。
后来,他又意识到一个更令人吃惊的事实:在进行代际比较时,向均值回归的时间顺序可以逆转。也就是说,子辈的父辈的遗传特征情况也会回归到均值。即儿子的身高若高于均值,则其父亲的身高很可能也高于均值,但往往父亲要比儿子矮(见图2.2)。在意识到这一点时,高尔顿不得不放弃了寻找向均值回归的因果解释的任何想法,因为子辈的身高显然不可能是父辈身高的因。
图2.2 散点图显示了有关身高的数据集,每个点代表的是父亲的身高(x轴)和他儿子的身高(y轴)的组合。虚线与椭圆的主轴重合,而实线(我们称其为回归线)连接了椭圆最右边和最左边的点。二者之间的差异就是向均值回归的体现。例如,椭圆中的黑色星号显示,父辈身高为72英寸,则其子辈平均身高为71英寸,即图中垂直框中所有数据点的平均值为71英寸。水平框和白色星号显示的是在非因果方向(时间逆转方向)存在同样的身高损失现象(资料来源:马雅·哈雷尔绘图,克里斯托弗·布歇供稿)
这种认识乍听起来可能自相矛盾。你可能要问:“等等!你是说,高个子的父亲通常有相较他们自己而言较矮的儿子,并且同时,高个子的儿子通常有相较他们自己而言较矮的父亲——这两种说法怎么可能同时为真?儿子怎么可能既比父亲高,又比父亲矮?”
答案是,我们谈论的并不是个体的父亲和个体的儿子,而是父辈和子辈两个总体。我们从身高6英尺的父辈总体开始算起。因为他们的身高高于均值,所以他们儿子的身高将出现向均值回归的现象,我们姑且假设他们儿子的平均身高为5英尺11英寸。然而,由父辈身高为6英尺的父子组合构成的总体有别于由子辈身高为5英尺11英寸的父子组合构成的总体。第一组中,所有的父亲都是6英尺高。但第二组中,父亲身高超过6英尺的较少,大部分身高不到6英尺,他们的平均身高要低于5英尺11英寸,再次显示了向均值回归的趋势。
另一种解释向均值回归的方法是使用所谓的散点图(见图2.2)。每对父子组合都由一个点来表示,其中x坐标表示的是父亲的身高,y坐标表示的是儿子的身高。因而,父亲和儿子的身高均为5英尺9英寸(或69英寸)的组合可以由点(69,69)来表示,如图2.2所示,其位于散点图的中心。身高6英尺(或72英寸)的父亲和身高5英尺11英寸(或71英寸)的儿子的组合,则可以用点(72,71)表示,位于散点图的东北角。请注意,散点图的形状大致呈椭圆形,这一点对于高尔顿分析以及揭示两个变量的钟形分布特征而言至关重要。
如图2.2所示,父辈身高为72英寸的父子组合的点位于以72为中心的垂直框(或称“垂直切片”)内;子辈身高为71英寸的父子组合的点位于以71为中心的水平框(或称“水平切片”)内。通过观察可见,它们是两个不同的总体。如果只关注第一个总体,即父辈身高为72英寸的父子组合,我们可以问的问题是:其中子辈的平均身高是多少?这等于是在问垂直框的中心位置,通过观察可知其中心大约是71。如果只关注第二个总体,即子辈身高为71英寸的父子,我们可以问的问题是:其中父辈的平均身高是多少?这等于是在问水平框的中心位置,通过观察可知其中心大约是70.3。
我们可以更进一步考虑以同样的步骤分析每一个垂直框。这就相当于在问:对于身高为x的父辈,其子辈身高(y)的最佳预测是多少?或者,我们也可以取每个水平框,问它的中心在哪里,即对于身高为y的子辈,其父辈身高(x)的最佳“预测”(或倒推)是多少?
通过思考这个问题,高尔顿无意间发现了一个重要事实:预测总是落在一条直线上,他称这条直线为回归线,它比椭圆的主轴(或对称轴)的斜率小(见图2.3)。事实上,这样的直线有两条,我们选择哪条线作为回归线取决于我们要预测哪个变量而将哪个变量作为证据。你可以根据父亲的身高预测儿子的身高,或者根据儿子的身高“预测”父亲的身高,这两种情况是完全对称的。这再次表明,对于向均值回归这一现象,因和果是没有区别的。
图2.3 高尔顿回归直线。图中横轴显示的是子辈身高及偏差值,纵轴显示了“中亲”(mid-parents)[5]的身高及偏差值。如果你知道父亲的身高,则直线OM将为你提供其儿子身高的最佳预测;如果你知道儿子的身高,则直线ON将为你提供其父亲身高的最佳预测。这两条直线都不同于散点图中的主轴(对称轴)(资料来源:弗朗西斯·高尔顿,《大不列颠和爱尔兰人类学学院学报》,1886,第246–263页,插图X)
在已知一个变量的值的情况下,回归斜率能让你预测另一个变量的值。在高尔顿的父子身高问题中,0.5的回归斜率意味着父亲的身高每增加1英寸,相应地,儿子的平均身高就增加0.5英寸,反之亦然。回归斜率为1表示两个变量呈完全相关,这意味着父亲每增高1英寸,这一变化都能完全地传递给儿子,使其平均身高增加1英寸。回归斜率不可能大于1,否则高个子父亲的儿子其身高会进一步高于平均值,矮个子父亲的儿子其身高会进一步低于平均值,这将使得身高分布随时间的推移而变宽。这样一来,几代后可能就会出现身高9英尺的人和身高2英尺的人了,而这与现实并不相符。因此,只要身高分布在世代相传中保持不变,回归线的斜率就不能大于1。
即使我们将两个不同类别的量关联起来,如身高和智力,回归定律依然适用。如果你在散点图中绘制这两个变量的数据点,并对坐标系进行适当的缩放,则关于两个变量之间关系的最佳拟合线的斜率总是具有相同的属性:只有当一个量可以准确地预测另一个量时,斜率才等于1;而若预测结果几乎等同于随机猜测,则斜率等于0。无论你是根据Y预测X,还是根据X预测Y,斜率(在对坐标系进行了适当缩放之后)都是相同的。换言之,斜率完全不涉及因果信息。一个变量可能是另一变量的因,或者它们都是第三个变量的果,而对于预测目标变量的值这一目的而言,这些并不重要。
高尔顿提出的相关性概念首次在不依赖于人的判断或解释的前提下以客观度量说明了两个变量是如何关联的。这两个变量可以是身高、智力或者收入,它们可以是因果的、相互独立的或反因果的关系。相关性总是能够反映出两个变量间相互可预测的程度。高尔顿的弟子卡尔·皮尔逊后来推导出了一个(经过适当调整的)回归线斜率公式,并称之为“相关系数”。时至今日,当我们想了解一个数据集中两个不同变量的关联有多强时,相关系数依然是全世界统计学家计算的第一个数值。找到这样一种通用的方式来描述随机变量之间的关系,高尔顿和皮尔逊一定曾为此激动不已。尤其是皮尔逊,在他的眼中,与相关系数这种在数学上清晰且精确的概念相比,那些关于因果的模糊而陈旧的概念似乎已经完全过时而丧失科学性了。
注释:
[1] 中心极限定理是概率论的“无冕之王”,高尔顿曾盛赞它所蕴涵的宇宙秩序之美妙无可比拟,可见其对人类认知的影响是多么深远。——译者注
[2] 也称作“高斯分布”,是高斯在研究误差理论时首次明确提出的,其密度函数曲线关于均值对称,中间高两边低。中心极限定理揭示了在一定的条件下为何正态分布是普遍存在的。——译者注
[3] 1英尺≈30.48厘米。——编者注
[4] 回归“regression”一词在英语中还有退化、退步、衰退、倒退的意思。——译者注
[5] 女性的身高一般低于男性,因此高尔顿利用计算出的男女平均身高之比(1.08)将女性的身高乘以1.08换算成男性身高。高尔顿据此定义了“中亲”(mid-parents)身高=1/2(父亲的身高+1.08×母亲的身高),用来计算父辈的身高。本书为了讲述方便,将之简化为父子身高。——译者注
上上 编辑 / 泽坤 校对
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”