因果推理、正则化上榜:权威专家盘点过去50年最重要的统计学思想

来源:机器学习研究组订阅

在日常生活中,统计学无处不在,每个人、每件事似乎都可以使用统计数据加以说明。随着人类迈入大数据时代,统计学在方方面面更是发挥了不可或缺的作用。统计学思想,就是在统计实际工作、统计学理论的应用研究中,必须遵循的基本理念和指导思想。它们对统计学的发展起到了指导作用。

近日,哥伦比亚大学和阿尔托大学的两位知名统计学研究者撰文总结了过去 50 年最重要的统计学思想,包括反事实因果推理、bootstrapping 和基于模拟的推理、过参数化模型和正则化、多层次模型、通用计算算法、自适应决策分析、鲁棒性推理和探索性数据分析。除了详细描述这些统计学思想的具体概念和发展历程,研究者还概述了它们之间的共同特征、它们与现代计算和大数据之间的关系以及它们在未来如何发展和扩展。研究者表示,本文旨在激发人们对统计学和数据科学研究中更大主题的思考和讨论。

论文链接:https://arxiv.org/pdf/2012.00174.pdf

这篇论文在社区引起了热议,图灵奖得主、贝叶斯网络之父 Judea Pearl 等学者纷纷转推并发表自己的观点。他表示:「这篇论文将因果推理列入了统计学思想之一,与芝加哥大学统计系教授 Stephen Stigler 所著《统计学七支柱》中的观点截然不同。」

此外,需要指出的是,本文列出的 8 种统计学思想是根据经验和阅读文献进行分类的,并不是按照时间先后顺序或重要性进行排序。无论是在理论统计文献,还是在各个应用领域的实践中,这些统计学思想在 1970 年之前都有先例。但在过去的 50 年中,它们都得到了发展,并且已衍变出新的内容。下面一一阐述论文中列出的八个统计学思想。

过去 50 年最重要的统计学思想

反事实因果推理

该研究从统计学、计量经济学、心理测验学、流行病学和计算机科学中出现的一系列不同观点开始,这些观点都围绕着因果推理挑战展开。其主要思想是,因果识别是可能的,人们可以通过设计和分析严格地陈述这些假设,并以各种方式加以解决。关于如何将因果模型应用于实际数据的辩论仍在继续,但在过去的 50 年里,这一领域的研究使因果推断所需的假设更加精确,这又反过来促进了针对这些问题的统计方法的研究。

因果推理方法在不同的领域有不同的发展。在计量经济学领域,重点是从线性模型解释因果推理 (Imbens and Angrist, 1994);在流行病学中,重点是从观测数据进行因果推理(Greenland and Robins, 1986);心理学家已经意识到相互作用和不同的治疗效果之间的重要性(Cronbach, 1975);统计学中已经有了匹配和其他方法来调整和测量治疗组和对照组之间的差异 (Rosenbaum and Rubin, 1983);在计算机科学领域,已经有了很多关于因果推理的多维模型的研究(Pearl, 2009)。

这些研究中都有一个共同的主线,就是从反事实或潜在结果的角度对因果问题进行建模,这是一个很大的进步,超越了早期的评判标准,后者没有明确区分描述性推理和因果推理。主要研究包括 Neyman (1923)、Welch (1937)、 Rubin (1974)以及 Haavelmo (1973),还有 Heckman 和 Pinto (2015)的背景介绍。

Bootstrapping 和基于模拟的推理

在过去 50 年里,统计学的一个趋势是用计算取代数学分析。以 bootstrap 为例:在 bootstrap 中定义了一些估计器,并将其应用于一组随机重采样的数据集 (Efron, 1979, Efron and Tibshirani, 1993)。主要思想是将估计值视为数据的一个近似的充分统计量,并将 bootstrap 分布视为数据的抽样分布的近似。在概念层面上,有人呼吁将预测和重采样作为基本原则,从中可以得出偏差校正和收缩等统计操作(Geisser, 1975)。

计算资源的增加使得其他相关的重采样和基于模拟的方法也很流行。在置换测试中,通过对目标值进行随机变换,打破了预测值与目标值之间的依赖关系,生成重采样数据集。Parametric bootstrapping、前验和后验预测性检查 (Box, 1980, Rubin, 1984)、基于模拟的校准 (Talts et al., 2020) 都是从模型中创建复制的数据集,而不是直接从数据中重新采样。

过参数化模型和正则化

自 20 世纪 70 年代以来,统计学的一个重大变化是关于用大量参数拟合模型的思想,模型参数可能比数据点还多,并且使用一些正则化方法来获得稳定的估计和良好的预测。关于用大量的参数拟合模型的主要思想是获得非参数或高度参数化方法的灵活性,同时又能避免过拟合。正则化可以作为参数或预测曲线上的惩罚函数来实现(Good and Gaskins, 1971)。

参数丰富的模型的早期示例包括 Markov 随机场(Besag, 1974)、样条曲线(splines)(Wahba 和 Wold, 1975, Wahba, 1978)和高斯过程(O'Hagan, 1978),然后是分类树和回归树(Breiman 等人, 1984)、神经网络(Werbos, 1981;Rumelhart、Hinton 和 Williams, 1987;Buntine 和 Weigend, 1991;MacKay, 1992;Neal, 1996),小波收缩(wavelet shrinkage )(Donoho 和 Johnstone, 1994)、lasso/horseshoe 等其他最小二乘法的变体(Dempster、Schatzoff 和 Wermuth, 1977 年;Tibshirani, 1996 年;Carvalho、Polson 和 Scott, 2010 年),此外还有支持向量机(Cortes 和 Vapnik, 1995 年)以及相关理论(Vapnik, 1998 年) 。

所有这些模型都具有随样本量和参数而扩展的特征,这些参数并不总是可以直接解释,而只是较大预测系统的一部分。在贝叶斯方法中,可以先在函数空间中考虑先验,然后间接导出模型参数的相应先验。

在有足够的计算资源之前,以上许多模型的使用都受到限制。但在图像识别(Wu 等人,2004)和深度神经网络(Bengio、LeCun 和 Hinton, 2015 年;Schmidhuber, 2015 年)领域,过参数化模型得以继续发展。Hastie、Tibshirani 和 Wainwright(2015)将大部分此类工作归化为稀疏结构的估计,但作者认为归纳为正则化更为合适,因为它还包括适合于数据支持范围的密集模型。这类工作大部分是在统计之外完成的,方法包括非负矩阵分解(Paatero 和 Tapper, 1994)、非线性降维(Lee 和 Verleysen, 2007)、生成对抗网络(Goodfellow 等, 2014)和自动编码器(Goodfellow、Bengio 和 Courville, 2016 年):这些都是用于查找结构和分解的无监督学习方法。

随着统计方法的发展及其在更大数据集中的应用,研究人员开发了多种方法对各种拟合推断进行精调、适应和组合,包括 stacking(Wolpert, 1992)、贝叶斯模型平均(Hoeting 等, 1999)、boosting(Freund 和 Schapire, 1997)、梯度提升(Friedman, 2001)和随机森林(Breiman, 2001)。

多层次模型

多层或分层模型的参数会随组变化,从而使模型能够适应群集采样。纵向研究、时间序列横截面数据、元分析(meta-analysis)和其他结构化设置。在回归语境中,可以将多层次模型视为特定的参数化协方差结构,也可以视为概率分布,其中参数的数量与数据成比例地增加。

多层次模型可以视为贝叶斯模型,因为它们包括未知潜在特征或变化参数的概率分布。相反,贝叶斯模型具有多层次结构,具有给定参数的数据和给定超参数的参数分布。

通用计算算法

借助现代计算,建模方面的改进才成为了可能。这不仅包括更大的内存、更快的 CPU、高效的矩阵计算、用户友好的语言以及其他计算创新,还有十分关键的部分是用于高效计算的统计算法上的改进。

过去五十年来的创新统计算法是基于统计问题的结构而发展的。在统计学的历史上,数据分析、概率建模和计算的进步一直会相互结合,新模型让创新计算算法和新的计算技术打开了面向更复杂模型和新推论观点的大门。通用的自动推理算法允许解耦模型的开发,因此更改模型不需要更改算法的实现。

自适应决策分析

从 20 世纪 40 年代到 60 年代,决策理论通常通过效用最大化 (Wald, 1949, Savage, 1954)、错误率控制(Tukey, 1953, Scheff´e, 1959) 和经验贝叶斯分析 (Robbins, 1959, 1964) 作为统计的基础。近几十年来,在贝叶斯决策理论 (Berger, 1985) 和错误发现率分析 (Benjamini and Hochberg, 1995) 中都看到了后续工作的进展。决策理论也受到了外界关于启发式算法和人类决策偏见的心理学研究 (Kahneman, Slovic, and Tversky, 1982, Gigerenzer and Todd, 1999) 的影响。

人们还可以将决策视为统计应用领域,统计决策分析的一些重要发展涉及贝叶斯优化 (Mockus, 1974, 2012, Shariari et al., 2015) 和强化学习 (Sutton and Barto, 2018),这与行业中 A/B 测试实验设计的复兴和工程应用中的在线学习有关。计算科学的最新进展是能够使用诸如高斯过程和神经网络之类的高度参数化模型作为自适应决策分析功能的先验,并可以在模拟环境中进行大规模的强化学习,例如创建人工智能控制的机器人、生成文本和参与围棋(Silver et al., 2017) 之类的游戏。

鲁棒推理

鲁棒性的概念是现代统计的核心,它是一种即使在假设不正确的情况下也能使用模型的思想。开发在实际情况与假设不符的情况下也能良好使用的模型是统计理论中重要的一部分。Tukey (1960)总结了该领域的早期研究,Stigler (2010)的研究总结了历史性回顾。继 Huber (1972)等人的理论工作之后,研究者又开发出行之有效的方法,这些方法在实践中,尤其是在经济学中尤为重要,人们也对统计模型的不完善之处有了敏锐的认识。

一般而言,鲁棒性在统计研究中的主要影响并不在于开发特定方法,而在于它影响了在 Bernardo 和 Smith (1994)称为 M-open 世界(其中数据生成过程不属于拟合概率模型的类别)的情况下评估统计程序的思想。Greenland (2005)认为研究者应该明确说明在传统统计模型中不包含的误差源。鲁棒性问题与许多现代统计数据所特有的密集参数化模型有关,这更普遍地影响了模型评估(Navarro, 2018)。

探索性数据分析

继 Tukey (1962)之后,探索性数据分析的支持者重点说明了渐近理论的局限性以及开放式探索和通信 (Cleveland, 1985) 的好处,并且阐明了超越统计理论的更一般的数据科学观点(Chambers, 1993, Donoho, 2017)。这符合统计建模的观点,即更多的关注发现而不是检验固定假设。这不仅影响了图形化方法的发展,也将统计领域从定理证明走向更开放、更健康的角度,因为它是从科学领域的数据中学习。以医学统计学领域为例,Bland 和 Altman 于 1986 年发表的一篇高被引论文提出用于数据对比的图形化方法,替代了关联性和回归分析。

此外,研究人员试图形式化定义探索性数据分析:「探索性模型分析」(Unwin, Volinsky, and Winkler, 2003, Wickham, 2006)有时被用来捕获数据分析过程的实验属性,研究者们也一直致力于在模型构建和数据分析的过程中涵盖可视化的工作(Gabry et al., 2019, Gelman et al., 2020)。

这些统计学思想之间的关联

研究者认为,上述这八种统计学思想之所以重要,是因为它们既解决了现有问题,还创建了新的统计思考和数据分析方式。换言之,每一种思想都不失为一部「法典」,其方法超越狭义的统计学范畴,更像是一种「研究品味」或者「哲学思想」。

这些统计学思想彼此之间存在着哪些关联和交互呢?

Stigler (2016)曾说过,一些明显不同的统计学领域背后存在着某些相同的主题。这种互联的观点也可以应用于最近的研究发展。

举例而言,正则化过参数化模型可以使用机器学习元算法进行优化,反过来又可以获得对污染(contamination)具有鲁棒性的推理。这些关联可以通过其他方式表示,鲁棒性回归模型对应混合分布,而混合分布又可以被视为多层次模型,并且可以通过贝叶斯推理进行拟合。深度学习模型不仅与一种多层逻辑回归有关,还与样条曲线和支持向量机中使用的复现核心希尔伯特(Hilbert)空间相关。

此外,特定统计模型又与文中列出的八种统计学思想存在什么联系呢?研究者这里提及的是有影响力的研究工作,如风险回归、广义线性模型、空间自回归、结构方程模型、潜在分类、高斯过程和深度学习等。如上文所述,在过去 50 年里,统计推理和计算领域出现了许多重要的发展,这些进展都受到了文中谈论的新模型和推理思想的启发和推动。应该看到,模型、方法、应用和计算彼此结合,息息相关

最后,研究者表示可以将统计学方法的研究与自然科学、工程学中的统计应用趋势联系起来。他们认为,生物学、心理学、经济学和其他科学领域可能出现复现危机或可复现性革命,而这些领域的巨大变化需要根据统计资料得出结论。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/485484.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Nginx正向与反向代理

Nginx 主要用于反向代理与负载均衡 什么是代理服务器(Proxy Serve)? 提供代理服务的电脑系统或其它类型的网络终端,代替网络用户去取得网络信息。 为什么使用代理服务器? 提高访问速度 由于目标主机返回的数据会存放在代理服务…

生命起源的奥秘:分子生物学对生命起源研究

来源: 科学技术哲学1993年加州大学柏克利分校的詹腓力教授邀请了一批科学家、哲学家到加州中部的一个海滨小镇相聚。这些学者来自著名的学术中心,包括剑桥、慕尼黑、芝加哥大学等学府,他们是来质疑一个统治了科学界长达150年的学说。保罗.尼尔…

介绍计算机硬件的情景剧表演,手忙脚乱的情景剧

继去年一手操办了女儿班上的元旦迎新会后,昨天,我再一次自编自演自导。不得不说,学校真是磨练人的地方。一、创作剧本的起因半个月前,宋老师推荐我和女儿参加学校举行的亲子诵读比赛。去年也参与过一次,我己经形成了固…

win7计算机管理中看不到新加的硬盘,win7系统看不到第二块硬盘的解决方法.

win7系统想必大家都非常熟悉吧,然而有时候可能会碰到win7系统看不到第二块硬盘的情况,想必大家都遇到过win7系统看不到第二块硬盘的情况吧,那么应该怎么处理win7系统看不到第二块硬盘呢?我们依照1、进入win7系统控制面板&#xff…

美国航空发动机发展经验,给中国的启示!

内容来源:网络本期编辑:小艾 航空发动机是装备制造领域的最高端产品,代表了装备制造业的最高技术水平,被誉为现代工业“皇冠上的明珠”,其重要性一向为人所强调,但成为航空发动机强国的道路之艰难却往往为人…

session的钝化和活化

钝化:内存->硬盘 活化:硬盘->内存 session对象的四种状态: 1.session.setAttribute("a",xxx),将对象a绑定到session中 2.session.removeAttribute("a"),将对象a从session中解绑 监听session对象的…

华师 计算机系统 作业,华师网络学院作业答案-计算机组成原理问答题

华师网络学院作业答案-计算机组成原理问答题 (4页)本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦!9.9 积分试谈谈什么是存储系统的高速缓冲存储器(Cache), 画出“主存- Cache”这一存储层次…

第五十四篇 Linux相关——远程连接SSH

No.1. SSH(Secure Shell)安全外壳协议建立在应用层基础上的安全协议可靠,专为远程登录会话和其他网络服务提供安全性的协议有效防止远程管理过程中的信息泄漏问题SSH客户端适用于多种平台SSH服务器端几乎支持所有Unix平台No.2. 服务器安装SSH…

《2020城市大脑全球标准研究报告》全文正式开放申领

2020年12月23日,《2020城市大脑全球标准研究报告》在北京正式发布,提出了城市大脑建设标准的研究方向和初步成果,内容包括: 城市大脑的顶层建设规范、整体技术架构、云反射弧机制、运行安全、城市神经元的种类划分、识别编码、空…

学科交叉是科学发展的必然趋势

来源:学习时报作者:李侠2020年10月30日,据国家自然科学基金委员会官网发布消息,基金委成立第九大学部——交叉科学部,这也是国家自然科学基金委时隔11年再次成立新的科学部。紧接着,2021年1月,国…

nas磁盘用什么软件测试,手把手教你从NAS拿点空间当电脑硬盘使用 iSCSI开启网络硬盘共享...

手把手教你从NAS拿点空间当电脑硬盘使用 iSCSI开启网络硬盘共享2019-10-23 10:10:2095点赞1581收藏182评论前言家里的Synology DS218Play 已经用了几年了,当时买的两盘位DS 218PLAY,一直使用状况良好。跟路由器一样,只需要默默地工作在角落就…

深度学习?不一定非得搞“黑箱”

来源:TechTalks作者:Ben Dickson编译:科技行者深度神经网络的参数网络极其庞大复杂,也因此让机器得以实现以往难以想象的各类功能。然而,这种复杂性也成为制约其广泛应用的祸根:神经网络的内部工作机理一直…

[No000014A]Linux简介与shell编程

Linux 介绍 内核 库: .so 共享对象,windows:dll 动态链接库 应用程序 Linux的基本原则: 1、由目的单一的小程序组成;组合小程序完成复杂任务; 2、一切皆文件; 3、尽量避免捕获用户接口; 4、配置…

计算机丢失first,求大神解答硬盘驱动丢失怎么办

某蛋的piglet桑回答数:14533 | 被采纳数:52016-12-23 12:51:05一、U盘重装系统准备:一台正常开机的电脑和一个U盘1、百度下载“U大师”(老毛桃、大白菜也可以),把这个软件下载并安装在电脑上。2、插上U盘,选择一键制…

Reading SBAR SDN flow-Based monitoring and Application Recognition

概要 在sdn下,控制平面基于网络测量的的数据控制网络,而细粒度的管理得益于细粒度的测量数据。针对sdn环境下的细粒度测量(识别具体应用程序),可以实现对细粒度的流量管控。设计了识别系统SBAR,对数据流进行…

有关增强现实技术的过去、现在和未来的发展

来源:贤集网增强现实已经从科幻电影中跃升为基于科学的现实。早些时候,增强现实技术的使用成本很高,因此很少使用增强现实技术。研究人员没有机会经常尝试增强现实。但是今天,情况发生了变化。增强现实通过智能手机,个…

python经典一百道习题(转自奶酪博客)

无论学习哪门计算机语言,只要把100例中绝大部分题目都做一遍,就基本掌握该语言的语法了。 【程序1】 题目:有1、2、3、4个数字,能组成多少个互不相同且无重复数字的三位数?都是多少? #Filename:001.py cnt …

中国科学家团队《Cell》揭示人类大脑进化的基因组调控机制

来源:中国生物技术网人类大脑起源于漫长的生命进化过程,其最显著的改变是大脑的认知功能,反映在脑容量的显著扩大和脑结构的高度精细化。在人类进化过程中,“哪些遗传改变造就了人类大脑”是学界长期力图解决的科学问题。所有器官…

终端服务器安全层在协议流中检测到错误,终端服务器安全层在协议流中检测到错误,并已取消客户端连接...

事件类型: 错误事件来源: TermDD描述:RDP 的 "DATA ENCRYPTION" 协议组件在协议流中检测到一个错误并且中断了客户机。经过网上查找资料及分析,原来是注册表中的“Certificate”子键被损坏,才导致用户无法与终端服务进行正常通信。分析&#x…

人机融合的科幻与现实

来源:《环球》杂志 发布时间:2017-04-24随着光机电一体化、生物工程、生化机器人的发展和系统科学的综合进步,计算机自主的逻辑思维将有足够的行为表现,进而真正脱离人类的完全控制,拥有自主的智能思维。几乎可以预见&…