回归的无分布预测推理

摘要

我们利用保形推理,开发了回归中无分布预测推理的一般框架。所提出的方法允许使用回归函数的任何估计量构建响应变量的预测带。所得的预测带在标准假设下保留了原始估计量的一致性,同时保证了有限样本边际覆盖,即使这些假设不成立。我们从经验和理论上分析和比较了我们的共形框架的两个主要变体:完全共形推理和分裂共形推理,以及相关的折衷方法。这些方法在统计精度(结果预测间隔的长度)和计算效率之间提供了不同的权衡。作为扩展,我们开发了一种构造有效样本内预测区间的方法,称为秩一出共形推理,其计算效率与分裂共形推理基本相同。我们还描述了我们的程序的扩展,以产生具有局部变化长度的预测带,以适应数据中的异方差。最后,我们提出了一个变量重要性的无模型概念,称为遗漏一个协变量或LOCO推理。本文附带了一个R包conalinference,它实现了我们所介绍的所有建议。本着可重复性的精神,我们所有的经验结果也可以很容易地(重新)生成使用这个包。

论文:
Distribution-Free Predictive Inference For Regression
作者:卡内基梅隆大学统计学系
Jing Lei, Max G’Sell, Alessandro Rinaldo, Ryan J. Tibshirani, and Larry Wasserman
代码:https://github.com/ryantibs/conformal

保形推理。

我们考虑检验原假设Yn+1 = y,并根据增广样本(X1, Y1),…的经验分位数构造有效的p值。(Xn, Yn),(Xn+1, Yn+1),其中Yn+1 = y(详见下文第2节)。数据增强步骤使该过程免受过拟合的影响,因此所得到的预测带始终具有有效的平均覆盖范围,如(1)所示。在各种设置下,保形推理也作为批处理(而不是顺序)方法进行了研究。例如,Burnaev & Vovk(2014)考虑了低维最小二乘法和岭回归模型。Lei等人(2013)使用保形预测构建统计上接近最优的容忍区域。Lei和Wasserman(2014)将这一结果扩展到低维非参数回归。Lei(2014)探索了其他扩展,如分类和聚类;雷等人(2015)。共形预测框架最初是由Vovk等人(2005,2009)作为形成预测区间的顺序方法提出的。基本思想很简单。保留回归设置,并从P中给出一个新的独立绘图(Xn+1, Yn+1),以决定是否将值y包含在C(Xn+1)中。

在高维回归中,关于预测集的研究很少。Hebiri(2010)描述了保形套索估计量的近似。这种近似比建立在套索之上的原始共形预测方法有很大的加速,但首先失去了共形推理的关键吸引力——它不能提供有限样本覆盖。最近Steinberger & Leeb(2016)分析了一种在高维环境下的折衷预测方法,扩展了Butler & Rothman(1980)在低维回归中的结果。然而,只有当回归参数的基估计量满足强渐近均方误差和稳定性时,才能保证这种折衷方法具有渐近有效性。这将在2.4节中进一步讨论。在我们看来,一个简单,计算效率高,但似乎被忽视的强大方法是分裂共形推理(见Lei et al. (2015);Papadopoulos et al.(2002),或章节2.2)。例如,当与套索估计器结合使用时,形成分裂共形预测区间的总成本主要由套索拟合的成本决定,并且无论套索估计器是否一致,该方法总是在任何设置下提供有限样本覆盖。

高维推理。在高维推理领域,最近有一个非常令人兴奋的研究方向,是关于**(固定的)基于群体的目标或(随机的)后选择目标的置信区间的构建**。在第一类基于总体的方法中,假设线性模型为真,重点是为该模型中的系数提供置信区间(参见,例如,Belloni et al. (2012);Buhlmann (2013);Zhang & Zhang (2014);van de Geer et al. (2014);Javanmard & Montanari(2014))。在第二类,后选择方法中,重点是在给定选定协变量子集的最佳线性近似中覆盖系数(参见,例如,Berk等人(2013);Lee et al. (2016);Tibshirani等人(2016);Fithian et al. (2014);田&泰勒(2015a,b))。这些推理方法都很有趣,它们服务于不同的目的(即,两个类背后的目的是不同的)。然而,一个共同的线索是,所有这些方法都依赖于非平凡的假设——即使不需要假设线性模型为真,条件通常(在不同程度上)取决于所考虑的回归估计器的质量、误差分布误差方差的知识或可估计性,误差的均方差等。相比之下, 我们在第6节中描述了两种基于变量重要性的预测方法完全不依赖于这样的条件

大纲

在本文中,我们对回归中的保形推理做出了一些方法和理论上的贡献。

  • 我们提供了保形推理(第2节)的一般介绍,保形推理是构造无分布、有限样本预测集的通用工具。我们特别考虑了高维回归的背景,因为现有的推理方法需要很强的假设,因此可以认为共形推理是最有用的场景。

  • 我们为共形推理提供了新的理论见解:其有限样本覆盖的准确性保证(定理2.1,2.2),以及无分布的渐近样本覆盖保证(定理2.3,5.1)。

  • 我们还证明了保形推理的版本近似于某些oracle方法(第3节)。在这样做的过程中,我们在标准假设下提供了预测区间长度的近最优界限。具体来说,我们将展示以下内容。

    • 1 如果基估计量在重采样和小扰动下是稳定的,则保形预测带接近依赖于估计量的oracle带(定理3.2,3.3)。
    • 2 如果基估计量一致,则保形预测带接近于所有有效预测带中长度最短的超级预言带(定理3.4,3.5)。
  • 我们进行了广泛的模拟研究(第4节),以评估共形推理的两种主要变体:完整和分裂共形方法,以及相关的折刀方法。这些模拟可以使用我们附带的R包conformal Inference 来重现,它提供了本文中研究的所有方法的实现(包括下面描述的扩展和变量重要性度量)。

  • 我们开发了保形推理的两个扩展(第5节),允许更多信息和灵活的推理:具有样本内覆盖的预测区间和具有不同局部长度的预测区间。

  • 我们提出了两种新的、无模型的、基于预测的方法来推断基于留一个协变量或LOCO推理的变量重要性(第6节)。

保形推理

适形预测理论背后的基本思想与样本分位数的一个简单结果有关。让U1,…,一个标量随机变量的iid样本(实际上,后面的参数在i - id假设被较弱的互换性假设所取代后仍然成立)。对于给定的错误覆盖水平α∈(0,1),以及另一个iid样本Un+1,请注意
在这里插入图片描述
其中我们基于U1定义样本分位数 q 1 − α q_{1−α} q1α

在这里插入图片描述

U(1)≤…≤U(n)表示U1的阶统计量,…,联合国。(2)中的有限样本覆盖性质很容易验证:通过互换性,Un+1在U1、…, Un, Un+1均匀分布在集合{1,…, n + 1}。

在我们的回归问题中,我们观察到i.i.d样本Zi = (Xi, Yi)∈R d × R ~ P, i = 1,…, n时,我们可以考虑以下朴素的方法来构造Yn+1在新特征值Xn+1处的预测区间,其中(Xn+1, Yn+1)独立于p

在这里插入图片描述
其中µ是底层回归函数的估计量,Fn是拟合残差的经验分布|Yi−µb(Xi)|, i = 1,…, n和Fb−1 n(1−α)为Fbn的(1−α)分位数。如果估计的回归函数µ是准确的(即,足以使拟合残差分布的估计(1−α)分位数Fn(1−α)接近总体残差的(1−α)分位数|Yi−µ(Xi)|, i = 1,…),这对于大样本是近似有效的。保证µ的这种精度通常需要适当的规则条件,包括底层数据分布P和估计器µ本身,例如正确指定的模型和/或适当选择调优参数。

保形预测集

一般来说,由于拟合的残差分布经常向下偏置,因此朴素方法(3)可以严重掩盖。保形预测区间(Vovk et al., 2005, 2009;Lei et al., 2013;Lei & Wasserman, 2014)克服了原始区间的缺陷,并且,在某种程度上值得注意的是,保证提供适当的有限样本覆盖,而不需要对P或µ进行任何假设(除非µb是数据点的对称函数)。

考虑以下策略:对于每个值y∈R,我们构造一个增广回归估计量µ_y,它是在增广数据集Z1,…上训练的。Zn (Xn+1, y)现在我们定义
在这里插入图片描述
并将Ry,n+1在剩余的拟合残差Ry,1,…中排序。, Ry,n,计算
在这里插入图片描述
增广样本中拟合残差小于上一个的点的比例,Ry,n+1。这里1{·}是指示器函数。通过数据点的可交换性和µb的对称性,当y = Yn+1时,我们看到构造的统计量π(Yn+1)均匀分布在集合{1/(n +1), 2/(n +1),…, 1},这意味着
在这里插入图片描述
我们可以把上面的显示解释为说1−π(Yn+1)为检验零假设H0: Yn+1 = y提供了一个有效的(保守的)p值。

通过对y∈R的所有可能值进行逆检验,根据性质(6),我们立即得到在Xn+1处的适形预测区间,即

在这里插入图片描述
(4)、(5)、(7)中的步骤必须在每次我们想要产生一个预测区间(在一个新的特征值上)时重复。在实践中,我们还必须将(7)中的注意力限制在一个由试验值y组成的离散网格上。为了完整起见,这在算法1中进行了总结。

通过构造,式(7)中的共形预测区间具有有效的有限样本覆盖;这个间隔也是准确的,这意味着它不会实质上覆盖过多。这些归纳为以下定理,其证明见附录A.1。
在这里插入图片描述
在这里插入图片描述

Remark 1。定理的第一部分,关于回归中保形区间的有限样本有效性,是所有保形推理过程的标准性质,是由Vovk提出的。第二部分——共形区间的反保守性——是新的。仅对于第二部分,我们要求残差具有连续分布,这是一个相当弱的假设,用于在(绝对)残差排序时避免联系。通过使用随机平局规则,可以完全避免这种假设。在实践中,适形层的覆盖高度集中在1−α附近,这一点在第4节的实验中得到了证实。除了连续性假设外,定理2.1中不需要关于回归估计量µ或数据生成分布p的假设。这是保形推理的一个值得注意和独特的性质,对于在2.4节中讨论的折刀方法(或者,对于用于在高维线性模型中产生系数置信区间的方法)是不成立的。

Remark 2。一般来说,当我们改进底层回归函数µ的估计量µb时,得到的适形预测区间的长度会减小。直观地说,这是因为更精确的µb导致更小的残差,而保形区间本质上是由(增广的)残差分布的分位数定义的。第4节给出了支持这一直觉的实证例子。

Remark 3。定理2.1中的概率命题取i.i.d个样本(Xi, Yi), i = 1,…, n, n + 1,因此它们断言平均(或边际)覆盖率保证。这不应该与P(Yn+1∈C(x)| Xn+1 = x)≥1−α(对于所有x∈R d)相混淆,即条件覆盖,这是一个更强的性质,不能通过有限长度预测区间来实现,而不需要对模型和估计器进行正则性和一致性假设(Lei & Wasserman, 2014)。条件覆盖在某些条件下是渐近成立的;参见第3节定理3.5。

Remark 4。定理2.1仍然成立,如果我们用

在这里插入图片描述
其中f是前n个参数对称的任意函数。在适形推理中,这样的函数f称为符合性分数。例如,(8)中的值可以是在(Xi, Yi)处求值的估计联合密度函数,也可以是在(Xi, Yi)处求值的条件密度函数(后者相当于Y−E(Y |X)独立于X时的绝对残差Ry,i,并且在[0,∞)上具有密度递减的对称分布)。我们将在第5.2节中讨论一个特殊的局部加权合格评分。

Remark 5。我们通常使用术语“无分布”来指代有限样本覆盖属性,假设只有iid数据。虽然保形预测仅在iid假设下为所有分布和所有对称估计提供了有效的覆盖,但保形区间的长度取决于初始估计量的质量,并且在第3节中我们提供了关于这种关系的理论见解。

在这里插入图片描述

2.2 分裂保形预测集

上一节研究的原保形预测方法计算量大。对于任意Xn+1和y,为了判断y是否包含在Cconf(Xn+1)中,我们在增广数据集(包括新点(Xn+1, y))上重新训练模型,并重新计算和重新排序绝对残差。在某些应用中,Xn+1不一定被观察到,预测区间是通过在一个精细网格上对(x, y)的所有对上评估1{y∈Cconf(x)}来构建的,如算法1所述。在核密度估计和核回归的特殊情况下,Lei et al.(2013)描述了对完整保形预测集的简单而准确的近似;雷和沃瑟曼(2014)。在低维线性回归中,Sherman-Morrison更新方案可以通过节省每次改变查询点(x, y)时求解全线性系统的成本来降低全保形方法的复杂性。但在高维回归中,我们可能会使用相对复杂的(非线性)估计器,如lasso,执行有效的完全共形推理仍然是一个开放的问题.

幸运的是,有一种替代方法,我们称之为拆分保形预测,它是完全通用的,其计算成本只是完全保形方法的一小部分。分割保形法采用样本分裂的方法将拟合步骤和排序步骤分离,其计算量仅为拟合步骤的计算量。类似的观点也出现在在线预测文献中,被称为归纳共形推理(Papadopoulos et al., 2002;Vovk et al., 2005)。算法2中总结的分割共形算法改编自Lei et al.(2015)。它的键覆盖性质在定理2.2中给出,在附录A.1中得到证明。(在这里,以及以后讨论分裂共形推理时,为了简单起见,我们假设样本量n是偶数,因为当n为奇数时只需要非常小的变化。

在这里插入图片描述
与原始的保形方法相比,拆分保形推理除了效率极高之外,在内存需求方面也具有优势。例如,如果回归过程A(在算法2的符号中)涉及变量选择,如套索回归或前向逐步回归,那么我们只需要在评估新点Xi, i∈I2的拟合并计算残差时存储选择的变量,用于排序步骤。当原始变量集非常大,而选择的变量集要小得多时,这可以大大节省内存。

分裂共形预测区间也提供了一个近似的样本内覆盖保证,使它们更容易说明和解释使用给定的样本(Xi, Yi), i = 1,…, n,无需获得未来的抽奖。下面将对此进行描述

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/9276.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

echarts-gl 离线3D地图

1、安装依赖 echarts-gl 与 echarts 版本关系: "echarts": "^5.2.0", "echarts-gl": "^2.0.8"# 执行安装 yarn add echarts-gl2、下载离线地图 免费下载实时更新的geoJson数据、行政区划边界数据、区划边界坐标集合_…

容器化Jenkins远程发布java应用(方式二:自定义镜像仓库远程拉取构建)

1.创建maven项目 2.配置git、maven 3.阿里控制台>容器镜像服务>镜像仓库>创建镜像仓库 4.执行shell脚本(推送镜像到阿里云镜像仓库) 使用到登录阿里云仓库命令 #!/bin/bash # 服务名称 SERVER_NAMEplanetflix-app # 镜像tag IMAGE_TAG1.0.0-SN…

亚马逊云科技中国峰会:与你开启云计算与前沿技术的探索之旅

亚马逊云科技中国峰会:与你开启云计算与前沿技术的探索之旅 Hello,我是科技博主Maynor,非常高兴地向你们推荐亚马逊云科技中国峰会,这是一场将于 5 月 29 日至 30 日在上海世博中心举办的科技盛会,如果你对云计算、行业发展新趋势…

Android Studio高版本安卓模拟器抓取https包

Android Studio avd 设置 证书生成 *.cer格式证书​ openssl x509 -inform DER -subject\_hash\_old -in charles-ssl-proxying-certificate.cer​ *.pem格式证书​ openssl x509 -inform PEM -subject\_hash\_old -in charles-ssl-proxying-certificate.pem会输出 2cb30a9e …

kafka系列三:生产与消费实践之旅

在本篇技术博客中,我们将深入探索Apache Kafka 0.10.0.2版本中的消息生产与消费机制。Kafka作为一个分布式消息队列系统,以其高效的吞吐量、低延迟和高可扩展性,在大数据处理和实时数据流处理领域扮演着至关重要的角色。了解如何在这一特定版…

软件设计师笔记(一)-基础要点

本文内容来自笔者学习zst 留下的笔记,虽然有点乱,但是哥已经排版过一次,将就着看吧,查缺补漏,希望大家都能通过,记得加上免费的关注!谢谢!csdn贴图真的很废人! 目录 一、…

【3dmax笔记】030:参考与冻结

一、参考 参考物体,需要是实体。例如将一个图片作为参考,导入软件中,基于图片进行二维样条线绘制。 首先绘制一个三维的平面,或者绘制一个二维的矩形,添加一个挤出修改器(将厚度设为0),勾选【生成贴图坐标】,如下图所示: 然后将图片(位于配套实验数据包中的data03…

数据治理的难题:如何化解?

在数字化转型的大潮中,数据治理成了每个企业都绕不开的话题。但是,数据治理这条路并不好走,充满了各种挑战。这些挑战不仅来自于技术,还有组织文化、流程和法律法规等方面。 挑战一:数据孤岛 在企业内部,…

容灾演练双月报|郑大一附院数据级容灾演练切换

了解更多灾备行业动态 守护数字化时代业务连续 目录 CONTENTS 01 灾备法规政策 02 热点安全事件 03 容灾演练典型案例 01 灾备法规政策 3月19日,工信部发布《工业和信息化部办公厅关于做好2024年信息通信业安全生产和网络运行安全工作的通知》。明确提出“…

如何防止WordPress网站内容被抓取

最近在检查网站服务器的访问日志的时候,发现了大量来自同一个IP地址的的请求,用站长工具分析确认了我的网站内容确实是被他人的网站抓取了,我第一时间联系了对方网站的服务器提供商投诉了该网站,要求对方停止侵权行为,…

五一超级课堂---Llama3-Tutorial(Llama 3 超级课堂)---第一节 Llama 3 本地 Web Demo 部署

课程文档: https://github.com/SmartFlowAI/Llama3-Tutorial 课程视频: https://space.bilibili.com/3546636263360696/channel/collectiondetail?sid2892740&spm_id_from333.788.0.0 操作平台: https://studio.intern-ai.org.cn/consol…

特征提取与深度神经网络(角点检测)

图像特征概述 图像特征表示是该图像唯一的表述,是图像的DNA HOG HOG (Histogram of Oriented Gradients)是一种用于目标检测的特征描述子。在行人检测中用的最多。HOG特征描述了图像中局部区域的梯度方向信息,通过计算图像中各个…

通义千问2.5正式发布,能力升级,全面赶超GPT4

简介 在人工智能的大潮中,大模型的竞争愈发激烈。今日,阿里云发布了其最新的通义千问2.5大模型,引起了业界的广泛关注。这款模型不仅在性能上全面赶超了GPT-4,还在多个基准测评中取得了优异的成绩,展现了国产AI技术的…

ARP命令

按照缺省设置,ARP高速缓存中的项目是动态的,每当发送以恶个指定的数据报且高速缓存中不存在当前项目时,ARP便会自动添加该项目。一旦高速缓存的项目被输入,就已经开始走向失效状态。因此,如果ARP高速缓存中的项目很少或…

SPSS之主成分分析

SPSS中主成分分析功能在【分析】--【降维】--【因子分析】中完成(在SPSS软件中,主成分分析与因子分析均在【因子分析】模块中完成)。 求解主成分通常从分析原始变量的协方差矩阵或相关矩阵着手。 (1)当变量取值的度量…

【Elasticsearch<五>末篇 ✈️✈️】结合 kibana 实现索引中 IP 地址分布地图可视化

目录 👋前言 👀一、ES 地理位置基本了解 🌱二、IP 地址地图可视化 2.1 创建预处理通道 2.2 创建索引库 2.3 插入一条数据 2.4 观察写入后的数据 2.5 可视化展示 😄三、章末 👋前言 继前面了解 Elasticsearch 的安…

酷企秀场景elementUi plus可视化diy

无论网络公司还是政务企业需求的所需的一单可回本的 独立部署集三大功能:电子画册、VR全景、地图秀等功能都可以可视化在线设计 后续免费增加 自定义表单、抽奖活动功能。 源码交付,独立私有化部署,无限多开,可视化设计&#x…

【linux】主分区,扩展分区,逻辑分区,动态分区,引导分区,标准分区

目录 主分区,扩展分区,逻辑分区 主分区和引导分区 主分区,扩展分区,逻辑分区(标准分区) 硬盘一般划分为一个“主分区”和“扩展分区”,然后在扩展分区上再分成数个逻辑分区。 磁盘主分区扩展…

JavaWeb之过滤器(Filter)与监听器(Listener)

前言 过滤器(Filter) 1.什么是过滤器 2.过滤器的语法格式 3.使用场景 3.1.如何防止用户未登录就执行后续操作 3.2.设置编码方式--统一设置编码 3.3.加密解密(密码的加密和解密) 3.4.非法文字筛选 3.5.下载资源的限制 监听器(Listener) 1.什么是监听器 2.监听器分类…

Ci24R1 (SOP8)2.4GHz无线收发一体、双向系统的智能家居芯片

Ci24R1 (SOP8)工作范围在2.4GHzISM频段,专为低系统应用成本的无线场合设计,集成嵌入式ARQ基带协议引擎的无线收发器芯片。它的工作频率范围为2400MHz-2525MHz,共有126个1MHz带宽的信道。 Ci24R1 (SOP8&…