【分布预测】DistPred:回归与预测的无分布概率推理方法

论文题目:DistPred: A Distribution-Free Probabilistic Inference Method for Regression and Forecasting
论文作者:Daojun Liang, Haixia Zhang,Dongfeng Yuan
论文地址:https://arxiv.org/abs/2406.11397
代码地址:https://github.com/Anoise/DistPred

论文在线版本 — 论文地址 — Github代码地址

在这里插入图片描述
图 0:DistPred可在一次前向过程中给出N个预测,根据这N个预测可求得该点的分布。

摘要

传统的回归和预测任务通常只提供确定性的点估计。为了估计响应变量的不确定性或分布信息,通常使用贝叶斯推理、模型集成或MC Dropout等方法。这些方法要么假设样本的后验分布遵循高斯过程,要么需要数千次前向传递来生成样本。我们提出了一种新的方法,称为DistPred,用于回归和预测任务,它克服了现有方法的局限性,同时保持简单和强大。具体来说,我们将测量预测分布与目标分布之间差异的适当评分规则转换为可微离散形式,并将其用作损失函数来端到端训练模型。这允许模型在单个前向传递中采样大量样本,以估计响应变量的潜在分布。我们已经将我们的方法与多个数据集上的几种现有方法进行了比较,并获得了最先进的性能。此外,我们的方法显著提高了计算效率。例如,与最先进的模型相比,DistPred的推理速度快了90x倍,训练速度提升230x倍(考虑数据处理与指标计算等步骤)。实验结果可以通过这个Github库复现。

在这里插入图片描述
图1:DistPred可以在单个前向过程中给出预测变量的变量,给出响应变量的变量的 K K K预测值,表示为 y ^ \hat{y} y^,其中 y ^ \hat{y} y^表示的是一个最大似然样本。基于这个抽样,可以计算响应变量 y y y的质量分布的概率(PMD) P θ ( y ^ ∣ x ) P_{\theta}(\hat{y}|x) Pθ(y^x),累积分布函数(PDF) F θ ( y ^ ∣ x ) F_{\theta}(\hat{y}|x) Fθ(y^x),和信心曲线 C C θ ( y ^ ∣ x ) CC_{\theta}(\hat{y}|x) CCθ(y^x),从而产生 y y y全面统计量。例如,这包括任何期望水平上的置信区间(CI)以及p-value。

1 简介

在本文中,我们考虑了预测响应变量背后的潜在分布,因为它反映了所有水平的置信区间。例如,基于这个分布,我们可以计算任何级别的置信区间、覆盖率和不确定性量化。目前,预测响应变量的分布是一个挑战,因为在特定时刻,响应变量只能采取单一的确定性值。这个点可以看作是其潜在分布的最大似然样本,但它不能反映潜在分布的整体状态。

目前,在回归和预测任务中,用于解决分布预测和不确定性量化的主要方法是频率采样。这些方法包括通过干扰解释变量或模型来采样大量样本,以近似响应变量的潜在分布。例如,贝叶斯神经网络(bnn)通过假设其参数遵循高斯分布来模拟这种不确定性,从而捕获给定数据的模型的不确定性(Blundell et al., 2015)。同样,基于集成的方法也被提出,将多个具有随机输出的深度模型结合起来,以捕获预测的不确定性。MC Dropout (Gal和Ghahramani, 2016)表明,在每个测试过程中启用Dropout会产生类似于模型集成的结果。此外,还引入了基于GAN和扩散的条件密度估计和预测不确定性量化模型。这些模型利用产生或扩散过程中的噪声来获得不同的预测值,以估计响应变量的不确定性。

上述这些方法的共同特点是要求𝐾前向通过采样 K K K代表性样本。例如,基于贝叶斯框架的方法需要推断 K K K可学习的参数样本,以获得 K K K代表性样本;集成方法需要 K K K模型共同推断;MC Dropout需要 K K K向前通过随机Dropout激活;生成模型需要 K K K正向或扩散过程。然而,过多的向前传递会导致显著的计算开销和较慢的速度,对于具有高实时性要求的AI应用程序来说,这一缺点变得越来越明显。

为了解决这个问题,我们提出了一种新的方法,称为DistPred,它是一种用于回归和预测任务的无分布概率推理方法。DistPred是一种简单而强大的方法,可以估计单次正向传递中响应变量的分布。具体来说,我们考虑使用所有预测分位数来指定预测变量的潜在累积密度函数(CDF),并且我们表明,整个分位数的预测可以转化为计算响应变量和预测集合变量的最小期望值。在此基础上,我们将测量预测分布与目标分布之间差异的适当评分规则转换为可微离散形式,并将其用作损失函数来端到端训练模型。这允许模型在单个前向传递中采样大量样本,以估计响应变量的潜在分布。DistPred与其他方法是正交的,这使得它可以与其他方法相结合来增强估计性能。此外,我们还展示了DistPred可以提供对响应变量的全面统计见解,包括任何期望水平上的置信区间、p值和其他统计信息,如图1所示。实验结果表明,DistPred在精度和计算效率方面都优于现有方法。具体来说,DistPred的推理速度比最先进的模型快90倍,训练速度提升230x倍(考虑数据处理与指标计算等步骤)。

2 方法

假设数据集 D = { x i , y i } i = 1 N D=\{x_i,y_i\}_{i=1}^N D={xi,yi}i=1N N N N样本标签对组成。如果下标 i i i不会在上下文中引起歧义,则将被省略。我们的目标是利用具有参数 θ \theta θ的机器学习模型 M M M来预测响应变量 y y y D D D的潜在分布 P ( y ) P(y) P(y),旨在获得全面的统计见解,例如获得置信区间(CI)和在任何期望水平上量化不确定性。
直接预测分布 P P P是不可行的,因为:

  • 如果没有分布假设,我们就不能给出预测分布 P θ ( y ^ ) P_\theta(\hat{y}) Pθ(y^)的PDF或CDF的有效表示。
  • 对于响应变量 y y y,我们只能得到一个奇异的确定性值,无法获得其分布信息来指导模型学习。

为了解决上述问题,我们考虑采用所有预测分位数 q ^ 1 , q ^ 2 , ⋯ \hat{q}_1, \hat{q}_2, \cdots q^1,q^2,,在水平 α 1 , α 2 , ⋯ \alpha_1, \alpha_2, \cdots α1,α2,上指定预测变量 y ^ \hat{y} y^的潜在CDF F θ ( y ^ ) F_\theta(\hat{y}) Fθ(y^)。这是因为如果我们知道随机变量的累积分布函数,我们可以通过设置 F ( y ) = q F(y) = q F(y)=q找到任何分位数。相反,如果我们有一个完整的分位数集,我们可以近似或重建随机变量的累积分布函数。如图2所示,分位数提供了分布的离散“快照”,而CDF是这些快照的连续、平滑版本,提供了从最小值到最大值的累积概率的完整描述。

在这里插入图片描述
图2:CDF与所有预测分位数之间的关系。

接下来,我们将介绍前面概述的完整预测分位数作为响应变量CDF的适当近似值。全分位数预测可转化为计算响应变量和预测集合变量 Y ^ \hat{Y} Y^的最小期望值,其中 Y ^ = { Y ^ 1 , ⋯ , Y ^ K } \hat{Y} = \{\hat{Y} _1, \cdots, \hat{Y} _K \} Y^={Y^1Y^K}。在深入研究此分析之前,我们将首先介绍用于评估预测分布的适当性的评分规则。

2.1 使用适当的评分规则作为损失函数

评分规则通过根据预测分布和预测结果分配数值分数,为评估概率预测提供了一个简明的度量\citep{gneiting2007strictly, jordan2017evaluating}。具体地说,设 Ω \Omega Ω表示感兴趣的数量的可能值的集合,设 P \mathcal{P} P表示 Ω \Omega Ω上概率分布的凸类。评分规则是一个函数
S : Ω × P → R ∪ { ∞ } ( 1 ) S: \Omega \times \mathcal{P} \rightarrow \mathbb{R} \cup \{\infty\} \quad \quad (1) S:Ω×PR{}(1)
它将数值赋给预测 P ∈ P P \in \mathcal{P} PP和观测 y ∈ Ω y \in \Omega yΩ。我们用相关的CDF F F F或PDF F F F来识别概率预测 P P P,并认为评分规则是负向的,分数越低表示预测越准确。当预测与观测的真实分布一致时,则优化了适当的评分规则,即,如果,
E Y ∼ Q [ S ( Q , Y ) ] ≤ E Y ∼ Q [ S ( P , Y ) ] ( 2 ) E_{Y \sim Q} [S(Q, Y)] \leq E_{Y \sim Q} [S(P, Y)] \quad \quad (2) EYQ[S(Q,Y)]EYQ[S(P,Y)](2)
对于所有 P , Q ∈ P P, Q \in \mathcal{P} P,QP。当只有在 P = Q P = Q P=Q时才达到相等时,评分规则被称为严格正确的。适当的评分规则(PSR)对于比较评价至关重要,特别是在排名预测中。在实践中,在多个预测案例中平均得分最低的预测者通常表现出最好的预测性能。适当的评分规则激励预测者准确地报告他们对这种情况下真实分布的看法。因此,PSR提供了有吸引力的损失和效用函数,可以针对回归或预测问题进行调整。为了估计 θ \theta θ,我们可以用均值来衡量拟合优度
S n ( θ ) = 1 N ∑ i = 1 N S ( P θ ( y ^ i ) , y i ) . ( 3 ) S_n(\theta) = \frac{1}{N} \sum_{i=1}^N S(P_{\theta}(\hat{y}_i), y_i). \quad \quad (3) Sn(θ)=N1i=1NS(Pθ(y^i),yi).(3)
θ ∗ \theta^* θ为真参数值,则渐近参数表明 argmin θ S n ( θ ) → θ ∗ \text{argmin}_\theta S_n(\theta) \rightarrow \theta^* argminθSn(θ)θ n → ∞ n\rightarrow \infty n。这提出了一种将PSR转换为训练模型损失函数的一般方法,该方法隐含地最小化了预测分布和真实分布之间的差异。

在这里插入图片描述
图3:DistPred的工作流程。在前向传递中推断预测变量 Y ^ \hat{Y} Y^的集合,并使用PSR S ( E ( Y ^ ∣ x ) , Y ) S(\mathbb{E}(\hat{Y}|x), Y) S(E(Y^x)Y)对学习器进行端到端训练。

2.2 全预测分位数的性质

我们考虑与连续量有关的概率预测,表现为完整的预测分位数 q ^ 1 , ⋯ , q ^ K \hat{q}_1, \cdots, \hat{q}_K q^1,,q^K。对于 P ∈ P P\in \mathcal{P} PP,让 q 1 , ⋯ , q K q_1, \cdots, q_K q1,,qK表示级别 α 1 , ⋯ , α K ∈ ( 0 , 1 ) \alpha_1, \cdots, \alpha_K \in (0,1) α1,,αK(0,1)上的真实 P P P -分位数。则可将期望分数 S ( q 1 , ⋯ , q K ; P ) S(q_1, \cdots, q_K; P) S(q1,,qK;P)定义为
S ( q ^ 1 , ⋯ , q ^ K ; P ) = ∫ S ( q ^ 1 , ⋯ , q ^ K ; y ) d P ( y ) . ( 4 ) S(\hat{q}_1, \cdots, \hat{q}_K; P) = \int S(\hat{q}_1, \cdots, \hat{q}_K; y) \,\text{d}P(y). \quad \quad (4) S(q^1,,q^K;P)=S(q^1,,q^K;y)dP(y).(4)
此外,评分规则S是适当的,如果 S ( q 1 , ⋯ , q K ; P ) ≥ S ( q ^ 1 , ⋯ , q ^ K ; P ) S(q_1, \cdots, q_K; P) \ge S( \hat{q}_1, \cdots, \hat{q}_K; P) S(q1,,qK;P)S(q^1,,q^K;P)。基于这个定义,我们假设 s k , i ∈ [ 1 , ⋯ K ] s_k, i \in [1,\cdots K] sk,i[1,K] 是非递减的, h h h是任意的,那么得分规则
S ( q ^ 1 , ⋯ , q ^ K ; P ) = ∑ k = 1 K ( α i s k ( q ^ k ) + ( s k ( y ) − s k ( q k ^ ) 1 { y ≤ q ^ k } ) ) ( 5 ) S( \hat{q}_1, \cdots, \hat{q}_K; P) = \sum_{k=1}^K \left( \alpha_i s_k(\hat{q}_k) + (s_k(y) - s_k(\hat{q_k})\mathbb{1}\{y\le \hat{q}_k\} ) \right) \quad \quad (5) S(q^1,,q^K;P)=k=1K(αisk(q^k)+(sk(y)sk(qk^)1{yq^k}))(5)
是适当的预测分位数水平 α 1 , ⋯ , α K \alpha_1, \cdots, \alpha_K α1,,αK K → ∞ K \rightarrow \infty K 1 { y ≤ q ^ k } \mathbb{1}\{y\le \hat{q}_k\} 1{yq^k}表示指示函数,如果 y ≤ q ^ k y \le \hat{q}_k yq^k为1,否则为0。

等式5表明,完整的预测分位数是合适的。本质上,描述预测CDF等同于指定所有预测分位数。因此,我们可以根据分位数的评分规则来制定预测分布的评分规则。具体来说,让 S α S_\alpha Sα表示级别 α \alpha α的分位数的适当评分规则,然后是评分规则
S ( F , y ) = ∫ 0 1 S α ( F − 1 ( α ) ; y ) d α = ∫ − ∞ ∞ S ( F ( y ^ ) , 1 { y ≤ y ^ } ) d y ^ ( 6 ) S(F,y) = \int_0^1 S_\alpha(F^{-1}(\alpha); y) \,\text{d}\alpha = \int_{-\infty}^{\infty} S(F(\hat{y}), \mathbb{1}\{y \le \hat{y} \}) \,\text{d}\hat{y} \quad \quad (6) S(F,y)=01Sα(F1(α);y)dα=S(F(y^),1{yy^})dy^(6)
是恰当的。在这里,我们可以发现,方程6的右侧对应于 S S S为二次或Brier分数的CRPS,定义为
C ( F , y ) = ∫ − ∞ ∞ ( F ( y ^ ) − 1 { y ≤ y ^ } ) 2 d y ^ . ( 7 ) C(F, y) = \int_{-\infty}^{\infty} (F(\hat{y}) - \mathbb{1}\{y \le \hat{y} \})^2 \,\text{d}\hat{y}. \quad \quad (7) C(F,y)=(F(y^)1{yy^})2dy^.(7)
如果 F F F的第一阶矩是有限的,则CRPS可以写成
C ( F , y ) = E F [ ∣ Y ^ − y ∣ ] − 1 2 E F F [ ∣ Y ^ − Y ^ ′ ∣ ] , ( 8 ) C(F, y) = \mathbb{E}_F[|\hat{Y} - y|] - \frac{1}{2} \mathbb{E}_{FF}[|\hat{Y} - \hat{Y}'|], \quad \quad (8) C(F,y)=EF[Y^y]21EFF[Y^Y^],(8)
其中 Y ^ \hat{Y} Y^ Y ^ ′ \hat{Y}' Y^表示具有分布 F F F的独立预测变量。

在这里插入图片描述
图4: DistPred的架构。

2.3 端到端集成推理

根据上面提供的分析,很明显,预测完整的分位数相当于最小化方程8 w.r.t E ( Y ^ ∣ y ) \mathbb{E}(\hat{Y}|y) E(Y^y)。因此,正如图3所示的工作流,我们可以开发一个带有参数 θ \theta θ的模型 M M M,该模型在向前传递中推断预测变量 Y ^ \hat{Y} Y^的集合,并利用方程\ref{eq_crps2}对其进行端到端训练。这允许模型在单个前向传递中采样大量样本,以通过预测集合变量估计经验CDF F ^ \hat{F} F^
C ( F ^ , y ) = 1 K ∑ k = 1 K ∣ y ^ k − y ∣ − 1 2 K 2 ∑ k = 1 K ∑ j = 1 K ∣ y ^ k − y ^ j ′ ∣ . ( 9 ) C(\hat{F},y) = \frac{1}{K}\sum_{k=1}^{K}|\hat{y}_k - y| - \frac{1}{2K^2}\sum_{k=1}^{K}\sum_{j=1}^{K}|\hat{y}_k - \hat{y}'_{j}|. \quad \quad (9) C(F^,y)=K1k=1Ky^ky2K21k=1Kj=1Ky^ky^j∣.(9)
值得注意的是,方程9是严格满足PSR的可微离散形式w.r.t Y ^ \hat{Y} Y^ Y ′ ^ \hat{Y'} Y^。然而,方程\ref{eq_crps3}的实现由于其计算复杂性 O ( K 2 ) O(K^2) O(K2)而表现出低效率。这可以通过使用基于广义分位数函数\citep{laio2007verification}和排序的预测集成变量的表示来增强
C ( F ^ , y ) = 1 2 K 2 ∑ k = 1 K ( y k → − y ) ( k 1 { y ≤ y k → } − i + 1 2 ) . ( 9 ) C(\hat{F},y) = \frac{1}{2K^2}\sum_{k=1}^{K}(\overrightarrow{y_k} - y)(k \mathbb{1}\{y \le \overrightarrow{y_k} \} -i + \frac{1}{2}). \quad \quad (9) C(F^,y)=2K21k=1K(yk y)(k1{yyk }i+21).(9)
由于涉及排序操作,公式10的计算复杂度为 O ( K l o g K ) O(KlogK) O(KlogK)。为了节省内存,我们还建议使用公式10作为损失函数,因为在长期预测任务中预测集成变量可能会导致GPU内存不足的问题。

2.4 结合其他方法

DistPred与其他方法是正交的,这使得它可以与其他方法相结合来增强估计性能。在这里,考虑到计算效率和内存保护,我们选择将MC Dropout与DistPred集成,从而将合并表示为DistPred-MCD。在我们的实验中,我们观察到DistPred-MCD可以进一步提高不确定性量化性能,尽管计算工作量略有增加。

3 实验

在本文中,我们的重点集中在回归(由Hernández-Lobato和Adams(2015)提出)和预测(由Zhou等人(2021a)提出)任务上,我们验证了所提出的DistPred方法在这些具体工作中的应用。

3.1 PICP和QICE指标

这两个指标都旨在经验地评估学习条件分布与真实条件分布之间的相似程度:

  • PICP(预测区间覆盖概率)(Yao等人,2019)是衡量落在预测区间内的真实标签比例的度量。
  • QICE (分位数间隔校准误差)(han2022card)是一个度量,用于测量给定水平上预测分位数与真实分位数之间的平均差异 α \alpha α
    PICP计算为:
    P I C P : = 1 N ∑ n = 1 N 1 { y ^ n ≥ q α / 2 } ⋅ 1 { y ^ n ≤ q 1 − α / 2 } , ( 11 ) PICP := \frac{1}{N} \sum_{n=1}^{N} \mathbb{1}\{\hat{y}_n \ge q_{\alpha/2} \} \cdot \mathbb{1}\{\hat{y}_n \le q_{1-\alpha/2} \}, \quad \quad (11) PICP:=N1n=1N1{y^nqα/2}1{y^nq1α/2},(11)
    其中 q α / 2 q_{\alpha/2} qα/2 q 1 − α / 2 q_{1-\alpha/2} q1α/2分别表示在相同的 x x x输入下,我们为预测的 y ^ \hat{y} y^输出选择的低百分位数和高百分位数。该指标评估与每个 x x x输入相对应的生成的 y ^ \hat{y} y^样本的百分位数范围内的准确观测值的比例。
    Q I C E : = 1 M ∑ m = 1 M ∣ r m − 1 M ∣ , ( 12 ) where   r m = 1 N ∑ n = 1 N 1 { y ^ n ≥ q α / 2 } ⋅ 1 { y ^ n ≤ q 1 − α / 2 } . QICE := \frac{1}{M}\sum_{m=1}^{M} | r_m - \frac{1}{M} |, \quad \quad (12) \\ \quad \text{where} \ \ r_m = \frac{1}{N} \sum_{n=1}^{N} \mathbb{1}\{\hat{y}_n \ge q_{\alpha/2} \} \cdot \mathbb{1}\{\hat{y}_n \le q_{1-\alpha/2} \}. QICE:=M1m=1MrmM1,(12)where  rm=N1n=1N1{y^nqα/2}1{y^nq1α/2}.

3.2 Toy 案例

为了证明DistPred的有效性,我们首先在 8 8 8玩具示例上进行实验,如CARD 中所做的那样。这些例子在其数据生成函数中具有独特的统计特征:一些具有单模态对称分布的误差项(线性回归,二次回归,正弦回归),其他具有异方差(对数-对数线性回归,对数-对数三次回归)或多模态(反正弦回归,8高斯,全圆)。

在这里插入图片描述
图5:DistPred的回归结果,在8个Toy数据集上的例子。

实验表明,经过训练的DistPred模型具有产生与新协变量的真实响应变量非常相似的样本的能力。此外,它可以根据一定的汇总统计量定量地匹配真实分布。该研究将所有8个任务的真实数据和生成数据的散点图可视化,见图5。在任务涉及单峰条件分布的情况下,兴趣区域填充生成的 y ^ \hat{y} y^值的2.5-th和97.5-th百分位数之间的区域。

我们注意到,在每个任务中,生成的样本与真实的测试实例无缝集成,表明DistPred重构固有数据生成过程的潜力。该实验直观地表明,DistPred有效地重构了目标响应变量的样本电位分布。这表明DistPred的优势可以在分布预测中得到充分利用。

3.3 UCI回归任务

对于在真实世界数据集上进行的实验,我们使用相同的10个UCI回归基准数据集(Asuncion和Newman, 2007),并遵循Hernández-Lobato和Adams(2015)引入的实验协议,Gal和Ghahramani(2016)和Lakshminarayanan等人(2017)以及Han等人(2022)也遵循了该协议。数据集信息可在附录B的表5中找到。

在这里插入图片描述
表1:UCI回归任务的QICE ↓ \downarrow ( % \% %)。

结果表明,DistPred方法优于现有的方法,通常有相当大的差距。值得注意的是,这些令人印象深刻的结果是在DistPred方法的一次向前传递中实现的。至关重要的是,利用DistPred- MCD(一种结合DistPred和MC Dropout的混合方法)可以进一步提高不确定量化的性能。
在这里插入图片描述
表2:UCI波士顿数据集上模型训练和推理时间(分钟)的比较。

很明显,与最先进的模型CARD相比,DistPred在训练方面快了大约230倍,在推理方面快了大约90倍。DistPred的推理速度比训练速度慢,因为它涉及到计算分布统计指标,如QICE和PICP。

3.4 烧蚀研究的样品和集合的数量

我们研究了由DistPred生成的样本数量以及DistPred-MCD的集合数量对它们各自性能的影响。如图6所示,随着输出样本和集合数量的增加,模型的性能逐渐提高,最终达到饱和点。

在这里插入图片描述
图6: DistPred中样品数量(a)和DistPred- mcd中集合数量(b)的消融研究。

3.5 时间序列分布预测

我们扩展了时间序列预测(Zhou et al., 2021a;Wu et al., 2021;Zhou et al., 2022;Liu et al., 2023)从点估计到分布预测的任务,以推断出关于某个时刻的更多统计信息。

有关数据集的详细信息可以在附录\ref{app_dataset}中找到。在实验中使用的模型在广泛的预测长度范围内进行评估,以比较不同未来视界的表现:96、192、336和720。多变量和单变量任务的实验设置是相同的。我们使用MSE和MAE的平均值( M S E + M A E 2 \frac{MSE+MAE}{2} 2MSE+MAE)来评估模型的整体性能。值得注意的是,DistPred提供了响应变量的集合 Y ^ \hat{Y} Y^。因此,我们采用 Y ^ \hat{Y} Y^的平均值作为该时刻的点估计。
在这里插入图片描述
表3: 6个基准数据集的多元时间序列预测结果。

表3列出了多变量TS预测的结果,最优结果用粗体突出显示,次优结果用下划线强调。可以发现,尽管没有使用MSE和MAE, DistPred在所有数据集和预测长度配置上都达到了最先进的性能。iTransformer和PatchTST以其卓越的平均性能脱颖而出,成为公认的最新型号。与它们相比,所提出的DistPred的平均性能分别提高了3.5%16.5%,实现了实质性的性能提升。我们提供的指标,如CRPS, QICE, PICP,供未来的研究界比较。

4 结论

本文提出了一种新的方法,称为DistPred,它是一种用于回归和预测任务的无分布概率推理方法。我们将测量预测分布与目标分布之间差异的适当评分规则转换为可微离散形式,并将其用作损失函数来端到端训练模型。这允许模型在单个前向传递中采样大量样本,以估计响应变量的潜在分布。我们还提出了一种称为DistPred-MCD的混合方法,该方法将DistPred与MC Dropout相结合,进一步提高了不确定量化的性能。实验结果表明,DistPred优于现有的方法,通常有相当大的差距。我们还将时间序列预测从点估计扩展到分布预测,并在多变量和单变量时间序列预测任务上取得了最先进的性能。在未来,我们计划将DistPred扩展到其他任务,如分类和强化学习。

[1] Liang D, Zhang H, Yuan D, et al. DistPred: A Distribution-Free Probabilistic Inference Method for Regression and Forecasting[J]. arXiv preprint arXiv:2406.11397, 2024.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/29976.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小白学RAG:大模型 RAG 技术实践总结

节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。 针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。 汇总合集…

C++之模板(三)

1、缺省模板参数 可以将数据结构类型传递进来&#xff0c;比如vectop<T>&#xff08;如果没传就是默认&#xff09; 把vector当作类型参数来传递&#xff0c;从而使用它的接口然后适配出新的接口。实际上这个Stack称为适配器。有时候可能需要vector&#xff0c;但是又需…

【Python】AJAX

AJAX基础 一、AJAX1.1 概述1.2 XMLHttpRequest对象1.3 AJAX请求六部曲1.4 图解AJAX请求步骤 二、jQuery与AJAX2.1 jQuery.get()2.2 jQuery.getJSON()2.3 jQuery.post()2.4 jQuery.ajax() 三、Django使用AJAX3.1 请求类型3.2 PUT与PATCH的区别3.3 接收及响应JSON3.3.1 接收JSON3…

ui自动化selenium,清新脱俗代码,框架升级讲解

一&#xff1a;简化 1. 新建common 包 新建diver.py 封装浏览器驱动类 from selenium import webdriverclass Driver():"""浏览器驱动类定义 一个【获取浏览器驱动对象driver的方法】。支持多种类型浏览器"""def get_driver(self,browser_typ…

JimuReport 积木报表 v1.7.6 版本发布,免费的低代码报表

项目介绍 一款免费的数据可视化报表工具&#xff0c;含报表和大屏设计&#xff0c;像搭建积木一样在线设计报表&#xff01;功能涵盖&#xff0c;数据报表、打印设计、图表报表、大屏设计等&#xff01; Web 版报表设计器&#xff0c;类似于excel操作风格&#xff0c;通过拖拽完…

Python构造TCP三次握手、传输数据、四次挥手pcap数据包并打乱顺序

Python构造数据包&#xff0c;包含&#xff1a; TCP三次握手、 传输数据、 四次挥手 实现 随机乱序TCP数据包 from scapy.all import * from scapy.all import Ether, IP, TCP, UDP, wrpcap from abc import ABC, abstractmethod import random import dpkt from scapy.all…

6月18日(周二)美股行情总结:纳指七日连创新高,英伟达市值全球第一,苹果微软回落,油价七周最高

美国5月零售销售意外走软&#xff0c;尽管一众美联储官员均鹰派发声支持多等待通胀数据再做决策&#xff0c;市场仍抬升对年内降息两次的押注。标普500指数在七天里第六天上涨并再创新高&#xff0c;标普科技板块连续七天创新高、期间累涨8.6%&#xff0c;道指一周高位&#xf…

MySQL----慢查询日志

慢日志 MySQL可以设置慢查询日志&#xff0c;当SQL执行的时间超过我们设定的时间&#xff0c;那么这些SQL就会被记录在慢查询日志当中&#xff0c;然后我们通过查看日志&#xff0c;用explain分析这些SQL的执行计划&#xff0c;来判定为什么效率低下。 查看相关信息 show va…

iOS 18 终于更新了 iOS 隐藏 App 功能,这次是真的隐藏

如何锁定或隐藏 App 我们一起来看看 iOS 如何隐藏软件&#xff0c;下面是具体的操作步骤&#xff1a; iOS 隐藏 App 的第一步肯定是找到你想隐藏或锁定的应用程序&#xff0c;然后长按它的图标&#xff0c;在长按之后出现的选项中我们选择“需要 Face ID”。 然后在新弹出的选…

web版的数字孪生,选择three.js、unity3D、还是UE4

数字孪生分为客户端版和web端版&#xff0c;开发引擎多种多用&#xff0c;本文重点分析web端版采用哪种引擎最合适&#xff0c; 贝格前端工场结合实际经验和网上主流说法&#xff0c;为您讲解。 一、数字孪生的web版和桌面版 数字孪生的Web版和桌面版是数字孪生技术在不同平台…

Mamba: Linear-Time Sequence Modeling with Selective State Spaces论文笔记

文章目录 Mamba: Linear-Time Sequence Modeling with Selective State Spaces摘要引言 相关工作(SSMs)离散化计算线性时间不变性(LTI)结构和尺寸一般状态空间模型SSMs架构S4(补充)离散数据的连续化: 基于零阶保持技术做连续化并采样循环结构表示: 方便快速推理卷积结构表示: 方…

对SpringBoot入门案例的关键点

我们SpringBoot的入门案例中&#xff0c;即做了两个重要工作&#xff1a; 配置pom.xml文件写启动类 1.pom.xml依赖配置文件 ①帮助我们进行版本控制的父模块 <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter…

Inpaint_2024软件最新版下载-inpaint下载安装2024-inpaint下载最新版本

众多使用者向我们证明了高效去除背景无关游客&#xff0c;只需要花费几秒钟在照片上选择不必要的对象或人员&#xff0c;剩下的交给Inpaint。准确来讲快速去水印&#xff0c;用Inpaint,选中水印&#xff0c;一键清除&#xff0c;还你一个干净整洁的图形。我们都知道快速去水印&…

【2024】kafka streams的详细使用与案例练习(2)

目录 前言使用1、整体结构1.1、序列化 2、 Kafka Streams 常用的 API2.1、 StreamsBuilder2.2、 KStream 和 KTable2.3、 filter和 filterNot2.4、 map 和 mapValues2.5、 flatMap 和 flatMapValues2.6、 groupByKey 和 groupBy2.7、 count、reduce 和 aggregate2.8、 join 和 …

基于EasyAnimate模型的视频生成最佳实践

EasyAnimate是阿里云PAI平台自主研发的DiT的视频生成框架&#xff0c;它提供了完整的高清长视频生成解决方案&#xff0c;包括视频数据预处理、VAE训练、DiT训练、模型推理和模型评测等。本文为您介绍如何在PAI平台集成EasyAnimate并一键完成模型推理、微调及部署的实践流程。 …

【Python特征工程系列】基于方差分析的特征重要性分析(案例+源码)

这是我的第304篇原创文章。 一、引言 方差分析&#xff08;Analysis of Variance&#xff0c;简称ANOVA&#xff09;是一种统计方法&#xff0c;用于比较两个或多个组之间的平均值是否存在显著差异。 方法简介&#xff1a; ANOVA 通过分解总方差为组间方差和组内方差&#x…

怪物猎人物语什么时候上线?游戏售价多少?

怪物猎人物语是一款全新的RPG游戏&#xff0c;玩家在游戏中将化身为骑士&#xff0c;不断与怪物建立羁绊、不断成长&#xff0c;踏上前往外面世界的旅程&#xff0c;且最终目的地是以狩猎怪物为生的猎人世界。因为最近有不少玩家在关注这款游戏&#xff0c;所以下面就给大家分享…

上位机图像处理和嵌入式模块部署(h750 mcu中的pwm控制)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 所谓的pwm&#xff0c;其实就是方波。我们都知道&#xff0c;对于一个电机来说&#xff0c;如果插上正负极的话&#xff0c;那么电机就会全速运转。…

leetcode (top100)盛最多水的容器

题目&#xff1a; 题解&#xff1a; 第一种可行的方案&#xff1a; 设置左指针指向第一条线&#xff0c;设置右指针指向最后一条线。每次向中间移动两条线中最短的一条&#xff0c;计算移动过程中最大接水量。 本题可以看出影响接水量的有两个因素&#xff0c;两条线的距离&…

PHP反序列化

PHP反序列化 什么是反序列化操作&#xff1f; 类型转换 - PHP & JavaEE & Python&#xff08;见图&#xff09; 序列化&#xff1a;对象转换为数组或字符串等格式 反序列化&#xff1a;将数组或字符串等格式转换成对象 serialize() //将对象转换成一个字符串 un…