摘要
时间序列预测(TSF)中的分布移位(即序列分布随时间的变化)在很大程度上阻碍了TSF模型的性能。现有的关于时间序列中分布变化的研究大多局限于分布的量化,更重要的是,忽视了回望窗和地平线窗之间的潜在变化。为了应对上述挑战,我们系统地将TSF的分布变化归纳为两类。将回望窗作为输入空间,视界窗作为输出空间,存在(1)空间内移动,即输入空间内的分布随时间不断移动;(2)空间间移动,即分布在输入空间和输出空间之间移动。然后,我们介绍了Dish-TS,一种缓解TSF分布变化的通用神经范式。具体来说,为了更好地估计分布,我们提出了系数网(CONET),它可以是任何神经结构,将输入序列映射到可学习的分布系数。为了缓解空间内和空间间的移位,我们将Dish-TS组织成一个Dual-CONET框架,分别学习输入和输出空间的分布,自然地捕捉了两个空间的分布差异。此外,我们还为棘手的CONET学习引入了一种更有效的训练策略。最后,我们在几个数据集上进行了广泛的实验,并结合了不同的最先进的预测模型。实验结果表明,DishTS可以持续提高20%以上的效率。
论文:
Dish-TS: A General Paradigm for Alleviating Distribution Shift in
Time Series Forecasting
作者:
Wei Fan , Pengyang Wang*, Dongkun Wang, Yanjie Fu*
代码:https://github.com/weifantt/Dish-TS
在分析了大量的系列数据后,我们系统地将TSF的分布变化分为两类。考虑回看窗口(简称“回看”)作为模型的输入空间,水平窗口(简称“地平线”)作为模型的输出空间,存在(i)空间内移位:时间序列分布随时间变化,使得输入空间(回看)内的数据发生移位;(ii)空间间转移:分布在输入空间(回视)和输出空间(视界)之间转移。现有的工作已经试图缓解TSF中的分配移位问题(Ogasawara et al. 2010;Passalis et al. 2019;Du et al. 2021;Kim et al. 2022)。然而,它们中的大多数都有两个局限性:
首先,TSF的空间内分布量化是不可靠的。理想情况下,时间序列是由真实分布连续生成的,而观测数据实际上是在一定记录频率下由传感器离散采样的。现有作品总是直接规范化或重新调整系列(Ogasawara et al. 2010;Passalis et al. 2019;Kim et al. 2022),通过使用经验地从观测数据中获得的固定统计量(例如平均值和std)来量化真实分布,然后使用这些统计量对序列分布进行正态化。然而,经验统计在表达数据背后的真实分布方面是不可靠的和有限的。例如,图1(b)显示了从不同频率(即每十分钟、每小时、每天)的同一序列中采样的三个分布(用平均值和标准差表示)。尽管来自相同的序列,不同的采样频率提供不同的统计数据,这就引发了一个问题:哪一个最能代表真实的分布?由于时间序列的记录频率是由传感器决定的,因此很难确定数据背后的真实分布。因此,如何恰当地量化空间内的分布,以及空间内的分布位移,仍然是一个有待解决的问题。
其次,忽略了TSF的空间间位移。在时间序列预测中,将输入序列(回看)和输出序列(视界)视为两个空间,现有的工作总是假设输入空间和输出空间默认遵循相同的分布(Ogasawara et al. 2010;Passalis et al. 2019;Du et al. 2021)。尽管最近的一项研究RevIN (Kim et al. 2022)试图通过规范化输入和非规范化输出来对齐实例,但它仍然假设回顾和视界具有相同的统计属性;所以分布是一样的。尽管如此,在输入空间和输出空间之间的分布总是有变化的。如图1©所示,回望窗和水平窗之间的分布(用均值和标准差表示)显示出相当大的差异。对空间间位移的忽视忽略了输入空间和输出空间之间的差距,从而阻碍了预测性能。
为了克服上述限制,我们提出了一种有效的通用神经范式,Dish-TS,用于对抗时间序列中的分布移位。Dish-TS与模型无关,可以与任何深度TSF模型耦合。受(Kim et al. 2022)的启发,Dish-TS包括一个两阶段的过程,在预测之前对模型输入进行规范化,在预测之后对模型输出进行反规范化。为了解决序列分布量化不可靠的问题,我们首先提出了一种系数网(CONET)来度量序列分布。给定序列数据的任意窗口,CONET将其映射为两个可学习的系数:水平系数和缩放系数,以说明序列的总体规模和功能。一般来说,CONET可以被设计成任何神经体系结构来进行任何线性/非线性映射,提供了足够的各种复杂性的建模能力。为了缓解上述空间内移位和空间间移位,我们将Dish-TS组织为一个Dual-CONET框架。具体来说,Dual-CONET由两个独立的conet组成:(1)BACKCONET,它产生系数来估计输入空间(回看)的分布,以及(2)HORICONET,它产生系数来推断输出空间(视界)的分布。Dual-CONET设置分别捕获输入空间和输出空间的不同分布,这自然减轻了空间间的移位。
此外,考虑到HORICONET需要推断(或预测)输出空间的分布,由于空间间的移位,输出空间的分布更加难以处理,进一步引入了一种有效的先验知识诱导训练策略,用于CONET学习。因此,利用一些额外的输出空间分布特征为HORICONET提供更多的先验知识监督。综上所述,我们的贡献如下:
- 我们将时间序列预测中的分布移位系统地组织为空间内移位和空间间移位。
- 我们提出了Dish-TS,这是一种缓解TSF分布移位的通用神经范式,建立在双重conet基础上,共同考虑空间内和空间间的移位。
- 为了实现Dish-TS,我们提供了一个最简单直观的CONET设计实例,并采用先验知识诱导的培训方式来展示该范例的有效性。
- 在各种数据集上进行的广泛实验表明,我们提出的Dish-TS持续提高当前SOTA模型,单变量预测平均提高28.6%,多变量预测平均提高21.9%。
相关工作
时间序列预测中的分布移位。尽管有许多出色的模型,考虑到现实世界序列的分布随着时间的推移而变化,时间序列预测仍然受到分布变化的影响(Akay和Atak 2007)。为了解决这个问题,提出了一些归一化技术:Adaptive Norm (Ogasawara et al. 2010)通过计算的全局统计量对序列进行z-score归一化。然后,DAIN (Passalis et al. 2019)应用非线性神经网络对序列进行自适应归一化。(Du et al. 2021)提出了自适应rnn来处理时间序列中的分布移位。最近,RevIN (Kim et . 2022)提出了一种实例归一化方法来减少序列移位。尽管DAIN使用简单的神经网络进行归一化,但大多数作品(Ogasawara et al. 2010;Du et al. 2021;Kim et al. 2022)仍然使用静态统计或距离函数来描述分布和归一化序列,其表达能力有限。其他一些作品研究了某些领域(如交易市场)的时间序列分布变化(Cao et al. 2022)。此外,它们几乎没有考虑模型输入空间和输出空间之间的空间间位移。
问题描述
输入:
输出:
式中,L为回望窗长度,H为视界窗长度。
空间内移动被定义为
其中δ为小阈值;D是距离函数(例如,KL散度)
相反,空间间位移为
Dish-TS
在本节中,我们详细介绍我们的一般神经范式,Dish-TS。我们将在4.1节中概述这种范例。然后,我们在4.2节中说明Dish-TS的体系结构。此外,我们在第4.3节中提供了一个简单直观的Dish-TS实例,并在第4.4节中引入了先验知识诱导的训练策略,以演示针对预测转变的可行设计。
Dish-TS是一个简单而有效的,灵活的范例,反对时间序列中的分布变化。受到Kim等人的启发。 Dish-TS包括两个阶段的过程,预测前的规范化和预测后的非规范化。范式建立在系数网(CONET)的基础上,它将输入序列映射为系数,以便进行分布测量。如图2所示,Dish-TS被组织为双conet框架,包括用于说明输入空间(回看)的BACKCONET和用于说明输出空间(视界)的HORICONET。回看的数据经过BACKCONET的系数变换后,再用于任何预测模型FΘ;输出(即预测结果)通过来自HORICONET的系数进行转换以获得最终预测。此外,HORICONET可以以先验知识诱导的方式进行训练,这是一种更有效的方法,特别是在长序列预测中。