全文总结:本文研究了线性模型用于时间序列预测的能力,提出了时间序列混合器(TSMixer),一种通过堆叠多层感知器(mlp)设计的新架构。TSMixer在时间和特征维度上交替应用mlp,在概念上对应于时间混合和特征混合操作,有效地捕获时间模式和交叉变量信息。
题目:TSMixer: An All-MLP Architecture for Time Series Forecasting
作者:Si-An Chen
期刊/会议:Transactions on Machine Learning Research
时间:2023
链接:https://doi.org/10.48550/arXiv.2303.06053
源码:
https://github.com/google-research/google-research/tree/master/tsmixer
别人复现的基于TF的代码:https://github.com/marcopeix/time-series-analysis/blob/master/TSMixer.ipynb
问题背景
时间序列预测是许多现实世界用例中普遍存在的问题,作者指出时间序列数据的可预测性往往源于三个主要方面:
1.持续的时间模式(Persistent temporal patterns):包括趋势和季节性模式,例如,长期通货膨胀、工作日的影响;
2.交叉变量信息(Cross-variate information):不同变量之间的相关性,例如,血压升高与体重升高相关;
3.辅助特征(Auxiliary features):包括静态特征和未来信息,如产品类别和促销活动。
近年来,基于transformer的模型热度持续高涨,因为它们能够捕捉复杂的时间模式和交叉变量依赖关系。然而,Zeng等人(Are Transformers Effective for Time Series Forecasting?)(https://doi.org/10.1609/aaai.v37i9.26317)揭示了情况并不总是如此,在许多常用的预测基准上,基于Transformer的模型确实可能比简单的单变量时间线性模型差得多。当目标时间序列与其他协变量不相关时,多变量模型似乎受到过拟合的影响。
基于此,作者希望提出一种能够同时且高效利用多元时间序列中的时间模式和交叉变量依赖关系的模型,并深入探讨交叉变量对时间序列预测的影响情况。
研究方法
1. 探究时间序列中线性模型的有效性
作者首先将线性模型与其他架构进行比较,表明线性模型具有RNN和Transformer中不存在的特征——它们具有适当的表示能力来学习单变量时间序列的时间依赖性。
下面给出作者原文中的解释:
继Zeng et al.(2023)和Nie et al.(2023)的讨论之后,我们对线性模型的分析为为什么以前的深度学习模型倾向于过拟合数据提供了更深入的见解。线性模型具有一个独特的特点,即输入序列中每个时间步的映射权重是固定的。
这种”时间步长依赖”的特性是我们之前发现的一个关键组成部分,与循环或基于注意力的架构形成对比,后者输入序列上的权重是”数据依赖”函数的输出,如LSTMs中的门或Transformer中的注意力层。时间步长依赖的模型与数据依赖的模型如图2所示。时间步长相关的线性模型虽然简单,但被证明在建模时间模式方面非常有效。
相反,即使循环或注意力架构具有较高的表征能力,但实现时间步独立对它们来说是具有挑战性的。他们通常对数据进行过拟合,而不是只考虑位置。线性模型的这种独特性质可能有助于解释Zeng等人(2023)的结果,其中没有其他方法被证明可以匹配线性模型的性能。
从中可以总结出以下结论:在RNN和Transformer架构的模型中,每一个时刻的权重系数都与输入数据息息相关,即不同输入在相同时刻的权重是不一致的,这可能导致过拟合的问题。相反,线性模型在每一个时刻都赋予了固定的权重,是一种基于“时间步长”的模型,可以有效降低过拟合的风险。
作者还指出,现实世界的时间序列数据可能具有高度的波动性,使得模式具有非周期性和非平滑性。在这种情况下,仅仅依靠过去观察到的时间模式可能不是最优的。因此需要促使我们在线性模型的基础上开发一个更强大的模型,有效利用多元信息,因为其他协变量可能包含可用于建模波动的信息。
2. TSMixer模型架构
点击【PaperInFive-时间序列预测】TSMixer:用于时间序列预测的全MLP架构(谷歌)可查看全文