【时间序列】ModerTCN (ICLR2024)
原文链接:ModernTCN: A Modern Pure Convolution Structure for General Time Series Analysis
代码仓库:ModerTCN
简易版本实现代码可以参考:(2024 ICLR)ModernTCN:A Modern Pure Convolution Structure for General Time Series Analysis
本文提出ModerTCN模块,以平衡时间序列任务中的效率与效果。
背景
Transformer Block
self-attention 模块:
其中Q,K,V来自与输入x与可学习参数的乘积。
FFN模块:通常为若干线性层和激活函数的组合
Modern Convolution Block
Modern Convolution Block是Depthwise convolution和Pointwise convolution的结合,这两种卷积模块是的讲解详情见【轻量化网络系列(1)】MobileNetV1论文超详细解读(翻译 +学习笔记+代码实现)。
传统卷积模块的卷积核是D * D * M的,其中M是通道数量,卷积后的结果也是一个由M个通道组成的三维特征方阵。
Depthwise卷积是将卷积核缩减到D * D * 1,每个卷积核只用于一个通道的特征提取,得到一个二维的特征方阵。而M个通道分别用不同的卷积核进行卷积,最终由M个通道分别卷积,再将M个通道整合在一起。
Pointwise卷积则是对不同通道的整合,即使用1 * 1 * M的卷积核,将M个通道的融合起来。
ModernTCN
M: 变量数, L: 序列长度
模型主要结构包含一个DWConv核两个ConvFFN,其中每个ConvFFN由两个PWConv组成。
官方仓库中的代码不利于理解,简易版本实现代码可以参考:(2024 ICLR)ModernTCN:A Modern Pure Convolution Structure for General Time Series Analysis
DWConv主要任务是混合时域信息,即对N这一维度进行卷积。
两个ConvFFN分别是对M和D维度进行卷积,先后混合通道和维度信息。
至此,通过若干CNN层,完成全部信息融合与交互。