Informer 论文学习笔记

论文：《Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting》
代码：https://github.com/zhouhaoyi/Informer2020
地址：https://arxiv.org/abs/2012.07436v3
特点：

实现时间与空间复杂度为 $\mathcal{O}(L\ln L)$ 的自注意力；
使用自注意力提纯（Distilling）的方法，降低了特征的冗余；
以生成式的风格一次性输出长序列预测结果，杜绝了 One-by-One 方式中存在的误差积累；
基于上面的内容，创建新的 LSTF 模型 Informer。

核心贡献：

用新的自注意力模块 ProbSparse Self-Attention 降低了原始 Self-Attention 的时间与空间复杂度；
提出 Self-Attention 净化（Distilling）方法，进一步降低模型整体的复杂度；

Informer 模型的整体结构

在这里插入图片描述

ProbSparse Self-Attention

先介绍一下算法的整体流程，后面再介绍具体含义和原因。

Require：Tensor $\pmb{Q}\in\mathbb{R}^{m\times d},\pmb{K}\in\mathbb{R}^{n\times d},\pmb{V}\in\mathbb{R}^{n\times d}$

print set hyperparameter $c$ , $u=c\ln m$ and $U=m\ln n$
randomly select $U$ dot-product pairs from $\pmb{K}$ to $\bar{\pmb{K}}$
set the sample score $\bar{\pmb{S}}=\pmb{Q}\bar{\pmb{K}}^T$
compute the measurement $M=\max(\bar{\pmb{S}})-\text{mean}(\bar{\pmb{S}})$ by row
set $\text{Top-}u$ queries under $M$ as $\bar{\pmb{Q}}$
set $\pmb{S}_1=\text{softmax}(\bar{\pmb{Q}}\pmb{K}^T/\sqrt{d})\cdot \pmb{V}$
set $\pmb{S}_0=\text{mean}(\pmb{V})$
set $\pmb{S}=\{\pmb{S}_1,\pmb{S}_0\}$ by their original rows accordingly

Ensure：self-attention feature map $\pmb{S}$

ProbSparse Self-Attention 的基本思想

利用原始 Self-Attention 中的稀疏性，降低算法的时间与空间复杂度。
核心方法：利用下式选出对 value 更有价值的 query

$\bar{M}(\pmb{q}_i,\pmb{K})=\max_{j}\{\frac{\pmb{q}_i\pmb{k}_j^T}{\sqrt{d}}\}-\frac{1}{L_K}\Sigma^{L_K}_{j=1}\frac{\pmb{q}_i\pmb{k}_j^T}{\sqrt{d}}$

即算法中的 3 与 4。

为什么用这种方法？：
原始 Self-Attention $\text{softmax}(\pmb{Q}\pmb{K}^T/\sqrt{d})\cdot \pmb{V}$ 可改写为下面的概率形式：
$\mathcal{A}(\pmb{q}_i,\pmb{K},\pmb{V})=\Sigma_j\frac{k(\pmb{q}_i,\pmb{k}_j)}{\Sigma_l k(\pmb{q}_i,\pmb{k}_l)}\pmb{v}_j=\mathbb{E}_{p(\pmb{k}_j|\pmb{q}_i)}[\pmb{v}_j]$

$k(\cdot,\cdot)$ 的含义不再赘述。

为度量 query 的稀疏性，可以考虑 $p(\pmb{k}_j|\pmb{q}_i)$ 与均匀分布 $q(\pmb{k}_j|\pmb{q}_i)=1/L_K$ `之间的 KL 散度 $KL(q||p)=-\Sigma\frac{1}{L_K}\ln(\frac{k(\pmb{q}_i,\pmb{k}_j)}{\Sigma_l k(\pmb{q}_i,\pmb{k}_l)}L_K)$ ，展开并舍弃常数项之后可得第 i 个 query 的稀疏性度量为：
$M(\pmb{q}_i,\pmb{K})=\ln\Sigma^{L_K}_{j=1}e^{\frac{\pmb{q}_i\pmb{k}^T_j}{\sqrt{d}}}-\frac{1}{L_K}\Sigma^{L_K}_{j=1}\frac{\pmb{q}_i\pmb{k}^T_j}{\sqrt{d}}$

基于 M，可以选用 Top-u 的 queries 构成的 $\bar{\pmb{Q}}$ 代替 Q 计算自注意力（文中设置 $u=c\ln L_Q$ ，其中 c 是超参数）。

为什么要使用这两个分布的 KL 散度？为什么M可以度量注意力的稀疏性？：Self-Attention 涉及到了点积运算，该运算表明 $p(\pmb{k}_j|\pmb{q}_i)$ 与均匀分布 $q(\pmb{k}_j|\pmb{q}_i)=1/L_K$ 之间的差别越大越好，这启发我们使用 M 作为稀疏性的度量。
新问题：M 中的第一项实际计算时的复杂度仍旧是 $\mathcal{O}(L^2)$ 的。
解决方式：基于 Lemma 1 与 Proposition 1，先随机采样 $U=L_K\ln L_Q$ 个 k-q 对，然后在这 U 个 k-q 对上计算 $\bar{M}=\max_{j}\{\frac{\pmb{q}_i\pmb{k}^T_j}{\sqrt{d}}\}-\text{mean}_{j}\{\frac{\pmb{q}_i\pmb{k}^T_j}{\sqrt{d}}\}$ 作为 M 的近似值，最后选定 top-u 个 query 用作 Self-Attention 计算。（即算法中的 1、2、5 和 6，这里两次降低计算量）

补充：

Lemma 1：For each query $\pmb{q}_i\in\mathbb{R}^d$ and $\pmb{k}_j\in\mathbb{R}^d$ in the keys set $\pmb{K}$ , we have the bound as $\ln L_K\leq M(\pmb{q}_i,\pmb{K})\leq\ln L_K +\bar{M}(\pmb{q}_i,\pmb{K})$ . When $\pmb{q}_i\in\pmb{K}$ , it also holds.（它说明可以用 $\bar{M}$ 做近似计算。利用凸函数证明）
Proposition 1: Assuming $\pmb{k}_j\sim\mathcal{N}(\mu,\Sigma)$ and we let $qki \pmb{q}\pmb{k}_i$ denote set $\{(\pmb{q}_i\pmb{k}_j^T)/\sqrt{d}|j=1,\cdots,L_K\}$ , then $\forall M_m=\max_i M(\pmb{q}_i,\pmb{K})$ there exist $\kappa>0$ such that: in the interval $\forall\pmb{q}_1,\pmb{q}_2\in\{\pmb{q}|M(\pmb{q},\pmb{K})\in[M_m,M_m-\kappa)\}$ , if $\bar{M}(\pmb{q}_1,\pmb{K})>\bar{M}(\pmb{q}_2,\pmb{K})$ and $\text{Var}(\pmb{q}\pmb{k}_1)>\text{Var}(\pmb{q}\pmb{k}_2)$ , we have high probability that $M(\pmb{q}_1,\pmb{K})>M(\pmb{q}_2,\pmb{K})$ .（采样后不影响排序，这说明采样之后仍旧可以保证 Top-u 的可靠性。利用对数正态分布及数值化样例定性式证明）

Self-Attention Distilling

目的：在自注意力模块之后，过滤掉 value 中的冗余信息。
方式：使用 CNN、MaxPooling 进行下采样：

\pmb{X}^t_{j+1}=\text{MaxPool}(\text{ELU}(\text{Conv1d}([\pmb{X}^t_j]_{AB})))

其中，CNN 的 kernel-size=3，pooling 的 stride=2，整体的空间复杂度为： $\mathcal{O}((2-\epsilon)L\log L)$ ， $\epsilon$ 是一个小量（原因是： $1+\frac{1}{2}+\frac{1}{4}+\frac{1}{8}+\cdots$ ）。

其他

Decoder：与原始 Transformer 的一致；
生成式推断（Generative Inference）：一次性输出长序列预测结果，而非迭代地逐个输出结果。
Loss Function：MSE

位置嵌入（Position Embedding）：局部时间戳的位置嵌入(PE，使用sin函数)、全局时间戳的位置嵌入(SE，用于日月周节日等特殊时间点)

\text{PE}_{(L_x\times(t-1)+i,)}+\Sigma[\text{SE}_{(L_x\times(t-1)+i)}]_p

# PE
pe[:, 0::2] = torch.sin(position * div_term)
pe[:, 1::2] = torch.cos(position * div_term)
# SE
minute_x  = nn.Embedding( 4, d_model)(x[:,:,4])
hour_x    = nn.Embedding(24, d_model)(x[:,:,3])
weekday_x = nn.Embedding( 7, d_model)(x[:,:,2])
day_x     = nn.Embedding(32, d_model)(x[:,:,1])
month_x   = nn.Embedding(13, d_model)(x[:,:,0])
se = hour_x + weekday_x + day_x + month_x + minute_x