【论文精读】Self-Attentive Assocative Memory，2020

1 引言

这篇论文介绍了基于对象和对象关系的记忆模型，这对于设计类脑记忆模型有很大的启发作用。

2 Outer product attention (OPA)

标准transformer模型中定义的是内积注意力，即dot product attention：
$A^°(q, K, V ) = \sum ^{n_{kv}}_{i=1}S(q \cdot k_i) v_i$
其中， $A^° ∈ R^{d_v} , q, k_i ∈ R^{d_{qk}} , v_i ∈ R^{d_v}$ ， $\cdot$ 表示内积，计算结果是个标量， $S$ 是一个对向量元素的softmax计算函数。

作者定义了外积注意力命名为Outer product attention：
$A^⊗ (q, K, V ) = \sum ^{n_{kv}}_{i=1} \text{F}(q ⊙ k_i) ⊗ v_i$
其中， $A^⊗ ∈ R^{d_{qk}×d_v} , q, k_i ∈ R^{d_{qk}} , v ∈ R^{d_v}$ ， $⊙$ 表示对应位置元素的相乘，计算结果是个同维数向量， $\otimes$ 表示外积， $F$ 是一个对向量元素的tanh计算函数。

最好对照着标准注意力去理解。
差异： $A^°$ 是token序列中受注意力关注的token， $A^⊗$ 是token序列中token之间的关系表征。

3 Self-attentive Associative Memory (SAM)

作者设计了一个关联记忆网络模块，命名为SAM，用来表征item及item之间的关系。

$\begin{align} \text{SAM}_θ (M) [s] &= A^⊗ (M_q [s] , M_k, M_v) \\ &=\sum ^{n_{kv}}_{j=1} \text{F} (M_q [s] ⊙ M_k [j]) ⊗ M_v [j] \end{align}$
其中，
与注意力相关的q,k,v三个向量 $M_q,M_k,M_v$ ：
$\begin{align} M_q &= \mathcal{LN} (W_qM) \\ M_k &= \mathcal{LN} (W_kM) \\ M_v &= \mathcal{LN} (W_vM) \end{align}$
M是输入token序列组成的向量矩阵, $M ∈ R^{n×d}$ ，n为token序列长度，d为token的维度；
$s$ 为M中第s行；
$W_q,W_k,W_v$ 是q,k,v对应线性变换层的参数矩阵；
$\mathcal{LN}$ 是 layer normalization操作，而不是激活函数；
$θ$ 代表SAM模块的内部参数是 ${W_q ∈ R^{n_{kv}×n},W_k ∈ R^{n_{kv}×n},W_v ∈ R^{n_{kv}×n}\}$ ， $n_q$ 是query的个数， $n_{kv}$ 是key-value对的个数；

4 SAM-based Two-Memory Model (STM)

作者设计了2个记忆模块分别为 $M^i_t ∈ R^{d×d}, M^r_t ∈ R^{n_q×d×d}$ ，都是基于SAM实现的，前者是用来记忆item，后者用来记忆item之间的关联关系。
在这里插入图片描述

4.1 $M^i$ 写操作

$\begin{align} X_t &= f_1 (x_t) ⊗ f_2 (x_t) \\ M^i_t &= F_t(M^i_{t−1} , x_t) ⊙ M^i_{t−1} + I_t(M^i_{t−1} , x_t) ⊙X_t \end{align}$
其中，
$x_t$ 是输入数据；
$f_1, f_2$ 是前馈神经网络，输出维度为d;
$F_t$ 为遗忘门，计算公式为 $F_t(M^i_{t−1} , x_t)= W_F x_t + U_F\mathcal tanh(M^i_{t−1}) + b_F$ ，其中 $W_F , U_F ∈ R^{d×d}$ 为网络参数；
$I_t$ 为输入的门控，计算公式为 $I_t(M^i_{t−1} , x_t)= W_I x_t + U_I\mathcal tanh(M^i_{t−1}) + b_I$ ，其中 $W_I , U_I ∈ R^{d×d}$ 为网络参数；

4.2 $M^r$ 读操作

$\begin{align} v^r_t = \mathcal{softmax}(f_3 (x_t)^⊤) M^r_{t−1} f_2 (x_t) \end{align}$
其中，
$v^r_t$ 为从关系记忆模块 $M^r$ 中读出的值，将在下式（9）中使用；
$f_3$ 是前馈神经网络，输出维度为 $n_q$ ;
$M^r_{t−1}$ 为 $M^r$ 的前一个状态，其状态值由下式（9）计算得到；

4.3 $M^i$ 读操作和 $M^r$ 写操作过程

$\begin{align} M^r_t = M^r_{t−1} + α_1 \text{SAM}_ \theta (M^i_t + α_2 v^r_t ⊗ f_2 (x_t)) \end{align}$
其中，
$α_1,α_2$ 是调和超参数，用于平衡量纲的，又类似于学习率；

4.4 用 $M^r$ 实现item转移

$M^i$ 利用 $M^r$ 实现更新，可以认为是hebbian更新，更新公式如下：
$\begin{align} M^i_t = M^i_t + α_3 \mathcal{G_1} ◦ \mathcal{V_f} ◦ M^r_t \end{align}$
其中，
$\mathcal{V_f}$ 是输入X(其shape为（batch_size, sequeue_length, dimension）)的前两维展开的向量；
$\mathcal{G_1}$ 是前馈神经网络，负责维度变换 $R^{(n_qd)×d} → R^{d×d}$ ，其计算公式为 $\mathcal{G_1}(X) = W^g\mathcal{V_f}(X)$ ；
$α_3$ 是调和超参数；

4.5 模型输出 $o_t$

$\begin{align} o_t = \mathcal{G_3} ◦ \mathcal{V_l} ◦ \mathcal{G_2} ◦ \mathcal{V_l} ◦ M^r_t \end{align}$
其中，
$\mathcal{V_l}$ 是输入X(其shape为（batch_size, sequeue_length, dimension）)的后两维展开的向量；
$\mathcal{G_2}，\mathcal{G_3}$ 是前馈神经网络，分别负责维度变换 $R^{n_q×dd} → R^{d×d}$ ， $R^{n_qn_r} → R^{n_o}$ ，其计算公式为 $\mathcal{G_2}(X) = W^g\mathcal{V_l}(X)$ ， $n_q$ 是query的个数， $n_r$ 是超参数；