[论文笔记]Representation Learning with Contrastive Predictive Coding

引言

今天带来论文 Representation Learning with Contrastive Predictive Coding的笔记。

提出了一种通用的无监督学习方法从高维数据中提取有用表示，称为对比预测编码(Contrastive Predictive Coding,CPC)。使用了一种概率对比损失，通过使用负采样使模型捕获潜在空间中的有用信息。

为了简单，下文中以翻译的口吻记录，比如替换"作者"为"我们"。

1. 总体介绍

从带标签数据中以端到端的方式学习高层表示是AI领域成功的应用之一，但仍存在许多挑战，例如数据效率、鲁棒性或泛化能力。无监督学习是通往鲁棒且通用表示学习的基石。

尽管无监督学习很重要，但它尚未取得类似于监督学习的突破。无监督学习中最常见的策略之一是预测未来的、缺失的或上下文信息。最近无监督学习的研究成果通过预测相邻词来学习单词表示。我们假设这些方法之所以有效，部分原因是预测相关值的上下文通常有条件依赖于相同的共享高级隐含信息。通过将此视为一个预测问题，我们自动推断出与表示学习相关的这些特征。

本篇工作提出以下三点：

将高维数据压缩到一个更紧凑的潜在嵌入空间中，在此空间中，条件预测更容易建模。
在这个潜在空间中使用强大的自回归模型来进行多步预测。
借鉴噪声对比估计来构建损失函数，与学习词嵌入的方法类似，使整个模型能端到端地训练。

得到的模型，CPC，可以应用于图像、语言、NLP等多种不同的数据模态。

2. 对比预测编码

2.1 动机和直觉

我们模型背后的主要直觉是学习表示，这些表示编码了高维信号不同部分之间潜在的共享信息。同时，它丢弃了更局部的低级信息和噪声。在时间序列和高维建模中，使用下一步预测的方法利用了信号的局部平滑性。当预测更远的未来时，共享信息的量会变得更低，模型需要推断更多全局结构。

预测高维数据的挑战之一是单峰损失函数，比如均方误差和交叉熵，并不十分有用，且通常需要强大的条件生成模型来重建数据中的每一个细节，这些模型的计算量很大，且在建模数据 $x$ 中的复杂关系时常常浪费能力，同时经常忽略上下文 $c$ 。例如，图像可能包含成千上万的比特信息，而高层隐变量(例如类别标签)所包含的信息则少得多(1024个类别只需10比特)。这表明直接建模 $p (x ∣ c)$ 可能并不是提取 $x$ 和 $c$ 之间共享信息的最佳选择。

在预测未来信息时，我们将目标 $x$ (未来)和上下文 $c$ (现在)编码为紧凑的分布式向量表示，以最大程度地保留原始信号 $x$ 和 $c$ 的互信息，定义为：
$\sum_{x,c} p(x,c) \log \frac{p(x|c)}{p(x)} \tag 1$
通过最大化编码表示之间的互信息，我们提取输入信号共有的隐含变量。

这个公式怎么来的，通过互信息定义可以写成：
$\sum_{x,c} p(x,c) \log \frac{p(x,c)}{p(x)p(c)} =\sum_{x,c} p(x,c) \log \frac{p(x|c)p(c)}{p(x)p(c)}$
消掉 $p (c)$ 即得到了公式(1)。

2.2 对比预测编码

上图展示了对比预测编码模型的架构。首先，一个非线性编码器 $g_{enc}$ 将输入观测序列 $x_t$ 映射成一个潜在表示序列 $z_t=g_{enc}(x_t)$ 。接下来，一个自回归模型 $g_{ar}$ 对潜在空间中的所有 $z_{\leq t}$ 进行总结，并生成一个上下文潜在表示 $c_t=g_{ar}(z_{\leq t})$ 。

这里不直接用生成模型 $p_k(x_{t+k}|c_t)$ 来预测未来的观测结果 $x_{t+k}$ 。相反，对密度比(density ratio)进行建模，该密度比保留了 $x_{t+k}$ 和 $c_t$ 之间的互信息(公式(1))，如下所示：
$f_k(x_{t+k},c_t) \propto \frac{p(x_{t+k}|c_t)}{p(x_{t+k})} \tag 2$
其中 $\propto$ 表示成比例于，即乘以一个常数。密度比 $f$ 可以是非归一化的(不需要积分到1)。这里我们使用一个简单的对数双线性模型：
$f_k(x_{t+1},c_t) = \exp(z_{t+k}^T W_k c_t) \tag 3$
也可以使用非线性网络。

通过使用密度比 $f(x_{t+k},c_t)$ 并使用编码器推断 $z_{t+k}$ ，减轻了模型对高维分布 $x_t$ 的建模负担。尽管我们无法直接评估 $p (x)$ 或 $p (x ∣ c)$ ，但我们可以使用来自这些分布的样本，从而允许我们使用基于将目标样本与随机采样的负样本进行比较的计数，例如噪声对比估计和重要性采样。

在提出的模型中， $z_t$ 或 $c_t$ 都可以作为下游任务的表示。如果需要来自过去的额外上下文，则可以使用自回归模型输出 $c_t$ ，比如语音识别，其中 $z_t$ 的感受野可能不足以捕获语音内容。在其他情况下，如果不需要额外的上下文， $z_t$ 可能更合适。如果下游任务需要对整个序列进行表示，比如分类任务，可以将 $z_t$ 或 $c_t$ 的表示在所有位置上进行池化。

任务类型的编码器和自回归模型都可以在本文提出的框架中使用。

2.3 InfoNCE损失和互信息估计

编码器和自回归模型都经过训练，以共同优化基于NCE的损失函数，我们将其称为InfoNCE。

给定一个包含 $N$ 个随机样本的集合 $X=\{x_1,\cdots,x_N\}$ ，其中包含一个来自 $p(x_{t+k}|c_t)$ 的正样本和 $N - 1$ 个来自提议(proposal)分布 $p(x_{t+k})$ 的负样本。我们希望使公式(2)的结果最大，可以写出对应的交叉熵损失如下：
$\begin{aligned} \mathcal L_\text{N} &= -\sum_X \left[ p(x,c) \log \frac{f_k(x_{t+k},c_t)}{\sum_{x_j \in X} f_k(x_j,c_t) } \right] \\ &=-\Bbb E_X \left[ \log \frac{f_k(x_{t+k},c_t)}{\sum_{x_j \in X} f_k(x_j,c_t) }\right] \end{aligned}$
优化此损失将导致 $f_k(x_{t+k},c_t)$ 估计公式(2)中的密度比。下面给出证明。

公式(4)中的损失是将正样本正确分类的交叉熵损失，其中 $\frac{f_k}{\sum_X f_k}$ 是模型的预测结果。将此损失的最佳概率记为 $p(d=i|X,c_t)$ ，其中 $[d = i]$ 表示样本 $x_i$ 是正样本。从条件分布 $p(x_{t+k}|c_t)$ 而不是提议分布 $p(x_{t+k})$ 中抽取样本 $x_i$ 的概率可以推导如下：
$\begin{aligned} p(d=i|X,c_t) &= p(x_i|c_t) \\ &= \frac{ p(x_i|c_t)\prod_{l \neq i} p(x_l) }{\sum_{j=1}^N p(x_j|c_t) \prod_{l \neq j} p(x_l) } \\ &= \frac{ \frac{p(x_i|c_t)}{p(x_i)} p(x_i) \prod_{l \neq i} p(x_l) }{\sum_{j=1}^N \frac{p(x_j|c_t)}{p(x_j)} p(x_j) \prod_{l \neq j} p(x_l) } \\ &= \frac{ \frac{p(x_i|c_t)}{p(x_i)} p(X) }{\sum_{j=1}^N \frac{p(x_j|c_t)}{p(x_j)} p(X) } \\ &= \frac{ \frac{p(x_i|c_t)}{p(x_i)}}{\sum_{j=1}^N \frac{p(x_j|c_t)}{p(x_j)}} \\ \end{aligned} \tag 5$
来解释下这个式子，这里假设 $x_i$ 是正样本，因此是从 $p(x_{t+k}|c_t)$ 采样出来的，而其他 $l\neq i$ 是从 $p(x_{t+k})$ 所采样出来的。这个式子表示给定上下文 $c_t$ 和数据 $X$ ， $x_i$ 是正样本的概率是多少。

我们看上式中第二个等式，分子表示 $x_i$ 是正样本的概率乘以其他 $x_l$ ( $l\neq i$ )是负样本的概率；分母表示正样本可能为 $X$ 中任何一个样本的概率之和。

我们第三个式子是构建整个样本的联合概率分布 $p (X)$ ，它是一个常量。我们可以把它约掉得到最后一个等式。

可以发现分子和分母都简化为公式(2)中的密度比。公式(4)中 $f(x_{t+k},c_t)$ 的最优值与 $\frac{p(x_{t+k}|c_t)}{p(x_{t+k})}$ 成正比，与负样本的数量 $N - 1$ 的选择无关。

我们将这个最优值代回公式(4)并将 $X$ 分割为正样本和负样本 $X_\text{neg}$ ，得到：
$\begin{aligned} \mathcal L_\text N^\text{opt} &= -\Bbb E_X \log \left[ \frac{\frac{p(x_{t+k}|c_t)}{p(x_{t+k})}}{\frac{p(x_{t+k}|c_t)}{p(x_{t+k})} + \sum_{x_j \in X_\text{neg}}\frac{p(x_j|c_t)}{p(x_j)} } \right] \\ &= \Bbb E_X \log \left[ 1 + \frac{p(x_{t+k})}{p(x_{t+k}|c_t)} \sum_{x_j \in X_\text{neg}}\frac{p(x_j|c_t)}{p(x_j)}\right] \\ &\approx \Bbb E_X \log \left[ 1 + \frac{p(x_{t+k})}{p(x_{t+k}|c_t)} (N-1) \right] \\ &= \Bbb E_X \log \left[ \frac{p(x_{t+k}|c_t) + (N-1)p(x_{t+k})}{p(x_{t+k}|c_t)} \right] \\ &\geq \Bbb E_X \log \left[ \frac{p(x_{t+k})}{p(x_{t+k}|c_t)} N\right] \\ &= \Bbb E_X \log \left[ \frac{p(x_{t+k})}{p(x_{t+k}|c_t)} \right] + \log N \\ &= -I(x_{t+k},c_t) + \log (N) \end{aligned}$
因此 $I(x_{t+k},c_t) \geq \log (N) -\mathcal L_\text N^\text{opt}$ 。我们通过这种方式评估 $c_t$ 和 $x_{t+k}$ 之间的互信息，最小化InfoNCE损失 $\mathcal L_\text N$ 最大化了互信息的下界，随着 $N$ 的增大，它也变得更加紧密。上式是怎么来的，讲一下个人的浅见，如有不对，欢迎指出。