大语言模型-对比学习-Contrastive Learning

一、对比学习概念

对比学习是一种特殊的无监督学习方法。
旨在通过拉近相关样本的距离并且推远不相关样本的距离，来学习数据表示。
通常使用一种高自由度、自定义的规则来生成正负样本。在模型预训练中有着广泛的应用。

二、对比学习小案例

对比学习主要分为三个模块：

正负样本的定义
Encoder（编码器）的定义
损失函数的定义

把这三个模块通过下面的例子进一步说明：
1、 正负样本的定义：例如可以把句子集中，把除了其自身通过增强以外的句子都当作负样本。
2、Encoder定义：不同的数据通过Encoder获得向量表示，通过损失函数更新查询向量一侧的Encoder参数。
3、损失函数的定义：于是对比学习的训练目标可以简化为
$L_{CL} = -\log_{}{}\frac{e^{\frac{S_{i,i}}{\tau }} }{\sum_{j=1,j\ne i}^{N}e^{\frac{S_{i,j}}{\tau } }}$

其中 $S_{i,i}$ 指的是两个特征向量的余弦相似性， $S_{i,i} = sim(h_{i},h_{j})= CosineSim(h_{i},h_{j})=\frac{h_{i}^{T}h_{j}}{||h_{i}||\cdot ||h_{j}||}$ ， $\tau$ 是温度系数, $\tau=0.05$ 。

三、对比学习的评估

对齐性和均匀性
对比学习一个重要的特点是它得到的特征向量具有对齐性和均匀性。

对齐性：

对齐性意义： 相似的特征向量的距离比较接近。
对齐性评估指标：
$L_{align} = E_{(x,x^{+})\sim p_{pos}}\left \| f(x) - f(x^{+}) \right \|$
对齐性的量化指标通常是正样本对之间的期望距离。

均匀性：

均匀性意义： 特征向量的分布更加符合均匀分布
对齐性评估指标：通常是径向基函数核(RBF kernel)

均匀性的一个极端反例是特征向量都映射到了超球面的一个点附近，此时特征向量的分布是极度不均匀的，一般将这种情况叫做模型坍塌（Collapse）。

四、对比学习的正负样本

对比学习的正负样本也被称作是对比学习代理任务，通常有两种：

个体判别：对于数据集中的任意一个句子而言，除了其自身通过增强获取到的句子正样本外，数据集内的其余句子都为负样本。
数据聚类：对于不同视角、传感器、模式获取的同一对象数据，为正样本，其余数据都为负样本。

正负样本的定义就是在构建一套标注规则。

五、对比学习的损失函数

对比学习最底层的思想是在某个特征空间上拉近相关样本的距离并且推远不相关样本的距离。
InfoNCE loss是对比学习中比较常用的一种损失函数。
$L_{N} = -\log_{}{}\frac{e^{\frac{S_{i,i}}{\tau }} }{\sum_{j=1,j\ne i}^{N}e^{\frac{S_{i,j}}{\tau } }}$