大模型对齐方法笔记四：针对领域问答来进行知识对齐方法KnowPAT

KnowPAT

KnowPAT(Knowledgeable Preference AlignmenT) 出自2023年11月的论文《Knowledgeable Preference Alignment for LLMs in Domain-specific Question Answering》，主要针对领域问答来进行知识对齐。

在领域问答有两个挑战：希望输出满足用户的要求、输出充分利用领域知识库。为了解决这些挑战，提出了如下图的三阶段的KnowPAT框架。

在这里插入图片描述

假设有一个QA数据集 $\mathcal{D} = {(q_i, a_i) | i=1,2,\ldots,N}$ ， $q_i$ 和 $a_i$ 是问答对，在论文中是对应的云端产品使用相关问答对，是由人工收集和标注的。

如果直接在数据集 $\mathcal{D}$ 上微调LLM $\mathcal{M}$ （即通常所说的SFT），设prompt 模板为 $\mathcal{I}$ ，则优化目标如下（式中的 $a_{i, j}$ 是 $a_i$ 的第j个token， $P_{\mathcal{M}}$ 是模型 $\mathcal{M}$ 预测的token概率）。
$\mathcal{L}_{f t}=-\frac{1}{\left|a_i\right|} \sum_{j=1}^{\left|a_i\right|} \log P_{\mathcal{M}}\left(a_{i, j} \mid \mathcal{I}, q_i, a_{i,<j}\right)$

对于领域相关任务，一般会有一个领域知识库（domain KB） $\mathcal{B}$ ，现在流行的RAG就是领域领域知识库来让LLM在领域相关问题上回答更准确的一种解决方法。而KnowPAT采用的是如下三部分的框架来利用领域知识。

无监督知识检索

设有语义相似度检索器 $\mathcal{H}$ ，对于每个问题 $q_i$ 从KB $\mathcal{B}$ 中检索出top-k条最相似的知识并记为 $\mathcal{K}$ ，相似性以检索器编码后向量间的余弦相似度来衡量。

偏好数据集构建

偏好数据集分为风格偏好数据集(style preference set, SPS) $\mathcal{P}_s$ 和知识偏好数据(knowledge preference set, KPS) $\mathcal{P}_k$ 。

风格偏好数据集 $\mathcal{P}_s$ 构建过程：

选择l-1个不同的LLM记为 $\mathcal{M}_1,\mathcal{M}_2,\ldots,\mathcal{M}_{l-1}$ ，不同LLM的文本理解和表达能力不一样，所以可以生成不同风格的回答。
将上一步LLM生成的l-1个回答和金标准回答构成长度为l的风格偏好数据集 $\mathcal{P}_s = \{b_1, b_2,\ldots,b_l \}$ 。
为了与知识偏好数据集的长度一致，论文中取l为4，选了3个模型：ChatGPT、ChatGLM-6B、Vicuna-7B。
设金标准回答为 $b_1$ ，ChatGPT生成的回答为 $b_2$ 、ChatGLM-6B生成的回答为 $b_3$ 、Vicuna-7B生成的回答为 $b_4$ ，作者使用规则来确定这四个回答的偏好分数，认为三个模型的能力ChatGPT>ChatGLM>Vicuna，所以这四个回答的偏好分数顺序为 $r_1 > r_2 > r_3 > r_4$ 。

知识偏好数据集 $\mathcal{P}_k$ 构建过程：

对于问题a从知识库KB中检索出3个知识组合 $\mathcal{K_1}$ 、 $\mathcal{K_2}$ 、 $\mathcal{K_3}$ ， $\mathcal{K_1}$ 是top-k最相似的知识， $KaTeX parse error: Undefined control sequence: \O at position 16: \mathcal{K_2}= \̲O̲$ 是空集表示不包括任何检索知识， $\mathcal{K_3}$ 表示top-k+1至top 2k相似的知识。
将不同的知识组合与prompt模板 $\mathcal{I}$ 一起输入到LLM $\mathcal{M}$ 生成答案，生成的三个答案与金标准一起组成知识偏好数据 $\mathcal{P}_k = \{c_1, c_2, c_3,c_4 \}$ 。
设金标准回答为 $c_1$ ，使用 $\mathcal{K_1}$ 生成的回答为 $c_2$ 、使用 $\mathcal{K_2}$ 生成的回答为 $c_3$ 、使用 $\mathcal{K_3}$ 生成的回答为 $c_4$ ，作者发现与问题不那么相似的知识很容易误导LLM，所以这四个回答的偏好分数顺序为 $r_1 > r_2 > r_3 > r_4$ 。

微调和偏好对齐

前面构建的偏好数据集里偏好分数 $r_i$ 代表了偏好度，希望模型 $\mathcal{M}$ 能够对齐偏好。模型在给定prompt模板和问题 $q_i$ 后对每个回答token的平均对数似然如下式 $S_i$ 表示，分数越高表示模型认为回答有更高的概率：
$\mathcal{S}_{i}=-\frac{1}{\left|a_i\right|} \sum_{j=1}^{\left|a_i\right|} \log P_{\mathcal{M}}\left(a_{i, j} \mid \mathcal{I}, q_i, a_{i,<j}\right)$
KnowPAT先设计了如下的对齐目标，目的是为了对比偏好答案和非偏好答案，偏好分数只用来决定不同答案的顺序。式中的 $\sigma$ 是sigmoid函数。

$\mathcal{L}_{align}=- \sum_{i=1}^{|\mathcal{P}|-1} \left( \log \sigma (\mathcal{S}_i) + \log \sum_{r_j < r_i}\sigma (-\mathcal{S}_j) \right )$

考虑到不同的回答的文本质量和偏好等级不一样，作者设计了如下式的自适应权重来控制每个偏好回答的影响，式中的 $S_{max}$ 和 $S_{min}$ 是偏好数据集里的最大和最小偏好分数。

$\mu_i = \frac {S_i - S_{min}}{S_{max} - S_{min}}$

使用自适应权重后，不同偏好分数的回答的影响可以动态调整，对齐目标相应地变为下式：
$\mathcal{L}_{align}= \sum_{i=1}^{|\mathcal{P}|-1} \mu_i \left( \log (1 + e^{-\mathcal{S}_i} )+ \log \sum_{r_j < r_i}\log ( 1 + e^{ \mathcal{S}_j}) \right )$

KnowPAT的训练目标为对齐损失和微调目标之和，超参数 $\lambda$ 作为对齐损失的系数， $\mathcal{P}-1$ 用来归一化对齐损失。
$\mathcal{L} = \mathcal{L}_{ft} + \frac{\lambda} {|\mathcal{P}| -1} \mathcal{L}_{align}$

注：1. 有一点疑问是前面构建了两个偏好数据集，微调里没有详细说明是一起训练还是分别训练，只写了一句看起来像是分别训练的话：For each preference set constructed in the previous section, the model is trained and optimized with such an objective. 2. 风格偏好数据集与RRHF的数据构建思路是一样的，论文代码也是基于RRHF的，不过对齐目标函数有所区别