语言模型的校准技术：增强概率评估

使用 DALLE-3 模型生成的图像

一、说明

二、为什么校准对 LLM 模型至关重要

三、校准 LLM 概率的挑战

四、LLM 的高级校准方法

4.1 语言置信度

4.2 增强语言自信的先进技术

4.3 基于自一致性的置信度

4.4 基于 Logit 的方法

五、代理模型或微调方法

5.1 使用代理模型进行置信度评估

5.2 识别不确定性：R-tuning

5.3 LITCAB：小改变，大影响

5.4 ASPIRE：更智能的模型响应

六、结论

一、说明

语言模型，尤其是大型语言模型（LLM），凭借其理解和生成类人语言的能力，彻底改变了人工智能领域。这些模型不仅能够在零样本设置下或通过定制提示执行各种任务，而且它们的灵活性和多样性也使它们在多个领域中非常有用。

然而，尽管它们很有效，但一个经常面临挑战的关键方面是这些模型的校准——确保它们提供的关于各种输出的概率真实反映这些输出正确的真实可能性。

本文探讨了 LLM 校准的必要性，确定了围绕其概率评估的核心问题，并探讨了实现更好模型校准的当代方法。

二、为什么校准对 LLM 模型至关重要

LLM 的本质是围绕处理和生成基于语言的输出，这些输出不仅准确，而且被分配了正确的置信水平。校准（或使模型的置信度与其准确性保持一致的过程）是必不可少的，因为：

- 值得信赖的 AI 决策：正确校准的置信度分数使用户能够信任和依赖 AI 做出的决策，了解模型何时可能正确或不正确。

- 风险管理：在医疗诊断或自动驾驶等安全关键应用中，过度自信但不正确的预测可能会导致灾难性后果。

- 模型调试和改进： 校准可以帮助开发人员了解模型的弱点并相应地对其进行优化。

三、校准 LLM 概率的挑战

大型语言模型通常面临几个影响其概率校准的障碍：

- 封闭模型约束：许多 LLM 以黑匣子的形式运行，直接访问对数概率的访问受到限制，使理解和调整置信度分数的过程变得复杂。

- 训练中的错位：使用人类反馈强化学习（RLHF）等技术改进的模型可能会变得天真地校准错误。根据论文[1]，使用最广泛的LLMs是通过人类反馈的强化学习（RLHF-LLMs）进行微调的。一些研究表明，RLHF-LLMs产生的条件概率校准非常差。研究结果表明，RLHF-LLMs可能会优先考虑严格遵守用户偏好，而不是产生校准良好的预测，这可能导致校准不良。这显示了一个关键挑战，即使用 RLHF 训练的模型可能缺乏准确可靠输出所需的必要概率校准。

- 特定任务的校准需求： LLM 的通用训练通常不会针对特定任务或领域进行调整，需要额外的校准以使其与特定需求或应用程序保持一致。

四、LLM 的高级校准方法

为了应对校准挑战，我们可以尝试多种技术，如下所述：

描述各种校准技术

4.1 语言置信度

“语言置信度”是指语言模型（LLM）不仅提供答案，而且还明确地评估其响应的置信度的技术。这种方法涉及使用某些方法来获得对模型对其答案的置信度的更可靠评估。

基本实现

在最简单的形式中，口头信心涉及向 LLM 提出问题和任何相关上下文，然后明确要求提供信心分数。这种直接方法为更复杂的技术奠定了基础。

4.2 增强语言自信的先进技术

思维链（CoT）提示： 思维链提示涉及在模型提供答案之前从模型中引出分步推理过程。该方法不仅增强了模型响应的清晰度和丰富性，还可以通过观察推理步骤中的逻辑一致性来提高置信水平的估计。
多步骤置信度激发：该技术通过在推理或解决问题过程的各个步骤捕获置信度分数来优化置信度测量。最终置信水平是所有个人置信度分数的乘积，提供了确定性的复合度量。
Top-K 响应和置信度评分： 该模型生成多个可能的答案（Top-K 响应），而不是单个响应，每个答案都伴随着一个单独的置信度分数。然后，选择置信度得分最高的答案作为最终答案。这种方法反映了涉及评估多个假设的决策过程。
多种提示技术：利用各种提示可以更准确地校准置信度估计。提示的多样性可能源于不同的措辞、上下文或概念角度，使模型的评估对有偏见或信息不足的响应更加稳健。
数值概率与语言表达式：在某些情况下，模型通过与正确可能性直接相关的数值概率来表达其置信度。相反，也可以使用“极有可能”或“可能不会”等语言表达方式。
使用多个假设进行提示： 最初，模型会生成多个没有置信度评级的答案候选者。在随后的交互中，他们评估每个答案的正确概率。研究表明，以这种方式评估多个假设可以显着改善校准。

参考论文

有效表达置信度的能力因模型而异，在不同的模型架构和世代中观察到一些差异。

4.3 基于自一致性的置信度

基于自一致性的置信度方法是一种复杂的方法，通过生成对同一查询的多个响应并分析这些响应之间的一致性来评估语言模型的置信度。该技术基于这样一种想法，即不同条件下的高一致性表明对响应准确性的高度置信度。

生成多个响应

为了从模型中获得一系列答案，采用了几种策略：

自我随机化： 这涉及在不同的设置下多次输入相同的问题。调整“温度”参数是这里的常用方法，它通过改变输出的预测性或随机性来操纵模型响应的多样性。

提示扰动： 通过释义改变问题的措辞，以唤起不同角度的回答。这通过检查模型是否在措辞不同但概念相似的提示中保持一致来测试模型的稳健性。

误导性提示：在提示中引入故意错误或误导性提示，以评估模型的稳定性。与人体测试类似，这种方法观察模型是否像一个自信的人一样，可以忽略误导性信息并坚持正确或一致的反应。

聚合策略

为了综合调查结果并分配最终置信度分数，可以考虑不同的聚合策略：

一致性测量： 这检查了模型在不同条件下提供相同答案的一致性，反映了稳定性和可靠性。

平均置信度（平均值）：计算加权平均值，其中对具有较高一致性和个人置信度得分的答案给予更多权重，从而提供总体置信度的精细度量。

配对排名策略： 此策略在使用模型的 Top-K 预测的场景中特别有用，它强调模型预测中的排名信息，有助于评估最可能和最一致的响应。

4.4 基于 Logit 的方法

基于 Logit 的校准是提高大型语言模型（LLM）概率预测可靠性的关键技术。当模型输出原始分数（如对数）时，它们通常不会直接转换为真正的概率分布。校准技术调整这些对数以反映更准确的概率，这对于实际应用中的稳健决策至关重要。下面，我们将深入探讨用于基于 logit 的校准的一些方法：

1. 对代币（token）的平均置信度

为了在语言模型的预测中得出更一致的置信度估计，一种常用的方法是对标记的置信度（对数概率）进行平均。这可以针对所有令牌或选择性子集完成，具体取决于特定应用程序或数据集的特征。其结果是更平滑、更通用的模型确定性度量，减少了任何单个代币可变性的影响。

2. 普拉特缩放（Sigmoid）

Platt 缩放或 S 形标定是一种逻辑回归模型，应用于原始模型的输出对数。通过在 logit 上拟合 sigmoid 函数，此方法将它们转换为校准概率。校准涉及学习两个参数，通常表示为“A”和“B”，它们缩放和移动对数以更好地与实际观察到的概率保持一致。这种方法特别有用，因为它对于二元分类任务简单且有效。

参考

3. 等渗回归

与 Platt 缩放不同，等渗回归在对数和概率之间不假定任何函数形式。它是一种非参数方法，拟合非递减函数，使预测概率与目标概率对齐。这种分段常数函数非常灵活，可以更准确地反映某些场景中的真实分布，特别是当对数和概率之间的关系更复杂或非线性时。

4. 温度标度

温度缩放是一种后处理技术，可在不更改模型预测的情况下调整模型的置信度。它涉及在应用 softmax 函数将它们转换为概率之前，将 logits 除以称为“温度”的常量。最佳温度通常通过最小化验证数据集上的交叉熵损失来确定。这种方法很有吸引力，因为它对校准过程产生了极简主义的影响，保持了原始对数的相对顺序。