Selective Generation for Language Models 语言模型的选择性生成

生成式语言模型（Generative Language Models, GLMs）在文本生成任务中取得了显著进展。然而，生成内容的“幻觉”现象，即生成内容与事实或真实语义不符的问题，仍是GLMs在实际应用中的一个重大挑战。为了解决这一问题，本文提出了一种新颖的选择性生成方法——神经选择性生成（NSeGen），并使用逻辑蕴含（entailment）来更好地控制生成内容的假阳性率（FDR），提高了模型的生成可靠性。

一、研究背景和挑战

1. 生成式语言模型的“幻觉”问题

生成式语言模型，如GPT-3和Alpaca-7B，虽然在生成自然语言内容上取得了突破，但生成内容的可信度一直令人担忧。尤其是在一些关键领域（如医疗诊断、法律咨询、新闻传播等），生成内容必须精准可靠，否则会产生严重后果。GLMs生成的“幻觉”指的是模型在缺乏真实信息支撑时生成错误内容，这种现象在生成模型中非常普遍。

传统上，解决这一问题的方式包括：

校准（Calibration）：调整模型输出的置信度，使生成内容与真实情况更吻合。但校准主要解决的是模型过度自信的问题，并不能从根本上控制生成内容的准确性。
符合预测（Conformal Prediction）：使用统计方法量化预测内容的置信区间。这种方法在回归或分类任务中有效，但在生成式任务中无法保证生成内容的语义正确性。

本文的创新点在于提出一种新的生成机制，利用逻辑蕴含关系来控制生成内容的正确性，避免传统方法仅依赖于表面词汇的精确匹配问题。

二、方法概述：逻辑蕴含与选择性生成

本文提出了一个新的选择性生成方法——NSeGen，其核心在于通过逻辑蕴含关系实现语义层面的准确性控制。以下是NSeGen的三个核心部分：

1. 逻辑蕴含与假阳性率控制

逻辑蕴含是一种语义层面的判断方法，通常用于自然语言推理任务。通过判断生成内容是否能在语义上蕴含真实答案，NSeGen能够在语义正确性上做出更精确的选择。本文提出了基于逻辑蕴含的假阳性率（FDR-E），即计算生成内容在语义上不符合真实答案的比例，从而避免生成错误内容。

2. 选择性生成的监督与半监督方法

为实现上述假阳性率控制，NSeGen设计了两种生成方式：

监督选择性生成：该方法利用带有蕴含标签的标注数据来训练模型，使得生成的内容在语义上更符合真实答案。然而，标注逻辑蕴含标签成本较高，导致监督方法难以大规模应用。
半监督选择性生成：为降低标注成本，NSeGen提出了半监督学习方法，即构建“蕴含集合”（entailment set）作为伪标签。该集合包含了语义上与真实答案一致的生成内容，用于替代部分标注数据。这种半监督方法能够在无标签数据的基础上实现更高的生成准确性和效率。

3. 神经选择性生成（Neuro-Selective Generation）

传统的选择性生成方法多依赖于单一的参数化模型，而NSeGen使用神经网络设计选择函数（neuro-selection functions），能在多特征的高维空间中灵活选择符合逻辑蕴含的生成内容。这种多参数组合提高了选择函数的精确性和生成内容的合理性。

三、实验设计与结果分析

1. 实验数据与模型

论文选用GPT-3.5和Alpaca-7B两个生成模型，数据集选用了Natural Questions开放问答数据集。具体实验包括了27,000条无标签数据和数千条带有逻辑蕴含标签的数据。为了验证NSeGen的有效性，论文设计了以下对比实验。

2. 假阳性率控制

在假阳性率控制方面，NSeGen表现出显著优势。在图2中，可以看到NSeGen在数据规模较大时依然保持了较低的假阳性率（FDR-E），与传统选择性生成方法相比，展示了更高的稳定性和生成效率。这些实验表明，NSeGen通过半监督学习构建的蕴含集合，能够有效减少标注需求的同时，显著提高生成内容的语义正确性。

3. 生成效率与语义准确性

NSeGen在生成复杂答案任务中的表现也远优于传统方法。通过表1和表2中的生成示例可以看到，NSeGen能够在复杂问答任务中生成符合真实语义的答案，避免依赖于精确匹配。例如，在回答“电影《玛丽·玛格达琳》中的耶稣是谁扮演的？”这一问题时，NSeGen生成了正确的“杰昆·菲尼克斯”，而其他方法可能拒答或生成错误答案。

4. 不同选择函数的对比

为了进一步分析神经选择性函数的优越性，实验进行了多特征神经选择函数和传统单一参数化选择函数的对比。多特征选择在无标签数据情况下表现出更高的生成准确性和效率，特别是在语义匹配任务中表现尤为明显。

四、方法优势与局限性

优势 NSeGen在语义层面确保了生成内容的正确性，适用于对生成内容可靠性要求较高的场景（如医疗、法律等）。此外，半监督方法的引入降低了对标注数据的依赖，使得该方法具备更强的实际应用潜力。
局限性 NSeGen依赖于i.i.d.样本的假设，而实际应用中未必能满足该条件。此外，逻辑蕴含标签的获取仍存在高成本问题，即便通过半监督学习减轻了这一问题，标注需求依然对实际推广构成了限制。