一、解决问题
在基于网络的长形式问答(Web-enhanced Long-form Question Answering, LFQA)任务中,现有RAG在生成答案时存在的问题:
-
事实性不足:研究表明,现有系统生成的答案中只有大约一半的陈述能够完全得到检索到的参考资料的支持,这严重影响了这些系统的可信度。
-
清晰逻辑的缺失:与短答案的传统问答任务不同,LFQA任务中理想的答案往往需要多方面组织和整合信息,但现有的开源方法在生成答案时往往缺乏清晰的逻辑结构。
二、提纲增强RAG
提出提纲增强RAG,以改善长形式问题回答 LFQA 中生成答案的结构和质量。
2.1 Outline-Enhanced Generator
现有的开源方法在生成答案时,通常是直接将检索到的内容与原始查询拼接,然后使用特定的提示模板(prompt template)输入到生成模型中。这种方法生成的答案往往较短,缺乏清晰的逻辑结构。为了提高答案的组织性,提出了 “Outline-Enhanced Generator”,它包含以下两个阶段:
-
Outline Stage(提纲阶段):
在此阶段,生成器首先使用提纲模板,根据用户查询和上下文生成答案的提纲。提纲模板引导大型语言模型(LLM)考虑哪种组织模式最适合当前问题,例如“因果关系”或“比较对比”。然后,LLM根据选定的组织模式输出提纲,为后续的扩展阶段做准备。
-
Expansion Stage(扩展阶段):
基于前一阶段生成的提纲,LLM扩展每个要点,构建最终答案。模型被要求在包含查询、上下文和提纲的输入下,生成对问题的答案。
注:提纲增强阶段的生成器有SFT训练得到。
2.2 Outline-Enhanced Long-Form QA Dataset
为了支持 “Outline-Enhanced Generator” 的训练和评估,构建了两个大规模的提纲增强型LFQA数据集。这些数据集利用现有的WebCPM和WebGLM数据集的查询和相关段落,并通过GPT4模型应用提纲增强生成技术来收集提纲增强型答案。统计信息显示,使用提纲增强技术生成的答案比现有工作中的答案更长,其具有更强的逻辑结构。
2.3 提纲增强数据构建提示词
-
英文提示词
-
中文提示词
小结:通过引入提纲阶段来增强生成答案的逻辑结构,并通过扩展阶段来完善和详细化答案内容,从而提高了长形式问题回答的质量。
三、事实性优化RAG
传统的RLHF,优化事实性所面临困难如下:
- 数据标注成本高:手动标注事实性标签通常成本很高,因为它涉及到比较长篇答案和对应长篇参考资料之间的事实细节。
- 整体性奖励信号稀疏:标准RLHF使用整体性奖励,即只有在整个回答的最后一个token上才有非零奖励,这为生成模型的训练提供了稀疏的信号,在长篇回答中尤为明显。
因此,提出了一种新颖的事实性优化方法(Doubly Fine-grained RLHF),旨在解决网络增强型 LFQA 中的事实性问题。
3.1 Doubly Fine-grained RLHF
提出了一种新的事实性优化框架,通过在评估和奖励建模中采用细粒度的设计,有效地提高了长形式问题回答中生成答案的事实性,同时减少了对人工标注的依赖。
细粒度评估(Fine-grained Evaluation):
- 整体性(Holistic):使用单一事实性评分评估整个答案。
- 句子级别(Sentence-level):将答案分割成句子,并分别评估每个句子。
- 子声明级别(Subclaim-level):进一步将每个句子分解为多个子声明,并对每个子声明单独评估事实性。
细粒度奖励建模(Fine-grained Reward Modeling):
- Sequence-level:为每个序列学习单一的奖励,反映相应序列的事实性。
- Token-level:为序列中的每个token学习奖励,通过聚合所有token级别的奖励来计算序列的奖励。
实现方法
-
奖励模型训练:使用Logloss或MSE损失函数来训练奖励模型,具体取决于评估过程中得到的是二元标签还是连续值奖励。
-
PPO优化:采用近端策略优化(Proximal Policy Optimization, PPO)来优化生成模型,通过最大化细粒度的奖励信号来改善模型性能。
四、实验结果
参考文献
paper:FoRAG: Factuality-optimized Retrieval Augmented Generation for Web-enhanced Long-form Question Answering,https://arxiv.org/abs/2406.13779
huggingface:https://huggingface.co/forag