检索增强生成(RAG,Retrieval Augmented Generation)可以利用搜索引擎检索技术来提升长篇问答质量,因而在 QA 任务中广受欢迎。尽管有多种开源方法和网络增强的商业系统如 Bing Chat 出现,但生成长篇答案的事实性和逻辑清晰度两大难题仍未解决。FoRAG试图通过下面两个关键点来解决这些挑战。
首先提出了一种提纲增强的生成器,确保多方面答案生成逻辑清晰。
接着,开发了一种基于双重细粒度 RLHF 框架的事实性优化方法,该框架在不同粒度级别上进行自动评估和奖励建模,提高答案在事实性方面的表现。
1 提纲增强生成器
通过网络搜索引擎检索到相关的信息,在利用这些信息生成长答案之前,提纲增强生成器首先草拟一个组织模式和纲要,以生成逻辑更加清晰的回复。这样可以确保生成的答案能够涵盖问题的多个方面,并且逻辑结构清晰。
2 双重细粒度RLHF框架
引入了细粒度设计的自动评估和奖励建模两个核心步骤,自动评估的粒度包括全局级(Holistic)、句子级(Sentence-level)和子声明级(Subclaim-level),奖励建模的粒度包括句子级(Sentence-level)和Token级(Token-level)。这种方法不仅减少了人工评估的高成本,允许在不同粒度层次上灵活优化事实性,进而在细粒度上提供了更密集的训练信号,提高了RLHF的可靠性。
3 结语
应用FoRAG方法优调 Llama2-7B-chat 后,得到的 FoRAG-L-7B 模型在连贯性、有用性和事实性三个指标上超越了 WebGPT-175B,且参数数量仅为后者的 1/24。轮廓增强生成器显著提高了答案的连贯性和有用性,而双重细粒度RLHF框架则显著提高了答案在事实性方面的表现。
PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!