前言
RAG 系统已经在多个行业中得到广泛应用,尤其是在企业内部文档查询等场景中。尽管 RAG 系统的应用日益广泛,关于其最佳配置的研究却相对缺乏,特别是在上下文大小、基础 LLM 选择以及检索方法等方面。
论文原文: On the Influence of Context Size and Model Choice in Retrieval-Augmented Generation Systems
实验结论
作者重点评估了不同上下文大小、检索方法以及不同LLM对RAG系统性能的影响。
注:作者不再使用带有简短答案的测试集进行评估,而是使用两个领域(生物医学与百科全书领域)具有挑战性的长篇问题作为测试,并且答案必须充分利用整个上下文(一个整体的最终答案必须包括多个甚至所有上下文片段)。
研究结果表明随着上下文片段数量的增加,系统的性能会逐步提升,但当数量达到10-15个时,性能开始趋于稳定,甚至在某些情况下会出现下降(20-30条)(可能是数量多了,带来了信息干扰)。
在保持相同的上下文片段数量情况下,Mistral和Qwen在生物医学任务中表现最好,而GPT和Llama在百科全书任务中表现出色。
实验结果表格
-
•ROUGE-L 是一种基于最长公共子序列(LCS)的评估指标,主要用于衡量生成文本与参考文本之间的相似性。它关注生成文本中与参考文本匹配的最长连续子序列,侧重于召回率(Recall),即生成文本中有多少内容与参考文本一致。
-
BERTScore 是一种基于预训练语言模型(如 BERT)的评估指标,通过计算生成文本与参考文本在语义空间中的相似性来评估质量。它使用 BERT 模型将文本编码为向量,然后计算生成文本与参考文本之间的余弦相似度。相比 ROUGE 等基于词汇重叠的指标,BERTScore 更能捕捉语义层面的相似性,适合评估生成文本的语义准确性。
-
Ent.% 是基于自然语言推理(Natural Language Inference, NLI)模型的评估指标,用于衡量生成文本与参考文本之间的逻辑一致性(蕴含关系)。NLI 模型会判断生成文本是否逻辑上蕴含(Entailment)参考文本的内容。
不同TOP K 在测试集上表现
所有模型都呈现出相似的模式:
-
从较低的零样本性能开始,仅使用一个上下文片段就能显著提升性能。
-
大多数模型在所有三个评估指标上逐步且稳定地改进。