分享一篇RAG综述:Retrieval-Augmented Generation for Large Language Models: A Survey,主要想了解一下RAG的评估方法,分享给大家。
文章目录
- 一、RAG分类
- 二、评估方法
- 三、未来方向
一、RAG分类
RAG分类:Navie RAG、Advanced RAG 、Modular RAG
- Navie RAG是一个最简单的RAG系统,包括检索模块和生成模块。
- Advance RAG主要在Navie RAG的
pre-trieval
和post-trieval
上做改进,pre-trieval上的改进比如query改写,子query查询,query扩展(CoVE Chian-of-Verifiation拓展之后的查询经过LLM的验证,达到减少幻觉的作用),query路由(是否使用RAG,以及使用哪个RAG)等。post-trieval上的改进包括reranker,context压缩等。 - Modular RAG是基于Navie RAG和Advance RAG的一种进阶的RAG,太相较于前两个RAG更加
自由和灵活
性。他通过引入新的模块和新的模式,实现多功能性。引入模块包括查询模块,记忆模块等,新的检索模式包括采用迭代检索、递归检索以及自适应检索。
二、评估方法
- Retrieval Quality:Metrics such as Hit Rate, MRR, and NDCG are commonly utilized for this purpose
MMR( Mean Reciprocal Rank 平均倒排率)
是一个用于评估推荐系统排序性能的指标。它考虑了用户实际点击的推荐项在推荐列表中的位置。MRR 的计算方式是取用户的每个查询(或推荐请求)的倒(1/x)数排名的平均值。这个指标更加关注推荐项的排名,越靠前的推荐项影响越大。Hits Rate(命中率)
前k项中,包含正确信息的项的数目占比;NDCG( Normalized Discounted Cumulative Gain 归一化折损累积增益
)评估推荐系统排序性能的指标,但相比于 MRR,NDCG考虑了推荐项的相关性。它通过考虑推荐列表中每个位置上的推荐项的相关性分数,以及位置权重,计算一个归一化的累积增益。
- Generation Quality:unlabeled and labeled content.
unlabeled content
:faithfulness, relevance, and non-harmfulness(忠诚性,相关性,无害性)labeled content
:accuracy
检索和生成的各项指标都可以通过手动或者自动
的方式进行评估。
人工评估
:人工评审员检查模型生成的文本是否与输入内容或知识库相符,确保没有显著的事实错误。自动化验证
- 对于忠诚性,使用事实核查工具或外部数据库(如维基百科、新闻源)来验证模型的输出。
- 对于相关性,将相关性问题转化为分类问题来自动评估。例如,可以训练一个二分类模型(相关/不相关)或多分类模型(非常相关/中等相关/不相关),然后使用该模型对模型输出进行评估。
- 对于无害性, 使用自然语言处理(NLP)技术或训练的分类模型来检测模型输出是否包含有害内容。可以基于情感分析、恶意内容分类等进行自动评测。
三、未来方向
- RAG仍然是需要的,有大模型的地方就会有RAG
- RAG的稳健性是一个未来方向==》错误的信息比没有信息更糟糕,RAG系统应该能有对反事实或者矛盾信息产生抵抗力。
- 面向生产的RAG:信息源泄露,信息安全,面向用户的低代码RAG。
- 多模态RAG:利用RAG检索图片、音视频和代码