RAG系统分类、评估方法与未来方向

分享一篇RAG综述：Retrieval-Augmented Generation for Large Language Models: A Survey，主要想了解一下RAG的评估方法，分享给大家。

一、RAG分类

RAG分类：Navie RAG、Advanced RAG 、Modular RAG

Navie RAG是一个最简单的RAG系统，包括检索模块和生成模块。
Advance RAG主要在Navie RAG的pre-trieval和post-trieval上做改进，pre-trieval上的改进比如query改写，子query查询，query扩展（CoVE Chian-of-Verifiation拓展之后的查询经过LLM的验证,达到减少幻觉的作用），query路由（是否使用RAG，以及使用哪个RAG）等。post-trieval上的改进包括reranker，context压缩等。
Modular RAG是基于Navie RAG和Advance RAG的一种进阶的RAG，太相较于前两个RAG更加自由和灵活性。他通过引入新的模块和新的模式，实现多功能性。引入模块包括查询模块，记忆模块等，新的检索模式包括采用迭代检索、递归检索以及自适应检索。

Retrieval Quality：Metrics such as Hit Rate, MRR, and NDCG are commonly utilized for this purpose
- MMR（ Mean Reciprocal Rank 平均倒排率）是一个用于评估推荐系统排序性能的指标。它考虑了用户实际点击的推荐项在推荐列表中的位置。MRR 的计算方式是取用户的每个查询（或推荐请求）的倒（1/x）数排名的平均值。这个指标更加关注推荐项的排名，越靠前的推荐项影响越大。
- Hits Rate（命中率）前k项中，包含正确信息的项的数目占比；
- NDCG（ Normalized Discounted Cumulative Gain 归一化折损累积增益）评估推荐系统排序性能的指标，但相比于 MRR，NDCG考虑了推荐项的相关性。它通过考虑推荐列表中每个位置上的推荐项的相关性分数，以及位置权重，计算一个归一化的累积增益。
Generation Quality：unlabeled and labeled content.
- unlabeled content：faithfulness, relevance, and non-harmfulness（忠诚性，相关性，无害性）
- labeled content：accuracy

检索和生成的各项指标都可以通过手动或者自动的方式进行评估。

人工评估：人工评审员检查模型生成的文本是否与输入内容或知识库相符，确保没有显著的事实错误。
自动化验证
- 对于忠诚性，使用事实核查工具或外部数据库（如维基百科、新闻源）来验证模型的输出。
- 对于相关性，将相关性问题转化为分类问题来自动评估。例如，可以训练一个二分类模型（相关/不相关）或多分类模型（非常相关/中等相关/不相关），然后使用该模型对模型输出进行评估。
- 对于无害性，使用自然语言处理（NLP）技术或训练的分类模型来检测模型输出是否包含有害内容。可以基于情感分析、恶意内容分类等进行自动评测。