大模型主流 RAG 框架TOP10

节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。

针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。

总结链接如下：《大模型面试宝典》(2024版) 正式发布！

今天，我们来看看2个问题，一个是回顾下主流 RAG 框架TOP10及一个有趣的soda RAG小工具，另一个为防止恶意检索污染攻击的RAG方案RobustRAG思路，供大家参考。

会有一些思路，供大家一起参考。

问题1：主流RAG框架TOP10及一个有趣的soda RAG小工具

最近 RAG 的轮子越来越多，我们先后已经出现了多个RAG框架，例如langchain, llamaindex,langraph，qanything, ragflow等，

例如通过github可以找到如下排序，top10框架：

Rank1、LangChain(86k stars):https://github.com/langchain-ai/langchain/，当之无愧的霸主，范围很全面，但代码‍‍‍‍‍‍‍‍‍‍‍

Rank2、Quivr(33.4k stars):https://github.com/StanGirard/quivr

Rank3、LlamaIndex(32.1k stars):https://github.com/run-llama/llama_index/

Rank4、Dify(31.2k stars):https://github.com/langgenius/dify

Rank5、Langchain-Chatchat(28.5k stars):https://github.com/chatchat-space/Langchain-Chatchat

Rank6、QAnything(9.7k stars):https://github.com/netease-youdao/QAnything，特点是加入rerank，后期更新也加入了文档理解；‍‍‍‍‍‍‍

Rank7、danswer(9.5k stars):https://github.com/danswer-ai/danswer

Rank8、RAGFlow(8.3k stars):https://github.com/infiniflow/ragflow，特点是前期处理文档理解；‍‍‍‍‍‍

Rank9、langchain4j(3.5k stars):https://github.com/langchain4j/langchain4j

Rank10、Verba(4.3k stars):https://github.com/weaviate/Verba

最近有个新的框架，SODA: Search, Organize, Discovery Anything(https://github.com/Liuziyu77/Soda/)，有点儿意思，根据其介绍。其支持网络检索、文本检索(本地数据库)、图像检索(本地数据库)。

在这里插入图片描述
其中在文本检索阶段，采用两阶段检索过程，第一阶段从数据库中检索信息，第二阶段对检索到的文本进行重新排序，其实标准的重排。

例如文本检索，其通过构建本地文本数据库并从中检索信息，通过修改上传的文件的路径，其中文件包括TXT, DOCX, PDF等文件格式。

又如图像检索结果，构建本地图像数据库并从中检索图像，其中核心在于图像embedding的生成，该项目中使用使用CLIP-B/32作为图像编码器。

又如网络检索结果，其核心在于利用各种搜索引擎的API来根据用户输入检索相关信息，包括google、Serper、Bing等不同的API

问题2：为防止恶意检索污染攻击的RAG方案RobustRAG思路

这个有点意思，《Certifiably Robust RAG against Retrieval Corruption》(https://arxiv.org/abs/2405.15556)，其出发点在于，由于依赖外部知识库的检索结果，RAG模型容易受到Retrieval Corruption Attacks，也就是恶意的检索污染攻击，攻击方可以通过在检索结果中注入虚假或误导性的文本，操纵模型的输出，产生错误甚至有害的内容，从而影响RAG模型的可靠性和实用性，并带来难以预料的负面影响。

如下所示，检索到的三个段落中有一个被破坏，Vanilla RAG将所有段落串联起来作为LLM输入；其响应被恶意段落劫持。

在这里插入图片描述