在整合大型语言模型(LLM)到业务流程时,企业经常会遇到一些头疼的问题,比如怎样保持数据时效性、避免幻觉现象,以及如何保护数据安全等等。为了解决这些问题,检索增强生成(RAG)技术应运而生,它不仅帮助我们克服了这些挑战,还引领了信息检索的新方向。
虽然 RAG 系统及其科普非常流行,但在实际使用中,我们会发现它“入门易,精通难”。目前,业界的讨论主要集中在如何改进内容提取、文档分块,以及 Embedding 模型等技术,但很少有人提到提升搜索准确度的关键步骤 —— Reranker。
日前,我们正式发布了 Jina Reranker(jina-reranker-v1-base-en),专为提高搜索准确性打造。Jina Reranker 在多个权威测评中屡获领先,实验数据显示,相比简单 RAG 系统,搭载该模型的检索系统命中率提高 8%,MRR 更是飙升 33%。
模型链接: https://jina.ai/reranker/
什么是 Reranker
你可能会问,既然向量检索已经根据相似度给出了初步排序,为什么我们还需要 Reranker 呢?
下表阐述了向量检索和 Reranker 模型之间的主要差异。
尽管向量检索初步完成了排序,但这种文档级别的粗排往往忽略了用户真实的检索意图,并且难以捕捉语义细节,尤其是在处理复杂查询时,最终结果未必匹配用户需求,此外,虽然得分最高的文档或许相关,但其余排名的文档相关性可能大打折扣。
这时,Reranker 就成为了向量检索的有力补充,在查询时进行 Token 级别的深度分析,能够更精确地理解用户的真实意图,从而提升搜索结果的相关性和准确性。这不仅优化了用户体验,减少了用户筛选结果的工作量,还使得搜索系统能够更好地适应多变和复杂的用户需求。
整个过程如下图所示,首先利用向量检索的高效和简便,快速召回候选文档,随后由 Reranker 对每个候选文档逐一打分,实现二次重排,从而提升搜索结果的相关性和准确度。
通过将两种方法有效结合,可以综合其高效、准确的优点,满足用户对于高速度与高准确度的双重需求。
Jina Reranker 模型亮点
四大榜单排名领先
我们采用了 LlamaIndex RAG、BEIR、MTEB 和 LoCo 等多个权威测试,并将 Jina Reranker 与其他三家领先的 Reranker ——BGE(BAAI)、BCE(网易有道)和 Cohere 进行了横向比较。全面评估了 Reranker 模型在查询理解、上下文匹配、排序精度等多个维度的表现。
其中,LlamaIndex RAG 侧重检验 RAG 应用场景下的表现,BEIR 测试信息检索模型的相关性和排名质量,MTEB 专门考察 Reranker 能力,而 LoCo 则着眼于模型在长文本下对局部一致性的把握程度。
LlamaIndex RAG
我们复现了 LlamaIndex 的 RAG 模型评估实验,评估了 RAG 任务中不同 Embeddings 和 Reranker 模型的组合效果。可以看到,在 Jina Reranker 加持下,平均命中率提升了 7.9%,MRR 提升了 33.7%。
Jina Reranker 一大亮点是它的通用性。无论是搭配我们自家的 jina-embeddings-v2-base-en,还是其他如 bge-base-en-v1.5、bce-embedding-base-v1 或 CohereV3-en,Jina Reranker 都能持续提升命中率和 MRR。这种灵活性让它成为了一个在各种场景下都能大显身手的工具。
LlamaIndex 评估链接:https://blog.llamaindex.ai/boosting-rag-picking-the-best-embedding-reranker-models-42d079022e83
BEIR
BIER(Benchmarking IR)评估模型的检索有效性,包括相关性和 NDCG。BIER 分数越高,匹配和搜索结果排名越准确。可以看到 Jina Reranker 排名高于其他 Reranker 模型。
MTEB
在 MTEB 的 Reranker 任务上进行测试,Jina Reranker 表现同样出色,表现领先其他模型。
LoCo
LoCo 衡量模型对局部一致性和上下文的理解,特别是超长文本(token 个数大于 1K)情形下的模型表现。Jina Reranker 在多个数据集上都取得了最高的 LoCo 分数,说明其识别相关信息并确定其优先级的能力很好。
Jina Reranker 在 LlamaIndex RAG、BEIR、MTEB 和 LoCo 等多个测评里,都拿下了最高的平均得分,稳稳地站在了行业前列。这些测试结果也 证明了 Jina Reranker 的通用性,能够与不同的 Embeddings 模型协同工作,无论在哪种应用场景下都能提供显著的性能提升。
长文本能力
Jina Reranker 还特别擅长处理长文本。它能支持长达 512 token 的查询和最长 8192 token 的超长文档输入,一次还能处理多达 2048 个候选文档!
这种顶级的长文本能力使其可广泛应用于分析研报、法律文书、客服聊天等众多场景,大幅提升了文本分析和内容生成的质量。
RAG 场景支持
值得一提的是,Jina Reranker 还针对 RAG 领域的特点进行了专门的模型优化,大幅提升了大型语言模型的响应精度。
如何 Jina Reranker
想要亲自体验 Jina Reranker 的在多个权威测评中的卓越表现、强大的长文本处理能力以及广泛的适用性吗?
只需访问 http://jina.ai/reranker,无需绑定信用卡,你可以直接获取免费 API 密钥,包括一百万 Token,立刻开始提升你的搜索系统。
如图所示,只需输入查询内容和相关文档(目前只支持英文文本),系统便会迅速返回包含文档相关性得分的 JSON 格式响应,让您一目了然地看到搜索结果的优化排序。我们提供 100 万 Token 免费试用额度,助您轻松验证 Jina Reranker 对搜索效果的显著改善。
很快,Jina Reranker 还会在 AWS SageMaker 市场上线,提供更多安全便捷的部署选项。我们期待你的反馈,一起推动搜索技术的进步!