RAG理论：ES混合搜索BM25+kNN(cosine)以及归一化

接前一篇:RAG实践：ES混合搜索BM25+kNN(cosine)

https://blog.csdn.net/Xin_101/article/details/140230948

本文主要讲解混合搜索相关理论以及计算推导过程，
包括BM25、kNN以及ES中使用混合搜索分数计算过程。
详细讲解：
（1）ES中如何通过BM25计算关键词搜索分数；
（2）kNN如何通过consine计算语义/向量搜索最终分数，不是直接使用consine距离；
（3）混合搜索最终得分是如何计算的，如何进行归一化优化。

Note：提前声明
下面这张是使用ik分词器进行计算的，为了好截图，后文讲解则是使用默认分词器，
不影响过程分析。

在这里插入图片描述

4 理论

4.1 BM25

BM25(Best Matching 25)匹配算法用于文本检索，其中，25，查阅相关网络资源说是第25次迭代的算法，BM25基于TF-IDF，并进行了改进，引入了可调整参数k1和b。
k1：为饱和函数，防止某额词在文档中出现次数过多导致权重过大；
b：为文档长度因子，使文档长度堆权重的影响不是线性的，更好地适应不同长度的文档。
这也是BM25优点以及缺点的来源：

优点
（1）k1和b，考虑文档长度，可以有效避免文档长度带来的影响；
（2）根据不同领域的数据，可以调整k1和b，获取更好的搜索效果，适应不同领域的数据。
缺点
（1）需要高质量的数据；
（2）参数k1和b直接影响检索效果，需要不断优化调整，以适应具体的场景。

$D)=\sum_{i=1}^{n}IDF(q_{i})·\frac{f(q_{i}, D)·(k_{1}+1)}{f(q_{i}, D)·k_{1}·(1-b+b·\frac{|D|}{avgdl})}$
其中：
$TF(q_{i})=\frac{f(q_{i}, D)·(k_{1}+1)}{f(q_{i}, D)·k_{1}·(1-b+b·\frac{|D|}{avgdl})}$