RAG实践:ES混合搜索BM25+kNN(cosine)

1 缘起

最近在研究与应用混合搜索,
存储介质为ES,ES作为大佬牌数据库,
非常友好地支持关键词检索和向量检索,
当然,支持混合检索(关键词检索+向量检索),
是提升LLM响应质量RAG(Retrieval-augmented Generation)的一种技术手段,
那么,如何通过ES实现混合搜索呢?
请看本篇文章。

本系列分为两大部分:实践理论
先讲实践,应对快速开发迭代,可快速上手实践;
再讲理论,应对优化,如归一化。

RAG理论:ES混合搜索BM25+kNN(cosine)以及归一化https://blog.csdn.net/Xin_101/article/details/140237669

在这里插入图片描述

2 实践

2.1 环境准备

2.1.1 部署ES

  • 下载ES镜像:8.12.2版本
docker pull docker.elastic.co/elasticsearch/elasticsearch:8.12.2
  • 下载ik分词器
    https://github.com/infinilabs/analysis-ik/releases
    选择与ES版本一致或者可用的版本,这里选择8.12.2版本分词器。

在这里插入图片描述

  • 添加分词器
    将分词器文件添加到目录:/home/xindaqi/data/es-8-12-2/plugins
    新建分词器文件夹:mkdir -p /home/xindaqi/data/es-8-12-2/plugins/ik_analyzer_8.12.2
    将zip文件复制到文件夹:ik_analyzer_8.12.2

  • 启动ES

docker run -dit \
--restart=always \
--name es01-8-12-2 \
-p 9200:9200 \
-p 9300:9300 \
-v /home/xindaqi/data/es-8-12-2/data:/usr/share/elasticsearch/data \
-v /home/xindaqi/data/es-8-12-2/logs:/usr/share/elasticsearch/logs \
-v /home/xindaqi/data/es-8-12-2/plugins:/usr/share/elasticsearch/plugins \
-e ES_JAVA_OPS="-Xms512m -Xmx1g" \
-e discovery.type="single-node" \
-e ELASTIC_PASSWORD="admin-es" \
-m 1GB \
docker.elastic.co/elasticsearch/elasticsearch:8.12.2

2.1.2 数据准备

实践之前,需要准备数据,包括索引和索引中存储的数据。
为了演示混合搜索,这里创建两种类型的数据:text和dense_vector。

(1)创建索引
curl -X 'PUT' \'http://localhost:9200/vector_5' \-H 'accept: application/json' \-H 'Content-Type: application/json' \-H 'Authorization: Basic ZWxhc3RpYzphZG1pbi1lcw==' \-d '{"settings": {"index": {"number_of_shards": 1,"number_of_replicas": 1,"refresh_interval": "3s"}},"mappings": {"properties": {"dense_values": {"type": "dense_vector","dims": 5,"index": true,"similarity": "cosine"},"id": {"type": "keyword"},"ik_text": {"type": "text","analyzer": "ik_max_word"},"default_text": {"type": "text"},"timestamp": {"type": "long"},"dimensions": {"type": "integer"}}}
}'
(2)新建数据

新建两条数据:

curl -X POST 'http://localhost:9200/vector_5/_doc/1' \
--header 'Content-Type: application/json' \
--header 'Authorization: Basic ZWxhc3RpYzphZG1pbi1lcw==' \
--data '{"dense_values": [0.1, 0.2, 0.3, 0.4, 0.5],"id": "1","ik_text": "今天去旅游了","default_text":"今天去旅游了","timestamp": 1715659103373,"dimensions": 5
}'
curl -X POST 'http://localhost:9200/vector_5/_doc/2' \
--header 'Content-Type: application/json' \
--header 'Authorization: Basic ZWxhc3RpYzphZG1pbi1lcw==' \
--data '{"dense_values": [0.1, 0.2, 0.3, 0.4, 0.5],"id": "1","ik_text": "好美的太阳","default_text":"好美的太阳","timestamp": 1715659103373,"dimensions": 5
}'

2.2 向量搜索

kNN搜索

ES中向量搜索使用k-Nearest Neighbor(k最近邻分类算法)进行搜索。
输入的请求参数如下:

参数参数描述
knn向量搜索k-Nearest Neighbor
field向量字段名称
query_vector向量值
k召回结果数量
num_candidates召回范围,每个分片选取的数量

请求样例如下:
由样例可知,存储向量数据的字段名称为:dense_values,填充向量值字段为query_vector(为固定属性),召回结果k为3个,每个分片选择100条数据(num_candidates),最大值为:10000。
实际应用过程中,又有向量数据较多(依据维度而定),为节约内存,检索时,在结果中排除,excludes。

curl -X POST 'http://localhost:9200/vector_5/_search' \
--header 'Content-Type: application/json' \
--header 'Authorization: Basic ZWxhc3RpYzphZG1pbi1lcw==' \
--data '{"knn": {"field": "dense_values","query_vector": [0.1,0.1,0.1,0.1,0.1],"k": 3,"num_candidates": 100},"_source": {"excludes": ["dense_values"]}
}'

检索结果如下,
由于创建过程中使用的向量数据相同,因此计算的结果也是相同的,
使用

{"took": 2,"timed_out": false,"_shards": {"total": 1,"successful": 1,"skipped": 0,"failed": 0},"hits": {"total": {"value": 2,"relation": "eq"},"max_score": 0.8427159,"hits": [{"_index": "vector_5","_id": "1","_score": 0.8427159,"_source": {"id": "1","ik_text": "今天去旅游了","default_text": "今天去旅游了","timestamp": 1715659103373,"dimensions": 5}},{"_index": "vector_5","_id": "2","_score": 0.8427159,"_source": {"id": "1","ik_text": "好美的太阳","default_text": "好美的太阳","timestamp": 1715659103373,"dimensions": 5}}]}
}

2.2 混合搜索

混合搜索即将搜索拆分成多个部分,每个部分使用不同的权重,实现混合搜索的效果。
ES中使用boost参数来分配不同部分的权重,搜索案例如下。
由案例可知,混合搜索使用关键词+向量搜索,关键词b1与向量总权重b2,其中b1+b2=1,
案例中关键词权重为0.6,向量权重0.4,
关键词搜索将搜索的内容映射到query上,权重映射到boost上,
default_text为实际存储的属性名称。

curl -X POST 'http://localhost:9200/vector_5/_search' \
--header 'Content-Type: application/json' \
--header 'Authorization: Basic ZWxhc3RpYzphZG1pbi1lcw==' \
--data '{"query": {"bool": {"must": [{"match": {"default_text": {"query": "好美的太阳","boost": 0.6}}}]}},"knn": {"field": "dense_values","query_vector": [0.1,0.1,0.1,0.1,0.1],"k": 3,"num_candidates": 100,"boost": 0.4},"_source": {"excludes": ["dense_values"]}
}'

3 小结

(1)ES混合搜索:通过boost配置比例,其中,关键词计算使用BM25计算分数,同时加入boost参数;
(2)关键词搜索boost基础比例为2.2,计算过程boost=2.2boost;
(3)向量搜索的最终分数为:final_score=boost
kNN。

计算过程参见文章:RAG理论:ES混合搜索BM25+kNN(cosine)以及归一化
https://blog.csdn.net/Xin_101/article/details/140237669

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/869745.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ethercat这里的CRC是如何计算和使用的?

这里的CRC是如何计算和使用的? 非常好的问题。让我详细解释一下CRC在这个上下文中是如何计算和使用的: CRC 计算过程: a. 准备输入数据: 收集从开始标签到结束标签的所有字符(不包括带Crc32属性的开始标签)。将这些字…

Java 8革新:现代编程的全新标准与挑战

文章目录 一、方法引用二、接口默认方法三、接口静态方法四、集合遍历forEach()方法 一、方法引用 方法引用是Java 8中一种简化Lambda表达式的方式,通过直接引用现有方法来代替Lambda表达式。 方法引用使得代码更加简洁和易读,特别是在处理函数式接口时&…

Kotlin Class

普通 Class kotlin class TestClz {val name: String "hsw"val age: Int 18 }java public final class TestClz {NotNullprivate final String name "hsw";private final int age 18;NotNullpublic final String getName() {return this.name;}publ…

WPF-控件样式设置

1、控件样式设置 1.1、内嵌式为相同控件设置样式 <Window.Resources><Style TargetType"Button"><Setter Property"Background" Value"Yellow"></Setter><Setter Property"Width" Value"60"&g…

大数据专业创新人才培养体系的探索与实践

一、引言 随着大数据技术的迅猛发展&#xff0c;其在各行各业中的应用日益广泛&#xff0c;对大数据专业人才的需求也日益增长。我国高度重视大数据产业的发展&#xff0c;将大数据作为国家战略资源&#xff0c;推动大数据与各行业的深度融合。教育部也积极响应国家战略&#…

C语言 将密码译回原文

有一行电文,已按下面规律译成密码: A→Z a→z B→Y b→y C→X c→x … … 即第1个字母变成第26个字母,第i个字母变成第(26-i1)个字母,非字母字符不变。要求编程序将密码译回原文,并输出密码和原文。 #include <stdio.h> #include <ctype.h>void decrypt(c…

JVM:字节码文件

文章目录 一、Java虚拟机的组成二、字节码文件的组成1、基本信息2、常量池3、字段4、方法5、属性 三、常用的字节码工具1、javap -v 命令2、jclasslib插件3、阿里arthas 一、Java虚拟机的组成 二、字节码文件的组成 1、基本信息 魔数、字节码文件对应的Java版本号访问标识&am…

MySQL 日期和时间函数

NOW(): 返回当前的日期和时间。 SELECT NOW() AS current_datetime; -- 结果: 当前的日期和时间 CURDATE(): 返回当前日期。 SELECT CURDATE() AS current_date; -- 结果: 当前的日期 CURTIME(): 返回当前时间。 SELECT CURTIME() AS current_time; -- 结果: 当前的…

Docker 使用基础(2)—镜像

&#x1f3ac;慕斯主页&#xff1a;修仙—别有洞天 ♈️今日夜电波&#xff1a;秒針を噛む—ずっと真夜中でいいのに。 0:34━━━━━━️&#x1f49f;──────── 4:20 &#x1f504; ◀️ ⏸ …

Vue组件通信props和$emit用法

父传子&#xff0c;通过props 子传父&#xff0c;通过$emit App.vue <template><div class"app" style"border: 3px solid #000; margin: 10px">我是APP组件<!-- 1.给组件标签&#xff0c;添加属性方式 赋值 --><!-- 添加属性传值 …

Oracle字符串类型常涉及的问题

lpad(字段,位数,‘0’) 输出指定位数字符串不足左补0 rpad(字段,位数,‘0’) 输出指定位数字符串不足右补0 to_char(字段,‘fm000000’) 输出5位字符串不足左补0&#xff0c;fm去除前面的空格 to_number(decode(trim(字段),null,‘0’,‘’,‘0’,trim(字段))) 字符串转为数值…

【java算法专场】双指针(下)

611. 有效三角形的个数 目录 611. 有效三角形的个数 算法思路 算法代码 LCR 179. 查找总价格为目标值的两个商品 算法思路 算法代码 HashSet 双指针 15. 三数之和 算法思路 算法代码 18. 四数之和 ​编辑算法思路 算法代码 611. 有效三角形的个数 算法思路 算法…

前端面试题(CSS篇六)

一、浏览器如何判断是否支持 webp 格式图片 &#xff08;1&#xff09;宽高判断法。通过创建image对象&#xff0c;将其src属性设置为webp格式的图片&#xff0c;然后在onload事件中获取图片的宽高&#xff0c;如果能够获取&#xff0c;则说明浏览器支持webp格式图片。如果不能…

leetcode-动态规划-01背包

一、二维数组 1、状态转移方程&#xff1a; 不放物品i&#xff1a;由dp[i - 1][j]推出&#xff0c;即背包容量为j&#xff0c;里面不放物品i的最大价值&#xff0c;此时dp[i][j]就是dp[i - 1][j]。(其实就是当物品i的重量大于背包j的重量时&#xff0c;物品i无法放进背包中&a…

IAR 编译优化等级详解

目录 1.编译时优化器何时介入 2.编译优化等级汇总 3.优化项解读 3.1 代码移动 3.2 函数内联 3.3 循环交换 3.4 循环展开 3.5 公用表达式消除 3.6 链接阶段的优化 4 小结 大家好&#xff0c;这里是快乐的肌肉。 最近在迁移工程到IAR编译器上&#xff0c;发现编译优化…

AI赛道成功的“小”AI平台,都在做什么?

在深入了解30多家跨界拓展AI赛道业务的企业后&#xff0c;我们发现大家对目前的AI市场存在一定程度的误解&#xff1a;即认为在AI领域想要分一杯羹&#xff0c;只需要搞几个API&#xff0c;把大语言模型、绘画、视频、数字人等功能都放上去&#xff0c;可能就有机会占一席之地了…

Android Camera Framework:从基础到高级

目录 基础知识1. Camera API 与 Camera2 API2. 权限 关键组件1. CameraManager2. CameraDevice3. CaptureRequest 和 CaptureSession 高级功能1. 实时滤镜2. 手动控制3. 高动态范围 (HDR) 和夜间模式 在现代移动应用开发中&#xff0c;相机功能已成为许多应用程序的核心组成部分…

递归 迷宫问题-java

1&#xff09;findWay方法是为了找出走出迷宫的路径&#xff0c;找到返回true&#xff0c;否则返回false 2&#xff09;&#xff08;i&#xff0c;j&#xff09;是老鼠的位置&#xff0c;初始化的位置为&#xff08;1&#xff0c;1&#xff09; 3&#xff09;因为是递归找路&am…

Jitsi Meet指定用户成为主持人

前言 在Jitsi Meet进行会议的时候&#xff0c;我们有可能会使用到预约会议的这一个功能&#xff0c;预约会议的时候&#xff0c;我们希望我预约的会议&#xff0c;我就是主持人&#xff0c;而不希望其他人是主持人。 但是Jitsi Meet默认会认为第一个进入房间的是主持人&#…

2024年网络监控软件排名|10大网络监控软件是哪些

网络安全&#xff0c;小到关系到企业的生死存亡&#xff0c;大到关系到国家的生死存亡。 因此网络安全刻不容缓&#xff0c;在这里推荐网络监控软件。 2024年这10款软件火爆监控市场。 1.安企神软件&#xff1a; 7天免费试用https://work.weixin.qq.com/ca/cawcde06a33907e6…