科普一下Elasticsearch中BM25算法的使用

alt

首先还是先了解几个概念,Elasticsearch是一个开源的分布式搜索和分析引擎,它使用一系列算法来计算文档的相关性分数(relevance score)。这些算法用于确定查询与文档的匹配程度,以便按相关性对搜索结果进行排序。以下是Elasticsearch中常用的算分算法:

  1. 词频(Term Frequency,TF):TF算法根据查询词在文档中出现的频率来计算分数。出现频率越高,分数越高。

  2. 逆文档频率(Inverse Document Frequency,IDF):IDF算法根据查询词的全局频率来计算分数。对于在许多文档中都出现的常见词,IDF值较低,分数较低;而对于在少数文档中出现的罕见词,IDF值较高,分数较高。

  3. 字段长度(Field Length):字段长度算法根据文档中字段的长度来计算分数。较短的字段可能更相关,因此分数较高。

  4. 文档频率(Document Frequency):文档频率算法根据查询词在文档集合中出现的文档数来计算分数。在较少的文档中出现的词可能更相关,因此分数较高。

  5. 向量空间模型(Vector Space Model):向量空间模型算法将文档和查询表示为向量,并计算它们之间的相似度。通过计算余弦相似度等度量,可以得到文档与查询的相关性分数。

  6. BM25(Best Match 25):BM25是一种基于TF和IDF的改进算法,它考虑了词频和文档频率,并引入了一些调整参数,以提高搜索结果的质量。

下面展示修改修改BM25相关参数

要调整BM25算法的参数,您可以通过修改Elasticsearch索引的相关性设置来实现。下面是一个示例,展示了如何使用Elasticsearch的API来调整BM25算法的参数:

  1. 设置BM25的参数:需要注意的是,设置该操作时,索引必须是关闭状态

    这块不了解的可以参考之前的一篇关于Elasticsearch索引相关设置的文章,这篇文章详细介绍了哪些是静态索引设置,动态索引设置

    Elasticsearch 创建一个索引怎么也这么复杂:https://mp.weixin.qq.com/s/OnXeESVMreYgBvbGGR4R0g

POST your_index/_close
PUT /your_index/_settings
{
  "index": {
    "similarity": {
      "default": {
        "type""BM25",
        "b""1.2",  // 调整参数b
        "k1""1.0"  // 调整参数k1
      }
    }
  }
}

在上面的示例中,我们使用PUT请求来更新索引的设置。将"b"参数设置为1.2,将"k1"参数设置为1.0。这些参数可以根据您的需求进行调整。参数"b"控制文档长度的影响,较大的值会增加文档长度的权重;参数"k1"控制词频的影响,较大的值会增加词频的权重。

  1. 验证参数设置:
GET /your_index/_settings

使用GET请求获取索引的设置,确保参数已成功设置。

请注意,以上示例中的"your_index"是您要调整设置的索引名称。您可以根据实际情况替换为您的索引名称。

通过调整BM25算法的参数,您可以根据具体需求优化搜索结果的相关性评分。您可以尝试不同的参数值,观察搜索结果的变化,并根据实际情况进行调整。

Elasticsearch是一款流行的开源搜索引擎,广泛应用于信息检索、全文搜索、日志分析等领域。在Elasticsearch中,BM25是一种常用的文本相似度评分算法,用于计算查询和文档之间的相关性。本文将对BM25算法进行介绍,包括算法原理、使用场景、优缺点以及与其他算法的比较。

一、BM25算法简介

BM25算法(Best Matching 25)是一种基于统计学的文本相似度评分算法,用于计算查询和文档之间的相关性。BM25算法结合了向量空间模型(VSM)和概率检索模型(PRM)的优点,能够对文档进行更准确的评分。BM25算法在Elasticsearch中被广泛应用于搜索引擎、信息检索、全文搜索等领域。

二、BM25算法原理

BM25算法的核心思想是根据查询词项在文档中出现的频率和文档中的词汇分布来计算文档的相关性。具体来说,BM25算法将文档和查询表示为向量,然后计算两个向量之间的余弦相似度。BM25算法的公式如下:

其中, 表示查询, 表示文档, 表示查询中包含的词项数, 表示查询词项 在文档 中出现的频率, 是BM25算法的超参数, 表示文档 的长度, 表示所有文档的平均长度, 表示查询词项 的逆文档频率,定义如下:

其中, 表示文档总数, 表示包含查询词项 的文档数。

三、BM25算法优缺点

  1. 优点:

(1)BM25算法能够对文档进行更准确的评分,能够得到更好的搜索结果。

(2)BM25算法具有良好的可调节性,可以通过调整超参数 来适应不同的数据集和查询需求。

(3)BM25算法的计算速度较快,适用于大规模文本数据的处理。

  1. 缺点:

(1)BM25算法对于长文档和短查询的情况下,可能会出现评分偏低的问题。

(2)BM25算法没有考虑词项之间的关联性,可能会导致评分不准确的情况。

四、BM25算法应用场景

BM25算法适用于各种信息检索场景,包括搜索引擎、全文搜索、日志分析等。在Elasticsearch中,BM25算法被广泛用于文本搜索和相关性排序,能够实现快速、准确和可扩展的搜索功能。

五、BM25算法与其他算法的比较

  1. TF-IDF算法

TF-IDF算法是一种常用的文本相似度评分算法,用于计算查询和文档之间的相关性。与BM25算法相比,TF-IDF算法没有考虑文档长度和查询长度的影响,因此在处理长文档和短查询时可能会出现评分偏低的问题。但是TF-IDF算法计算速度较快,并且在处理短文本和长查询时表现较好。在Elasticsearch中,TF-IDF算法也被广泛应用于文本搜索和相关性排序。

  1. Okapi算法

Okapi算法是一种基于概率检索模型的文本相似度评分算法,与BM25算法类似。与BM25算法相比,Okapi算法考虑了词项之间的关联性,因此在处理长文档和短查询时具有优势。但是Okapi算法计算复杂度较高,因此在处理大规模文本数据时可能会出现性能问题。

六、结论

BM25算法是一种常用的文本相似度评分算法,能够对文档进行更准确的评分,适用于各种信息检索场景。BM25算法具有良好的可调节性和计算速度,但也存在一些缺点,例如在处理长文档和短查询时可能会出现评分偏低的问题。与其他算法相比,BM25算法具有自己的优劣势,需要根据具体场景选择合适的算法。在Elasticsearch中,BM25算法被广泛应用于搜索引擎、信息检索、全文搜索等领域,能够实现快速、准确和可扩展的搜索功能。

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1276.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

生命在于折腾——MacOS(Inter)渗透测试环境搭建

一、前景提要 之前使用的是2022款M2芯片的MacBook Air 13寸,不得不说,是真的续航好,轻薄,刚开始我了解到M芯片的底层是ARM架构,我觉得可以接受,虚拟机用的不多,但在后续的使用过程中&#xff0…

换零钱II:零钱面值动态变化,class方法自动兑换最少零钱(贪心算法)

银行现存零钱面值种类动态变化但数量无限,类方法change()完成指定金额的最少零钱个数兑换。 (本笔记适合学透python基本数据结构,熟悉class的基构造,对类内全局变量有一定认的 coder 翻阅) 【学习的细节是欢悦的历程】 Python 官网&#xff1…

RabbitMQ消息堆积问题及惰性队列

一,消息堆积 1,消费者堆积问题 当生产者生产消息的速度超过了消费者处理消息的速度,就会导致消息在队列中进行堆积,一定时间后会造成队列达到存储的上限,那么最开始进入队列的消息可能变成死信,会被丢弃&…

【软件测试】Git 详细实战-打标签,一篇通关...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 Git 打标签 一般会…

dede编辑器修改成纯文本编辑器的方法

我在做优秀啦网站大全的时候需要的正文内容都不需要设置什么文字样式,所以我需要把编辑器上的工具全部取消掉,包括会员投稿中的编辑器工具栏全部取消掉或者屏蔽隐藏掉,所以我需要把DEDE编辑器修改成纯文本编辑器的方法如下:如图&a…

防范 XSS 攻击的措施

防范 XSS 攻击的措施 XSS(Cross-site scripting)攻击是一种常见的网络安全漏洞,它可以通过注入恶意代码来攻击用户的计算机和浏览器,从而窃取用户的敏感信息或执行恶意操作。本篇文章将介绍防范 XSS 攻击的措施,并提供…

【深度学习论文阅读】四大分类网络之AlexNet

ImageNet Classification with Deep Convolution Nerual Networks 论文原文:ImageNet Classification with Deep Convolutional Neural Networks 1 引言 解决的问题: 提高效率(GPU训练),防止过拟合(drop…

基于Java的考研教室在线预约系统/基于springboot的考研教室在线预约系统

摘 要 网络的广泛应用给生活带来了十分的便利。所以把考研教室在线预约与现在网络相结合,利用java语言建设考研教室在线预约系统,实现考研教室在线预约的信息化。则对于进一步提高考研教室在线预约发展,丰富考研教室在线预约能起到不少的促进…

语义分割混淆矩阵、 mIoU、mPA计算

一、操作 #vx:桔子code / juzicode.com import cv2 img_gray cv2.imread("nezha.jpg",cv2.IMREAD_GRAYSCALE) for i in range(22):dst cv2.applyColorMap(img_gray,i) cv2.imshow(map,dst) cv2.waitKey(500)cv2.imwrite("map-"str(i)".jpg",…

5G全网通工业三防平板Windows移动电脑

当今科技领域的快速发展为我们的生活带来了许多便利和高效性能。在这个数字化时代,移动设备已成为我们生活的重要组成部分。在这一领域,搭载全新第12代英特尔酷睿Mi5-1235U/i7-1255U处理器的工业三防平板Windows移动电脑无疑是一款引人注目的产品。 这款…

无法找到docker.sock

os环境:麒麟v10(申威) 问题描述: systemctl start docker 然后无法使用docker [rootnode2 ~]# systemctl restart docker [rootnode2 ~]# docker ps Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon r…

vue3使用下载附件功能

效果&#xff1a; 点击即可以下载打开。 代码&#xff1a; <div v-show"item.attachment.length > 0"><h3>下载附件</h3><divv-for"(doc, docIndex) in item.attachment":key"docIndex"><astyle"color: #41…

技术架构的演进-八大架构

目录&#xff1a; 常见概念评价指标单机架构应用数据分离架构应用服务集群架构读写分离 / 主从分离架构引入缓存 —— 冷热分离架构垂直分库业务拆分 —— 微服务容器化引入——容器编排架构总结 1.常见概念&#xff1a; 应用&#xff08;Application&#xff09; / 系统&am…

栈的压入、弹出序列

链接: 栈的压入、弹出序列 class Solution { public:/*** 代码中的类名、方法名、参数名已经指定&#xff0c;请勿修改&#xff0c;直接返回方法规定的值即可** * param pushV int整型vector * param popV int整型vector * return bool布尔型*/bool IsPopOrder(vector<int…

zeppelin的hive使用

zeppelin的hive使用 配置项 default.driver org.apache.hive.jdbc.HiveDriver default.url jdbc:hive2://192.168.xxx.xxx:10000 default.user hiveHive使用&#xff1a;点击create new note Default Interpreter选择hive

生命周期函数和wxs脚本

生命周期函数和wxs脚本 1. 生命周期函数1.1. 应用的生命周期函数1.2. 页面的生命周期函数 2. wxs脚本2.1. wxs与JavaScript的关系2.2. wxs内嵌脚本2.3. wxs外联脚本2.4. tips 1. 生命周期函数 1.1. 应用的生命周期函数 应用的生命周期函数&#xff1a;指小程序从启动 -> 运…

TCP编程流程和粘包

目录 1、TCP编程流程 2、粘包 1、TCP编程流程 socket() 是创建套接字&#xff0c;返回值为监听套接字描述符&#xff0c;有了套接字才能通过网络进行数据的传输。创建套接字的参数要指定服务类型&#xff0c;TCP协议使用的是流式服务&#xff08;SOCK_STREAM&#xff09;。 b…

数据库系统 - 家庭教育平台设计开发

目录 1.绪论 1.1项目背景 1.2家庭教育平台的发展现状与优势 1.2.1国内外发展现状 1.2.2家庭教育平台的优势 2.需求分析 2.1可行性分析 2.1.1经济可行性 2.1.2 技术可行性 2.1.3操作可行性 2.2系统功能 2.2.1 家庭教育资源 2.2.2 家庭教育指导师 2.2.3家庭教育咨询…

BUG解决Button类不能从UnityEngine.UI中引用

Button does not contain a definition for onClick and no accessible extension method onClick accepting a first argument of type Button could be found (are you missing a using directive or an assembly reference?) 一个非常奇葩的问题;突然!!!!! using UnityEn…

redis如何实现持久化

RDB快照 RDB是一种快照存储持久化方式&#xff0c;具体就是将Redis某一时刻的内存数据保存到硬盘的文件当中&#xff0c;默认保存的文件名为dump.rdb&#xff0c;而在Redis服务器启动时&#xff0c;会重新加载dump.rdb文件的数据到内存当中恢复数据。 开启RDB持久化方式 开启…