Elasticsearch 相似度评分模型介绍

前言

Elasticsearch 是基于 Lucene 的世界范围内最流行的全文检索框架,其文档相似度算法包含 TF/IDF 和 BM25,从 ES 5.0开始 BM25 算法已经成为 ES 默认的相似度评分模块。

TF-IDF 与 BM25 的区别

TF-IDF 和 BM25 都是计算文本相似性的常用算法。TF-IDF 的计算方法简单,计算复杂度低,但对高频词不敏感,参数难以调节。BM25 是在 TF-IDF 的基础上进行改进的,它考虑了文档的长度和查询词在文档中出现的次数,在大多数情况下都能够产生比 TF-IDF 更准确的相关性评分

TF-IDF 和 BM25 的主要区别在于计算方法的不同。TF-IDF 的计算方法为:

TF-IDF(t,d) = TF(t,d) * IDF(t)

其中:

  • TF(t,d) 表示词 t 在文档 d 中的词频
  • IDF(t) 表示词 t 的逆文档频率

BM25 的计算方法为:

BM25(t,d) = (k1 + 1) * TF(t,d) / (k1 * (1 - b + b * df / docLength) + TF(t,d))

其中:

  • k1 是控制词频对权重的贡献的参数
  • b 是控制逆文档频率对权重的贡献的参数
  • d 是控制文档长度对权重的贡献的参数

TF-IDF 和 BM25 的区别主要体现在以下几个方面:

  • 参数数量:TF-IDF 只需要一个参数,即逆文档频率。BM25 需要三个参数,即 k1、b 和 d,可以根据实际需求进行调节,以提高相关性评分的准确性
  • 计算复杂度:TF-IDF 的计算复杂度为 O(n),其中 n 是文档中的词数。BM25 的计算复杂度与 TF-IDF 相当,即 O(n)。
  • 相关性评分:BM25 在大多数情况下都能够产生比 TF-IDF 更准确的相关性评分。
评分在查询业务场景中的应用

在实际业务中,有关查询场景的评分可以分为如下四类:

不关注评分

这类场景下,纯粹把 ES 当作检索库使用,不关注相似度评分,那么可以使用 constant query 或者使用 bool query 中的 filter 来进行过滤即可,这样可以提高检索性能

默认评分

默认评分,也就是框架默认评分。这类场景下,仅使用最简单的查询方式,比如 查询 name:"tom",并没有人为额外干预评分的机制,仅靠默认的评分算法的得到 rank 列表 ,做为检索结果

业务评分 + 框架评分

此种场景下比较常见,比如查询 name:"tom"^10 name:"cat"^5, 或者更加复杂的结合通过 Function Score Query 来完成更加复杂的业务

仅业务评分

这种场景下,一般在推荐业务中比较常见,其完全忽略框架的评分策略,而采纳业务方或者产品方定义的评分规则,实现起来一般比较复杂,看一个例子:

GET /pi_ent_work/_search
{"query": {"function_score": {"query": {"bool": {"must": [{"query_string": {"boost": 0, # 注意此处禁用框架评分"query": "prov:(33 OR 36)"}}], "must_not": [{"terms": {"id": ["123"]}}], "filter": [{"term": {"count": {"value": "1"}}}]}}, "score_mode": "sum", "boost_mode": "replace", "functions": [{"script_score": {"script": {"lang": "expression", # 完全采用自定义评分并与数据中的某个字段关联"source": " _score*0.8 + doc['custom_score'].value*0.4"}}}, {"weight": 6, "filter": {"query_string": {"query": "prov:(33 OR 36)"}}}, {"weight": 4, "filter": {"query_string": {"query": " product_id:112900 "}}}, {"weight": 2, "filter": {"query_string": {"query": "price:[* TO 3]"}}}]}}, "size": 100, "_source": {"includes": ["id","_score","prov","product_id","custom_score","count"]}
}

上面的例子完全忽略了框架评分,而全部采用自己指定的规则评分,在 ES 中可以结合 Function Score Query来实现

总结

在实际工作中,搜索和推荐业务会比较依赖全文检索框架,很多情况下框架的默认的评分机制并不能很好的满足我们的需求,所以需要结合一些自定义评分策略来完善我们的 rank 效果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/183525.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ESP32-S3 上电不断输出invalid header: 0xffffffff

现象如下: ESP-ROM:esp32s3-20210327 Build:Mar 27 2021 rst:0x1 (POWERON),boot:0x8 (SPI_FAST_FLASH_BOOT) invalid header: 0xffffffff invalid header: 0xffffffff invalid header: 0xffffffff invalid header: 0xffffffff 原因:芯片内部固件问题…

统计英语单词

使用Scanner类和正则表达式统计一篇英文中的单词,要求如下: 1、一共出现了多少个单词。 2、有多少个互不相同的单词。 3、按单词出现的频率大小输出单词。 package 第七次; import java.util.*; import java.io.*; import java.util.regex.*;public …

人工智能助力医疗:科技护航健康未来

欢迎大家浏览我的博客。YinKais Blog | YinKais Blog 人工智能的魔法不仅仅体现在解决问题、提供建议的方面,更深刻地改变了医疗领域,成为我们健康的科技守护者。本文将聚焦于人工智能在医疗领域的应用,探讨它是如何助力医疗事业,…

重生奇迹mu召唤师攻略

一、技能系统 1、技能大类:召唤师主要有火焰职业技能和水元素技能。 2、火焰职业技能:主要是使用火焰元素进行攻击,可以攻击单个目标,也可以同时攻击多个目标。 3、水元素技能:主要是对多个敌方单位使用水元素&…

在 Spring Boot 中使用 MyBatis-Plus 进行批量操作数据

引言 MyBatis-Plus 是 MyBatis 的增强工具包,提供了许多便捷的功能来简化 MyBatis 的使用。在实际项目中,我们经常需要进行批量的数据操作,例如批量插入、批量更新和批量删除。本文将介绍如何在 Spring Boot 中使用 MyBatis-Plus 进行这些批…

ZFPlayer 播放视频的时候的视图层级

未播放的时候 首先看正常展示的时候,还没又开始播放 这个时候我们打开图层看一下,发现视频时长和播放按钮都是放在 视频封面图上的 播放的时候 我们看到的播放视频的画面 我们发现,我们之前在未播放状态看到的视图,仍然还在…

Linux入门

什么是Linux? Linux是一种免费、开源的操作系统内核 最初由芬兰计算机科学家 李纳斯托瓦兹 (Linus Torvalds)在1991年创建 Linux内核最初是为个人电脑设计的,如今已普及到服务器、超级计算机、移动设备等各种硬件平台 由于Linux是自由软件(自…

logcat日志的使用——Qt For Android

前言 最近一直用qt开发安卓app,一直无法用真机调试,可能是缺什么东西。但是如果通过Qt Creator在真机上运行,可以在电脑控制台看打印(安卓本身的日志、qDebug之类的打印),所以我是通过打印猜测问题所在&am…

在零信任架构下的API安全与滥用防护(上)

引言 在当今数字化的浪潮中,应用程序编程接口(API)的战略重要性愈发凸显。API不仅仅是现代软件和互联网服务之间沟通的桥梁,更是企业价值创造的核心。随着API的快速发展和广泛应用,安全问题随之而来,其中A…

连锁零售企业如何提高异地组网的稳定性?

随着数字化时代的到来,连锁零售企业面临着日益复杂和多样化的网络挑战。连锁零售企业是在不同地理位置拥有分支机构和零售店,可能同城或异地,需要确保各个地点之间的网络连接稳定和可靠。但由于不同地区的网络基础设施差异、网络延迟和带宽限…

【洛谷算法题】P5716-月份天数【入门2分支结构】

👨‍💻博客主页:花无缺 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 本文由 花无缺 原创 收录于专栏 【洛谷算法题】 文章目录 【洛谷算法题】P5716-月份天数【入门2分支结构】🌏题目描述🌏输入格式&a…

云时空社会化商业 ERP 系统 gpy 文件上传漏洞复现

0x01 产品简介 时空云社会化商业ERP(简称时空云ERP) ,该产品采用JAVA语言和Oracle数据库, 融合用友软件的先进管理理念,汇集各医药企业特色管理需求,通过规范各个流通环节从而提高企业竞争力、降低人员成本…

Springboot 设置时区与日期格式

1.配置文件修改(范围修改) spring:jackson:# 东8 北京时区time-zone: GMT8# 日期格式date-format: yyyy-MM-dd HH:mm:ss 2.Java代码修改(范围修改) 2.1 时区 import org.springframework.context.annotation.Bean; import org.…

Day45力扣打卡

打卡记录 无矛盾的最佳球队(线性DP) class Solution:def bestTeamScore(self, scores: List[int], ages: List[int]) -> int:n len(scores) nums sorted(zip(scores, ages))f sorted(scores)for i in range(n):for j in range(0, i):if nu…

【学习笔记】GAN前沿主题

最小-最大(Min-Max)GAN 非饱和(Non-Saturating)GAN 沃瑟斯坦(Wasserstein)GAN,即WGAN 所有的生成模型最终来源于最大似然(maximum likelihood),至少隐式地是这样的。 GAN有两个相互竞争的损失函数,这样的系统没有单一的解析解。 最大似然近似容易过度泛化。 用于统计…

CSP-S2021提高组第二轮T2:括号序列

题目链接 [CSP-S 2021] 括号序列 题目描述 小 w 在赛场上遇到了这样一个题:一个长度为 n n n 且符合规范的括号序列,其有些位置已经确定了,有些位置尚未确定,求这样的括号序列一共有多少个。 身经百战的小 w 当然一眼就秒了这…

无人机覆盖路径规划综述

摘要:覆盖路径规划包括找到覆盖某个目标区域的每个点的路线。近年来,无人机已被应用于涉及地形覆盖的多个应用领域,如监视、智能农业、摄影测量、灾害管理、民事安全和野火跟踪等。本文旨在探索和分析文献中与覆盖路径规划问题中使用的不同方…

好用的chatgpt工具用过这个比较快

chatgpthttps://www.askchat.ai?r237422 chatGPT能做什么 1. 对话和聊天:我可以与您进行对话和聊天,回答您的问题、提供信息和建议。 2. 问题回答:无论是关于事实、历史、科学、文化、地理还是其他领域的问题,我都可以尽力回答…

php时间和centos时间不一致

PHP 时间和 CentOS 操作系统时间不一致的问题通常是由于时区设置不同造成的。解决这个问题可以通过以下几个步骤: 检查 CentOS 系统时间: 你可以通过在终端运行命令 date 来查看当前的系统时间和时区。 配置 CentOS 的时区: 如果系统时间不正…

关于前端学习的思考-内边距、边框和外边距

从最简单的盒子开始思考 先把实际应用摆出来: margin:居中,控制边距。 padding:控制边距。 border:制作三角形。 盒子分为内容盒子,内边距盒子,边框和外边距。 如果想让块级元素居中&#…