Elasticsearch 全文检索 分词检索-Elasticsearch文章四

文章目录

  • 官方文档地址
  • refercence文档
  • 全文搜索体系
  • match
    • 简单查询
    • match 多词/分词
    • 单字段分词
    • match多个词的逻辑
    • 控制match的匹配精度
    • match_pharse_prefix分词前缀方式
    • match_bool_prefix
    • multi_match多字段匹配
  • query string类型
  • Interval类型
  • DSL查询之Term详解
  • 聚合查询之Bucket聚合详解
  • 聚合查询之Metric聚合详解
  • 聚合查询之Pipline聚合详解
  • 其他
  • 外传

官方文档地址

https://www.elastic.co/guide/en/enterprise-search/current/start.html

refercence文档

https://www.elastic.co/guide/en/elasticsearch/reference/7.17/query-dsl-match-query.html

全文搜索体系

Full text Query中,我们只需要把如下的那么多点分为3大类,你的体系能力会大大提升

在这里插入图片描述

很多api都可以查得到,我们只要大概知道有支持哪些功能

在这里插入图片描述

match

简单查询

GET visit_log/_search
{"query": { "match": {"serverHostName": "wei"}},"sort": [{ "_id": "asc" }],"from": 0,"size": 10
}

Elasticsearch 执行上面这个 match 查询的步骤是:
1. 检查字段类型 。
标题 title 字段是一个 string 类型( analyzed )已分析的全文字段,这意味着查询字符串本身也应该被分析。
1. 分析查询字符串 。
将查询的字符串 wei cui传入标准分析器中,输出的结果是单个项 wei。因为只有一个单词项,所以 match 查询执行的是单个底层 term 查询。
1. 查找匹配文档 。
用 term 查询在倒排索引中查找 wei然后获取一组包含该项的文档,本例的结果是文档:1、2 和 3 。
1. 为每个文档评分 。
用 term 查询计算每个文档相关度评分 _score ,这是种将词频(term frequency,即词 quick 在相关文档的 title 字段中出现的频率)和反向文档频率(inverse document frequency,即词 quick 在所有文档的 title 字段中出现的频率),以及字段的长度(即字段越短相关度越高)相结合的计算方式。

查询结果:

{"took" : 1,"timed_out" : false,"_shards" : {"total" : 1,"successful" : 1,"skipped" : 0,"failed" : 0},"hits" : {"total" : {"value" : 1,"relation" : "eq"},"max_score" : null,"hits" : [{"_index" : "visit_log","_type" : "_doc","_id" : "nUL9rokBpGsmR0pP0VSc","_score" : null,"_source" : {"_class" : "org.lwd.microservice.boot.es.entity.VisitLog","id" : 7,"tableName" : "VisitLog","userLoginId" : 3,"serverIpAddress" : "127.0.0.1","serverHostName" : "liu wei","initialRequest" : "http://localhost:8023","msgContent" : "test es add7","createTime" : 1690446876000},"sort" : ["nUL9rokBpGsmR0pP0VSc"]}]}
}

match 多词/分词

单字段分词

查询字段包含wei cui两个词

GET visit_log/_search
{"query": { "match": {"serverHostName": "wei cui"}},"sort": [{ "_id": "asc" }],"from": 0,"size": 10
}

结果:

{"took" : 1,"timed_out" : false,"_shards" : {"total" : 1,"successful" : 1,"skipped" : 0,"failed" : 0},"hits" : {"total" : {"value" : 2,"relation" : "eq"},"max_score" : null,"hits" : [{"_index" : "visit_log","_type" : "_doc","_id" : "TEL9rokBpGsmR0pPXFMo","_score" : null,"_source" : {"_class" : "org.lwd.microservice.boot.es.entity.VisitLog","id" : 5,"tableName" : "VisitLog","userLoginId" : 3,"serverIpAddress" : "127.0.0.1","serverHostName" : "wang cui","initialRequest" : "http://localhost:8023","msgContent" : "test es add6","createTime" : 1690446876000},"sort" : ["TEL9rokBpGsmR0pPXFMo"]},{"_index" : "visit_log","_type" : "_doc","_id" : "nUL9rokBpGsmR0pP0VSc","_score" : null,"_source" : {"_class" : "org.lwd.microservice.boot.es.entity.VisitLog","id" : 7,"tableName" : "VisitLog","userLoginId" : 3,"serverIpAddress" : "127.0.0.1","serverHostName" : "liu wei","initialRequest" : "http://localhost:8023","msgContent" : "test es add7","createTime" : 1690446876000},"sort" : ["nUL9rokBpGsmR0pP0VSc"]}]}
}

因为 match 查询必须查找两个词( [“liu”,“wei”] ),它在内部实际上先执行两次 term 查询,然后将两次查询的结果合并作为最终结果输出。为了做到这点,它将两个 term 查询包入一个 bool 查询中,
所以上述查询的结果,和如下语句查询结果是等同的

GET /visit_log/_search
{"query": {"bool": {"should": [{"term": {"serverHostName": "liu"}},{"term": {"serverHostName": "cui"}}]}}
}

match多个词的逻辑

上面等同于should(任意一个满足),是因为 match还有一个operator参数,默认是or, 所以对应的是should。

GET /visit_log/_search
{"query": {"match": {"serverHostName": {"query": "wang cui","operator": "or"}}}
}

多字段分词

GET /visit_log/_search
{"query": {"bool": {"should": [{ "match": { "serverHostName": "cui wei" }},{ "match": { "msgContent": "add3 add4" }}]}}
}

控制match的匹配精度

如果用户给定 3 个查询词,想查找至少包含其中 2 个的文档,该如何处理?将 operator 操作符参数设置成 and 或者 or 都是不合适的。
match 查询支持 minimum_should_match 最小匹配参数,这让我们可以指定必须匹配的词项数用来表示一个文档是否相关。我们可以将其设置为某个具体数字,更常用的做法是将其设置为一个百分数,因为我们无法控制用户搜索时输入的单词数量:

GET /visit_log/_search
{"query": {"match": {"serverHostName": {"query": "wang cui wangcui","minimum_should_match": "75%"}}}
}

当然也等同于

GET /visit_log/_search
{"query": {"bool": {"should": [{ "match": { "serverHostName": "wang" }},{ "match": { "serverHostName": "cui"   }},{ "match": { "serverHostName": "wangcui"   }}],"minimum_should_match": 2 }}
}

match_pharse_prefix分词前缀方式

那有没有可以查询出quick brown f的方式呢?ELasticSearch在match_phrase基础上提供了一种可以查最后一个词项是前缀的方法,这样就可以查询test es a了

GET /visit_log/_search
{"query": {"match_phrase_prefix": {"msgContent": {"query": "test es a"}}}
}

(ps: prefix的意思不是整个text的开始匹配,而是最后一个词项满足term的prefix查询而已)

match_bool_prefix

GET /visit_log/_search
{"query": {"match_bool_prefix": {"msgContent": {"query": "es test a"}}}
}

所以这样你就能理解,match_bool_prefix查询中的quick,brown,f是无序的。

multi_match多字段匹配

GET /visit_log/_search
{"query": {"multi_match" : {"query":    "add7 wang","fields": [ "msgContent", "*HostName" ] }}
}

结果:

{"took" : 1,"timed_out" : false,"_shards" : {"total" : 1,"successful" : 1,"skipped" : 0,"failed" : 0},"hits" : {"total" : {"value" : 3,"relation" : "eq"},"max_score" : 1.7917595,"hits" : [{"_index" : "visit_log","_type" : "_doc","_id" : "nUL9rokBpGsmR0pP0VSc","_score" : 1.7917595,"_source" : {"_class" : "org.lwd.microservice.boot.es.entity.VisitLog","id" : 7,"tableName" : "VisitLog","userLoginId" : 3,"serverIpAddress" : "127.0.0.1","serverHostName" : "liu wei","initialRequest" : "http://localhost:8023","msgContent" : "test es add7","createTime" : 1690446876000}},{"_index" : "visit_log","_type" : "_doc","_id" : "TEL9rokBpGsmR0pPXFMo","_score" : 1.0800905,"_source" : {"_class" : "org.lwd.microservice.boot.es.entity.VisitLog","id" : 5,"tableName" : "VisitLog","userLoginId" : 3,"serverIpAddress" : "127.0.0.1","serverHostName" : "wang cui","initialRequest" : "http://localhost:8023","msgContent" : "test es add6","createTime" : 1690446876000}},{"_index" : "visit_log","_type" : "_doc","_id" : "6UL9rokBpGsmR0pPjVOS","_score" : 1.0800905,"_source" : {"_class" : "org.lwd.microservice.boot.es.entity.VisitLog","id" : 6,"tableName" : "VisitLog","userLoginId" : 3,"serverIpAddress" : "127.0.0.1","serverHostName" : "wang ting","initialRequest" : "http://localhost:8023","msgContent" : "test es add6","createTime" : 1690446876000}}]}
}

*表示前缀匹配字段。

query string类型

此查询使用语法根据运算符(例如AND或)来解析和拆分提供的查询字符串NOT。然后查询在返回匹配的文档之前独立分析每个拆分的文本。
可以使用该query_string查询创建一个复杂的搜索,其中包括通配符,跨多个字段的搜索等等。尽管用途广泛,但查询是严格的,如果查询字符串包含任何无效语法,则返回错误。
例如:


GET /visit_log/_search
{"query": {"query_string": {"query": "(wangcui) OR (add6)","fields": [ "msgContent", "*HostName" ] }}
}

Interval类型

Intervals是时间间隔的意思,本质上将多个规则按照顺序匹配。


GET /visit_log/_search
{"query": {"intervals" : {"msgContent" : {"all_of" : {"ordered" : true,"intervals" : [{"match" : {"query" : "liu","max_gaps" : 0,"ordered" : true}},{"any_of" : {"intervals" : [{ "match" : { "query" : "es" } },{ "match" : { "query" : "add6" } }]}}]}}}}
}

因为interval之间是可以组合的,所以它可以表现的很复杂

DSL查询之Term详解

自行查官方文档,有可能后边会出详解

聚合查询之Bucket聚合详解

自行查官方文档,有可能后边会出详解

聚合查询之Metric聚合详解

自行查官方文档,有可能后边会出详解

聚合查询之Pipline聚合详解

自行查官方文档,有可能后边会出详解

其他

外传

😜 原创不易,如若本文能够帮助到您的同学
🎉 支持我:关注我+点赞👍+收藏⭐️
📝 留言:探讨问题,看到立马回复
💬 格言:己所不欲勿施于人 扬帆起航、游历人生、永不言弃!🔥

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/19625.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

图论-简明导读

计算机图论是计算机科学中的一个重要分支,它主要研究图的性质和结构,以及如何在计算机上有效地存储、处理和操作这些图。本文将总结计算机图论的核心知识点。 一、基本概念 计算机图论中的基本概念包括图、节点、边等。图是由节点和边构成的数据结构&am…

P3373 【模板】线段树 2

题目 思路 作为线段树模板题&#xff0c;这题主要考查了对lazytag以及先乘后加的使用&#xff0c; 线段树详解 因为是模板&#xff0c;所以这里证明略 代码 #include<bits/stdc.h> using namespace std; #define int long long const int maxn1e55; int n,m,p; int a[…

汽车后视镜反射率测定仪

汽车后视镜位于汽车头部的左右两侧&#xff0c;顶部以及汽车内部的前方。汽车后视镜反映汽车正后方视野、两侧视野和汽车前端区域视野&#xff0c;以便驾驶员可以间接看清楚这些位置的情况&#xff0c;它起着“第二只眼睛”的作用&#xff0c;扩大了驾驶者的视野范围&#xff0…

华为数通HCIA-ARP(地址解析协议)详细解析

地址解析协议 (ARP) ARP &#xff08;Address Resolution Protocol&#xff09;地址解析协议&#xff1a; 根据已知的IP地址解析获得其对应的MAC地址。 ARP&#xff08;Address Resolution Protocol&#xff0c;地址解析协议&#xff09;是根据IP地址获取数据链路层地址的一个…

【Ubuntu 18.04 搭建 DHCP 服务】

参考Ubuntu官方文档&#xff1a;https://ubuntu.com/server/docs/how-to-install-and-configure-isc-dhcp-server dhcpd.conf 手册页 配置&#xff1a;https://maas.io/docs/about-dhcp 实验环境规划 Ubuntu 18.04&#xff08;172.16.65.128/24&#xff09;dhcp服务端Ubuntu…

微信小程序使用editor富文本编辑器 以及回显 全屏弹窗的模式

<!--富文本接收的位置--><view class"white-box"><view class"title"><view class"yellow-fence"></view><view class"v1">教研记录</view></view><view class"add-btn"…

从零开始学python(十二)如何成为一名优秀的爬虫工程师

前言 回顾之前讲述了python语法编程 必修入门基础和网络编程&#xff0c;多线程/多进程/协程等方面的内容&#xff0c;后续讲到了数据库编程篇MySQL&#xff0c;Redis&#xff0c;MongoDB篇&#xff0c;和机器学习&#xff0c;全栈开发&#xff0c;数据分析前面没看的也不用往…

SonarQube入门 - 搭建本地环境

一、SonarQube是什么&#xff1f; SonarQube是一种自我管理的自动代码审查工具&#xff0c;可以系统地帮助您交付干净的代码。作为我们Sonar 解决方案的核心元素 &#xff0c;SonarQube 集成到您现有的工作流程中并检测代码中的问题&#xff0c;以帮助您对项目执行持续的代码检…

Meta-Transformer 多模态学习的统一框架

Meta-Transformer是一个用于多模态学习的新框架&#xff0c;用来处理和关联来自多种模态的信息&#xff0c;如自然语言、图像、点云、音频、视频、时间序列和表格数据&#xff0c;虽然各种数据之间存在固有的差距&#xff0c;但是Meta-Transformer利用冻结编码器从共享标记空间…

Linux lvs负载均衡

LVS 介绍&#xff1a; Linux Virtual Server&#xff08;LVS&#xff09;是一个基于Linux内核的开源软件项目&#xff0c;用于构建高性能、高可用性的服务器群集。LVS通过将客户端请求分发到一组后端服务器上的不同节点来实现负载均衡&#xff0c;从而提高系统的可扩展性和可…

01-1 搭建 pytorch 虚拟环境

pytorch 管网&#xff1a;PyTorch 一 进入 Anaconda 二 创建虚拟环境 conda create -n pytorch python3.9注意要注意断 VPN切换镜像&#xff1a; 移除原来的镜像 # 查看当前配置 conda config --show channels conda config --show-sources# 移除之前的镜像 conda config --…

量化:numpy基础

文章目录 ndarray创建array创建顺序数组改变数据类型nan筛选元素去重重塑 ndarray numpy最重要的一个特点是其N维数组对象ndarry&#xff0c;它是一系列同类型数据的集合 创建array ndarry的创建方式如下&#xff1a; numpy.array(object, dtype None, copy True, order …

c语言——计算两个正整数的最大公倍数

//计算两个正整数的最大公倍数 //例如40和60的最大公约数为20. //计算两个正整数的最大公倍数 //例如40和60的最大公约数为20. #include<stdio.h> int main() {int a,b,temp,i;printf("Input a & b:");scanf("%d%d",&a,&b);if(a<b){…

Go -- 测试 and 项目实战

没有后端基础&#xff0c;学起来真是费劲&#xff0c;所以打算速刷一下&#xff0c;代码跟着敲一遍&#xff0c;有个印象&#xff0c;大项目肯定也做不了了&#xff0c;先把该学的学了&#xff0c;有空就跟点单体项目&#xff0c;还有该看的书.... 目录 &#x1f34c;单元测试…

从Spring的角度看Memcached和Redis及操作

目录 Memcached和Redis的区别 适用场景 Memcached配置使用 Redis配置使用 在SpringBoot的框架里&#xff0c;有直连Redis的SDK却没有Memcached的&#xff0c;可见相比地位。不过各有各的适应场景&#xff0c;Redis这个单线程模型确实非常强。 Memcached和Redis的区别 共同…

redis的数据类型及操作

三、redis的数据类型 String字符串 set、get mset setex setnx 会检测键值对存不存在&#xff0c;如果存在不发生变化&#xff0c;如果存在则增加键值对 只增加 而set会覆盖原来的值 增加、修改 setrange 有下标则替换&#xff0c;没有则添加 getrange 获取全…

剑指 Offer 54. ! 二叉搜索树的第k大节点 (考察二叉树的中序遍历)

剑指 Offer 54. 二叉搜索树的第k大节点 给定一棵二叉搜索树&#xff0c;请找出其中第 k 大的节点的值。 我的思路是&#xff1a;用一个全局arrayList不断收集“逆向”中序遍历该搜索二叉树所需要的答案 class Solution {int res, k;public int kthLargest(TreeNode root, int …

为Stable Diffusion web UI开发自己的插件实战

最近&#xff0c;Stable Diffusion AI绘画受到了广泛的关注和热捧。它的Web UI提供了了一系列强大的功能&#xff0c;其中特别值得一提的是对插件的支持&#xff0c;尤其是Controlnet插件的加持&#xff0c;让它的受欢迎程度不断攀升。那么&#xff0c;如果你有出色的创意&…

GLM模型介绍

paper: 《GLM: General Language Model Pretraining with Autoregressive Blank Infilling》 摘要&#xff1a; 我们提出了一个基于自回归空白填充的通用语言模型&#xff08;GLM&#xff09;来解决这一挑战。GLM通过添加2D位置编码和允许任意顺序预测跨度来改进空白填充预训…

机器学习笔记之优化算法(四)线搜索方法(步长角度;非精确搜索)

机器学习笔记之优化算法——线搜索方法[步长角度&#xff0c;非精确搜索] 引言回顾&#xff1a;精确搜索步长及其弊端非精确搜索近似求解最优步长的条件反例论述 引言 上一节介绍了从精确搜索的步长角度观察了线搜索方法&#xff0c;本节将从非精确搜索的步长角度重新观察线搜…