【ElasticSearch系列-03】ElasticSearch的高级句法查询Query DSL

ElasticSearch系列整体栏目


内容链接地址
【一】ElasticSearch下载和安装https://zhenghuisheng.blog.csdn.net/article/details/129260827
【二】ElasticSearch概念和基本操作https://blog.csdn.net/zhenghuishengq/article/details/134121631
【二】ElasticSearch的高级查询Query DSLhttps://blog.csdn.net/zhenghuishengq/article/details/134159587

ElasticSearch的高级句法查询Query DSL

  • 一,ElasticSearch高级查询语法Query DSL
    • 一,Query DSL的基本使用
      • 1.1,深分页查询Scroll
      • 1.2,match条件查询
      • 1.3,match_phrase短语查询
      • 1.4,multi_match多字段查询
      • 1.5,query_string 查询
      • 1.6,term精确匹配
      • 1.7,prefix前缀查询
      • 1.8,通配符查询wildcard
      • 1.9,范围查询range
      • 1.10,fuzzy模糊查询
      • 1.11,highlight查询
    • 2,Query DSL多条件查询(高级查询)
      • 2.1,Bool Query布尔查询
      • 2.2,Boosting Query权重查询
      • 2.3,Dis max query 最佳匹配
      • 2.4,Cross Field跨字段匹配

一,ElasticSearch高级查询语法Query DSL

前面两篇主要讲解了es的安装以及一些基本的概念,接下来这篇讲解的是es的高阶语法,QueryDSL。在这里主要是用ik分词器讲解,暂不使用默认的分词器。

一,Query DSL的基本使用

在安装了kibana之后,内部会有一个search的语句,用来查询数据

GET _search
{"query": {"match_all": {}}
}

其结果如下,默认是返回前10条数据,类似于做了分页,默认加了一个from0和一个size10,并且在es中,size默认是小于或者等于10000,如果超过这个值,就会直接抛异常

在这里插入图片描述

1.1,深分页查询Scroll

上面说了默认采用的是from加size的方式来解决分页数据返回的问题,但是size的数据是有大小的限制的,当然也可以通过以下命令来调节size的大小

PUT /zhs/_settings
{ "index.max_result_window" :"20000"
}

虽然这种方式可以暂时调节size大小,但是治标不治本,因为依旧是会存在限制,并且由于数据量太大,还可能将内存撑爆。因此后面引入了这种Scroll游标的方式来查询全量数据

GET /zhs_db/_search?scroll=1m   //1m表示查询时间窗口保持1分钟
{"query": {"match_all": {}},"size": 10		//批量查询10条数据
}

在将查询的值返回中可以看出,会生成一个_scroll_id,以及返回一些分片数,查询的总条数等

在这里插入图片描述

就是比如说第一次查询10条数据,随后记录最后一条数据的id,然后在这个时间窗口期内,携带这个id再去库中拉取后十条数据,往复如此。不管是关系系数据库还是非关系型数据库,其设计思想都是这样

拉取的数据会存储在快照里面,后面的操作都是操作这个快照中缓存的数据。因此为了保证性能问题,会牺牲一些精准度,因为后面写进来的数据不在这个快照里面。

1.2,match条件查询

在使用这个match之前,先创建一个索引,并设置分词器为ik分词器

DELETE /zhs_db
PUT /zhs_db		
{"settings" : {"index" : {"analysis.analyzer.default.type": "ik_max_word"}}
}

先插入几条数据,先用最基础的Put的方式插入五条数据


PUT /zhs_db/_doc/1
{
"address":"东岳泰山"
}
PUT /zhs_db/_doc/2
{
"address":"西岳华山"
}
PUT /zhs_db/_doc/3
{
"address":"南岳衡山"
}
PUT /zhs_db/_doc/4
{
"address":"北岳恒山"
}
PUT /zhs_db/_doc/5
{
"address":"中岳嵩山"
}

在确定要查询某一条数据时,可以先通过这个分词分析看看是如何进行分词的

POST _analyze
{"analyzer": "ik_max_word","text": "中岳嵩山"
}

那么可以直接通过这个match的方式批量查询数据

GET /zhs_db/_search
{"query": {"match": {"address": "中岳"}}
}

如果是要查询特定的某个值,可以直接再加一个operator属性,并且value设置成and,如果没有设置这个属性,那么默认值就是的or

GET /zhs_db/_search
{"query": {"match": {"address": {"query": "中岳嵩山","operator": "and"}}}
}

除了上面的operator之外,还可以使用 minimum_should_match ,用于最小分词匹配。就是说分词器默认分为中岳和嵩山两个,只需要满足其中一个就能被查出来

address:{"query":"中岳嵩山""minimum_should_match": 1
}

1.3,match_phrase短语查询

在使用这个短语查询时,需要通过分词器分析,判断两个词的下标是否连续

GET /zhs_db/_search
{"query": {"match_phrase": {"address": "中岳嵩山"}}
}

如通过这个ik分词器分析,可以得知这两个分开的词的position是连续的,分别为0和1,如果不连续,则不能将值查询出

在这里插入图片描述

当然为了解决这个间隔问题,可以直接通过设置 slop 属性来设置允许多少个空格进行匹配

address:{"query":"中岳嵩山""slop": 1
}

1.4,multi_match多字段查询

上面主要讲解的是单字段查询,但是在实际开发中一般都是多字段查询,其语句如下

GET /zhs_db/_search
{"query": {"multi_match": {"query": "中岳嵩山","fields": ["address","name"]}}
}

1.5,query_string 查询

queryString相当于是一个multi_match的一个综合版,如果没有指定具体的字段,则会在全字段中查询

GET /zhs_db/_search
{"query": {"query_string": {"query": "中岳"}}
}

可以设置默认的字段,也可以指定多个字段

"query_string": {//"default_field": "address","fields": ["name","address"],"query": "中岳"
}

1.6,term精确匹配

上面的match属于是模糊匹配,而使用精确匹配的,就是这个term。

在ES的Mapping Type 中 keyword , date ,integer, long , double , boolean or ip 这些类型不分词,只有text类型分词。因此term在对这些数据进行查询时,就是精确匹配

GET /zhs_db/_search
{"query": {"term": {"address": "中岳"}}
}

如果想要对全字段进行精确匹配,可以添加一个keyword 关键字

"address.keyword": "中岳嵩山"

在es中,查询会有算分操作,而算分操作会影响到性能问题,而精确匹配是不需要算分的,可以将query转成filter,从而忽略算分所带来的影响

"query":{"constant_score":{"filter":{}}
}

如果短时间内存在多次term的查询,那么就会将这部分数据缓存起来

1.7,prefix前缀查询

前缀查询就是查询以某个字段开头的数据,因此用不上底层的倒排字典,而是将所有的数据遍历一遍,将符合的数据返回。由于用不上倒排索引,因此对性能是有一定的影响的

PUT /zhs_db/_search
{"query":{"prefix":{"address":{"value":"嵩山"}}}
}

1.8,通配符查询wildcard

通配符查询就和这个前缀查询一样,都是利用不上这个倒排索引,而是将所有的数据遍历查询一遍,符合的数据返回。

GET /zhs_db/_search
{"query": {"wildcard": {"address": {"value": "*山*"}}}
}

1.9,范围查询range

可以直接通过这个range关键字实现范围查询,

  • gte 大于等于
  • lte 小于等于
  • gt 大于
  • lt 小于
  • now 当前时间
POST /zhs_db/_search
{"query": {"range": {"age": {"gte": 25,"lte": 28}}}
}

1.10,fuzzy模糊查询

fuzzy表示允许在打错字的情况下,将想要查询的数据查询出来。

GET /zhs_db/_search
{"query": {"fuzzy": {"address": {"value": "松山","fuzziness": 1    //表示允许错一个字}}}
}

除了使用上面这种方式,还能用match的方式实现这种错别字的模糊查询

GET /zhs_db/_search
{"query": {"match": {"address": {"query": "松山","fuzziness": 1}}}
}

1.11,highlight查询

就是将query查询出来的结果,通过highlight的方式实现高亮

GET /products/_search
{"query": {"term": {"name": {"value": "牛仔"}}},"highlight": {"fields": {"*":{}}}
}

2,Query DSL多条件查询(高级查询)

2.1,Bool Query布尔查询

在一个bool查询中,可以是一个或者多个查询字句的组合,字句总共有四种,分别是 must、should、must_not、filter,前两者使用时内部会进行算分的操作,后二者不会

must相当于是and操作,即所有几句中的查询条件都要满足。如下must中是一个数组,每个子查询中就是一个正常的query dsl查询,如必须满足中地址字段中带有公园,remark字段中带有北的数据

GET /zhs_db/_search
{"query": {"bool": {"must": [{"match": {"address": "公园"}},{"match": {"remark": "北"}}]}}
}

shouuld 表示的就是一个or的应用,表示只需要满足其中的一个查询字句就能将结果返回

GET /zhs_db/_search
{"query": {"bool": {"should": []}}
}

2.2,Boosting Query权重查询

权重查询是一种控制手段,通过设置boost权重的值来影响最终的查询结果,权重的设置如下

  • 当设置的boost大于1时,查询的的相关性会提高
  • 当设置的boost大于0而小于1时,查询的相关性会降低
  • 当设置的boost的值为负数时,贡献负分

举一个例子,查询一篇文章时,将会员的文章显示在普通用户文章的前面,如下面的代码,先创建一个文章索引,随后插入两条数据,一条是vip用户的,一条是普通用户的,文章标题一样

PUT /article_db
POST /article_db/_bulk
{"index": {"_id": "1"}}
{"title":"java入门","comment":"精通java","type":"vip"}
{"index": {"_id": "2"}}
{"title":"java入门","comment":"精通java","type":"ordinary"}

那么在查询时,想将vip用户的文章排在前面,就可以直接通过设置这个boost权重进行设置,将vip用户的权重值设置为大于1,这样在算分时,算的分值就更大

GET /article_db/_search
{"query": {"bool": {"should": [{"match": {"title": "java入门"}},{"match": {"type": {"query": "vip","boost": 3}}},{"match": {"type": {"query": "ordinary","boost": 1}}}]}}
}

如下图所示,vip的算分为2.6,而普通用户的算分在1.2。如果算分值一样,谁id小谁在前面

在这里插入图片描述

当然如果查询出了不需要的数据,优先考虑通过过滤去掉数据,再考虑降低其权重

2.3,Dis max query 最佳匹配

通过dis_max以及结合queries进行使用,并且可以通过设置这个tie_breaker来确人是最佳匹配,还是所有的字段的值同等重要

POST /article_db/_search
{"query": {"dis_max": {"queries": [{ "match": { "title": "java" }},{ "match": { "comment":  "java" }}],"tie_breaker": 0.5	//0代表使用最佳匹配;1代表所有语句同等重要。}}
}

但是在实际开发中,更加的推荐通过这个multi_match这个方式来实现这个最佳字段匹配,并且设置这个type类型为 best_fields

POST /article_db/_search
{"query": {"multi_match": {"type": "best_fields","query": "java","fields": ["title","comment"],"tie_breaker": 0.2	//0代表使用最佳匹配;1代表所有语句同等重要。}}
}

除了实现最佳匹配之外,multi_match还实现了最多字段匹配,就是将type的类型设置成 most_fields

GET /titles/_search
{"query": {"multi_match": {"query": "java,"type": "most_fields","fields": ["title","comment"]}}
}

2.4,Cross Field跨字段匹配

如在遇到某些场景,需要结合多个字段的值进行匹配,如省市区,在上面讲了一种copy_to的方式解决这种跨字段匹配的方式,也可以使用这个 Cross Field 实现多字段匹配

如先创建一个address_db的地址索引,随后批量的插入一些数据

PUT /address_db
PUT /address_db/_bulk
{ "index": { "_id": "1"} }
{"province": "广东","city": "深圳","region":"南山"}
{ "index": { "_id": "2"} }
{"province": "广东","city": "深圳","region":"福田"}
{ "index": { "_id": "3"} }
{"province": "广东","city": "深圳","region":"宝安"}
{ "index": { "_id": "4"} }
{"province": "广东","city": "深圳","region":"龙岗"}
}

随后通过这个multi_match多字段查询,并且设置type类型为 cross_fields

GET /address_db/_search
{"query": {"multi_match": {"query": "广东深圳宝安","type": "cross_fields","operator": "and", "fields": ["province","city","region"]}}
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/129757.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RAM和ROM的区别(详解)

RAM和ROM的区别 RAM(随机存取存储器)和ROM(只读存储器)都是计算机中常见的存储器类型,它们在计算机系统中有不同的作用和特性。 RAM(随机存取存储器): 作用: 用于临时存储…

网络架构学习之FCNVMB(基于U-Net架构)

目录 一、U-Net介绍 1.1 网络简单介绍 1.2 网络特点 二、FCNVMB介绍 2.1 文章简介 2.2 网络简单介绍 2.3 代码介绍 2.4 跳跃连接 2.5 训练过程 2.6 FCNVMB与InversionNet的比较 一、U-Net介绍 1.1 网络简单介绍 U-Net是基于全卷积网络下一个语义分割应用于生物医学的深…

面试算法54:所有大于或等于节点的值之和

题目 给定一棵二叉搜索树,请将它的每个节点的值替换成树中大于或等于该节点值的所有节点值之和。假设二叉搜索树中节点的值唯一。例如,输入如图8.10(a)所示的二叉搜索树,由于有两个节点的值大于或等于6(即…

小红书app拉新推广一手官签渠道 附地推网推项目攻略

小红书app拉新高价版本在”聚量推客“上架啦! 可以通过小红书申请后在”聚量推客“进行报备,审核通过后即可开始推广 简单易做,仅允许 地推 网推 校园 社群 私域量等推广方式推广,属于百搭项目

自动化测试和性能测试面试题精选

自动化测试相关 包含 Selenium、Appium 和接口测试。 1. 自动化代码中,用到了哪些设计模式? 单例模式工厂模式PO模式数据驱动模式 2. 什么是断言? 检查一个条件,如果它为真,就不做任何事,用例通过。如果…

uniapp写一个计算器用于记账(微信小程序,APP)

提要:自己用uniapp写了一个记账小程序(目前是小程序),写到计算器部分,在网上找了别人写的计算器,大多数逻辑都是最简单的,都不能满足一个记账计算器的基本逻辑。与其在网上找来找去,…

【扩散模型】不同组件搭积木,获得新模型

学习地址: https://github.com/huggingface/diffusion-models-class/tree/main/unit3 VAE The Tokenizer and Text Encoder UNet In-Painting 例如:基于contrlnet做的校徽转图片

视频会议系统方案报价

视频会议系统 报价方案是咨询视频会议系统价格用户所关注的,但是报价是一个比较细致的工作,需要从多维度进行对比。 1. 视频会议终端设备费用:根据所需设备的数量和所选设备价格确定。视频会议终端类型各异,摄像头、麦克风、显示设…

QT5.15.2搭建Android编译环境及使用模拟器调试(全)

一、安装QT5.15.2 地址:下载 我电脑的windows的,所以选windows 由于官方安装过程非常非常慢,一定要跟着步骤来安装,不然慢到怀疑人生 1)打开"命令提示符"(开始 -> Windows 系统 -> 命令…

清华大学利用可解释机器学习,优化光阳极催化剂,助力光解水制氢

水的太阳能光电化学 (PEC) 分解是将太阳能高效转换为氢能的方法,是一种很有前景的可再生能源生产方式。然而,受电极性质及电极缺陷的影响,PEC 反应的效率较低,需要合适的助催化剂辅助。而电解池、光电极和助催化剂组成的 PEC 系统…

windows server 2016调优

1. 增加TCP连接的最大数量: 在您当前的注册表路径(HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Tcpip\Parameters)中的右侧窗格,右击空白处,选择“新建” -> “DWORD (32位) 值”。为新的值命名为TcpNu…

thinkphp的路径参数(RESTFul风格),把参数写在路径里

thinkphp官方文档 https://www.kancloud.cn/manual/thinkphp5_1/353969 有一个Blog控制器,里面的read方法是固定的,不能该 route.php里添加如下代码,访问 blog对应的就是 android/blog Route::resource(blog,android/blog);然后访问路径

windows使用YOLOv8训练自己的模型(0基础保姆级教学)

目录 前言 一、使用labelimg制作数据集 1.1、下载labelimg 1.2、安装库并启动labelimg 1.4、制作YOLO数据集 二、使用YOLOv8训练模型 2.1、下载库——ultralytics (记得换源) 2.2、数据模板下载 2.3、开始训练 1、启动train.py,进行…

QT+SQLite数据库配置和使用

一、简介 1.1 SQLite(sql)是一款开源轻量级的数据库软件,不需要server,可以集成在其他软件中,非常适合嵌入式系统。Qt5以上版本可以直接使用SQLite(Qt自带驱动)。 二、下载和配置 2.1 SQLite下载…

GitLab(2)——Docker方式安装Gitlab

目录 一、前言 二、安装Gitlab 1. 搜索gitlab-ce镜像 2. 下载镜像 3. 查看镜像 4. 提前创建挂载数据卷 5. 运行镜像 三、配置Gitlab文件 1. 配置容器中的/etc/gitlab/gitlab.rb文件 2. 重启容器 3. 登录Gitalb ① 查看初始root用户的密码 ② 访问gitlab地址&#…

微信小程序-form表单-获取用户输入文本框的值

微信小程序-form表单-获取用户输入文本框的值 data: {userName: ,userPwd:""},//获取用户输入的用户名 userNameInput:function(e) {this.setData({userName: e.detail.value}) }, passWdInput:function(e) {this.setData({userPwd: e.detail.value}) }, //获取用户输…

Java后端开发——JDBC组件

JDBC(Java Database Connectivity)是Java SE平台的一种标准API,它提供了一种标准的方法来访问关系型数据库,使得Java程序能够与各种不同的数据库进行交互,这篇文章我们来进行实验体验一下。 自定义JDBC连接工具类 1.编…

【IDEA使用maven package时,出现依赖不存在以及无法从仓库获取本地依赖的问题】

Install Parent project C:\Users\lxh\.jdks\corretto-1.8.0_362\bin\java.exe -Dmaven.multiModuleProjectDirectoryD:\学习\projectFile\study\study_example_service "-Dmaven.homeD:\Program Files\JetBrains\IntelliJ IDEA2021\plugins\maven\lib\maven3" "…

操作系统的线程模型

操作系统的线程调度有几个重要的概念: 调度器(Thread Scheduler):内核通过操纵调度器对内核线程进行调度,并负责将线程的任务映射到各个处理器上内核线程(Kernel Level Thread):简称…

【GitLab CI/CD、SpringBoot、Docker】GitLab CI/CD 部署SpringBoot应用,部署方式Docker

介绍 本文件主要介绍如何将SpringBoot应用使用Docker方式部署,并用Gitlab CI/CD进行构建和部署。 环境准备 已安装Gitlab仓库已安装Gitlab Runner,并已注册到Gitlab和已实现基础的CI/CD使用创建Docker Hub仓库,教程中使用的是阿里云的Docker…