SpringCloud(十)——ElasticSearch简单了解(二)DSL查询语句及RestClient查询文档

文章目录

  • 1. DSL查询文档
    • 1.1 DSL查询分类
    • 1.2 全文检索查询
    • 1.3 精确查询
    • 1.4 地理查询
    • 1.5 查询算分
    • 1.6 布尔查询
    • 1.7 结果排序
    • 1.8 分页查询
    • 1.9 高亮显示
  • 2. RestClient查询文档
    • 2.1 查询全部
    • 2.2 其他查询语句
    • 2.3 排序和分页
    • 2.4 高亮显示

1. DSL查询文档

1.1 DSL查询分类

  • 查询所有:查询出所有数据,一般测试用。例如:match_all
  • 全文检索查询:利用分词器对用户输入内容分词,然后去倒排索引库中匹配。例如:
    • match_query
    • multi_match_query
  • 精确查询:根据精确词条值查找数据,一般是查找keyword、数值、日期、boolean等类型字段。例如:
    • ids
    • range
    • term
  • 地理查询:根据经纬度查询。例如:
    • geo_distance
    • geo_bounding_box
  • 复合查询:复合查询可以将上述各种查询条件组合起来,合并查询条件。例如:
    • bool
    • function_score

下面我们以一个基本的查询语句来举例,比如,我们需要查询索引库 hotel 全部内容,使用的DSL语句如下:

GET /hotel/_search
{"query": {"match_all": {}}
}

1.2 全文检索查询

全文检索常用的有两个查询函数,分别是 match 以及 multi_match

  • match 函数会对用户输入内容分词,然后去倒排索引库检索,语法如下:
    GET /indexName/_search
    {"query": {"match": {"FIELD": "TEXT"}}
    }
    
    比如搜索 hotel 索引库中的 name 字段,如下:
    GET /hotel/_search
    {"query": {"match": {"name": "酒店"}}
    }
    
  • multi_match 函数与 match 类似,不过允许查询多个字段,语法如下:
    GET /indexName/_search
    {"query": {"multi_match": {"query": "TEXT","fields": ["FIELD1", " FIELD2"]}}
    }
    
    比如搜索 hotel 索引库中的 name 字段,如下:
    GET /hotel/_search
    {"query": {"multi_match": {"query": "如家","fields": ["name", " brand"]}}
    }
    

1.3 精确查询

精确查询的语句函数主要有 term 语句和 range 语句,精确查询必须要查询的内容与字段里面的所有内容完全匹配才行,一般的查询是keyword、数值、日期、boolean等类型字段。

  • term 的语法如下:
    GET /indexName/_search
    {"query": {"term": {"FIELD": {"value": "VALUE"}}}
    }
    
  • range 查询的语法如下:
    GET /indexName/_search
    {"query": {"range": {"FIELD": {"gte": 10,"lte": 20}}}
    }
    
    其中 gt 是大于,lt 是小于,gte 是大于等于,lte 是小于等于。

1.4 地理查询

地理查询主要是根据经纬度来进行查询的,主要使用的函数有 geo_bounding_boxgeo_distance

  • geo_bounding_box 函数的语法如下:
    GET /indexName/_search
    {"query": {"geo_bounding_box": {"FIELD": {"top_left": {"lat": 31.1,"lon": 121.5},"bottom_right": {"lat": 30.9,"lon": 121.7}}}}
    }
    
    该函数能够将在一个矩阵框中的经纬度全部筛选出来,该矩阵的左上角的点以及右下角的点如上述定义所示,根据这两个点已经就能够定义一个矩形了,。
  • geo_distance 函数的语法如下:
    GET /indexName/_search
    {"query": {"geo_distance": {"distance": "15km","FIELD": "31.21,121.5"}}
    }
    
    该函数是筛选距离定义经纬度点指定距离内的所有点,这个距离指的是距定义点方圆的距离。

1.5 查询算分

在使用关键词等进行查询的时候,会有一个 _score 属性,这就是每条数据与查询关键词的相关性分数,该分数在ElasticSearch5.0之前是使用的 TF-IDF 算法进行的评分,ElasticSearch5.0之后是使用的 BM25 算法进行评分。
在这里插入图片描述
我们可以使用 function score query,修改文档的相关性算分(query score),根据新得到的算分排序。修改算分的示例语句如下:

GET /hotel/_search
{"query": {"function_score": {"query": { "match": {"all": "外滩"} },"functions": [{"filter": {"term": {"id": "1"}},"weight": 10}],"boost_mode": "multiply"}}
}

在上面的例句中,

  • query 是正常的查询语句
  • filter 表示过滤条件,符合条件的文档才会被重新算分
  • weight 是指算分函数,算分函数的结果称为 function score ,将来会与原始的 query score 运算,得到新算分,常见的算分函数有:
    • weight:给一个常量值,作为函数结果(function score)
    • field_value_factor:用文档中的某个字段值作为函数结果
    • random_score:随机生成一个值,作为函数结果
    • script_score:自定义计算公式,公式结果作为函数结果
  • boost_mode 定义function score与query score的运算方式,常见的加权方式如下:
    • multiply:两者相乘。默认就是这个
    • replace:用function score 替换 query score
    • 其它:sum、avg、max、min

1.6 布尔查询

布尔查询时一个或多个查询的字句,子查询的组合方式有:

  • must:必须匹配每个子查询,类似“与”
  • should:选择性匹配子查询,类似“或”
  • must_not:必须不匹配,不参与算分,类似“非”
  • filter:必须匹配,不参与算分

示例如下:

GET /hotel/_search
{"query": {"bool": {"must": [{"term": {"city": "上海" }}],"should": [{"term": {"brand": "皇冠假日" }},{"term": {"brand": "华美达" }}],"must_not": [{ "range": { "price": { "lte": 500 } }}],"filter": [{ "range": {"score": { "gte": 45 } }}]}}
}

1.7 结果排序

elasticsearch支持对搜索结果排序,默认是根据相关度算分(_score)来排序。可以排序字段类型有:keyword类型、数值类型、地理坐标类型、日期类型等。

GET /indexName/_search
{"query": {"match_all": {}},"sort": [{"FIELD": "desc"  // 排序字段和排序方式ASC、DESC}]
}

以上就是指定字段的排序, ASC 代表升序,DASC 代表降序,如果有多个排序字段,那么按照从上到下的优先级进行排序。

举个例子,如果我们想要按照某一个经纬度的距离进行排序,那么模板如下:

GET /indexName/_search
{"query": {"match_all": {}},"sort": [{"_geo_distance" : {"FIELD" : "纬度,经度","order" : "asc","unit" : "km"}}]
}

1.8 分页查询

ElasticSearch查询时默认只显示10条数据,那如果我们想要看到其他的数据怎么办呢?这就涉及到了分页。ElasticSearch分页的方式有很多种,这里讲一下使用 from, size 参数以及 search after 来进行分页。

  • 使用 from, size 两个参数进行分页。可以在搜索时规定这两个参数的值, from 表示从何处开始进行查看,默认是 0 0 0size 表示每次查询的信息有多少条。比如每也10条数据,我们想要查看第二页的数据,那么就需要设置 from: 10,size:10 ,格式如下:

    GET /hotel/_search
    {"query": {"match_all": {}},"from": 990, // 分页开始的位置,默认为0"size": 10, // 期望获取的文档总数"sort": [{"price": "asc"}]
    }
    

    但是,这种方式要求 from+size 不大于 10000 10000 10000 ,且该方式是先查询所有的数据,然后再对数据进行截取,不可避免的,该方式会面临深度分页问题,即我们的ElasticSearch肯定是要有集群的,当我们需要取出前 1000 1000 1000 个结果时,需要整理每个集群中的结果,再重新排序,再选出前 1000 1000 1000 个,但是,如果结果集很大,这对内存以及CPU的消耗就很大。

  • 使用 search after 进行分页。针对深度分页,ElasticSearch提供了 search after 方法,该方法没有查询上限,只限制了单次的 size 不超过 10000 10000 10000search after 方法分页时需要排序,原理是从上一次的排序值开始,查询下一页数据。

    例如,我们查询到了第一页的数据,最后一条数据如下:
    在这里插入图片描述
    我们将最后一条数据的 sort 字段复制到 search_after 中,再规定一个 size 属性,就能够在该条数据之后再显示 size 条数据,语法模板如下:

    GET /hotel/_search
    {"query": {"match_all": {}},"search_after": [161],"size": 10,"sort": [{"price": "asc"}]
    }
    

1.9 高亮显示

在使用搜索引擎进行搜索时,我们发现我们输入的关键词显示都是用了高亮进行显示,这就是搜索结果的高亮。其实,这种高亮的显示是在搜索结果中将关键字用标签进行标注出来,再到页面中进行CSS的渲染。默认在进行高亮查询时会在高亮字段前后添加 em 标签,如果想添加其他标签可以进行更改,语法模板如下:

GET /hotel/_search
{"query": {"match": {"FIELD": "TEXT"}},"highlight": {"fields": { // 指定要高亮的字段,可以添加多个字段"FIELD": {"pre_tags": "<em>",  // 用来标记高亮字段的前置标签,默认就是em标签,所以可以不写"post_tags": "</em>" // 用来标记高亮字段的后置标签}}}
}

这里我们对酒店数据进行查询的例子如下:

GET /hotel/_search
{"query": {"match": {"all": "如家"}},"highlight": {"fields": { "name": {"require_field_match": "false"}}}
}

在上面的搜索中, all 字段是 name, brand 等字段 copy_to 后的属性,而下面高亮显示的属性是 name 属性,这就导致了查询的属性与高亮显示的属性不一致的情况,这种情况默认是不会进行高亮显示的,需要查询的属性与高亮显示的属性一致才进行高亮显示。但是我们就可以设置 require_field_match 属性为 false 控制高亮显示与查询字段和高亮显示的字段无关。

高亮结果显示如下:
在这里插入图片描述

2. RestClient查询文档

2.1 查询全部

查询全部的代码如下所示,

    @Testvoid testMatchAll() throws IOException {//1.准备Request对象SearchRequest request = new SearchRequest("hotel");//2.准备DSLrequest.source().query(QueryBuilders.matchAllQuery());//3.发送请求SearchResponse response = restHighLevelClient.search(request, RequestOptions.DEFAULT);//4.解析响应SearchHits searchHits = response.getHits();//5.1 获取总条数long total = searchHits.getTotalHits().value;System.out.println("共有" + total + "条数据");//5.2 文档数组存储文档SearchHit[] hits = searchHits.getHits();for(SearchHit hit: hits){//6.获取文档sourceString json = hit.getSourceAsString();//7.反序列化HotelDoc hotelDoc = JSON.parseObject(json, HotelDoc.class);System.out.println(hotelDoc);}System.out.println(response);}

其中每一段代码与DSL语句的对应关系如下:
在这里插入图片描述

2.2 其他查询语句

其实其他查询语句与上述查询全部的语句中大部分代码是类似的,唯一变化的是 request.source().query()query 的参数。

  • match
    // 分别是字段名和查询的语句
    request.source().query(QueryBuilders.matchQuery("all", "如家"));
    
  • multi_match
    // 分别是查询词以及查询字段
    request.source().query(QueryBuilders.matchQuery("如家", "name", "brand"));
    
  • term
    // 分别是查询字段以及查询词
    request.source().query(QueryBuilders.termQuery("city", "成都"));
    
  • range
    // 分别是查询词以及查询条件
    request.source().query(QueryBuilders.rangeQuery("price").gte(100).lte(300));
    
  • 布尔查询
    // 构建布尔查询
    BoolQueryBuilder boolQuery = QueryBuilders.boolQuery();
    // must语句
    boolQuery.must(QueryBuilders.termQuery("city", "成都"));
    //filter语句
    boolQuery.filter(QueryBuilders.rangeQuery("price").gte(100).lte(300))
    request.source().query(boolQuery);
    

2.3 排序和分页

排序与分页的代码也仅需要在 request.source().query() 上进行修改即可,修改示例如下:

request.source().query(QueryBuilders.termQuery("city", "成都"));
// 排序
request.source().sort("price", SortOrder.ASC);
//分页
request.source().from(0).size(10);

2.4 高亮显示

高亮显示仅需要在查询的内容后面添加一行代码即可,如下:

// 设置高亮显示并关闭查询字段与高亮字段一致
request.source().highlighter(new HighlightBuilder().field("name").requireFieldMatch(false));

但是,设置了高亮后输出发现并不是高亮的内容,需要高亮的内容前后没有标签,这是怎么回事呢?

回顾上面可以发现,高亮的内容与 _source 内容是分开的,是重新的一个字段,于是,我们需要用高亮的字段覆盖原来的字段,那么循环里面的代码如下:

for(SearchHit hit: hits){//6.获取文档sourceString json = hit.getSourceAsString();//7.反序列化HotelDoc hotelDoc = JSON.parseObject(json, HotelDoc.class);//获取高亮结果Map<String, HighlightField> highlightFieldMap = hit.getHighlightFields();//简洁判断,判断highlightFieldMap是否为空或者size==0if(!CollectionUtils.isEmpty(highlightFieldMap)){//获取highlight属性中的name属性HighlightField highlightField = highlightFieldMap.get("name");if(highlightField != null){//得到name属性的第一个值的字符串String name = highlightField.getFragments()[0].string();//覆盖原本的值hotelDoc.setName(name);}}System.out.println(hotelDoc);
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/61789.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

import type {} from ‘module‘ 具体解释

import type { AxiosInstance, AxiosRequestConfig } from axiosimport type { RequestConfig, RequestInterceptors } from ./typesimport type {} from module 是 TypeScript 中的一种导入语法&#xff0c;用于导入类型声明而不导入具体的值&#xff0c;它告诉 TypeScript 编…

mysql数据文件

提示&#xff1a;mysql相关系列的教程和笔记不断持续更新和完善 文章目录 db.opt 文件FRM 文件MYD 文件MYI 文件IBD 文件和 IBDATA 文件 :ibdata1 ibdata n文件 查看数据文件的位置 获取硬盘中数据存储的位置&#xff1a; SHOW VARIABLES LIKE datadir;db.opt 文件 该文件记录…

SSM商城项目实战总结

SSM商城项目实战总结 编程思想是指在软件开发过程中&#xff0c;程序员所遵循的一种思维模式或方法论。它是指导程序员如何组织和解决问题的一种思考方式。下面是对常见的编程思想进行的总结&#xff1a; 面向对象编程&#xff08;OOP&#xff09;&#xff1a;面向对象编程是一…

分布式锁实现一. 利用Mysql数据库update锁

文章目录 分布式锁1、什么是分布式锁&#xff1a;2、分布式锁应该具备哪些条件&#xff1a; 基于数据库的分布式锁代码传送代码运行 分布式锁 1、什么是分布式锁&#xff1a; 分布式锁&#xff0c;即分布式系统中的锁。在单体应用中我们通过锁解决的是控制共享资源访问的问题…

app易用性测试报告 软件app测试

易用性测试 app易用性测试应遵从GB/T25000.10-2016、GB/T25000.51-2016中的有关成熟性、可用性、容错性、易恢复性等方面的可靠性要求。依据应用场景需要&#xff0c;可让用户较长时间连续运行或使用APP&#xff0c;不应出现崩溃、闪退、卡死、无响应、响应迟缓等问题。 根据…

C++11多线程

1.线程&#xff1a;独立调度的基本单位。进程&#xff1a; 资源分配的基本单位。 2.C11新标准多线程支持库 < thread > : 提供线程创建及管理的函数或类接口&#xff1b; < mutex > : 为线程提供获得独占式资源访问能力的互斥算法&#xff0c;保证多个线程对共享资…

11、监测数据采集物联网应用开发步骤(8.2)

监测数据采集物联网应用开发步骤(8.1) 新建TCP/IP Client线程类com.zxy.tcp.ClientThread.py #! python3 # -*- coding: utf-8 -Created on 2017年05月10日 author: zxyong 13738196011 import datetime import socket import threading import timefrom com.zxy.adminlog.Us…

关于flutter中 initState() 与 setState() 用法

initState()函数是在组件渲染之前执行的。在Flutter中&#xff0c;initState()是StatefulWidget的生命周期方法之一&#xff0c;在调用build()方法之前被调用。当创建一个StatefulWidget并将其添加到组件树中时&#xff0c;Flutter会实例化该组件的状态对象&#xff0c;并在调用…

防破解方法:文字提示信息都经过编码加密处理

本篇文章属于《518抽奖软件开发日志》系列文章的一部分。 我在开发《518抽奖软件》&#xff08;www.518cj.net&#xff09;的时候&#xff0c;为了防止被破解&#xff0c;需用添加一些暗桩等&#xff0c;需要提示用户不要用盗版。破解者会根据提示信息找到暗桩的位置&#xff0…

深度学习-4-二维目标检测-YOLOv3模型

单阶段目标检测模型YOLOv3 R-CNN系列算法需要先产生候选区域&#xff0c;再对候选区域做分类和位置坐标的预测&#xff0c;这类算法被称为两阶段目标检测算法。近几年&#xff0c;很多研究人员相继提出一系列单阶段的检测算法&#xff0c;只需要一个网络即可同时产生候选区域并…

Linux:编译遇到 Please port gnulib freadahead.c to your platform ,怎么破

问题背景 编译m4时遇到以下错误&#xff0c;该怎么解决呢&#xff1f; 解决方法 进入m4的build目录&#xff1a;build/host-m4-1.4.17 输入命令&#xff1a; sed -i s/IO_ftrylockfile/IO_EOF_SEEN/ lib/*.c echo "#define _IO_IN_BACKUP 0x100" >> lib/std…

堆栈深度超过限制

报错&#xff1a;Cause: com.kingbase8.util.KSQLException: 错误: 堆栈深度超过限制 Hint: 在确定了平台的堆栈深度限制是足够大后&#xff0c;增加配置参数 "max_stack_depth"的值(当前值为2048kB).; 错误: 堆栈深度超过限制 Hint: 在确定了平台的堆栈深度限制是足…

机器学习和数据挖掘03-模型性能评估指标

Accuracy&#xff08;准确率&#xff09; 概念&#xff1a;模型正确预测的样本数量与总样本数量的比例。 公式&#xff1a;Accuracy (TP TN) / (TP TN FP FN) TP (True Positives)&#xff1a;正确预测为正例的样本数。即模型正确地将正例判定为正例。 TN (True Negati…

go中runtime包里面的mutex是什么?runtime.mutex解析

其实在看go源码的时候&#xff0c;发现除了sync包里有个mutex以外&#xff0c;runtime包里也有一个mutex&#xff0c;这个mutex在runtime很多地方都在用。 这个runtime包里面的mutex的结构如下&#xff1a; 目录: /runtime/runtime2.go 代码&#xff1a; type mutex struct …

PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像...

原文链接&#xff1a;http://tecdat.cn/?p24346 在今天产品高度同质化的品牌营销阶段&#xff0c;企业与企业之间的竞争集中地体现在对客户的争夺上&#xff08;点击文末“阅读原文”获取完整代码数据&#xff09;。 “用户就是上帝”促使众多的企业不惜代价去争夺尽可能多的客…

常用的 hooks 函数

React 的 Hooks 为函数组件引入了之前只能在类组件中使用的功能和生命周期特性。以下是一些常用的 Hooks&#xff1a; 1. useState: 允许函数组件有内部状态。返回一个状态变量和一个设置该状态的函数。 const [count, setCount] useState(0);2. useEffect: 用于执行副作用…

OpenCV(四):Mat支持的运算

目录 1.对两个 Mat 对象按元素进行运算&#xff0c;有加法、减法、乘法和除法等运算。 2.Mat类支持逻辑与、或、非等逻辑运算&#xff0c; 1.对两个 Mat 对象按元素进行运算&#xff0c;有加法、减法、乘法和除法等运算。 加法&#xff1a;Mat Mat&#xff0c;保存到 resul…

【1】openGL glew示例代码分析绘制一个三角形

openGL文档 > docs.gl &#xff0c;可以直接查询函数的定义和使用 #include <iostream> #include <string> #include <GL/glew.h> #include <GLFW/glfw3.h>int main(void) {GLFWwindow* window;/* Initialize the library */if (!glfwInit())retu…

LeetCode_SQL练习(二)

196. 删除重复的电子邮箱 表: Person ---------------------- | Column Name | Type | ---------------------- | id | int | | email | varchar | ----------------------id 是该表的主键列(具有唯一值的列)。 该表的每一行包含一封电子邮件。电子邮件…

vue去掉循环数组中的最后一组的某个样式style/class

vue去掉循环数组中的最后一组的某个样式style/class 需求&#xff1a;要实现这样的排列 现状 发现&#xff0c;最后一个格子并没有跟下面绿色线对齐。 最后发现 是因为 每个格子都给了 margin-right&#xff1a;36px&#xff0c;影响到了最后一个格子 所以要 将最后一个格子的…