06_es分布式搜索引擎2

一、DSL查询文档

1.DSL查询分类

①查询所有:match_all

②全文检索:利用分词器对用户输入的内容分词,倒排索引去匹配

    match_query

    multi_match_query

③精确查询:根据精确词条查找数据,查找的是keyword,数值,日期,boolean类型字段

    ids,range,term

④地理geo查询:根据经纬度查询

    geo_distance

    geo_bounding_box

⑤复合查询:将各种条件组合起来,合并查询条件

    bool

    function_score

 总结:查询DSL的基本语法是什么?

GET /索引库名/_search

{ "query": { "查询类型": { "FIELD": "TEXT"}}}

2.全文检索

全文检索查询,会对用户输入内容进行分词。用于搜索框搜索

 ①match查询:对用户输入的内容分词,然后倒排索引库查询。一个字段

查询三钻的酒店

GET /hotel/_search
{"query": {"match": {"starName": "三钻"}}
}

②multi_match:多个字段查询。参与的字段越多,查询性能越差。

 查询品牌,酒店名,商业圈有“外滩如家”

GET /hotel/_search
{"query": {"multi_match": {"query": "外滩如家","fields": ["brand","name","business"]}}
}

3.精确查询

查询的keyword,不进行分词的字段

①term:根据词条准确值查询

②range:范围查询(价格)

 ①term:

查询品牌是“7天酒店”

GET /hotel/_search
{"query": {"term": {"brand": {"value": "7天酒店"}}}
}

②range:

查询200-250酒店

GET /hotel/_search
{"query": {"range": {"price": {"gte": 200,"lte": 250}}}
}

总结:精确查询常见的有哪些?

  • term查询:根据词条精确匹配,一般搜索keyword类型、数值类型、布尔类型、日期类型字段
  • range查询:根据数值范围查询,可以是数值、日期的范围

4.地理查询

场景:

查询附近的酒店,附近的人,打车附近的出租车

 ①矩形范围内:geo_bounding_box

 ②以指定中心点为半径:

 查询这个点15公里范围内的酒店

GET /hotel/_search
{"query": {"geo_distance":{"distance":"15km","location":"31.282444,121.479385"}}
}

5.相关性算分:竞价排名

①fuction score:算分函数查询,可以控制文档相关性算分,控制文档排名

 

 ②词条频率越高,得分越高,排名越靠前

③elasticsearch中的相关性打分算法是什么?

  • TF-IDF:在elasticsearch5.0之前,会随着词频增加而越来越大
  • BM25:在elasticsearch5.0之后,会随着词频增加而增大,但增长曲线会趋于水平

 

6.修改相关性算分:竞价排名

使用 function score query,可以修改文档的相关性算分(query score),根据新得到的算分排序。

①原始条件查询,搜索文档并根据相关性打分(query score)

②过滤条件:符合条件的文档才重新算分

③算分函数:

算分函数,算分函数的结果称为function score ,将来会与query score运算,得到新算分,常见的算分函数有:

  • weight:给一个常量值,作为函数结果(function score)
  • field_value_factor:用文档中的某个字段值作为函数结果
  • random_score:随机生成一个值,作为函数结果
  • script_score:自定义计算公式,公式结果作为函数结果

④加权模式,定义function score与query score的运算方式,包括:

  • multiply:两者相乘。默认就是这个
  • replace:用function score 替换 query score
  • 其它:sum、avg、max、min

案例:搜索外滩的酒店,“如家”品牌给公司充钱了,让他的排名靠前一些。

分析:

①文档为品牌是“如家”的

②算分函数是weight

③加权模式是求和sum

GET /hotel/_search
{"query": {"function_score": {"query": {"match": {"all": "外滩"}},"functions": [{"filter": {"term": {"brand": "如家"}},"weight": 2}],"boost_mode": "sum"}}
}

7.复合查询Boolean Query

布尔查询是一个或多个查询子句的组合。子句组合方式:

must:”与”,必须匹配每个子查询

should:“或”选择性匹配子查询

must_not:必须不匹配,不参与算分,类似“非”

filter:必须匹配,不算分。

案例1:查询上海的酒店,品牌是皇冠假日或华美达。价格不低于500,评分是大于45分的

 

 案例2:搜索名字包含“如家”,价格不高于400,在坐标31.21,121.5周围10km范围内的酒店。

GET /hotel/_search
{"query": {"bool": {"must": [{"match": {"name": "如家"}}],"must_not": [{"range": {"price": {"gte": 400}}}],"filter": [{"geo_distance": {"distance": "10km","location": {"lat": 31.21,"lon": 121.5}}}]}}
}

二、搜索结果处理

1.排序

es支持对搜索结果排序,默认是根据相关度算分(_score)排序。可以排序的字段:keyword类型,数值类型,地理坐标类型,日期类型。

排序语法

 地理坐标排序语法

 案例1:对酒店数据按照用户评价降序排序,评价相同的按照价格升序排序

GET /hotel/_search
{"query": {"match_all": {}},"sort": [{"score":"desc"},{"price": "asc"}]
}

案例2:实现对酒店数据按照到你的位置坐标的距离升序排序

获取经纬度的方式:https://lbs.amap.com/demo/jsapi-v2/example/map/click-to-get-lnglat/

GET /hotel/_search
{"query": {"match_all": {}},"sort": [{"_geo_distance": {"location": {"lat": 31.220393,"lon": 121.544427},"order": "asc","unit": "km"}}]
}

2.分页

es的搜索结果默认是top10条。

es通过修改from,size参数控制返回的分页结果

深度分页问题

ES是分布式的,所以会面临深度分页问题。例如按price排序后,获取from = 990,size =10的数据:

①首先在每个数据分片上都排序并查询前1000条文档。

②然后将所有节点的结果聚合,在内存中重新排序选出前1000条文档

③最后从这1000条中,选取从990开始的10条文档

如果搜索页数过深,或者结果集(from + size)越大,对内存和CPU的消耗也越高。因此ES设定结果集查询的上限是10000

总结

from + size:

  • 优点:支持随机翻页
  • 缺点:深度分页问题,默认查询上限(from + size)是10000
  • 场景:百度、京东、谷歌、淘宝这样的随机翻页搜索

after search:

  • 优点:没有查询上限(单次查询的size不超过10000)
  • 缺点:只能向后逐页查询,不支持随机翻页
  • 场景:没有随机翻页需求的搜索,例如手机向下滚动翻页

3.高亮

搜索关键字突出显示。

原理:

①搜索关键字标记出来

②页面加css样式

案例:如家酒店高亮

 

三、RestClient查询文档

1.快速入门

①请求DSL的组织

 RestAPI中其中构建DSL是通过HighLevelRestClient中的resource()来实现的,其中包含了查询、排序、分页、高亮等所有功能

 RestAPI中其中构建查询条件的核心部分是由一个名为QueryBuilders的工具类提供的,其中包含了各种查询方法

 ②解析结果response

③查询全部酒店的完整代码

@Test
void testMatchAll() throws IOException {// 1.准备查询请求,参数是索引库名SearchRequest request = new SearchRequest("hotel");// 2.组织DSL参数request.source().query(QueryBuilders.matchAllQuery());// 3.发送请求,得到响应SearchResponse response = client.search(request, RequestOptions.DEFAULT);// 4.解析结果SearchHits searchHits = response.getHits();// 4.1 获取查询的条数long total = searchHits.getTotalHits().value;// 4.2 获取查询的集合SearchHit[] hits = searchHits.getHits();// 4.3 遍历List<HotelDoc>hotelDocList = new ArrayList<>();for (SearchHit hit : hits) {// 转换为JsonString json = hit.getSourceAsString();// 转换为java对象HotelDoc hotelDoc = JSONObject.parseObject(json, HotelDoc.class);// 保存在集合中hotelDocList.add(hotelDoc);}System.out.println(hotelDocList);
}

查询的基本步骤是:

  • 创建SearchRequest对象
  • 准备Request.source(),也就是DSL。
    • QueryBuilders来构建查询条件
    • 传入Request.source() 的 query() 方法
  • 发送请求,得到结果
  • 解析结果(参考JSON结果,从外到内,逐层解析)

2.构建查询条件,只要记住一个类:QueryBuilders

①全文检索查询(分词,模糊查询)

单字段:QueryBuilders.matchQuery(字段名,值)

多字段:QueryBuilders.multiMatchQuery(值, 字段1,字段2);

演示:酒店名字带有“如家“的有哪些?

request.source().query(QueryBuilders.termQuery("name","如家"));

②精确查询,不分词

精确查询常见的有term查询和range查询

③复合查询boolean query

查询品牌为如家,价格在200元内的酒店

// 创建bool查询
BoolQueryBuilder boolQuery = QueryBuilders.boolQuery();
// 添加must条件
boolQuery.must(QueryBuilders.termQuery("brand","如家"));
// 添加filter条件
boolQuery.filter(QueryBuilders.rangeQuery("price").lte(200));
request.source().query(boolQuery);

3.分页和排序

 演示:查询名为“如家“的酒店,查询结果进行价格降序,每页显示3条

// 页码
int page = 1,size=3;
// 2.组织DSL
// 2.1 查询
request.source().query(QueryBuilders.termQuery("name","如家"));
// 2.2 分页 从from序号数size个
request.source().from((page-1)*size).size(size);
// 2.3 价格排序
request.source().sort("price", SortOrder.DESC);

4.高亮

根据name搜索高亮

 代码

@Test
void testHight() throws IOException{// 1.请求requestSearchRequest request = new SearchRequest("hotel");// 2. 组织DSLrequest.source().query(QueryBuilders.matchQuery("all","如家"));request.source().highlighter(new HighlightBuilder().field("name").requireFieldMatch(false));// 3.发送请求,得到响应SearchResponse response = client.search(request, RequestOptions.DEFAULT);// 4.分析结果SearchHits searchHits = response.getHits();// 5.解析SearchHit[] hitss = searchHits.getHits();// 6.遍历for (SearchHit hit : hitss) {// 转换为jsonString json = hit.getSourceAsString();// 得到对象HotelDoc hotelDoc = JSONObject.parseObject(json, HotelDoc.class);// 获取高亮结果Map<String, HighlightField> highlightFields = hit.getHighlightFields();// 根据字段获取HighlightField highlightField = highlightFields.get("name");// 获取高亮值String name = highlightField.getFragments()[0].string();// 覆盖结果hotelDoc.setName(name);System.out.println(name);}}

四、黑马旅游案例

@Overridepublic PageResult search(RequestParams params) throws IOException {// 1.得到请求参数String key = params.getKey();Integer page = params.getPage();Integer size = params.getSize();String sortBy = params.getSortBy();String brand = params.getBrand();String starName = params.getStarName();String city = params.getCity();Integer minPrice = params.getMinPrice();Integer maxPrice = params.getMaxPrice();String location = params.getLocation();// 2.创建搜索请求SearchRequest request = new SearchRequest(HotelConstants.HOTEL_INDEX);// 3.编写DSL 组合查询boolQueryBoolQueryBuilder boolQuery = QueryBuilders.boolQuery();// 3.1.1 输入框关键字mustif (key != null && !"".equals(key)) { //输入框不为空,模糊查询boolQuery.must(QueryBuilders.matchQuery("all", key));} else {//输入框为空,查询全部boolQuery.must(QueryBuilders.matchAllQuery());}// 3.1.2 城市--filterif (city != null && !"".equals(city)) {boolQuery.filter(QueryBuilders.termQuery("city", city));}// 3.1.3 品牌--filterif (brand != null && !"".equals(brand)) {boolQuery.filter(QueryBuilders.termQuery("brand", brand));}// 3.1.4 星级--filterif (starName != null && !"".equals(starName)) {boolQuery.filter(QueryBuilders.termQuery("starName", starName));}// 3.1.5 价格--filterif (minPrice != null && maxPrice != null) {boolQuery.filter(QueryBuilders.rangeQuery("price").gte(minPrice).lte(maxPrice));}// 3.1.6 查询条件// 3.1.7 =====广告推荐算分查询(查询条件,算分条件)FunctionScoreQueryBuilder functionScoreQuery = QueryBuilders.functionScoreQuery(boolQuery,new FunctionScoreQueryBuilder.FilterFunctionBuilder[]{new FunctionScoreQueryBuilder.FilterFunctionBuilder(QueryBuilders.termQuery("isAD",true),// 算分条件ScoreFunctionBuilders.weightFactorFunction(10) // 算分比例)});request.source().query(functionScoreQuery);// 3.2 页码request.source().from((page - 1) * size).size(size);// 3.3 排序if (location != null && !"".equals(location)) {request.source().sort(SortBuilders.geoDistanceSort("location", new GeoPoint(location)).order(SortOrder.ASC).unit(DistanceUnit.KILOMETERS));}if (!SortConstants.DEFAULT.equals(sortBy)) {request.source().sort(sortBy, SortOrder.DESC);}//4. 发送请求得到响应SearchResponse response = client.search(request, RequestOptions.DEFAULT);// 5.解析响应PageResult pageResult = handleResponse(response);return pageResult;}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/133155.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大数据毕业设计选题推荐-智慧小区大数据平台-Hadoop-Spark-Hive

✨作者主页&#xff1a;IT研究室✨ 个人简介&#xff1a;曾从事计算机专业培训教学&#xff0c;擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python…

【C++】构造函数和析构函数第三部分(各种构造函数调用规则、多个对象的构造和析构、初始化列表)--- 2023.11.6

目录 各种构造函数的调用规则对象以值的方式给函数参数用一个已有的对象去初始化另一个对象函数的局部对象以值的方式从函数返回调用规则1调用规则2 多个对象的构造和析构初始化列表结束语 各种构造函数的调用规则 对象以值的方式给函数参数 实例&#xff1a; class Maker {…

Linux上编译sqlite3库出现undefined reference to `sqlite3_column_table_name‘

作者&#xff1a;朱金灿 来源&#xff1a;clever101的专栏 为什么大多数人学不会人工智能编程&#xff1f;>>> 在Ubuntu 18上编译sqlite3库后在运行程序时出现undefined reference to sqlite3_column_table_name’的错误。网上的说法是说缺少SQLITE_ENABLE_COLUMN_M…

libevent

libevent 库概念和特点 开源。精简。跨平台&#xff08;Windows、Linux、maxos、unix&#xff09;。专注于网络通信&#xff08;不一定非用在网络当中&#xff0c;比如下面的读写管道&#xff09;。 libevent特性&#xff1a;基于"事件"&#xff0c;面向“文件描述符…

软件开发项目文档系列之十如何撰写测试用例

目录 1 概述1.1 编写目的1.2 定义1.3 使用范围1.4 参考资料1.5 术语定义 2 测试用例2.1 功能测试2.1.1 用户登录功能2.1.2 商品搜索功能 2.2 性能测试2.2.1 网站响应时间2.2.2 并发用户测试 附件&#xff1a; 测试用例撰写的要素和注意事项附件1 测试用例要素附件2 测试用例的注…

【鸿蒙软件开发】ArkUI容器组件之Grid(网格布局)

文章目录 前言一、Grid1.1 子组件GridItem是什么子组件接口属性事件示例代码 1.2 接口参数 1.3 属性1.4 Grid的几种布局模式1.5 GridDirection枚举说明1.6事件ItemDragInfo对象说明 1.7 示例代码 总结 前言 Grid容器组件&#xff1a;网格容器&#xff0c;由“行”和“列”分割…

【数据结构初级(2)】单链表的基本操作和实现

文章目录 Ⅰ 概念及结构1. 单链表的概念2. 单链表的结构 Ⅱ 基本操作实现1. 定义单链表结点2. 创建新结点3. 单链表打印4. 单链表尾插5. 单链表头插6. 单链表尾删7. 单链表头删8. 单链表查找9. 在指定 pos 位置前插入结点10. 删除指定 pos 位置的结点11. 单链表销毁 本章实现的…

P02项目(学习)

★ P02项目 项目描述&#xff1a;安全操作项目旨在提高医疗设备的安全性&#xff0c;特别是在医生离开操作屏幕时&#xff0c;以减少非授权人员的误操作风险。为实现这一目标&#xff0c;我们采用多层次的保护措施&#xff0c;包括人脸识别、姿势检测以及二维码识别等技术。这些…

数据结构-邻接表广度优先搜索(C语言版)

对于一个有向图无向图&#xff0c;我们下面介绍第二种遍历方式。 广度优先搜索&#xff0c;即优先对同一层的顶点进行遍历。 如下图所示&#xff1a; 该例子&#xff0c;我们有六个顶点&#xff0c; 十条边。 对于广度优先搜索&#xff0c;我们先搜索a&#xff0c;再搜索abc…

5、Python中的变量和表达式:变量的定义、赋值和数据类型转换

文章目录 Python中的变量和表达式:变量的定义、赋值和数据类型转换变量的定义变量的赋值数据类型转换注意事项表达式总结Python中的变量和表达式:变量的定义、赋值和数据类型转换 Python是一种高级编程语言,以其简洁明了的语法和强大的功能而闻名。在Python编程中,变量和表…

力扣第121题 买卖股票的最佳时机 c++ 动态规划解法 熟练dp思维 之简单题 附Java代码

题目 &#xff08;在我以前有贪心解法&#xff0c;也可以去参考参考&#xff09; 贪心解法 股票问题https://blog.csdn.net/jgk666666/article/details/133978629 121. 买卖股票的最佳时机 简单 相关标签 数组 动态规划 给定一个数组 prices &#xff0c;它的第 i 个元…

NVMe FDP会被广泛使用吗?

文章开头&#xff0c;我们需要先了解固态硬盘的读写机制。我们知道&#xff0c;固态硬盘的存储单元是由闪存颗粒组成的&#xff0c;无法实现物理性的数据覆盖&#xff0c;只能擦除然后写入&#xff0c;重复这一过程。因而&#xff0c;我们可以想象得到&#xff0c;在实际读写过…

Mac VsCode g++编译报错:不支持C++11语法解决

编译运行时报错&#xff1a; [Running] cd “/Users/yiran/Documents/vs_projects/c/” && g 1116.cpp -o 1116 && "/Users/yiran/Documents/vs_projects/c/"1116 1116.cpp:28:22: warning: range-based for loop is a C11 extension [-Wc11-extensi…

Maven3.9.1安装及环境变量配置

一、Maven的下载与安装 maven各版本下载地址 打开链接后自行选择对应版本 下载完成后解压安装,最好别选择c盘,安装目录路径等使用英文,避免产生其他问题 我这里选择的是D盘 二、Maven的环境变量配置 2.1、右键点击此电脑选择属性&#xff0c;点击高级系统设置&#xff0c;点…

jenkins结合k8s部署动态slave

1、完成k8s连接 在完成jenkins的部署后现安装kubernets的插件 如果jenkins 是部署在k8s集群中只需要填写一下 如果是非本集群的部署则需要填写证书等 cat ./config echo ‘certificate-authority-data-value’ | base64 -d > ./ca.crt echo ‘client-certificate-data’ |…

结合组件库实现table组件树状数据的增删改

如图所示&#xff0c;可以实现树状数据的新增子项&#xff0c;新增平级&#xff0c;删除。主要用到了递归 代码&#xff1a; <template><el-table :data"tableData" style"width: 100%; margin-bottom: 20px" row-key"id" border def…

uniapp使用技巧及例子

前言 uniapp&#xff08;Universal Application&#xff09;是一种基于Vue.js的全端解决方案&#xff0c;允许开发者使用一套代码构建多个平台的应用程序。这些平台包括iOS、Android、H5、微信小程序、支付宝小程序等。uniapp的出现解决了跨平台开发的痛点&#xff0c;大大减少…

ce从初阶到大牛--动态网络部署

1.基于域名www.openlab.com可以访问网站内容为 welcome to openlab!!! systemctl stop firewalld setenforce 0 cd /etc/httpd/conf.d/ vim openlab.conf ** <VirtualHost 192.168.170.100:80>DocumentRoot /www/openlabServerName 192.168.170.100 </VirtualHost>…

排序算法之-选择

算法原理 在未排序的数列中找出最大&#xff08;或最小&#xff09;的元素&#xff0c;然后将其存入到已排序的数列起始位置&#xff0c;紧接着在剩余的未排序数列中继续查找最大&#xff08;或最小&#xff09;的元素&#xff0c;并将其放入到已排序的数列末尾&#xff0c;依…

行情分析——加密货币市场大盘走势(11.6)

大饼昨日下跌过后开始有回调的迹象&#xff0c;现在还是在做指标修复&#xff0c;大饼的策略保持逢低做多。稳健的依然是不碰&#xff0c;目前涨不上去&#xff0c;跌不下来。 以太周五给的策略&#xff0c;入场的已经止盈了&#xff0c;现在已经达到1884&#xff0c;已经全部吃…