ElasticSearch高阶使用

一、match_all

二、 text和keyword的区别

三、match、term的区别

四、exists query

五、 ids query

六、range query范围查询

七、prefix query前缀查询

八、 wildcard query通配符查询

九、 fuzzy query模糊查询

十、match query匹配查询

十一、multi_match query 多字段查询

十二、match_phrase query短语查询

十三、query_string query

十四、simple_query_string query

十五、bool query布尔查询

一、match_all

#使用match_all，匹配所有文档，默认只会返回10条数据。
#原因：_search查询默认采用的是分页查询，每页记录数size的默认值为10。如果想显示更多数据，指定size
GET /es_db/_search
{"query":{# 使用match_all，匹配所有文档，默认只会返回10条数据。# 原因：_search查询默认采用的是分页查询，每页记录数size的默认值为10。如果想显示更多数据，指定size"match_all":{}}# _source 关键字: 是一个数组,在数组中用来指定展示那些字段"_source": ["name","address"]# 不查看源数据，仅查看元字段# "_source": false,# 只看以obj.开头的字段#  "_source": "obj.*",# size 关键字: 指定查询结果中返回指定条数。 默认返回值10条"size": 100# from 关键字用来指定起始返回位置，和size关键字连用可实现分页效果，默认是 0"from": 0,# 指定字段排序sort，会让得分失效"sort": [{"age": "desc"}]
}

二、 text和keyword的区别

text类型字段在存储时会分词建立索引，keywaord不会。也就是说text支持模糊查询。keyword只能用于精准查询
text类型不支持聚合、排序等操作，因为它是被拆分成单个词项存储的，而keyword可以

三、match、term的区别

match在查询时会将查询条件先分词，分词列表中的任何一个值匹配到记录都会返回相应结果
match_phrase是短语查询，如果记录中有字段完全包含这个短语则会有查询结果
term在查询时不会将查询条件分词，而是直接以源查询条件去匹配，如果匹配到记录则返回相应结果。并且使用相关度算分公式为每个包含该词项的文档进行相关度算分。
可以通过 Constant Score 将查询转换成一个 Filtering，避免算分，并利用缓存，提高性能。term处理多值字段时，term查询是包含，不是等于。

GET /es_db/_search
{"query": {"constant_score": {"filter": {"term": {"address.keyword": "广州白云山公园"}}}}
}

注意：最好不要在term查询的字段中使用text字段，因为text字段会被分词，这样做既没有意义，还很有可能什么也查不到。

四、exists query

在Elasticsearch中可以使用exists进行查询，以判断文档中是否存在对应的字段

GET / es_db / _search {"query": {"exists": {"field": "remark"}}
}

五、 ids query

ids 关键字 : 值为数组类型,用来根据一组id获取多个对应的文档

GET /es_db/_search
{"query": {"ids": {"values": [1, 2]}}
}

六、range query范围查询

range：范围关键字

gte 大于等于
lte 小于等于
gt 大于
lt 小于
now 当前时间

POST /es_db/_search
{"query": {"range": {"age": {"gte": 25,"lte": 28}}}
}GET /product/_search
{"query": {"range": {"date": {"gte": "now-2y"}}}
}

七、prefix query前缀查询

它会对分词后的term进行前缀搜索。
它不会分析要搜索字符串，传入的前缀就是想要查找的前缀
默认状态下，前缀查询不做相关度分数计算，它只是将所有匹配的文档返回，然后赋予所有相关分数值为1。
它的行为更像是一个过滤器而不是查询。两者实际的区别就是过滤器是可以被缓存的，而前缀查询不行。
prefix的原理：需要遍历所有倒排索引，并比较每个term是否以所指定的前缀开头。

GET /es_db/_search
{"query": {"prefix": {"address": {"value": "广州"}}}
}

八、 wildcard query通配符查询

通配符查询：工作原理和prefix相同，只不过它不是只比较开头，它能支持更为复杂的匹配模式。

GET /es_db/_search
{"query": {"wildcard": {"address": {"value": "*白*"}}}
}

九、 fuzzy query模糊查询

在实际的搜索中，我们有时候会打错字，从而导致搜索不到。在Elasticsearch中，我们可以使用fuzziness属性来进行模糊查询，从而达到搜索有错别字的情形。

fuzzy 查询会用到两个很重要的参数，fuzziness，prefix_length

fuzziness：表示输入的关键字通过几次操作可以转变成为ES库里面的对应field的字段

操作是指：新增一个字符，删除一个字符，修改一个字符，每次操作可以记做编辑距离为1;如中文集团到中威集团编辑距离就是1，只需要修改一个字符；如果fuzziness值在这里设置成2，会把编辑距离为2的东东集团也查出来。
该参数默认值为0，即不开启模糊查询; fuzzy 模糊查询最大模糊错误必须在0-2之间
prefix_length：表示限制输入关键字和ES对应查询field的内容开头的第n个字符必须完全匹配，不允许错别字匹配;如这里等于1，则表示开头的字必须匹配，不匹配则不返回;默认值也是0;

加大prefix_length的值可以提高效率和准确率。

GET /es_db /_search
{"query": {"fuzzy": {"address": {"value": "白运山","fuzziness": 1}}}
}

十、match query匹配查询

match在匹配时会对所查找的关键词进行分词，然后按分词匹配查找。

match支持以下参数：

query : 指定匹配的值
operator : 匹配条件类型
and : 条件分词后都要匹配
or : 条件分词后有一个匹配即可(默认)
minmum_should_match : 最低匹配度，即条件在倒排索引中最低的匹配度

#match 分词后or的效果
GET /es_db/_search
{"query": {"match": {"address": "广州白云山公园"}}
}# 分词后 and的效果
GET /es_db/_search
{"query": {"match": {"address": {"query": "广州白云山公园","operator": "and"}}}
}

在match中的应用：当operator参数设置为or时，minnum_should_match参数用来控制匹配的分词的最少数量。

# 最少匹配广州，公园两个词
GET /es_db/_search
{"query": {"match": {"address": {"query": "广州公园","minimum_should_match": 2}}}
}

对于match查询，其底层逻辑的概述：

分词：首先，输入的查询文本会被分词器进行分词。分词器会将文本拆分成一个个词项（terms），如单词、短语或特定字符。分词器通常根据特定的语言规则和配置进行操作。
倒排索引：ES使用倒排索引来加速搜索过程。倒排索引是一种数据结构，它将词项映射到包含这些词项的文档。每个词项都有一个对应的倒排列表，其中包含了包含该词项的所有文档的引用。
匹配计算：一旦查询被分词，ES将根据查询的类型和参数计算文档与查询的匹配度。对于match查询，ES将比较查询的词项与倒排索引中的词项，并计算文档的相关性得分。相关性得分衡量了文档与查询的匹配程度。
结果返回：根据相关性得分，ES将返回最匹配的文档作为搜索结果。搜索结果通常按照相关性得分进行排序，以便最相关的文档排在前面。

十一、multi_match query 多字段查询

多字段查询，可以根据字段类型，决定是否使用分词查询，得分最高的在前面

GET /es_db/_search
{"query": {"multi_match": {"query": "长沙张龙","fields": ["address","name"]}}
}

注意：字段类型分词,将查询条件分词之后进行查询，如果该字段不分词就会将查询条件作为整体进行查询。

十二、match_phrase query短语查询

短语搜索(match phrase)会对搜索文本进行文本分析，然后到索引中寻找搜索的每个分词并要求分词相邻，你可以通过调整slop参数设置分词出现的最大间隔距离。match_phrase 会将检索关键词分词。可以借助slop参数，slop参数告诉match_phrase查询词条能够相隔多远(位置偏移量，不是隔多少个分词)时仍然将文档视为匹配。

GET /es_db/_search
{"query": {"match_phrase": {"address": {"query": "广州云山","slop": 2}}}
}

十三、query_string query

允许我们在单个查询字符串中指定AND | OR | NOT条件，同时也和 multi_match query 一样，支持多字段搜索。和match类似，但是match需要指定字段名，query_string是在所有字段中搜索，范围更广泛。

注意: 查询字段分词就将查询条件分词查询，查询字段不分词将查询条件不分词查询

# 未指定字段查询# AND 要求大写
GET /es_db/_search
{"query": {"query_string": {"query": "赵六 AND 橘子洲"}}
}# 指定单个字段查询
#Query String
GET /es_db/_search
{"query": {"query_string": {"default_field": "address","query": "白云山 OR 橘子洲"}}
}# 指定多个字段查询
GET /es_db/_search
{"query": {"query_string": {"fields": ["name","address"],"query": "张三 OR (广州 AND 王五)"}}
}

十四、simple_query_string query

类似Query String，但是会忽略错误的语法,同时只支持部分查询语法，不支持AND OR NOT，会当作字符串处理。支持部分逻辑：

+ 替代AND
| 替代OR
- 替代NOT

GET /es_db/_search
{"query": {"simple_query_string": {"fields": ["name", "address"],"query": "广州公园","default_operator": "AND"}}
}GET /es_db/_search
{"query": {"simple_query_string": {"fields": ["name", "address"],"query": "广州 + 公园"}}
}

十五、bool query布尔查询

布尔查询可以按照布尔逻辑条件组织多条查询语句，只有符合整个布尔条件的文档才会被搜索出来。
在布尔条件中，可以包含两种不同的上下文。
1. 搜索上下文(query context)：使用搜索上下文时，Elasticsearch需要计算每个文档与搜索条件的相关度得分，这个得分的计算需使用一套复杂的计算公式，有一定的性能开销，带文本分析的全文检索的查询语句很适合放在
搜索上下文中。
2. 过滤上下文(filter context)：使用过滤上下文时，Elasticsearch只需要判断搜索条件跟文档数据是否匹配，例如使用Term query判断一个值是否跟搜索内容一致，使用Range query判断某数据是否位于某个区间等。过滤上下文的查询不需要进行相关度得分计算，还可以使用缓存加快响应速度，很多术语级查询语句都适合放在过滤上下文中。

布尔查询一共支持4种组合类型:

类型	说明
filter	可包含多个过滤条件，每个条件均满足的文档才能被搜索到，每个过滤条件不计算相关度得分，结果在一定条件下会被缓存，属于过滤上下文
must	可包含多个查询条件，每个条件均满足的文档才能被搜索到，每次查询需要计算相关度得分，属于搜索上下文
must_not	可包含多个过滤条件，每个条件均不满足的文档才能被搜索到，每个过滤条件不计算相关度得分，结果在一定条件下会被缓存，属于过滤上下文
should	可包含多个查询条件，不存在must和fiter条件时，至少要满足多个查询条件中的一个，文档才能被搜索到，否则需满足的条件数量不受限制,匹配到的查询越多相关度越高，也属于搜索上下文

GET /books/_search
{"query ": {"bool": {"must": [{"match": {title ": "java编程"}}, {"match": {"description": "性能优化"}}]}}
}GET /books/_search
{"query": {"bool": {"should": [{"match": {"title": "java编程"}}, {"match": {"description": "性能优化"}}],"minimum_should_match": 1}}
}GET /books/_search
{"query": {"bool": {"filter": [{"term": {"language": "java"}},{"range": {"publish_time": {"gte": "2010-08-01"}}}]}}
}