es 全文文本分词查询

ES 对 TEXT 类型的分词

我们可以使用分词器来查看分词的结果,默认的分词器是 standard 如果是其他的可以指定分词器

# 标准的分词
POST _analyze
{"text": "Hello World!","analyzer": "standard"
}

全文检索的分词概念

对目标文本做分词,分词以后做倒排索引(inverted-index)支持基于分词查询文档数据,分词的算法有很多,分词的领域也是十分的深入。es 中默认的分词打分算法 TF/IDF=>BM25,ES中的字段只支持 TEXT

ES 全文检索使用

  • match-all 全查询
  • match 标准分词

match-all

使用 match-all 可以查询索引中所有的数据

GET mine-of-index-01/_search
{"query": {"match-all": {}}
}GET mine-of-index-01/_search# 这两个使用案例的结果是一样的,本质没有任何区别

match

这个会根据分词来查询对应的数据,然后根据评分排序,评分最高的在最前面

# 默认的全文检索
GET mine-of-index-01/_search
{"query": {"match": {"match_filed": "NEED TERM WORD"}}
}# 使用指定的分词器对查询的时候的目标文本做分词
GET mine-of-index-01/_search
{"query": {"match": {"match_filed": {"query": "NEED TERM WORD","analyzer": "standard"}}}
}# 对分词结果做操作
GET mine-of-index-01/_search
{"query": {"match": {"match_filed": {"query": "NEED TERM WORD",# 默认的是 or,如果是 or 匹配度会很低,可以使用 and 来提交匹配度 "operator": "and"}}}
}# 对于提高匹配度的事情不单单 and 可以也可以使用 or 但是要配合另一个参数来完成功能
GET mine-of-index-01/_search
{"query": {"match": {"match_filed": {"query": "NEED TERM WORD","operator": "or",# 最小分词匹配的数量,这里可以使用 _analyze 来查询有多少分词然后根据自己的业务需求来判别"minimum_should_match": 2}}}
}# 纠错用法,如果我们输入一个单词例如 book,但是我们输入错误,bool,这个时候就不能查询到 book,但是可以使用 es 提供的纠错功能来查询到 book
GET mine-of-index-01/_search
{"query": {"match": {"match_filed": {"query": "bool",# 这里表示可以纠正一个字符"fuzziness": 1}}}
}

match_bool_prefix

这里使用前缀匹配模式来查询数据

# 默认的全文检索
GET mine-of-index-01/_search
{"query": {"match_bool_prefix": {"match_filed": "NEED TERM WORD"}}
}

match_phrase

短语匹配,要求 ES 按照目标字符来匹配,不能拆分,词语的顺序也不可以更改

# 默认的全文检索
GET mine-of-index-01/_search
{"query": {"match_phrase": {"match_filed": "NEED TERM WORD"}}
}# 这个也拥有有一个类似于 match 中 fuzziness 参数的功能,slop
GET mine-of-index-01/_search
{"query": {"match_phrase": {"match_filed": "NEED TERM WORD",# 假设 es 中并不存在 need term word 这样的单词,但是存在 NEED TERM HH WORD 这样的,就可以受用 slop 表示中间允许存在一个未知词"slop": 1}}
}

match_phrase_prefix

短语前缀匹配

# 默认的全文检索
GET mine-of-index-01/_search
{"query": {"match_phrase_prefix": {"match_filed": "NEED TERM"}}
}

multi_match

多字段匹配

# 默认的全文检索
GET mine-of-index-01/_search
{"query": {"multi_match": {"match_filed": {"query": "NEED TERM","fields": ["field_01", "field_02", "t_field_01"]}}}
}# 多字段通配符 * 
GET mine-of-index-01/_search
{"query": {"multi_match": {"match_filed": {"query": "NEED TERM","fields": [# "field_01", "field_02", "t_field_01"# 这里就可以使用通配符"*field*"]}}}
}

intervals

这个 API 可以做数据的多级匹配,比如满足 A,并且 A 的数据要满足 B,并且 B 执行以后要满足 C,如果需要可以从 ES 官网深入查询他的 DSL API 使用规范。

query_string

这个是早期的的底层的一个语法,可以使用 kql 方式来实现查询,kibana 中的 discover 中可以使用这个语法,可以深入学习一下 KQL,还是很是灵活的

GET mine-of-index-01/_search
{"query": {"query_string": {# 这里是要查询 字段:FILED,是 A 或者 B 的数据"query": "FIELD: (A or B)"}}
}

ES 查询性能分析

类似于 SQL 中的 show profiles && show profile ${num},他的分析结果就会在响应体中

GET mine-of-index-01/_search
{"profile" true,"query": {"match_all": {}}
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/882506.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

现今 CSS3 最强二维布局系统 Grid 网格布局

深入学习 CSS3 目前最强大的布局系统 Grid 网格布局 Grid 网格布局的基本认识 Grid 网格布局: Grid 布局是一个基于网格的二位布局系统,是目前 CSS 最强的布局系统,它可以同时对列和行进行处理(它将网页划分成一个个网格,可以任…

PHP函数$_FILES详解

PHP函数$_FILES详解 在PHP中上传一个文件建一个表单要比ASP中灵活得多。具体的看代码。 <form enctype"multipart/form-data" action"upload.php" method"post"> <input type"hidden" name"MAX_FILE_SIZE" value…

linux基础-学习笔记

文章目录 linux软件安装linux系统部署liunx升级linux常见故障及排查思路概要 1. Linux软件安装 软件包管理:Linux系统通常使用包管理工具(如APT、YUM、DNF等)来简化软件安装和管理。用户可以通过命令行快速安装、卸载和更新软件包。源配置:确保软件源(repository)正确配…

嵌入式入门学习——8基于Protues仿真Arduino+SSD1306液晶显示数字时钟

0 系列文章入口 嵌入式入门学习——0快速入门&#xff0c;Let‘s Do It&#xff01; SSD1306 1 Protues查找SSD1306器件并放置在画布&#xff0c;画好电气连接&#xff08;这里VCC和GND画反了&#xff0c;后面仿真出错我才看见&#xff0c;要是现实硬件估计就烧毁了&#xf…

MongoDB 如何做mapreduce

以下是在MongoDB中使用MapReduce的详细步骤和相关说明&#xff1a; 1. MapReduce的概念 MapReduce是一种用于大规模数据处理的编程模型&#xff0c;它由两个主要阶段组成&#xff1a;Map阶段和Reduce阶段。在MongoDB中&#xff0c;MapReduce操作允许在服务器端对数据进行批量…

数字处理系列

&#xff08;1&#xff09;将数字转化成中文的过滤器 <template><div><p>数字转中文&#xff1a;{{ 110 | numberToChinese }}</p></div></template><script>export default {filters: {numberToChinese(num) {const chineseNums …

【时时三省】(C语言基础)函数介绍strncat

山不在高&#xff0c;有仙则名。水不在深&#xff0c;有龙则灵。 ----CSDN 时时三省 strncat 打印结果是hello wor 跟strcat不同的是他后面可以加一个参数 这个参数就是它可以根据后面的数字 来追加多少个字符 这个如果后面的参数改成10的话 就是打印hello world 不会跟strn…

智能EDA小白从0开始 —— DAY20 OrCAD

以下是对OrCAD和MATLAB两种EDA工具的深入解析&#xff0c;内容扩展至约2220字&#xff1a; OrCAD&#xff1a;电子设计自动化的强大工具 OrCAD&#xff0c;作为电子设计自动化&#xff08;EDA&#xff09;领域的佼佼者&#xff0c;为电子工程师们提供了一套全面的设计解决方案…

Flutter Container组件

Over the past few years, I’ve been fortunate to collaborate with interior designers, and there’s a distinct flair to their approach to crafting captivating interiors. It’s not just about arranging furniture randomly; they meticulously plan layouts, sele…

Appium环境搭建、Appium连接真机

文章目录 一、安装Android SDK二、安装Appium-desktop三、安装Appium Inspector 一、安装Android SDK 首先需要安装jdk&#xff0c;这里就不演示安装jdk的过程了 SDK下载地址&#xff1a;Android SDK 下载 1、点击 Android SDK 下载 -> SKD Tools 2、选择对应的版本进行下…

诊断知识:NRC78(Response Pending)的回复时刻

文章目录 前言NRC78的使用场景客户需求解读Autosar Dcm中的定义工具链中的配置总结 前言 在项目开发过程中&#xff0c;客户变更需求&#xff0c;是关于NRC78的回复时间点的&#xff0c;该需求在Autosar Dem中也有对应的参数&#xff0c;DcmTimStrP2ServerAdjust&#xff08;针…

java实现文件变动监听

在文件的内容发生变动时&#xff0c;应用可以感知这种变种&#xff0c;并重新加载文件内容&#xff0c;更新应用内部缓存 实现 轮询&#xff1a;定时器Timer&#xff0c;ScheduledExecutorService 判断文件修改&#xff1a;根据java.io.File#lastModified获取文件的上次修改时…

Cortex-A7:如何切换ARM和Thumb状态

0 参考资料 ARM Cortex-A(armV7)编程手册V4.0.pdf1 Cortex-A7&#xff1a;如何切换ARM和Thumb状态 1.1 Cortex-A7支持的指令集 Cortex-A7支持的指令集包括ARM指令集和Thumb-2&#xff08;ARM官方一般用Thumb表示&#xff09;指令集。 ARM指令集指令大小都是32位&#xff0c;…

ElasticSearch快照备份与还原

ElasticSearch快照备份与还原 1.备份和还原机器上的共同操作 注意&#xff1a;一定要在原始集群和要迁移的集群上都运行 1.1创建备份还原目录 这里放到/opt/backup_es目录下 cd /opt mkdir backup_es #为了避免权限问题&#xff0c;直接修改该文件夹权限为777 chmod 777 /…

CLion和Qt 联合开发环境配置教程(Windows和Linux版)

需要安装的工具CLion 和Qt CLion下载链接 :https://www.jetbrains.com.cn/clion/ 这个软件属于直接默认安装就行&#xff0c;很简单&#xff0c;不多做介绍了 Qt:https://mirrors.tuna.tsinghua.edu.cn/qt/official_releases/online_installers/ window 直接点exe Linux 先c…

【一种比较万能的方法删除磁盘里删除不了的文件】

一种比较万能的方法删除磁盘里删除不了的文件 只需要以下三步&#xff1a; 1、运行命令提示符&#xff08;以管理员身份打开&#xff09; 2、修复磁盘文件&#xff0c;运行命令 chkdsk 文件所在目录 /f 3、del 文件所在目录

手写Spring IOC-简易版

目录 项目结构entitydaoIUserDaoUserDaoImpl serviceIUserServiceUserServiceImpl ApplicationContext 配置文件初始化 IOC 容器RunApplication 注解初始化 IOC 容器BeanAutowired Reference 项目结构 entity User Data NoArgsConstructor AllArgsConstructor Accessors(chai…

计算DOTA文件的IOU

背景 在目标检测任务中&#xff0c;评估不同对象之间的重叠情况是至关重要的&#xff0c;而IOU&#xff08;Intersection Over Union&#xff09;是衡量这种重叠程度的重要指标。本文将介绍如何编写一个Python脚本&#xff0c;通过并行化处理DOTA格式的标注文件&#xff0c;统…

java-文件下载

java中的文件下载主要是通过返回文件流给客户端&#xff0c;通过设置返回头Content-Disposition和Contetn-Type。 返回头 Content-disposition Content-disposition是MIME协议的扩展&#xff0c;MIME协议指示MIME用户代理如何显示附加的文件。当Internet Explorer接收到头时&…

JDK17下,使用SHA1算法报Certificates do not conform to algorithm constraints错误

JDK17从17.0.5开始&#xff0c;默认不再允许使用SHA1算法&#xff0c;如果引用的jar包或代码里使用了SHA1算法&#xff0c;会报以下错误。 Caused by: javax.net.ssl.SSLHandshakeException: Certificates do not conform to algorithm constraintsat java.base/sun.security.…