2024.2.25 -ElasticSearch 进阶

倒排索引

Elasticsearch的倒排索引机制是通过将文档中出现的词汇与它们所在的文档ID关联起来,实现快速查找包含特定词汇的文档。下面是一个具体的例子来说明倒排索引的工作原理:

假设我们有一个简单的文章集合,包含以下三篇文章:

1. 文章A:标题为“新冠病毒疫情最新动态”,内容为“关于全球COVID-19疫情的最新进展报告”
2. 文章B:标题为“春季流感预防措施”,内容为“如何在春季有效预防流感病毒传播”
3. 文章C:标题为“疫苗接种的重要性”,内容为“讨论不同类型的疫苗及其在防疫中的关键作用”

**构建倒排索引过程:**

对于每个文档,Elasticsearch会执行以下步骤:
- 分词(Tokenization):对文档的内容进行分词处理。例如,文章A的标题和内容分别会被分成如下的关键词:
  - 标题:“新冠”、“病毒”、“疫情”、“最新”、“动态”
  - 内容:“全球”、“COVID-19”、“疫情”、“最新”、“进展”、“报告”

- 创建倒排索引条目:
  - 对于每个唯一词汇,记录它出现在哪些文档以及在文档中的位置信息:
    - “新冠” -> [文档A, 标题]
    - “病毒” -> [文档A, 标题], [文档A, 内容]
    - “疫情” -> [文档A, 标题], [文档A, 内容]
    - ...
    - “预防” -> [文档B, 标题]
    - “疫苗” -> [文档C, 标题]

**查询使用倒排索引:**

现在,如果我们想要搜索包含关键词“疫情”的所有文章,Elasticsearch可以直接查看倒排索引,找到关键词“疫情”对应的文档列表,即:

- “疫情” -> [文档A, 标题], [文档A, 内容]

因此,搜索引擎立即知道文档A包含了这个词,并且可以在毫秒级的时间内返回搜索结果。

总结来说,Elasticsearch的倒排索引使得无需扫描整个文档集合就能迅速定位到含有特定词汇的文档,极大地提高了全文检索的速度和效率。

ES的架构

角色:client Esmaster 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/701674.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解锁苏宁电商数据新纪元:关键字搜索API接口引领业务升级

苏宁关键字搜索API接口:电商数据探索的新篇章 一、引言 在电商领域,数据的重要性不言而喻。为了帮助开发者更高效地获取和利用电商数据,苏宁开放平台提供了关键字搜索API接口。本文将带你深入了解这一接口的技术细节,让你在电商…

设计模式--单例模式--懒汉饿汉

单例模式 单例模式(Singleton),保证一个类仅有一个实例,并提供一个访问它的全局访问点。 单例模式 通常我们可以让一个全局变量使得一个对象被访问,但它不能防止你实例化多个对象。一个最好的办法就是,让类自身负责保存它的唯一实…

selenium自动化测试如何定位一闪而过的元素,比如提示信息、提交按钮

这里以登录按钮为例 在当前页面按F12点击控制,在下方输入debugger,点击登录按钮后点击输入debugger的地方按回车,一闪而过的元素就会定住不动就可以定位了

企业网站建设需要多少钱?定制开发费用报价在3000-4000元

建立一个网站需要多少钱? 网站建设的价格划分也有很多。 这里首先要提的是市面上常见的一种低成本建站方式——模板网站,就是那种直接制作网站原型就可以无限复制的网站。 或者可以在几分钟内建立一个由软件生成的网站。 成本低得惊人,从500元…

【C++那些事儿】C++入门 | 命名空间 | 缺省参数 | 引用 | 内联函数 | auto关键字 | 范围for循环 | nullptr

📷 江池俊: 个人主页 🔥个人专栏: ✅数据结构冒险记 ✅C那些事儿 🌅 有航道的人,再渺小也不会迷途。 文章目录 前言1. C关键字(C98)2. 命名空间2.1 命名空间定义2.2 命名空间使用 3. C输入&输出4. 缺…

PyPDF2:项目实战源码分享(PDF裁剪)

目录📑 1. 背景📑2. 源码模块解析📑2.1 读取PDF页数2.2 获取指定页的宽高尺寸2.3 裁剪单页PDF2.4 批量裁剪PDF 总结📑 1. 背景📑 接PyPDF2模块推荐博文中提到的实际需求(将银行网站下载来的多页且单页多张…

LeetCode 热题 100 | 二叉树(一)

目录 1 基础知识 1.1 先序遍历 1.2 中序遍历 1.3 后序遍历 2 94. 二叉树的中序遍历 3 104. 二叉树的最大深度 4 226. 翻转二叉树 5 101. 对称二叉树 菜鸟做题,语言是 C 1 基础知识 二叉树常见的遍历方式有: 先序遍历中序遍历后序遍历…

基于YOLOv5+PySide6的火灾火情火焰检测系统设计深度学习

wx供重浩:创享日记 对话框发送:225火灾 获取完整源码源文件已标注的数据集(1553张)配置跑起来说明 可有偿49yuan一对一远程操作,在你电脑跑起来 效果展示: ​数据集在下载的文件夹:yolov5-5.0\…

CRF算法(Conditional Random Fields)揭秘

CRF基本介绍 在机器学习中,建模线性序列结构的方法,除了HMM算法,另一个重要的模型就是CRF。HMM为了降低模型复杂性,对观测变量做了独立假设(即隐状态之间有相关性,而观测变量之间没有相关性),这在某种程度…

单机取证-信息安全管理与评估-2022年国赛真题-环境+wp

🍬 博主介绍 博主介绍:大家好,我是 Mikey ,很高兴认识大家~ 主攻:【应急响应】 【python】 【数字取证】【单机取证】【流量分析】【MISC】 🎉点赞➕评论➕收藏 == 养成习惯(一键三连)😋 🎉欢迎关注💗一起学习👍一起讨论⭐️一起进步 作者水平有限,欢迎各…

HuggingFists系统功能介绍(2)--数据源账号

数据源 再次,我们进入“数据源”管理模块。该模块用于管理我们在进行数据处理或分析时所需要的所有数据源。在定义任何的数据流程读写工作之前,必须先通过数据源管理模块创建出对应的数据源。数据源可以是我们需要进行数据处理时,原始数据所在…

uniapp上传文件到腾讯云

官方API地址 javaScript_SDK 下载cos npm i cos-js-sdk-v5 --save 生成签名 获取secretId和secretKey let cos new COS({SecretId: *******************************,SecretKey: ******************************,}) 参考文章:腾讯云如何获取secretId和secret…

C++中的左值和右值

目录 一. 左值和右值的概念 1. 左值 1.1 可修改的的左值 1.2 不可修改的左值 右值 二. 左值引用和右值引用 1. 左值引用 2. 右值引用 主要用途 1. 移动语义 2. 完美转发 2.1 引用折叠 2.2 std::forward 一. 左值和右值的概念 什么是左值和右值 1. 左值 左值是一个表示…

Linux内核源码安装

文章目录 前言查看内核源码包安装内核源码编译内核源码最后 前言 我是醉墨居士,我们安装一下Linux内核源码,方便我们学习Linux内核 也方便我们进行eBPF开发时查看Linux内核的一些信息 查看内核源码包 apt-cache search linux-source安装内核源码 因为…

【vue3语法】开发使用创建项目等

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、vue3创建vue3v2函数式、v3组合式api响应式方法ref、reactive计算属性conputed监听属性wacthvue3 选项式生命周期父子通信父传子defineProps编译宏 子传父de…

互联网加竞赛 机器视觉opencv答题卡识别系统

0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 答题卡识别系统 - opencv python 图像识别 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐! 🥇学长这里给一个题目综合评分(每项满分5分…

并查集例题(食物链)C++(Acwing)

代码&#xff1a; #include <iostream>using namespace std;const int N 50010;int n, m; int p[N], d[N];int find(int x) {if(p[x] ! x){int t find(p[x]);d[x] d[p[x]];p[x] t;}return p[x]; }int main() {scanf("%d%d", &n, &m);for(int i 1…

linux前端部署

安装jdk 配置环境变量 刷新配置文件 source profile source /etc/profile tomcat 解压文件 进去文件启动tomcat 开放tomcat的端口号 访问 curl localhsot:8080 改配置文件 改IP,改数据库名字&#xff0c;密码&#xff0c; 安装数据库 将war包拖进去 访问http:…

【Python笔记-设计模式】代理模式

一、说明 代理模式是一种结构型设计模式&#xff0c;提供对象的替代品或其占位符。代理控制着对于原对象的访问&#xff0c;并允许在将请求提交给对象前后进行一些处理。 (一) 解决问题 控制对对象的访问&#xff0c;或在访问对象前增加额外的功能或控制访问 (二) 使用场景…

apidoc接口文档的自动更新与发布

文章目录 一、概述二、环境准备三、接口文档生成1. 下载源码2. 初始化3.执行 四、文档发布五&#xff0c;配置定时运行六&#xff0c;docker运行七&#xff0c;不足与优化分析 一、概述 最近忙于某开源项目的接口文档整理&#xff0c;采用了apidoc来整理生成接口文档。 apidoc…