ElasticSearch 的工作原理

理解 ElasticSearch 的工作原理需要从索引、搜索、以及其背后的核心机制几个方面来探讨。


1. ElasticSearch 是什么?

ElasticSearch 是一个分布式搜索和分析引擎,适用于各种类型的数据,例如文本、数值、地理位置、结构化或非结构化数据。它基于 Apache Lucene 构建,提供高效的全文本搜索能力。


2. 数据的写入与索引

(1) 数据写入
  • 文档存储: 数据以 JSON 格式的文档写入。
  • 索引:
    • 文档属于一个索引(类似于数据库中的表)。
    • 每个文档由一个唯一的 _id 标识。
  • 分片机制:
    • 一个索引被划分为多个分片(shards),每个分片可以分布在不同的节点上。
    • 分片提供了水平扩展能力。
    • 每个分片有主副本和副本分片,提供数据高可用性。
(2) 倒排索引

倒排索引是 ElasticSearch 的核心结构,用于快速查找包含某个词的所有文档:

  1. 文档的每个字段被分词器(Analyzer)拆分成单个的词条(terms)。
  2. 构建词条到文档的映射。
  3. 例如:
    • 文档 1:ElasticSearch is fast.
    • 文档 2:Fast search with ElasticSearch.
    • 倒排索引:
      fast -> [1, 2]
      ElasticSearch -> [1, 2]
      search -> [2]
      

3. 数据写入流程

  1. 写入内存缓冲区和事务日志(Translog):
    • 数据先写入内存中的缓冲区,同时写入磁盘上的事务日志,用于故障恢复。
  2. 段(Segment)生成:
    • 定期(默认 1 秒)刷新(refresh),将缓冲区的数据写入段文件(不可变)。
    • 每个段中包含倒排索引。
  3. 段合并:
    • 为了减少小段的开销,ElasticSearch 会定期合并小段为大段,释放旧段占用的资源。

4. 数据的搜索

搜索使用分布式处理,流程如下:

  1. 路由到分片:
    • 请求被路由到对应的分片(主分片或副本分片)。
  2. 分片内查询:
    • 每个分片查询其本地的倒排索引,返回匹配结果。
  3. 合并结果:
    • 主节点从各分片汇总结果,根据相关性或排序规则生成最终结果。

5. 核心特性

(1) 近实时搜索(NRT)
  • 数据写入后并非立即可搜索,而需要等待刷新。
  • 刷新间隔(默认 1 秒)可通过 refresh_interval 配置。
(2) 分布式架构
  • 分片与副本分布在不同节点,提供高可用性和扩展性。
(3) 分析功能
  • ElasticSearch 不仅用于搜索,还支持聚合(aggregation)分析。

6. 优化与实践

  • 调整分片数: 根据数据规模和集群节点调整分片数。
  • 调整刷新间隔: 根据业务需求调整 refresh_interval
  • 使用批量操作: 批量写入(bulk API)提高写入效率。
  • 设置合适的映射(Mapping): 为字段指定类型、分词器,提升搜索性能。

通过这些机制和优化,ElasticSearch 能快速索引和搜索海量数据,适应各种业务场景需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/64083.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

STM32F407 | Embedded IDE01 - vscode搭建Embedded IDE开发环境(支持JLINK、STLINK、DAPLINK)

导言 Embedded IDE官网:https://em-ide.com/docs/intro 我猜肯定有部分人使用SI Keil开发STM32项目,也有vscode Keil开发STM32程序。SI或vscode编写代码,然后切换Keil编译、下载、调试程序。有一段时间,我也是这么干的。但是,程…

光谱相机的工作原理

光谱相机的工作原理主要基于不同物质对不同波长光的吸收、反射和透射特性存在差异,以下是其具体工作过程: 一、光的收集 目标物体在光源照射下,其表面会对光产生吸收、反射和透射等相互作用。光谱相机的光学系统(如透镜、反射镜…

ThinkPHP接入PayPal支付

ThinkPHP 5接入PayPal 支付,PayPal的流程是服务器请求Paypal的接口下单(需要传订单id/支付成功的重定向地址/支付失败的重定向地址),接会返回一个支付地址,项目服务器把地址返给用户,用户打开链接登录Paypa…

stream流的toMap

假设有这么一个类: import java.util.Arrays; import java.util.HashMap; import java.util.List; import java.util.Map; import java.util.stream.Collectors;public class Student {private int id;private String name;public Student(int id, String name) {this.id id;…

html + css 淘宝网实战

之前有小伙伴说,淘宝那么牛逼你会写代码,能帮我做一个一样的淘宝网站吗,好呀,看我接下来如何给你做一个淘宝首页。hahh,开个玩笑。。。学习而已。 在进行html css编写之前 先了解下网页的组成和网页元素的尺寸吧 1.网页的组成 …

神经网络、深度学习、卷积神经网络

好的!我会尽量详细且易懂地为你解释这些概念,并在最后用简单直白的语言总结一下。 1. 神经网络思想 神经网络是灵感来自于生物大脑神经元的工作原理,是一种模仿人类大脑处理信息的方式来设计的数学模型。我们的大脑由亿万个神经元组成&…

设计模式01:创建型设计模式之单例、简单工厂的使用情景及其基础Demo

一、单例模式 1.情景 连接字符串管理 2.好处 代码简洁:可全局访问连接字符串。性能优化:一个程序一个连接实例,避免反复创建对象(连接)和销毁对象(连接)。线程安全:连接对象不会…

【不太正常的题】LeetCode.232:用栈的函数接口实现队列

🎁个人主页:我们的五年 🔍系列专栏:初阶数据结构刷题 🎉欢迎大家点赞👍评论📝收藏⭐文章 🚗 1.问题描述: 题目中说了只能使用两个栈实现队列,并且只能使用…

Linux搭建text-generation-webui框架,安装通义千问大模型,开放对外api,voxta测试对话图文教程

目录 text-generation-webui部分 开放对外API 通义千问部分 远程API对话测试部分 text-generation-webui部分 本来不想发这个文章的,但是自己部署的时候看了挺多人的帖子,很多发的不全面,要么就是跟着他们流程走有些小问题啥的&#xff…

QT程序发布后,mysql在其它电脑设备无法连接数据库

QT程序发布后,mysql在其它电脑设备无法连接数据库 D:\mysql-5.7.24-winx64\lib, mysql-5.7.24-winx64是一个压缩包,用于启动mysql服务,创建数据库 压缩包 解决方法: 拷贝库到exe的相同目录,libmysql.dll,libmysql.li…

ElasticSearch 的核心功能

要深入理解 ElasticSearch 的核心功能,需要全面掌握其 全文搜索、分析、聚合 和 索引生命周期管理(ILM) 的设计原理和实际应用。 1. 全文搜索 ElasticSearch 的全文搜索是其核心功能之一,依赖于倒排索引和强大的分词、相关性评分…

在Nginx部署Web应用,如何保障后端API的安全

1. 使用HTTPS和http2.0 参考:Nginx配置HTTP2.0_nginx 支持 2.0-CSDN博客 2. 设置严格的CORS策略 通过add_header指令设置CORS头。 只允许来自https://frontend.yourdomain.com的请求访问API location /api/ {if ($http_origin ~* (https://frontend\.yourdomai…

Nginx单向链表 ngx_list_t

目录 基本概述 数据结构 接口描述 具体实现 ngx_list_create ngx_list_init ngx_list_push 使用案例 整理自 nginx 1.9.2 源码 和 《深入理解 Nginx:模块开发与架构解析》 基本概述 Nginx 中的 ngx_list_t 是一个单向链表容器,链表中的每一个节…

es快速扫描

介绍 Elasticsearch简称es,一款开源的分布式全文检索引擎 可组建一套上百台的服务器集群,处理PB级别数据 可满足近实时的存储和检索 倒排索引 跟正排索引相对,正排索引是根据id进行索引,所以查询效率非常高,但是模糊…

软件需求建模方法

软件需求建模是一个涉及多个学科的领域,其研究方向广泛且多样。以下是一些主要的研究方向: 1. 需求工程方法:研究如何更有效地收集、分析、规格化和验证软件需求。这包括新的需求工程方法论和工具的开发。 2. 需求管理:关注需求…

软件项目需求分析的实践探索(1)

一、项目启动与规划 组建团队 包括项目经理、系统分析师、业务分析师以及可能涉及的最终用户代表和领域专家等。例如,开发一个医疗管理软件,就需要有医疗行业的专家参与,确保对医疗业务流程有深入理解。明确各成员的职责,如系统分…

wordpres当前分类调用父分类的名称和链接

在WordPress中&#xff0c;如果你想在当前分类页面调用并显示父分类的名称和链接&#xff0c;你可以使用以下代码片段&#xff1a; <?php // 获取当前分类的ID $cat_id get_queried_object_id();// 获取当前分类的父分类ID $parent_id get_term($cat_id, category)->…

前端Python应用指南(三)Django vs Flask:哪种框架适合构建你的下一个Web应用?

《写给前端的python应用指南》系列&#xff1a; &#xff08;一&#xff09;快速构建 Web 服务器 - Flask vs Node.js 对比&#xff08;二&#xff09;深入Flask&#xff1a;理解Flask的应用结构与模块化设计 在上一篇博文中&#xff0c;我们深入探讨了Flask框架&#xff0c;…

网络管理-期末项目(附源码)

环境&#xff1a;网络管理 主机资源监控系统项目搭建 &#xff08;保姆级教程 建议点赞 收藏&#xff09;_搭建网络版信息管理系统-CSDN博客 效果图 下面3个文件的项目目录(python3.8.8的虚拟环境) D:\py_siqintu\myproject5\Scripts\mytest.py D:\py_siqintu\myproject5\Sc…

MySQL 常用程序介绍

以下是一些常用的MySQL程序&#xff1a; 程序名作⽤mysqldMySQL的守护进程即 MySQL 服务器&#xff0c;要使⽤MySQL 服务器 mysqld必须正在运⾏状态mysql MySQL客⼾端程序&#xff0c;⽤于交互式输⼊ SQL 语句或以批处理模式从⽂件执⾏SQL的命令⾏⼯具 mysqlcheck⽤于检查、修…