【DevOps】Elasticsearch为什么需要大内存,怎么优化?

目录

一、Elasticsearch为什么需要大内存

1. 索引和搜索的高效执行

2. 缓存机制

3. 聚合操作

4. 堆内存用于 JVM 操作

5. 分片管理

6. 数据复制与高可用

7. 数据模型的灵活性

如何优化内存使用

二、优化分片减少内存占用

1. 每个分片都有独立的资源消耗

2. JVM 堆内存消耗

3. 非堆内存消耗

4. 分片副本

5. 管理开销

6. 优化分片数量的建议

7. 示例:缩减索引的分片数量


一、Elasticsearch为什么需要大内存

Elasticsearch (ES) 需要大量内存的原因主要与其架构和设计目标有关。以下是一些具体原因:

1. 索引和搜索的高效执行

  • 倒排索引 (Inverted Index): Elasticsearch 使用倒排索引来实现快速搜索。这种结构需要存储大量的元数据(如词项、位置等),并且为了提高性能,这些数据通常会被缓存到内存中。
  • 字段数据 (Field Data): 为了进行排序和聚合操作,Elasticsearch 需要将某些字段数据载入到内存中进行缓存。这使得对这些字段的操作非常快速,但也需要大量内存。

2. 缓存机制

  • 文件系统缓存 (Filesystem Cache): Elasticsearch 依赖操作系统的文件系统缓存来快速访问索引数据。为了利用这个特性,操作系统需要足够的内存。
  • 查询缓存 (Query Cache): Elasticsearch 会缓存部分查询结果,以便对类似的后续查询进行加速。

3. 聚合操作

  • 复杂聚合: 聚合操作可能会涉及大量数据的计算和合并。为了提高性能,Elasticsearch 会尽可能多地将相关数据载入内存。

4. 堆内存用于 JVM 操作

  • Elasticsearch 运行在 JVM 上,因此需要分配足够的堆内存来满足 JVM 的需求,包括垃圾回收、线程管理等。

5. 分片管理

  • 分片 (Shards): Elasticsearch 将索引分成多个分片,每个分片都有自己的数据结构和缓存。更多分片意味着需要更多内存。

6. 数据复制与高可用

  • 副本 (Replication): 为确保高可用性,Elasticsearch 会为索引创建副本分片。这会进一步增加内存需求。

7. 数据模型的灵活性

  • 动态映射: Elasticsearch 支持动态映射,这意味着它可以根据数据的结构动态地生成索引。这种灵活性也增加了内存需求。

如何优化内存使用

  • 适当配置 JVM 堆内存
    • 通常建议将堆内存设置为系统内存的 50%,但不能超过 32GB。
  • 调整缓存设置
    • 调整查询缓存和字段数据缓存的大小。
  • 减少分片数量
    • 避免过多的分片数量,因为每个分片都会增加内存占用。
  • 优化映射和数据模型
    • 尽量减少不必要的字段和数据类型。

Elasticsearch 需要大量内存来满足其快速索引、搜索和聚合的需求,同时也要维持高可用性和灵活性。合理配置内存和调整相关参数,可以显著提高 Elasticsearch 的性能和稳定性。

二、优化分片减少内存占用

在 Elasticsearch 中,分片(Shard)是索引的基本单位,每个索引由多个分片组成。每个分片实际上是一个独立的 Lucene 索引。分片数量的增加会导致内存占用的上升,具体原因如下:

1. 每个分片都有独立的资源消耗

  • 索引元数据 (Index Metadata): 每个分片都有自己独立的元数据,包括字段映射、分片状态信息等。
  • 文件句柄 (File Handles): 每个分片都会打开大量文件,并保持文件句柄。
  • Lucene 索引结构: 每个分片都有独立的 Lucene 索引结构,包括倒排索引、字段数据、词典、词项频率等。
  • 缓存 (Caches): 分片级别的缓存,如倒排索引缓存、字段数据缓存等。

2. JVM 堆内存消耗

  • 字段数据缓存 (Field Data Cache): 用于支持排序和聚合操作。每个分片都会维护自己的字段数据缓存。
  • 查询缓存 (Query Cache): 每个分片都有自己的查询缓存,用于缓存查询结果。
  • 段内存 (Segment Memory): Lucene 索引的每个段需要在内存中维护一些状态信息。
  • 其他 JVM 开销 (Garbage Collection, etc.): 更多的分片意味着更多的对象,增加了垃圾回收的频率和开销。

3. 非堆内存消耗

  • 文件系统缓存 (Filesystem Cache): 虽然不直接属于 Elasticsearch,但它依赖操作系统的文件系统缓存来加速索引和搜索操作。
  • 线程: 每个分片都有与之相关的线程,如合并线程、刷新线程等。

4. 分片副本

  • 副本 (Replica): 索引的每个分片通常都有一个或多个副本以提高容错能力。增加副本也会相应增加内存消耗。

5. 管理开销

  • 集群状态管理 (Cluster State Management): 更多的分片意味着需要维护更复杂的集群状态。
  • 任务分配 (Task Allocation): 分片的增加会增加任务分配和协调的复杂性。

6. 优化分片数量的建议

  • 合理规划分片数量

    • 避免过多的小分片。一般来说,每个分片至少需要 1GB 的数据。
    • 使用合适的索引策略,例如时间序列索引、滚动索引等。
  • 动态调整索引分片

    • 使用缩减索引(Shrink API)或合并索引(Reindex API)来调整分片数量。
  • 监控与调整

    • 使用 Elasticsearch 的监控工具(如 Kibana、Prometheus)监控分片的内存使用情况,并及时调整。

7. 示例:缩减索引的分片数量

假设一个索引 my_index 当前有 10 个分片,目标是将其缩减到 2 个分片。

  • 创建新索引副本,设置 number_of_shards 为目标数量。

    PUT /my_index_copy
    {"settings": {"number_of_shards": 2,"number_of_replicas": 1}
    }
    
  • 使用 reindex 将数据复制到新索引。

    POST /_reindex
    {"source": {"index": "my_index"},"dest": {"index": "my_index_copy"}
    }
    
  • 删除旧的索引。

    DELETE /my_index
    
  • 使用别名将新索引映射为旧索引名称。

    POST /_aliases
    {"actions": [{ "add": { "index": "my_index_copy", "alias": "my_index" } }]
    }
    

通过合理规划分片数量和管理策略,可以有效降低 Elasticsearch 的内存占用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/8824.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HTTP常见面试题(二)

3.1 HTTP 常见面试题 HTTP特性 HTTP 常见到版本有 HTTP/1.1,HTTP/2.0,HTTP/3.0,不同版本的 HTTP 特性是不一样的。 HTTP/1.1 的优点有哪些? HTTP 最突出的优点是「简单、灵活和易于扩展、应用广泛和跨平台」。 1. 简单 HTTP…

JavaWeb_请求响应_简单参数实体参数

一、SpringBoot方式接收携带简单参数的请求 简单参数:参数名与形参变量名相同,定义形参即可接收参数。并且在接收过程中,会进行自动的类型转换。 启动应用程序后,在postman中进行测试: 请求成功,响应回了O…

需要几步申请免费SSL证书,实现网站HTTPS访问

SSL证书是一种用于在网络中提供加密通信的数字证书。它有助于保护网站数据的完整性和隐私性,并通过在浏览器地址栏显示“https”和绿色锁图标来增强用户信任。许多证书颁发机构(CA)提供免费的SSL证书,以鼓励更广泛的网络安全使用。…

hal_stm32_RTC函数

1设置当前时间: 调用 HAL_RTC_SetTime 来设置小时、分钟、秒和亚秒。 调用 HAL_RTC_SetDate 来设置年、月、日和星期。 HAL_StatusTypeDef HAL_RTC_SetTime(RTC_HandleTypeDef *hrtc, RTC_TimeTypeDef *sTime, uint32_t Format); HAL_StatusTypeDef HAL_RTC_SetDat…

一步成像:Hyper-SD在图像合成中的创新与应用

一、摘要: 论文:https://arxiv.org/pdf/2404.13686 代码:https://huggingface.co/ByteDance/Hyper-SD 在生成人工智能领域,扩散模型(Diffusion Models, DMs)因其出色的图像生成质量而备受关注,但…

itext5.5.13 PDF预览权限问题

PdfUtils.htFile.createNewFile() createNewFile 创建文件错误错误原因方式一方式二实例代码-生成PDF表格数据 createNewFile 创建文件错误 ht getResourceBasePath() "\\templates\\ht.pdf"; htFile new File(ht);代码含义是创建源文件路…

【大学物理】双语笔记

7.5 angular momentu(角动量)_哔哩哔哩_bilibili 6.4Energy in Rotation Motion 有质量有速度的物体有动能,是不是很有道理 international system(from French systeme international,acronym,SI)of ineria kg*m^2 转…

Google Earth Engine——删除和复制指定ASSETS中的文件信息(JavaScript 和python版本)

如果你和我一样,有大量资产上传到 Earth Engine。随着上传的资产越来越多,管理这些数据变得相当繁琐。Earth Engine 提供了一个便捷的命令行工具,可以帮助进行资产管理。虽然命令行工具非常有用,但在涉及批量数据管理任务时,它就显得力不从心了。 如果你想重新命名一个图…

上位机图像处理和嵌入式模块部署(树莓派4b和mcu的分工与配合)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 树莓派4b从广义上来说,它本身就是一个mini小电脑。我们需要什么软件,就可以apt install去下载即可。这和之前嵌入式linux开…

8G显存玩转AI换衣IDM-VTON(支持MAC、WIN)

最近AI换衣项目IDM-VTON挺火哈,我也火速体验了一把。效果也是很不错,相对OOTDiffusion的换衣效果提升了不少。 那部署的时候遇到比较大的问题是高显存占用!太吃配置了!24G的显卡占用了18G左右。于是花了点时间改成 使用了低精度模…

Python图形界面(GUI)Tkinter笔记(二):标签Label的基本应用

Label()方法用于在根窗口(根窗口可以想象成一个容器,一个画布,一个电路板;而标签Label()等等这些方法也叫控件或元件或组件,它们可以想象成装进容器的物品,或是想象成画在画布上的图形,或是想象成焊接在电路板上的电子元件)内建立“文字”或“图像”标签。 其余笔记:…

Wireshark Lua插件开发实战:应对TCP粘包问题

0. 概述 Wireshark提供了tcp_dissect_pdus()函数,可以帮助用户处理TCP粘包问题 1. 粘包问题的基本原理 TCP粘包问题本质上是数据包拼接和拆分的问题。当多个应用层数据包被封装成同一个TCP段时,就发生了粘包现象。在解析时,我们需要将粘在…

【linux kernel】杂项(misc)设备驱动总结

文章目录 一、杂项设备简介二、杂项设备API1、注册杂项设备2、注销杂项设备3、杂项设备模块助手函数 三、杂项设备初始化四、杂项设备示例五、杂项设备和字符设备 👉相关文件: drivers/char/misc.cinclude/linux/miscdevice.h 一、杂项设备简介 Linux …

吴恩达2022机器学习专项课程C2(高级学习算法)W1(神经网络):2.5 更复杂的神经网络

目录 示例填写第三层的层数1.问题2.答案 公式:计算任意层的激活值激活函数 示例 层数有4层,不包括输入层。 填写第三层的层数 1.问题 你能把第二个神经元的上标和下标填写出来吗? 2.答案 根据公式g(wxb),这里的x对应的是上…

Nacos支持哪些集群部署模式?

Nacos集群部署模式详解 在微服务架构中,服务注册与发现、配置管理以及服务治理是确保系统稳定、高效运行的关键环节。Nacos作为阿里巴巴开源的一个更易于构建云原生应用的动态服务发现、配置管理和服务管理平台,为微服务架构提供了强大的支持。 一、Na…

pdf2htmlEX:pdf 转 html,医学指南精细化处理第一步

pdf2htmlEX:pdf 转 html,医学指南精细化处理第一步 单文件转换多文件转换 代码:https://github.com/coolwanglu/pdf2htmlEX 拉取pdf2htmlEX 的 Docker: docker pull bwits/pdf2htmlex # 拉取 bwits/pdf2htmlex不用进入容器&…

mysql oceanbase数据库alter语句阻塞,解决方案

获取当前阻塞事件 select d.trx_started, a.thread_id, b.processlist_id, a.SQL_text from performance_schema.events_statements_current ajoin performance_schema.threads b on a.thread_id b.thread_idjoin information_schema.processlist c on b.processlist_id c.i…

最稳定的VPS有哪些?2024年稳定服务器推荐

最稳定的VPS有:DigitalOcean、萤光云、Vultr、Linode、AWS。 VPS的硬件质量、网络稳定性、数据中心设施、数据中心位置等都是评估VPS好坏的重要条件,接下来为一起来看看5个2024年稳定服务器厂商,大家可以自己对比一下。 2024年稳定服务器推荐…

【Vue3】setup通过defineProps获取props为null

我做的功能是父组件往子组件传值 父组件&#xff1a; <MapComponent :zbx"zbx" :zby"zby" /> 子组件&#xff1a; setup(props) {// 定义接收到的 propsconst propsObj defineProps({zbx: Number,zby: Number});console.log(propsObj) // null …

MySql表的增删查改(CRUD)

对表中的数据操作分为4大类&#xff0c;增加数据&#xff0c;删除数据&#xff0c;查找数据&#xff0c;修改数据。对表中的数据进行增删查改操作简称为CRUD。Create(增),Retrieve(查找),Updata(修改&#xff09;,Delete(删除)CRUD的操作是对表中的数据进行操作的&#xff0c;是…