【HBZ分享】ES索引分片的写入原理 及 流程

当一条数据写到ES要经历哪些过程?

  1. 当插入一条新的数据时, 数据会进入Translog 和 MemoryBuffer两个内存中,并添加了事务日志,此时该文档不可查询
  2. 当translog大到一定程度时,会发生一个commit操作,也就是全量提交,会把translog中的数据全部刷到磁盘
  3. translog也会先写到os cache中,默认每隔5秒刷一次到磁盘中
  4. 所以默认情况下,可能会有5秒钟数据停留在【buffer】 或者 【translog文件的os cache中】,所以如果在5秒内宕机了,数据就会丢失,所以最多会有5秒的数据丢失
  5. 随后MemoryBuffer会每隔1秒,刷新到Segment段中,每次刷新都会生成新的Segment段,Refresh操作默认是每秒执行一次,即每秒会刷一次到Segment中(总结就是:内存缓冲区数据 —> 文件系统缓冲区, 都是缓存,内存缓冲区数据不可读,文件系统缓冲区才能读)
  6. 因此在MemoryBuffer中的那1秒是搜不到数据的,有1秒的延迟,只有刷到Segment中才会被搜索
  7. 当文档从MemoryBuffer刷到Segment时,MemoryBuffer会全部被清空,但这个刷新过程是非常耗时的,因此针对实时性不高的数据,可以配置刷洗时间比如30秒刷一次,不要1秒一次,这也是优化性能的重要方法
  8. Segment中的数据默认30分钟会flush刷盘的磁盘中,并且同时会清空translog,而这个过程中,如果translog满了,也会把translog中的数据刷到DISK中,并清空translog。
    注意:5秒一次是针对Translog的,而默认30分钟是针对Segment中的数据刷盘,注意分清这两个刷盘时间的含义
  9. 这个过程中,refresh, flush的刷新刷盘时间可以配置,translog的达到临界size刷盘的这个size也可以配置
MemoryBuffer配置刷新时间:
PUT /refreshTest
{"settings": {"refresh_interval": "30s"}
}

合并(merge)

  1. 默认每秒都会有新的segment生成,因为MemoryBuffer默认每秒刷一次Segment,所以如果没有合并,则Segment的数量会暴涨,每个段都将消耗文件句柄,内存,和CPU资源。因为搜索的时候也会遍历segment。
  2. 所以ES会在后台合并这些段,ES会定期将一些小的Segment 或 没用的Segment段进行合并,减少存储占用空间
  3. 小段被合并成大段,再合并成更大的段,然后将新的大Segment打开提供搜索,旧的会删除
  4. 不合并segment的影响:
    (1). 每个segment占据的内存【不会】随着gc释放的。导致系统内存不足,进一步导致超时问题
    (2). 查询时会遍历每个segment,过多的segment会导致查询速度下降

刷盘(flush)

  1. 实现文档数据从文件系统缓存中刷到磁盘的过程
  2. 会定期触发,也可以当translog的数据达到某个上限的时候触发flush刷盘操作
  3. 默认条件是: 每30分钟主动进行一次flush, 或者当translog文件大于512MB主动进行一次flush
配置代码:
index.translog.flush_threshold_period 和 index.translog.flush_threshold_size
  1. 再ES中,要保证被索引的文档能够立即被搜索到,有两种方法: _refresh 或 _flush。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/33140.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

css小练习:案例6.炫彩加载

一.效果浏览图 二.实现思路 html部分 HTML 写了一个加载动画效果&#xff0c;使用了一个包含多个 <span> 元素的 <div> 元素&#xff0c;并为每个 <span> 元素设置了一个自定义属性 --i。 这段代码创建了一个简单的动态加载动画&#xff0c;由20个垂直排列的…

【go语言基础】结构体struct

主要是敲代码&#xff0c;敲的过程中会慢慢体会。 1.概念 结构体是用户定义的类型&#xff0c;表示若干字段的集合&#xff0c;目的是将数据整合在一起。 简单的说&#xff0c;类似Java中的实体类。存储某个实体属性的集合。 2.结构体声明 注意&#xff1a;结构体名字&…

Flask实现接口mock,安装及使用教程(一)

1、什么是接口mock 主要是针对单元测试的应用&#xff0c;它可以很方便的解除单元测试中各种依赖&#xff0c;大大的降低了编写单元测试的难度 2、什么是mock server 正常情况下&#xff1a;测试客户端——测试——> 被测系统 ——依赖——>外部服务依赖 在被测系统和…

AI:01-基于机器学习的深度学习的玫瑰花种类的识别

文章目录 一、数据集介绍二、数据预处理三、模型构建四、模型训练五、模型评估六、模型训练七、模型评估八、总结深度学习技术在图像识别领域有着广泛的应用,其中一种应用就是玫瑰花种类的识别。在本文中,我们将介绍如何使用机器学习和深度学习技术来实现玫瑰花种类的识别,并…

运维监控学习1

1、监控对象&#xff1a; 1、监控对象的理解&#xff1b;CPU是怎么工作的&#xff1b; 2、监控对象的指标&#xff1a;CPU使用率&#xff1b;上下文切换&#xff1b; 3、确定性能基准线&#xff1a;CPU负载多少才算高&#xff1b; 2、监控范围&#xff1a; 1、硬件监控&#x…

“掌握类与对象,点亮编程之路“(下)

White graces&#xff1a;个人主页 &#x1f649;专栏推荐:《C语言入门知识》&#x1f649; &#x1f649; 内容推荐:“掌握类与对象&#xff0c;点亮编程之路“(上)&#x1f649; &#x1f439;今日诗词:春风得意马蹄疾&#xff0c;一日看尽长安花&#x1f439; 目录 &…

mysql-数据库-在表中添加数据三种方式

创建数据库和表 mysql> create database mydb4; Query OK, 1 row affected (0.01 sec)mysql> use mydb4; Database changed mysql> create table stu_info(-> stu_id int primary key auto_increment comment 学号,-> stu_name varchar(30) not null comment …

flume系列之:监控zookeeper的flume配置写入节点,新增和删除flume agent节点,通过ansible自动部署和卸载flume agent

flume系列之:监控zookeeper的flume配置写入节点,新增和删除flume agent节点,通过ansible自动部署和卸载flume agent 一、相关技术二、流程梳理三、部署和删除flume agent效果四、监控zookeeper节点五、新增zookeeper节点部署flume agent六、删除zookeeper节点删除flume agen…

计算机网络和 Internet 的基本概念

计算机网络和互联网&#xff08;Internet&#xff09;是现代计算机科技中的重要概念。它们为计算机之间的通信和数据交换提供了基础架构。以下是它们的基本概念&#xff1a; **计算机网络&#xff1a;** 计算机网络是指将多台计算机连接在一起&#xff0c;以便它们可以共享资…

vscode里面报:‘xxx‘ is assigned a value but never used.解决办法

const setCurPage: React.Dispatch<React.SetStateAction<number>> 已声明“setCurPage”&#xff0c;但从未读取其值。ts(6133) setCurPage is assigned a value but never used.eslinttypescript-eslint/no-unused-vars 出现这个报错是eslint导致的&#xff0…

P450进阶款无人机室内定位功能研测

在以往的Prometheus 450&#xff08;P450&#xff09;无人机上&#xff0c;我们搭载的是Intel Realsense T265定位模块&#xff0c;使用USB连接方式挂载到机载计算机allspark上&#xff0c;通过机载上SDK驱动T265运行并输出SLAM信息&#xff0c;以此来实现室内定位功能。 为进…

倒数纪念日-生日提醒事项时间管理倒计时软件

倒数纪念日​​​​​​​是一款功能强大的时间管理、事项提醒软件。帮你更好的管理倒数日、纪念日、生日、节假日、还款日等各种重要日子&#xff0c;通知提醒&#xff0c;让你不再错过生命中的每一个重要日子。 【功能简介】 分类管理&#xff1a;倒数日、纪念日、自定义分类…

腾讯云10万日活服务器配置怎么选?费用多少?

日活10万的小程序或APP使用腾讯云服务器配置怎么选&#xff1f;腾讯云10万人服务器配置多少钱一年&#xff1f;可以选择腾讯云4核8G12M轻量应用服务器或8核16G18M服务器&#xff0c;云服务器CVM的话可以选择标准型S5实例&#xff0c;腾讯云服务器网来详细说下腾讯云日活10万服务…

AJAX-笔记(持续更新中)

文章目录 Day1 Ajax入门1.AJAX概念和axios的使用2. 认识URL3.URL的查询参数4.常用的请求方法和数据提交5.HTTP协议-报文6.接口文档7.form-serialize插件8.案例用户登录 Day2 Ajax综合案bootstrap弹框图书管理图片上传更换背景个人信息设置 Day3 AJAX原理XMLHttpRequestPromise封…

SQL常见命令语句

1.连接数据库 mysql (-h IP) -u root -p 密码2.查看数据库 show databases3.使用数据库 use db_name4.查看表 show tables [from db_name]5.查看表结构 desc tb_name6.创建、删除、选择数据库 create database db_namedrop database db_nameuse db_name7.数据类型 参考链…

kvm not all arguments converted during string

kylin virt-manager 远程镜像制作问题记录(not all arguments ) 项目场景&#xff1a; 服务器端安装的OS版本&#xff1a;Kylin-Server-10-SP1-Release-Build20-20210518-arm64-2021-05-18 客户端安装的OS版本&#xff1a;Kylin-Server-10-SP1-Release-Build20-20210518-x86_…

【数据结构•堆】序列和的前n小元素(堆排序)

题目描述 问题&#xff1a;序列和的前n小元素 给出两个长度为n的有序表A和B, 在A和B中各任取一个, 可以得到 n^2 个和. 求这些和最小的n个。 输入输出格式 输入格式&#xff1a; 输入数据共三行。   第一行&#xff0c;一个整数值n &#xff08; n < 10^4 &#xff09…

rknn-toolkit安装的一点感想

rknn-toolkit装了好多次&#xff0c;总是会报错&#xff0c;终于尝试出了一个版本可以用的。&#xff08;注意windows和linux上都能用&#xff09; rknn-toolkit: v1.7.1&#xff1a; cuda 10.1 python3.6 pytorch1.5.1 opencv-python3.2.0.8 tensorflow1.14.0模型导出的时候…

使用 API Gateway Integrator 在 Quarkus 中实施适用于 AWS Lambda 的 OpenAPI

AWS API Gateway 集成使得使用符合 OpenAPI 标准的 Lambda Function 轻松实现 REST API。 关于开放API 它是一个 允许以标准方式描述 REST API 的规范。 OpenAPI规范 (OAS) 为 REST API 定义了与编程语言无关的标准接口描述。这使得人类和计算机都可以发现和理解服务的功能&am…

HTML5基础

1、HTML5概述 2014年10月28日&#xff0c;W3C&#xff08;world wide web consortium&#xff0c;万维网联盟&#xff09;的HTML工作组发布了HTML5的正式推荐标准。HTML5作为构建开放Web平台的核心&#xff0c;增加了支持Web应用的许多新特性&#xff0c;以及更符合开发者使用…