es索引导致的数据导入缓慢问题

         我是es小白中的小白,遇到个问题也不知道为啥,反正是解决了,各位路过的大哥,有知道原因的还望留言指教,在此感谢!
         我先讲一下这个问题的背景,我们线上有一套es,版本是7,想把数据导出来,导入到es6中,具体版本是6.8.23,因为es7和es6索引有些差别,开始创建索引的时候没成功,后来创建成功了,但是发现把数据导入到新创建的索引中,运行非常缓慢,导入程序是我用python写的脚本。
         我是怎么发现慢的呢,因为除了这套数据(数据A),我还有一套别的数据(数据B),从单条数据体量上讲,数据B要比数据A大很多,索引B也要比索引A复杂很多,但是数据B的导入速度比数据A快很多,这明显不合理。
         我用100万数据做并发导入测试,首先把100万数据切割成100份,然后用3个线程并发处理,每个线程单独处理一个文件。数据B导入100万13分钟左右,数据A导入100万需要一个小时左右,差距十分明显。
         通过多次尝试及对比发现,数据B的索引与数据A的索引结构不同,把结构修改了导入速度就提升上来了,3线程能达到5000QPS左右(我是windows笔记本,导入使用的docker环境也在本机中)。
         下面我介绍下具体是怎么修改的

1. 首先介绍索引无法创建成功的样例

         es7中索引是这样的,但在es6.8.23中无法创建成功,原因是缺少一层

{"settings": {"number_of_shards": 30,"number_of_replicas": 0},"mappings": {"properties": {"XXX": {"type": "keyword"},"XXX": {"index": False,"type": "keyword"},"XXX": {"index": False,"type": "keyword"}}}
}

2. 要这样才能创建成功

         注意properties上边的doc,这样索引能创建成功,数据也能插入进去,但是非常慢

{"index": {"refresh_interval": "8s","translog": {"durability": "async","sync_interval": "10s"},"unassigned": {"node_left": {"delayed_timeout": "1m"}}},"settings": {"number_of_shards": 16,"number_of_replicas": 0},"mappings": {"doc": {"properties": {"XXX": {"type": "keyword"},"XXX": {"index": False,"type": "keyword"},"XXX": {"index": False,"type": "keyword"}}}}
}

3. 要这样插入才快

         注意,index的内容放到了setting中,index中的其它配置,是我做的优化,但并不能显著提高插入性能,只有把index放入到setting中之后,插入性能才得到显著提升。为什么我也不知道,有清楚的留言指教,感谢!

bodySet = {"settings": {"index": {"refresh_interval": "8s","translog": {"durability": "async","sync_interval": "10s"},"number_of_shards": "16","number_of_replicas": "0","unassigned": {"node_left": {"delayed_timeout": "1m"}}}},"mappings": {"doc": {"properties": {"XXX": {"type": "keyword"},"XXX": {"index": False,"type": "keyword"},"XXX": {"index": False,"type": "keyword"}}}}}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/62867.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【LeetCode每日一题】——204.计数质数

文章目录 一【题目类别】二【题目难度】三【题目编号】四【题目描述】五【题目示例】六【题目提示】七【解题思路】八【时空频度】九【代码实现】十【提交结果】 一【题目类别】 数组 二【题目难度】 中等 三【题目编号】 204.计数质数 四【题目描述】 给定整数 n &…

【计算机网络】细说IP

文章目录 概述IP地址的组成IP地址的分类IP地址的作用 分类一、A类IP地址二、B类IP地址三、C类IP地址四、D类IP地址五、E类IP地址 协议报文子网掩码一、定义与功能二、表示方法三、子网掩码与IP地址的关系四、子网掩码的设置与配置五、实例说明 IPv6一、定义与背景二、地址格式与…

tar.gz压缩包校验是否损坏

1. 使用 tar 命令检查 tar 命令有一个 -t 选项,可以用来列出压缩包中的内容,并在过程中检查文件是否损坏。如果压缩包损坏,tar 会报错。 命令:tar -tzf filename.tar.gz-t:列出压缩包中的内容。-z:表示压…

【数据事务】.NET开源 ORM 框架 SqlSugar 系列

.NET开源 ORM 框架 SqlSugar 系列 【开篇】.NET开源 ORM 框架 SqlSugar 系列【入门必看】.NET开源 ORM 框架 SqlSugar 系列【实体配置】.NET开源 ORM 框架 SqlSugar 系列【Db First】.NET开源 ORM 框架 SqlSugar 系列【Code First】.NET开源 ORM 框架 SqlSugar 系列【数据事务…

【机器学习】机器学习的基本分类-监督学习-决策树-ID3 算法

ID3(Iterative Dichotomiser 3)是决策树的一种构造算法,由 Ross Quinlan 在 1986 年提出。它主要用于分类问题,通过信息增益选择特征来构建决策树。ID3 假设数据是离散型特征,且不支持连续型数据。 1. 核心思想 划分标…

JAVA |日常开发中读写XML详解

JAVA |日常开发中读写XML详解 前言一、XML 简介二、在 Java 中读取 XML2.1 使用 DOM(Document Object Model)方式读取 XML2.2 使用 SAX(Simple API for XML)方式读取 XML 三、在 Java 中写入 XML3.1 使用 DOM 方式写入…

ISAAC SIM踩坑记录--Omniverse Launcher添加代理

最近Omniverse Launcher不知道又抽什么疯,在Exchange界面安装各种软件都不成功,报错如下: FetchError: request to https://launcher-index-prod.s3.amazonaws.com/en/components.json failed, reason: Client network socket disconnected…

mac电脑多个ssh keys共存

一、同一台电脑,不同域名的git仓库为什么要设置不同的ssh keys? 每个git仓库通常要求使用唯一的ssh key,以防止权限冲突和安全问题。 权限控制:每个git仓库的权限是独立的,使用不同的ssh keys可以更好的管理权限&…

软件设计师笔记-算法设计与分析面向对象技术

算法设计与分析 算法的特性 有穷性确定性可行性输入输出 算法的表示方法 自然语言流程图程序设计语言伪代码 递归算法求时间复杂度 展开法:将等式依次展开代换法:用所猜测的值代替函数的解 分治法 将一个难以直接解决的大问题分解成一些规模较小…

第9章 大模型的有害性(上)

9.1 引言 本章将探讨大型语言模型(LLMs)可能带来的有害性,重点讨论以下几个方面: 性能差异社会偏见和刻板印象 在后续内容中,还会涉及其他层面的危害,如有害信息、虚假信息、隐私和安全风险、版权问题、…

Hyperf jsonrpc

依赖的 composer 包 composer require hyperf/json-rpc composer require hyperf/rpc-server composer require hyperf/rpc-client composer require hyperf/service-governance composer require hyperf/service-governance-consul composer require hyperf/service-gove…

ECharts柱状图-交错正负轴标签,附视频讲解与代码下载

引言: 在数据可视化的世界里,ECharts凭借其丰富的图表类型和强大的配置能力,成为了众多开发者的首选。今天,我将带大家一起实现一个柱状图图表,通过该图表我们可以直观地展示和分析数据。此外,我还将提供…

07《缓存》计算机组成与体系结构 系列课

目录 深入了解缓存内存 缓存的重要性 游戏中的存储需求与主内存 虚拟内存和按需分页 现代系统中的多级缓存 缓存级别的大小与速度 缓存相关的术语 缓存命中与未命中 页面命中与缺页 局部性原理 结语 深入了解缓存内存 大家好,欢迎来到今天的课程。上节课…

【Exchange渗透02】Exchange 渗透信息收集

目录 一、Exchange 介绍 二、Exchange基础 1. exchange 开放端口 2. 域内定位 exchange 服务器 3. exchange 相关账号 4. exchange 目录介绍 管理中心 /ecp Outlook用户邮箱 /owa 三、Exchange 外网信息收集 1. 识别exchange版本 2. 通过exchange获取AD域名 3. 探测…

Linux中dos2unix详解

dos2unix 是一个用于将文本文件从DOS/Windows格式转换为Unix/Linux格式的工具。在不同的操作系统中,文本文件中的换行符表示方式是不一样的。具体来说: 在DOS和Windows系统中,换行由两个字符组成:回车(Carriage Retur…

贵州大学oj平台软工24-11-27第5次小测

题目&#xff1a;阶乘和函数 题目描述 设计一个计算阶乘和的函数&#xff0c;用于求1!2!...n!并返回结果。 其中n是函数的参数。 程序的开始部分及main函数已经写好如下&#xff1a; #include <stdio.h> double factSum(int n); int main(){ int n; scanf("…

FPGA实战篇(触摸按键控制LED灯)

1.触摸按键简介 触摸按键主要可分为四大类&#xff1a;电阻式、电容式、红外感应式以及表面声波式。根据其属性的不同&#xff0c;每种触摸按键都有其合适的使用领域。 电阻式触摸按键由多块导电薄膜按照按键的位置印制而成&#xff0c;但由于耐用性较差且维护复杂&#xff0c…

java基础概念47-ArrayList、LinkList和迭代器

一、ArrayList集合 1-1、ArrayList的两种添加信息的方式 1-2、ArrayList集合底层逻辑 1、利用空参创建的集合&#xff0c;在底层创建一个默认长度为0的数组 2、添加第一个元素时&#xff0c;底层会创建一个新的长度为10的数组 3、存满时&#xff0c;会扩容1.5倍。 4、如果…

Milvus python库 pymilvus 常用操作详解之Collection(下)

上篇博客 Milvus python库 pymilvus 常用操作详解之Collection&#xff08;上&#xff09; 主要介绍了 pymilvus 库中Collection集合的相关概念以及创建过程的代码实现&#xff0c;现在我们要在该基础上实现对于collection中插入数据的混合检索&#xff08;基于dense vector 和…

C++学习日记---第16天

笔记复习 1.C对象模型 在C中&#xff0c;类内的成员变量和成员函数分开存储 我们知道&#xff0c;C中的成员变量和成员函数均可分为两种&#xff0c;一种是普通的&#xff0c;一种是静态的&#xff0c;对于静态成员变量和静态成员函数&#xff0c;我们知道他们不属于类的对象…