Python代码操作ES

1,ElasticSearch准实时索引实现

Es在保存数据的时候时分区/分片存储的,每一个分区/分片都对应着一个Lucene实例

  • 每一个分区/分片对应多个文件,一个文件就是一个Segment(段)
  • Segment
  • 就是可以被检索的最小单元,每一个Segment都对应着一个倒排索引

Refresh到内存Segment:

  • 从内存中的缓冲区 (buffer) 到内存中的segment (建立了内存中的倒排索引)
  • refresh默认1秒一次,也可以根据JVM堆内存进行refresh,10%的堆内存进行refresh。

Flush到磁盘

  • 当保存在内存中的segment触发了阈值, 就会把内存中的segment写入到磁盘
  • ES默认每隔30分钟/512m把内存中的segment数据写入到磁盘中

Translog 溢写日志:

  • 在数据写入内存的同时, 还会写一份相同的数据到磁盘, 这份数据会写入到Translog中, 如果在refresh期间出现了异常导致程序挂掉, 当程序再次启动的时候, 可以从translog中恢复回来
  • 当走了Flush刷新之后, 说明translog中对应的数据,已经建好了倒排索引, 并且保存到了磁盘上的segment , 数据丢失的概率很小了, translog会被清空

在大批量数据写入ES的时候,应该先关闭自动refresh,数据写入之后再打开自动refresh

ES准实时索引完整流程

buffer(缓冲区)->segment(数据段)->refresh(刷新 内存buffer->内存sgment)->flush(刷新 内存segment->磁盘segment ->translog(溢写日志))

2,Python代码操作ES

创建一个实体类,用来表示一条招聘信息

class JobDetail():def __init__(self, id, area, cmp, edu, exp, title, job_type, pv, jd, salary):self.id = idself.area = areaself.cmp = cmpself.edu = eduself.exp = expself.title = titleself.job_type = job_typeself.pv = pvself.jd = jdself.salary = salary# 返回为字典数据, 用于后续方便使用, 此处也可以尝试使用JSON方式转换def get_document(self):return {'id': self.id, 'area': self.area, 'cmp': self.cmp, 'edu': self.edu, 'exp': self.exp,'title': self

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/648714.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【医学图像隐私保护】联邦学习:密码学 + 机器学习 + 分布式 实现隐私计算,破解医学界数据孤岛的长期难题

联邦学习:密码学 机器学习 分布式 提出背景:数据不出本地,又能合力干大事联邦学习的问题 分布式机器学习:解决大数据量处理的问题横向联邦学习:解决跨多个数据源学习的问题纵向联邦学习:解决数据分散在多…

[] == ! [] 为什么返回 true ?

的隐式转换规则 类型相同的比较: 如果类型是 Undefined 或 Null,返回 true。 null null; // true如果一个是 0,另一个是 -0,返回 true: 0 -0; // true如果类型是对象,二者引用同一个对象,…

【grafana】使用教程

【grafana】使用教程 一、简介二、下载及安装及配置三、基本概念3.1 数据源(Data Source)3.2 仪表盘(Dashboard)3.3 Panel(面板)3.4 ROW(行)3.5 共享及自定义 四、常用可视化示例4.1…

内网穿透frpc记录

配置信息 /frp/frpc.ini [common] server_addr 47.109.91.139 server_port 7000[ssh] type tcp local_ip 192.168.86.10 local_port 22 remote_port 6000[https] type tcp local_ip 192.168.86.10 local_port 443 remote_port 443[http] type tcp local_ip 192.1…

湿法蚀刻酸洗槽—— 应用半导体新能源光伏光电行业

PFA清洗槽又被称为防腐蚀槽、酸洗槽、溢流槽、纯水槽、浸泡槽、水箱、滴流槽,是四氟清洗桶后的升级款,是为半导体光伏光电等行业设计,一体成型,无需担心漏液。主要用于浸泡、清洗带芯片硅片电池片的花篮。 由于PFA的特点它能耐受…

【linux-虚拟化】 SR-IOV技术

文章目录 参考1. 什么是 SR-IOV?1.2. 将 SR-IOV 网络设备附加到虚拟机1.3. SR-IOV 分配支持的设备 参考 管理 SR-IOV 设备 1. 什么是 SR-IOV? 单根 I/O 虚拟化(SR-IOV)是一种规范,它允许单个 PCI Express(PCIe)设备向主机系统呈现多个独立的 PCI 设备&#xff…

QT获取本机网络信息

QT获取本机网络信息 widget.h #ifndef WIDGET_H #define WIDGET_H#include <QWidget>QT_BEGIN_NAMESPACE namespace Ui { class Widget; } QT_END_NAMESPACEclass Widget : public QWidget {Q_OBJECTpublic:Widget(QWidget *parent nullptr);~Widget();void getinform…

vue3中的vuex理解

vuex,概念理论什么的&#xff0c;我就不多说了。懂的人都懂。不懂的&#xff0c;请自己谷歌。本博文主要讲解它的一些常用方法和持数据的持久化&#xff08;本文是以模块化来写的&#xff09;。 1、安装 npm install vuexnext --save npm i vuex-persistedstate #持久化插件2、…

openssl3.2/test/certs - 075 - non-critical unknown extension

文章目录 openssl3.2/test/certs - 075 - non-critical unknown extension概述笔记END openssl3.2/test/certs - 075 - non-critical unknown extension 概述 openssl3.2 - 官方demo学习 - test - certs 笔记 /*! * \file D:\my_dev\my_local_git_prj\study\openSSL\test_c…

视频智能分析:冶炼/冶金工厂视频智能监管方案的设计和应用

一、背景与需求 随着工业4.0的推进&#xff0c;冶金行业正面临着转型升级的压力。为了提高生产效率、降低能耗、保障安全&#xff0c;冶金智能工厂视频监管方案应运而生。该方案通过高清摄像头、智能分析技术、大数据处理等手段&#xff0c;对工厂进行全方位、实时监控&#x…

编程笔记 html5cssjs 059 css多列

编程笔记 html5&css&js 059 css多列 一、CSS3 多列属性二、实例小结 CSS3 可以将文本内容设计成像报纸一样的多列布局. 一、CSS3 多列属性 下表列出了所有 CSS3 的多列属性&#xff1a; 属性 描述 column-count 指定元素应该被分割的列数。 column-fill 指定如何填充…

没有可用软件包 mysql-community-server

User [rootecm-a08e ~]# sudo yum install -y mysql-community-server 已加载插件&#xff1a;fastestmirror Loading mirror speeds from cached hostfile base: mirrors.aliyun.comepel: mirror.01link.hkextras: mirrors.ustc.edu.cnupdates: mirrors.ustc.edu.cn 没有可用…

k8s的安全机制

k8s的安全机制。分布式集群管理工具&#xff0c;就是容器编排 安全机制的核心&#xff1a;APIserver作为整个内部通信的中介&#xff0c;也是外部控制的入口&#xff0c;所有的安全机制都是围绕API server来进行设计 请求API资源&#xff1a; 1、认证 2、鉴权 3、准入机制 …

如何使用WinSCP公网远程访问本地CentOS服务器编辑上传文件

文章目录 1. 简介2. 软件下载安装&#xff1a;3. SSH链接服务器4. WinSCP使用公网TCP地址链接本地服务器5. WinSCP使用固定公网TCP地址访问服务器 1. 简介 ​ Winscp是一个支持SSH(Secure SHell)的可视化SCP(Secure Copy)文件传输软件&#xff0c;它的主要功能是在本地与远程计…

大创项目推荐 题目:基于FP-Growth的新闻挖掘算法系统的设计与实现

文章目录 0 前言1 项目背景2 算法架构3 FP-Growth算法原理3.1 FP树3.2 算法过程3.3 算法实现3.3.1 构建FP树 3.4 从FP树中挖掘频繁项集 4 系统设计展示5 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 基于FP-Growth的新闻挖掘算法系统的设计与实现…

Mediasoup Demo-v3笔记(五)——Mediasoup 的启动

Mediasoup是由两部分组成的&#xff0c;一部分是js的控制模块&#xff0c;一部分是c的传输模块&#xff0c;在这里我们用mediasoup demo的代码开始&#xff0c;分析整个进程的启动过程 1、在mediasoup-demo-3的server.js中&#xff0c;调用启动方法 mediasoup-demo-3是一个dem…

Zoomit 安装与使用

Zoomit 安装与使用 1&#xff09;工具介绍 ZoomIt 是一款非常实用的投影演示辅助软件 ZoomIt 是一种在所有 Windows 设备上运行的工作的注释和缩放工具 2&#xff09;下载地址 地址&#xff1a;https://zoomit.en.softonic.com/ 3&#xff09;安装教程 第一步 第二步 …

国外服务器全攻略,国外服务器的特点和优势是什么?

随着互联网的快速发展&#xff0c;越来越多的企业和个人选择将网站、应用程序等部署在国外服务器上。那么&#xff0c;国外服务器有哪些特点和优势呢&#xff1f;本文将对这一问题进行详细探讨。 一、国外服务器的特点 1.全球化的网络连接&#xff1a;国外服务器通常拥有全球化…

ThreeJS官方示例

1 月球绕地球旋转 材质贴图的颜色显示可能和原图看起来不一致&#xff0c;需要设置色彩空间&#xff1a; 线性色彩空间&#xff08;LinearSRGBColorSpace&#xff09;&#xff1a;根据光照强度均匀分布sRGB色彩空间&#xff08;SRGBColorSpace&#xff09;&#xff1a;根据人…

svn和git的本质区别是什么

参考&#xff1a; https://blog.csdn.net/feiying0canglang/article/details/126550676 上边图中&#xff0c;跨越了区的箭头&#xff0c;它中间的区数据都会同步。例如&#xff1a;git checkout &#xff0c;它是将本地仓库数据更新到暂存区和工作区的。\ 理解 gitlab和svn都…