ES基础概念

         本文不介绍如何使用ES(使用ES见:)

1.ES生态圈

        ES:

        Logstash:数据处理服务程序,解析转换加工数据;

        Kibana:数据展示、集群管理,数据可视化、ES管理与监控、报表等;

        Beats:轻量级数据采集工具,支持多个数据源采集,占用系统资源少; 

        ES-Hadoop:连接器,通过 ES-Hadoop,可以充分利用 Hadoop 的大数据处理能力和 Elasticsearch 的快速搜索与分析能力,构建强大的数据处理和分析平台;

        其他非官方框架:Flink(开源的实时数据流处理框架)、nifi(数据集成工具)、GrafanaLabs(提供开源的监控、日志管理和数据可视化工具,帮助用户在分布式系统和云原生环境中实现更好的可观测性和性能管理)、presto。。。

2.ES的作用

  • 全文搜索:全文索引,支持多种语言分词、中文、英文、数字、特殊符号,应用在企业知识库、电商商品搜索、垂直领域搜索引擎;
  • 地图应用:地图位置应用搜索,集成 Geohash算法,支持大规模的地理位置搜索,结合自身的分布式特性,可以满足海量数据Geo检索;
  • 向量检索:相似图片、类似语音、问答系统、推荐系统,内置支持Dense Vector数据类型,与多种向量计算产品集成,支持多种向量应用场景;
  • 业务系统加速查询:替代关系型数据库,关系型数据库查询性能瓶,分库分表合并查询、海量数据查询、复杂条件组合查询;
  • 大数据领域:强大的数据处理能力,提供Hadoop对外的数据查询服务;自有大数据处理能力、聚合、转换、上卷、大规模明细查询;
  • 日志平台:统一日志平台,采集所有日志、系统日志、程序日志、业务日志,存储所有类型日志,查询所有日志,分析所有日志;
  • 基础监控:指标采集、时序数据,采集基础指标、基于时序数据存储、性能超过时序数据库;
  • 安全分析:网络安全分析预测,机器学习算法模型训练,分析预测潜在网络安全风险;

3.ES的核心概念

  • Cluster集群:Elasticsearch天然是分布式,由一个或者多个节点实例组成

  • Node节点:服务程序运行实例

  • Index索引:数据存储逻辑空间

  • Shard分片:数据存储实际逻辑空间,单分片就是完整索引数据

  • Replicate副本:分片数据备份复制,高可用高性能

  • Segment分段:分片数据实际存储空间

  • Docment文档:一条完整数据,等同Mysql一行数据

  • Term词项:单个字段数据拆分成多个独立的词

4.ES的核心算法

  • Inverted Index倒排索引:根据内容找到内容所在位置
  • Doc Value列式存储:Elasticsearch数据排序/聚合统计(导致修改数据性能差)
  • FST有限状态转换:Finite State Transducers 前缀/后缀(模糊匹配)
  • Skip List跳表:文档定位跳跃
  • BKD Tree多维空间树:简单数值、范围数据(解决倒排不好范围查询的问题)
  • RoaringBitmap压缩位图:原始数值压缩、查询结果合并
  • TF/IDF/BM25分值计算:文本搜索排序分值计算

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/15355.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Nature期刊的等级和分类

Nature期刊不用过多介绍,学术界人员都对其有所了解,可以和Science,Cell比肩,Nature旗下创办了很多子刊,系列期刊有一百多种,当然其含金量各有不同,nature旗下的期刊等级你是否都了解了。 Nature…

设计模式——概述

1.设计模式定义 ​ 设计模式是软件设计中常见问题的典型解决方案,可用于解决代码中反复出现的设计问题。设计模式的出现可以让我们站在前人的肩膀上,通过一些成熟的设计方案来指导新项目的开发和设计,以便于我们开发出具有更好的灵活性和可扩展性&#…

JAVAEE之线程(10)_线程池、线程池的创建、实现线程池

一 线程池 1.1为什么要有线程池? 线程池顾名思义是由多个线程所组成,作用就是减少线程的建立与销毁,与数据库连接池相同概念,为了减少连接与释放,从而降低消耗提升效率。 1.2 线程池的优势 总体来说,线程…

【数据分析面试】53.推送消息的分布情况(SQL)

题目 我们有两个表,一个是 notification_deliveries 表,另一个是包含 created 和购买 conversion dates 的 users 表。如果用户没有购买,那么 conversion_date 列为 NULL。 编写一个查询,以获取用户转换前的推送通知总数的分布情…

Java反射角度简单理解spring IOC容器

概述 Java反射(Reflection)是Java编程语言的一个特性,它允许在运行时对类、接口、字段和方法进行动态查询和操作。反射提供了一种在运行时查看和修改程序行为的能力,这通常用于实现一些高级功能,如框架(Spring)、ORM&…

算法:树状数组

文章目录 面试题 10.10. 数字流的秩327. 区间和的个数315. 计算右侧小于当前元素的个数 树状数组可以理解一种数的存储格式。 面试题 10.10. 数字流的秩 假设你正在读取一串整数。每隔一段时间,你希望能找出数字 x 的秩(小于或等于 x 的值的个数)。 请实现数据结构…

网络信息安全

目录 引言 网络信息安全的基本概念 定义 主要目标 网络信息安全的范围 主要威胁 恶意软件 黑客攻击 拒绝服务攻击 社交工程 内部威胁 常用技术和防护措施 加密技术 防火墙 入侵检测和防御系统 访问控制 多因素认证 安全审计和监控 安全培训和意识提升 未来发…

无人机支持下的自然灾害风险评估技术应用

张老师(副教授),长期从事无人机遥感技术与应用,主持多项国家级科研项目,编写著作2部,第一作者发表科研论文20余篇。对无人机遥感的多平台、多传感应用现状以及涉及的核心技术具有很深的理解,精通…

失业潮中如何突围?优秀PPT案例助你职场逆袭

在这个变幻莫测的时代,失业潮像一场突如其来的暴风雨,许多人在职场的大海中迷失方向。但别担心,即使风浪再大,总有勇敢的航海者能够乘风破浪,找到属于自己的那片新大陆。 今天,我们就来聊聊,在…

MyBatis 学习笔记(一)

MyBatis 封装 JDBC :连接、访问、操作数据库中的数据 MyBatis 是一个持久层框架。 MyBatis 提供的持久层框架包括 SQLMaps 和 Data Access Objects(DAO) SQLMaps:数据库中的数据和 Java数据的一个映射关系 封装 JDBC 的过程Data Access Ob…

C++入门:从C语言到C++的过渡(3)

目录 1.内联函数 1.1内联函数的定义 1.2特性 2.auto关键字 2.1auto的简介 2.2注意事项 3.范围for 4.nullptr空指针 1.内联函数 在C语言中,无论使用宏常量还是宏函数都容易出错,而且无法调试。而C为了弥补这一缺陷,引入了内联函数的概…

为了“降本增效”,我用AI 5天将SpringBoot迁移到了Nodejs

背景 大环境不好,各行各业都在流行“降本增效”,IT行业大肆执行“开猿节流”,一顿操作效果如何?普通搬砖人谁会在乎呢。 为了收紧我的口袋,决定从头学习NodejsTypeScript,来重写我的Java后端服务。 其实这…

浅谈面向对象--知识补充

This关键字 this 内存图 this关键字表示当前对象本身,一般用于类的内部,其内部存在一个地址,指向当前初始化的对象本身。 当new一个对象时,实际上产生了两个引用,一个是供类Dog内部调用其成员变量和成员方法的this关键…

kotlinx.coroutines.debug.AgentPremain

大家好 我是苏麟 . 项目引入AI大模型 debug 出现报错 设置 勾选

配置docker阿里云镜像地址

一、安装docker的步骤: 1.yum install -y yum-utils 2.yum-config-manager --add-repo http://mirrors.aliyun.com/docker- ce/linux/centos/docker-ce.repo --配置阿里云仓库3.yum makecache fast4.yum install docker-ce -y5.docker version …

Vue3实战笔记(43)—Vue3组合式API下封装可复用ECharts图表组件

文章目录 前言一、封装echart图标钩子二、使用步骤总结 前言 接上文,已经安装好了ECharts,开始封装组件方便使用。 一、封装echart图标钩子 首先应用我们之前学习的钩子方式,在hooks目录下创建一个名为 useECharts.js 的文件,用…

【机器学习300问】97、机器学习中哪些是凸优化问题,哪些是非凸优化问题?

在机器学习的领域中,多数模型的参数估计问题实质上可以转化为优化问题。鉴于机器学习模型的多样性,不同的模型会对应着不同的损失函数,进而形成各具特色的优化问题。了解优化问题的形式和特点,对于提升我们求解模型参数的效率和准…

微信好友这样打标签更高效!

为什么要做标签管理? ① 通过标签管理,可以清晰的知道每个私域好友的关系程度,如哪些是忠诚客户,哪些是意向客户,哪些是刚加上的客户等等。 这样就知道下一步要怎么操作,做到精细化运营。如忠诚客户跟进维护&#x…

Embedding 模型的选择和微调

目录 引言 向量模型在 RAG 系统中的作用 1. 对 query 和 私域知识 进行向量化表示 2. 动态更新知识库 3. 数据隐私和安全 有哪些性能不错的向量模型 OpenAI Embedding JinaAI Embedding BAAI/bge Embedding 模型评测 MTEB 排行榜:https://huggingface.co…

第十六节:带你梳理Vue2: 生命周期与钩子函数

前沿: 通过前面几节的学习,我们已经对vue有了初步的了解,大致了解了vue可以帮我们干什么, 那么接下来我们就来看看vue的生命周期和它常用的钩子函数, 1. 理解生命周期的含义 生命周期:就是一个组件从实例化创建并添加到DOM树开…