走进Elasticsearch

  • 什么是ES
    • 是一个分布式、RESTful风格的搜索和数据分析引擎
    • 中文参考文档: 《Elasticsearch中文文档》 | Elasticsearch 技术论坛
    • elasticSearch官网: Functions and Operators | Elasticsearch Guide [7.11] | Elastic
  • 查询方式
    • Kibana查询(原生查询) - DSL
      • 概念:ES特定的查询语言,一套基于JSON的查询语言。
        • DSL查询直接使用Elasticsearch的API进行数据检索,所以要求用户对ES的查询机制有更深的了解
      • 特点:DSL提供了强大的查询能力,包括叶子查询字句(如match、term、range)和复合查询字句(用于将多个查询逻辑组合起来)
    • SQL编程 (对原生DSL加工)- esSQL
       
      • 概念:SQL本质上是一个翻译器,它将SQL语句翻译成Elasticsearch的原生查询DSL,默认返回的是一个JSON结构
        • 增加format参数,返回就是表格形式展现:/sql?format=txt
      • 优点:SQL是一个广义的标准查询语言,降低了学习成本。
      • 常见的坑
        • 1,查询的SQL中不允许包含 换行符 "/n"
        • 2,SQL查询筛选中带中文不生效,可以考虑升级ES的SQL版本
        • 3,查询字符串类型,SQL中需包含 ''
        • 4,如果ES服务端支持中文查询,则客户端不需要配置相关分词
        • 5,ES不建议跨index查询,如果需要跨index查询,在同步关系数据库数据时到ES,可以联合多张表查询返回的结果集到ES,毕竟一个index可以看成一个库或者一张表
      • ES-SQL安装
    • Es默认返回10000条数据,要调大服务端就要改配置
  • 基本概念
    • 索引(Index):可看成关系数据库中的 表
    • 类型(Type):可看成关系数据库中表的 数据类型
    • 文档(Document):可看成关系数据库中表的每一行
    • 映射(Mapping):类似于数据库中的“表结构定义”,在Elasticsearch中,映射可以动态创建,也可以在创建索引时预先定义。
    • 集群(Cluster):集群是由一个或多个节点组成的集合,它们共同工作以存储和搜索数据。集群可以跨多台机器分布,以实现数据的备份冗余和高可用性。
    • 节点(Node):节点是集群中的一个实例。节点可以处理数据索引、搜索和聚合等操作。
    • 分片(Shard):分片是索引的一部分,用于实现数据的分布式存储。每个分片都是一个独立的数据结构,可以在不同节点上复制和分割。
    • 副本(Replica):副本是分片的复制品,用于提高数据的可靠性和搜索性能。每个分片可以有一个或多个副本,它们可以在节点间复制数据以提供故障转移能力。
    • 倒排索引(Inverted Index):倒排索引是Elasticsearch用于快速搜索的关键数据结构,允许系统通过词汇快速找到包含该词汇的文档列表。
  • 应用场景
    • 全文搜索:如电商商品搜索、应用内搜索等。
    • 日志分析:支持全栈日志分析,从采集到展示实现秒级响应。
    • 运维监控:时序数据分析,适用于系统监控等。
    • 安全分析:分析网络数据和安全事件。
    • 数据监控:作为主要的后端存储,提供持久存储和统计功能。
  • 工作原理
    • ES的工作原理基于Lucene库,实现了准实时的搜索功能。
      • 索引过程:当文档被存储到ES中时,它将在1秒内以几乎实时的方式进行索引。这一过程包括分析文档内容,创建倒排索引等,以便能够快速检索信息。
      • 搜索过程:ES使用按段搜索的概念来执行查询。每个段相当于一个数据集,包含了一系列的文档。提交点记录了所有已知的段,使得搜索操作可以跨越多个段进行。
    • Lucene库的工作原理
      • 反向索引(Inverted Index):这是Lucene高效检索数据的关键所在。在正向索引中,我们根据内容的记录来查找内容出现的位置;而在反向索引中,是根据某个词出现的位置来查找这个词,即建立了一个从词到文档的映射关系。
      • 数据分段(Segments):Lucene将索引分为多个独立的段,每个段都是只读的。这种设计避免了在读写操作中的锁竞争,显著提高了性能。
      • 核心组件:Lucene由多个组件构成,包括IndexWriter负责写入索引、IndexReader负责读取索引,以及QueryParser用于解析查询语句等。这些组件共同作用,实现了索引的建立、查询和优化。
      • 文本分析与分词(Analysis & Tokenization):在索引文档之前,Lucene会通过分析器(Analyzer)对文本进行处理,这包括分词、去除停用词、同义词处理等步骤,以确保索引的效率和准确性。
      • 查询操作:用户输入查询后,Lucene会对查询语句进行类似的文本分析和处理,然后利用已经建立的反向索引快速找到匹配的文档,并按照相关性对结果进行排序
  • 常踩的坑
    • 聚合分析问题:ES中的聚合操作分为分桶、度量和管道三种类型。在多主分片环境下,可能会出现聚合结果不准确的情况。这是因为在分布式环境中,不同分片间的数据处理可能导致聚合结果的差异。
      • 使用更高效的查询:尝试简化查询,减少不必要的字段和复杂的查询逻辑,以提高查询效率。
      • 调整分桶策略:对于涉及大量数据和多次分桶的聚合操作,合理设计分桶策略可以减少查询时间。例如,可以考虑使用组合聚合(composite aggregations)来减少聚合的数量。
      • 优化索引设置:确保索引的映射和设置能够支持高效的聚合操作。例如,使用适当的分片和副本策略,以及优化索引的存储结构。
      • 调整内存分配:增加Elasticsearch的堆内存分配可以提高聚合操作的性能,但这可能会影响其他系统资源的使用。
      • 利用缓存:利用Elasticsearch的查询结果缓存机制,对于重复的或经常执行的聚合查询,可以将结果缓存起来,以提高响应速度。
      • 使用近似聚合:如果精确度不是特别重要,可以使用近似聚合(如cardinality aggregation)来加快查询速度。
      • 调整搜索设置:通过调整搜索设置,比如减小size参数的值,可以加快聚合查询的速度。
      • 优化去重操作:对于需要去重的聚合操作,可以尝试使用tophits聚合或者top_hits与collapse结合使用,以提高效率。
    • 时区问题:ES底层默认采用UTC时间格式,而不同地区的项目可能需要使用本地时间。这可能导致查询结果与期望不符,特别是在涉及时间排序、范围查询或聚合的场景中。
      • 确保数据一致性: 插入时间格式前,统一使用UTC时间格式,避免由于不同时区引起的混乱和不一致
      • 程序中处理时区:在Java等编程语言中处理日期时间字符串时,如果字符串没有时区信息,需要明确指定时区来进行转换,以避免默认使用系统时区可能导致的问题。
      • 存储类型考虑:对于日期时间类型的字段,存储时应考虑是否需要包含时区信息。如果是时间戳(Long类型),则通常已经是UTC时间,需要在应用层转换为合适的时区。
      • Kibana设置时区:在Kibana的管理界面中,您可以在“Management” > “Advanced Settings”下设置时区,以确保在Kibana显示的视图和图表中使用正确的时区
    • 默认映射问题:ES允许在写入索引时不设置映射,但这可能导致后续查询效率低下或数据类型错误等问题。因此,合理配置映射对于保证索引的性能和准确性至关重要(建索引时,就要考虑映射索引的类型)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/29008.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024.6.17 作业 xyt

今日作业: 升级优化自己应用程序的登录界面。 要求: 1. qss实现 2. 需要有图层的叠加 (QFrame) 3. 设置纯净窗口后,有关闭等窗口功能。 4. 如果账号密码正确…

代码随想录算法训练营刷题复习4 :单调栈

单调栈 单调栈 如果题目出现典型的 【左小 中大(栈中左侧元素都比此值小) || 右小】(寻找右侧第一个比此值小的元素) 【左大 中小(栈中左侧元素都比此值大) || 右大】(寻找右侧第一个比此值大的元素) 数据关系的话,可…

Marin说PCB之orcad-capture原理图封装库的创建总结----01

今天是个不错的日子,我早上一出门刚骑车到半路就开始下大雨了,可是天气预报上明明说的没有雨啊,所以说天气预报就像是女人的脾气一样,难以揣摩啊,也尽量少去揣摩吧。 小编我刚刚到公司,就收到美国分部同事J…

【C语言】排序算法 -------- 计数排序

个人主页 创作不易,感谢大家的关注! 文章目录 1. 计数排序的概念2. 计数排序使用场景3. 计数排序思想4. 计数排序实现过程5. 计数排序的效率6. 总结(附源代码) 1. 计数排序的概念 计数排序是一种非比较的排序算法,其…

分享三款AI智能修图工具,超实用!

随着AI技术的飞速发展,图像处理领域正经历着一场颠覆性的革新。如今,众多繁琐的图像处理任务,诸如修图、抠图以及高清修复等,均可以借助先进的AI技术实现自动化处理。相较于传统的人工操作,AI图像工具不仅极大地提升了…

3d中毒了打不开模型怎么办---模大狮模型网

3D中毒了打不开模型怎么办?这是很多3D爱好者都会遇到的问题。在使用3D建模软件时,有时会出现打不开模型的情况,这可能是由于软件本身的问题,也可能是由于电脑配置不够高导致的。下面我们就来看看如何解决这个问题。 首先&#xff…

新手学习yolov8目标检测小记1

一、复现 网上有很多教程,复现yolov8的目标检测。在复现的过程中,会用到模型yolov8n.pt,可以选择命令下载和网站下载。复现后,runs文件包下会生成最优的权重文件best.py,在ultralytics/assets中放一张图片,…

探索未来通信的新边界:AQChat一款融合AI的在线匿名聊天

探索未来通信的新边界:AQChat一款融合AI的在线匿名聊天 在数字时代,即时通讯变得无处不在,但隐私和性能仍旧是许多用户和开发者关注的焦点。今天,我要介绍一个开创性的开源项目 —— AQChat,它不仅重定义了在线匿名聊…

Ollama+Open WebUI本地部署Llama3 8b(附踩坑细节)

先展示一下最终结果,如下图所示: 1. 添加环境变量 在下载 ollama 之前,先去配置环境变量,确保模型下载到我们想要的地方 win10 和 win11 输入path或者环境变量: 增加系统环境变量 变量名不可更改,必须是O…

[ARM-2D 专题]3. ##运算符

C语言的宏系统相当强大,它允许使用##符号来处理预处理期的文本替换。这种用法被称为标记连接(token pasting)操作,其结果是将两个标记紧紧地连接在一起,而省略掉它们之间的所有空格。在复杂的宏定义中,运用…

学习使用js实现导出excel表格导出csv表格的方法示例,并支持中文汉字

学习使用js实现导出excel表格导出csv表格的方法示例 <!DOCTYPE html> <html> <head><meta charset"utf-8"><title>下载表格</title></head> <body><script type"application/javascript">function …

Debian/Ubuntu linux安装软件

1、官方软件商店安装 2、deb包安装 报错不是sudoers&#xff0c;首先将用户添加到sudo su -l adduser USERNAME sudo exit然后&#xff0c;退出桌面环境并再次登录。 您可以通过输入以下内容来检查上述过程是否成功&#xff1a; groups下载deb包 altshiftf4或右键打开命令行…

10.无代码爬虫软件做网页数据抓取流程——工作流程设置与数据预览

首先&#xff0c;多数情况下免费版本的功能&#xff0c;已经可以满足绝大多数采集需求&#xff0c;想了解八爪鱼采集器版本区别的详情&#xff0c;请访问这篇帖子&#xff1a;https://blog.csdn.net/cctv1123/article/details/139581468 八爪鱼采集器免费版和个人版、团队版下…

安卓实现输入快递单号生成二维码,摄像头扫描快递单号生成的二维码,可以得到快递信息

背景&#xff1a; 1、实现二维码的生成和识别2、实现andriod&#xff08;或虚拟机&#xff09;部署&#xff0c;调用摄像头3、实现网络管理&#xff0c;包括数据库【取消】2、3可以组队实现&#xff0c;1必须单人实现 过程&#xff1a; 安卓APP主界面 输入快递单号信息&#…

HTML页面定时刷新指南

在Web开发中&#xff0c;有时我们需要定时刷新页面&#xff0c;以确保用户总是看到最新的数据。HTML提供了一种简单的方式来实现这一点&#xff0c;那就是使用<meta>标签的http-equiv属性。 什么是<meta>标签&#xff1f; <meta>标签是HTML文档的头部&…

【2024最新华为OD-C/D卷试题汇总】[支持在线评测] 剩余银饰的重量(100分) - 三语言AC题解(Python/Java/Cpp)

🍭 大家好这里是清隆学长 ,一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-C/D卷的三语言AC题解 💻 ACM银牌🥈| 多次AK大厂笔试 | 编程一对一辅导 👏 感谢大家的订阅➕ 和 喜欢💗 📎在线评测链接 剩余银饰的重量(100分) 🌍 评测功能需要订阅专栏后私信联系…

关于伪标头那些事

前言 看到伪标头&#xff0c;不少同学可能会比较陌生&#xff0c;因为谁让它默默无闻呢&#xff1f; 当然博主把它比喻为一个来自传输层的“共享盒子”。提到共享&#xff0c;我想大家有所体会了。这里给大家贴一张直观的图例&#xff0c;可以静静观摩之。 Q&#xff1a;什么是…

MFC扩展库BCGControlBar Pro v35.0新版亮点:重新设计的工具栏编辑器等

BCGControlBar库拥有500多个经过全面设计、测试和充分记录的MFC扩展类。 我们的组件可以轻松地集成到您的应用程序中&#xff0c;并为您节省数百个开发和调试时间。 BCGControlBar专业版 v35.0已全新发布了&#xff0c;这个版本改进类Visual Studio 2022的视觉主题、增强对多个…

网络安全:SQL注入防范

文章目录 网络安全&#xff1a;SQL注入防范引言防范措施概览使用参数化查询示例代码 输入验证和过滤示例代码 使用ORM框架示例代码 其他防范措施结语 网络安全&#xff1a;SQL注入防范 引言 在上一篇文章中&#xff0c;我们介绍了SQL注入攻击的基础知识。本文将重点讨论如何防…

Redis 的分布式 Session 与本地 Session 的区别

在线工具站 推荐一个程序员在线工具站&#xff1a;程序员常用工具&#xff08;http://cxytools.com&#xff09;&#xff0c;有时间戳、JSON格式化、文本对比、HASH生成、UUID生成等常用工具&#xff0c;效率加倍嘎嘎好用。 程序员资料站 推荐一个程序员编程资料站&#xff1a;…