【Elasticsearch入门到落地】1、初识Elasticsearch

一、什么是Elasticsearch

Elasticsearch(简称ES)是一款非常强大的开源搜索引擎,可以帮助我们从海量数据中快速找到需要的内容。它使用Java编写,基于Apache Lucene来构建索引和提供搜索功能,是一个分布式、可扩展、近实时的高性能搜索与数据分析引擎。

1、Elasticsearch用在哪些场景?

我们想想一下,例如我们去github上去搜索一些仓库,它去搜索的时候,不仅仅是把相关的仓库搜索出来,还可以把你搜索的关键字所在的相关代码块展示出来,并进行了高亮显示,非常智能:

又例如我们去京东上买东西,输入商品信息后,网站立马就会显示出和我们输入的关键字有关的商品,例如下图输入“iPhone”后,下面商品搜索出与苹果手机相关的商品,并且“iPhone”这个字还会高亮显示:

还比如,我们平时编程时遇到一些问题,肯定会去百度和谷歌一下,找相关问题的答案。在搜索引擎中输入相关问题描述,下面就会显示和这个问题相关的答案,并且和搜索关键字相关的内容也会被高亮显示:

甚至是在我们平时打车的时候,我们搜索附近车辆的时候,每一辆车所在的位置也是搜索范围,是否是我们所在区域关键字的位置的车,为我们匹配最近的车辆:

以上的这些场景,Elasticsearch都可以实现。

2、Elastic stack(ELK)技术栈介绍

Elasticsearch结合kibana、Logstash、Beats,也就是elastic stack(ELK)。被广泛应用在日志数据分析、实时监控等领域。

什么是“日志数据分析”?就是我们的项目在实际运行过程中,会产生海量的日志信息,这些日志信息会方便我们定义系统出现的问题。而Elasticsearch可以帮我们将这些日志进行可视化展示,方便我们做日志分析。
另一个“实时监控”的概念,即我们在项目运行的过程中,它的运行状态也是数据,如CPU、内存等情况,也可以被Elasticsearch收集并展示过来:

这足以看出Elasticsearch这个搜索引擎的应用范围是非常广泛的。

在ELK的技术栈中,尽管有很多个组件,但核心就是我们的Elasticsearch,它主要负责数据的存储、计算、搜索和分析;而Logstash和Beats主要负责数据抓取,Kibana则是一个数据可视化组件,用来在页面上展示数据:

在ELK数据栈中,Logstash和Beats、Kibana都不是不可替代的,我们可以使用自己的方法抓取数据,和进行图形化展示。而Elasticsearch这个核心组件是不可替代的。

二、Elasticsearch的底层

Elasticsearch底层基于Apache Lucene开源库进行封装。Lucene是一个Java语言的高性能、可扩展的搜索引擎类库,它提供了全文索引和搜索的底层实现。是Apache公司的顶级项目,由DougCutting于1999年研发。

官网地址:https://lucene.apache.org/

打开官网首页我们可以看到,截止到2024年11月Lucene的最新版本是10.0.0版,已经迭代了很多版本了。

1、Lucene的优点

Lucene其实就是一个浓缩的jar包(类库),它有以下的优点:
(1)易扩展
Lucene具有高度的可扩展性和可定制性,其系统架构设计精良,使得开发者能够方便地根据业务需求进行功能扩展和定制(二次开发)。通过实现特定的接口和继承相关类,开发者可以轻松地添加新功能、优化现有功能或调整索引和搜索逻辑。
(2)高性能(基于倒排索引)
Lucene的高性能主要得益于其采用的倒排索引技术。倒排索引是一种将文档中的词汇项作为关键字,文档ID作为值,形成的“值-键”对调的索引结构。这种结构使得Lucene在搜索时能够直接根据关键词快速定位到包含该词的所有文档,从而极大地提高了搜索效率。此外,Lucene还通过一系列优化措施,如压缩索引数据、使用缓存等,进一步提升了搜索性能。
想象我们有一堆书,想要快速找到包含某个关键词的书,最直接的方法是逐本翻阅,但这显然非常耗时。而Lucene则采用了一种更聪明的方法,即倒排索引。它首先为每本书中的每个关键词建立一个索引,记录下这个关键词出现在哪些书中以及出现的位置。这样,当我们想要找到包含某个关键词的书时,只需要查看这个索引,就能迅速定位到相关的书。这种索引方式就像是一个高效的“书签”,帮助我们快速找到目标内容,从而大大提高了搜索效率。

2、Lucene的缺点

以上是Lucene的优点,但同时它也存在以下缺点:
(1)只限于Java语言开发
Lucene是一个基于Java语言开发的搜索引擎库,这意味着它主要适用于Java语言的项目和开发环境。对于那些不使用Java的项目或团队来说,可能需要额外的学习和集成成本。
(2)学习曲线陡峭
Lucene作为一个功能强大且复杂的搜索引擎库,API设计非常复杂晦涩,其学习曲线相对陡峭。对于初学者来说,需要花费较多的时间和精力来熟悉Lucene的架构、API和最佳实践。
(3)不支持水平扩展(需二次开发)
Lucene的主要目的是为了实现搜索,而对于高并发、高可用等场景没有技术支持,无法直接进行水平扩展(集群扩展),即通过在多个服务器上部署多个实例来共同处理搜索请求。虽然Lucene可以通过分片(sharding)等技术在一定程度上实现数据的分布式存储和搜索,但这需要开发者进行额外的二次开发工作。

三、Elasticsearch的发展


Elasticsearch的起源可以追溯到2004年,当时Shay Banon基于Lucene开发了一个名为Compass的搜索引擎(单体应用,主要为他老婆搜索食谱用)。然而,随着技术的不断演进和需求的日益增长,Shay Banon在2010年决定重写Compass(支持分布式和集群环境),并将其命名为Elasticsearch。这一决定标志着Elasticsearch作为一个独立的开源项目正式诞生,并迅速在搜索和分析领域崭露头角。
Elasticsearch的官网地址为:https://www.elastic.co/cn/:

这是一个提供Elasticsearch相关资源、文档和社区支持的权威平台,它是由Elastic公司管理,这个公司的创始人就是上面提到Elasticsearch的原创者Shay Banon。
截止至2024年11月,Elasticsearch已经发展到了8.15.3版本,这一版本在性能、功能和安全性等方面都进行了诸多优化和升级。随着版本的迭代,Elasticsearch不断引入新技术和特性,以满足日益复杂和多样化的搜索和分析需求。
相比于Lucene,Elasticsearch具备下列优势:

1、支持分布式,可水平扩展:

Elasticsearch采用了分布式架构,可以轻松扩展到多个节点,以便处理大规模数据。这种架构使得Elasticsearch能够应对PB级别的数据存储和搜索需求,同时保持高性能和可用性。
通过分片(sharding)和复制(replication)机制,Elasticsearch实现了数据的高可用性和容错性。即使某个节点发生故障,系统也能快速切换到其他节点,确保搜索和分析服务的连续性。

2、提供Restful接口,可被任何语言调用:

Elasticsearch提供了一个简单易用的RESTful API,使得数据的索引、搜索和分析变得非常简单。这一API遵循REST风格,支持HTTP协议,因此可以被任何编程语言调用。
通过RESTful API,开发者可以轻松地将Elasticsearch集成到各种应用程序中,实现数据的实时搜索、分析和可视化。这种灵活性使得Elasticsearch成为构建现代搜索和分析应用的理想选择。
综上所述,Elasticsearch作为Lucene的衍生产品,不仅继承了Lucene的强大搜索功能,还通过分布式架构和RESTful API等创新特性,实现了更高的可扩展性、易用性和集成性。这些优势使得Elasticsearch在搜索和分析领域具有广泛的应用前景和巨大的市场潜力。

四、为什么学习Elasticsearch?

实际上,从Lucene诞生开始,就不止Elasticsearch一个搜索引擎程序问世,其中还包含Splunk(商业项目)、Solr(Apache的开源搜索引擎),但是Elasticsearch在全球搜索引擎排名中,一直稳坐第一名的宝座,并且和第二名Splunk拉开了很大差距:

其实在Elasticsearch刚刚诞生时,Solr在全球搜索引擎中占有很大比例,但是随着后来的发展,Solr渐渐地被Elasticsearch超越了(大概是2016年):

所以我们主要还是以学习目前占比最高的搜索引擎作为我们本次学习的目标。

五、学习总结

本篇博客,我们一共学习了以下三个知识,大家可以回顾一下:
1、什么是elasticsearch?
一个开源的分布式搜索引擎,可以用来实现搜索、日志统计、分析系统监控等功能
2、什么是elastic stack(ELK)?
是以elasticsearch为核心的技术栈,包括beats、Logstash、kibana、elasticsearch
3、什么是Lucene?
是Apache的开源搜索引擎类库,提供了搜索引擎的核心API

至此,关于elasticsearch的基础介绍就到此结束了,为了更加深入理解elasticsearch为的原理,下一篇我们来学习什么是“倒排索引”。

参考:《黑马Elasticsearch全套教程》

转载请注明出处:https://guangzai.blog.csdn.net/article/details/143658138

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/60656.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【算法一周目】双指针(2)

目录 有效三角形的个数 解题思路 C代码实现 和为s的两个数字 解题思路 C代码实现 三数之和 解题思路 C代码实现 四数之和 解题思路 C代码实现 有效三角形的个数 题目链接:611. 有效三角形的个数题目描述:给定一个包含非负整数的数组nums&…

单体架构 IM 系统之 Server 节点状态化分析

基于 http 短轮询模式的单体架构的 IM 系统见下图,即客户端通过 http 周期性地轮询访问 server 实现消息的即时通讯,也就是我们前面提到的 “信箱模型”。“信箱模型” 虽然实现非常容易,但是消息的实时性不高。 我们在上一篇文章&#xff08…

让AI为你发声!Windows电脑快速部署ChatTTS文本转语音神器

文章目录 前言1. 下载运行ChatTTS模型2. 安装Cpolar工具3. 实现公网访问4. 配置ChatTTS固定公网地址 前言 嘿,朋友们!今天我们来聊聊如何在Windows系统上快速搭建ChatTTS,一个超酷的开源文本转语音项目。更棒的是,我们还可以用Cp…

RSTP的配置

RSTP相对于STP在端口角色、端口状态、配置BPDU格式、配置BPDU的处理方式、快速收敛机制、拓扑变更机制和4种保护特性方面的详细改进说明: 端口角色: STP中定义了三种端口角色:根端口(Root Port)、指定端口&#xff0…

elementui el-table中给表头 el-table-column 加一个鼠标移入提示说明

前言 在使用el-table 表格中有些表格的表头需要加入一些提示&#xff0c;鼠标移入则出现提示&#xff0c;非常实用&#xff0c;我是通过el-table中的el-tooltip实现的&#xff0c;以下的效果预览 代码实现 <el-table ref"multipleTable" :data"data"…

ubuntu18.04 安装与卸载NCCL conda环境安装PaddlePaddle

cuda版本11.2 说明PaddlePaddle需要安装NCCL 1、Log in | NVIDIA Developer 登录官网 找到对应版本 官方提供了多种安装方式&#xff0c;本文使用Local installers (x86)本地安装 点击对应的版本下载如&#xff1a; nccl-local-repo-ubuntu1804-2.8.4-cuda11.2_1.0-1_amd6…

机器学习—决定下一步做什么

现在已经看到了很多不同的学习算法&#xff0c;包括线性回归、逻辑回归甚至深度学习或神经网络。 关于如何构建机器学习系统的一些建议 假设你已经实现了正则化线性回归来预测房价&#xff0c;所以你有通常的学习算法的成本函数平方误差加上这个正则化项&#xff0c;但是如果…

【Rust中的项目管理】

Rust中的项目管理 前言Package&#xff0c;Crate&#xff0c;Module &use &#xff0c;Path通过代码示例解释 Crate&#xff0c;Module &#xff0c;use&#xff0c;Path创建一个package&#xff1a;代码组织化skin.rs 中的代码struct & enum 相对路径和绝对路径引用同…

labview用sql server数据库存取数据到一个单元格

最近有一个项目上需要一个庞大的数据量&#xff0c;需要很多列&#xff0c;但是百度查了一下sqi server最多支持1024列&#xff0c;这一限制适用于大多数表类型&#xff0c;包括常规表&#xff0c;临时表和表变量&#xff0c;要注意的是如果超出这一限制可能会导致数据的完整性…

架构篇(04理解架构的演进)

目录 学习前言 一、架构演进 1. 初始阶段的网站架构 2. 应用服务和数据服务分离 3. 使用缓存改善网站性能 4. 使用应用服务器集群改善网站的并发处理能力 5. 数据库读写分离 6. 使用反向代理和CDN加上网站相应 7. 使用分布式文件系统和分布式数据库系统 8. 使用NoSQL和…

Unity学习笔记(4):人物和基本组件

文章目录 前言开发环境新增角色添加组件RigidBody 2D全局项目设置Edit 给地图添加碰撞体 总结 前言 今天不加班&#xff0c;有空闲时间。争取一天学一课&#xff0c;养成习惯 开发环境 Unity 6windows 11vs studio 2022Unity2022.2 最新教程《勇士传说》入门到进阶&#xff…

Java项目实战II基于Spring Boot的高校教师电子名片系统的设计与实现(开发文档+数据库+源码)

目录 一、前言 二、技术介绍 三、系统实现 四、文档参考 五、核心代码 六、源码获取 全栈码农以及毕业设计实战开发&#xff0c;CSDN平台Java领域新星创作者&#xff0c;专注于大学生项目实战开发、讲解和毕业答疑辅导。 一、前言 在信息化教育日益普及的今天&#xff0…

数学几百年重大错误:将无穷多各异直线误为直线y=x

黄小宁 h定理&#xff1a;点集AB≌B的必要条件是A≌B。 证&#xff1a;若AB则A必可恒等变换地变为BA≌A&#xff0c;而恒等变换是保距变换。证毕。 直线Z&#xff1a;x-y0&#xff08;x的变域是x轴&#xff09;可放大&#xff08;拉伸&#xff09;变换为直线L&#xff08;不≌Z…

学习threejs,使用第一视角控制器FirstPersonControls控制相机

&#x1f468;‍⚕️ 主页&#xff1a; gis分享者 &#x1f468;‍⚕️ 感谢各位大佬 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍⚕️ 收录于专栏&#xff1a;threejs gis工程师 文章目录 一、&#x1f340;前言1.1 ☘️第一视角控制器FirstPerson…

LabVIEW导入并显示CAD DXF文件图形 程序见附件

LabVIEW导入并显示CAD DXF文件图形 程序见附件 LabVIEW导入并显示CAD DXF文件图形 程序见附件 - 北京瀚文网星科技有限公司 LabVIEW广泛应用于自动化、数据采集、图形显示等领域。对于涉及CAD图形的应用&#xff0c;LabVIEW也提供了一些方法来导入和显示CAD DXF文件&#x…

数据结构---详解栈

一、栈的概念和结构 栈&#xff1a;⼀种特殊的线性表&#xff0c;其只允许在固定的⼀端进行插入和删除元素操作。进行数据插入和删除操作的一端称为栈顶&#xff0c;另一端称为栈底。栈中的数据元素遵守后进先出LIFO&#xff08;Last In First Out&#xff09;的原则。 压栈&a…

Python Plotly 库使用教程

Python Plotly 库使用教程 引言 数据可视化是数据分析中至关重要的一部分&#xff0c;它能够帮助我们更直观地理解数据、发现潜在的模式和趋势。Python 提供了多种数据可视化库&#xff0c;其中 Plotly 是一个功能强大且灵活的库&#xff0c;支持交互式图表的创建。与静态图表…

怎么样绑定域名到AWS(亚马逊云)服务器

1&#xff0c;拿着你买的域名去亚马逊申请一个证书。申请证书分两种&#xff0c;一种是去亚马逊后台填域名手动申请 &#xff0c;另一种是通过API来申请&#xff0c;类似如下代码&#xff1a; 2、证验证书。有两种方式&#xff1a;一种是通过邮件&#xff0c;另一种去到域名提供…

Dubbo源码解析(三)

一、Dubbo整合Spring启动流程 Dubbo的使用可以不依赖Spring&#xff0c;但是生产环境中Dubbo都是整合到Spring中一起使用&#xff0c;所以本章就解析Dubbo整合Spring的启动流程 一、传统的xml解析方式 一、Dubbo配置解析流程 在Java 中&#xff0c;一切皆对象。在JDK 中使用…

【ubuntu】Geogebra

Geogebra 几何作图工具 是一款跨平台的几何作图工具软件&#xff0c; 目前已经覆盖了&#xff0c; windows&#xff0c;android&#xff0c; mac, linux 等操作系统。 Ubuntu 现状 Ubuntu 自带应用市场 Ubuntu 自带应用市场目前只有 Geogebra 4.0 版本&#xff0c; 不能画立…