【搜索引擎】elastic search核心概念

前言

本文不涉及ES的具体安装下载、操作、集群的内容,这部分内容会放在后面一篇文章中。本文只包含ES的核心理论,看完本文再去学ES的细节会事半功倍。

目录

1.由日志存储引出的问题

2.什么是ES?

3.ES的数据结构

4.ES的核心原理

5.联系作者


1.由日志存储引出的问题

本文或者说本系列的来源:

前面我们聊过了分布式链路追踪系统,在基于日志实现的分布式链路追踪的方式seluth+zipkin中为了防止数据丢失,需要将数据持久化。我们给出的是持久化进mysql中的示例。

【JAVA】分布式链路追踪技术概论-CSDN博客

【分布式链路追踪技术】sleuth+zipkin-CSDN博客

这里就需要关注一个问题了:

用mysql来存储日志真的合适吗?或者说用什么方式来存储日志合适喃?

从两个场景来具体切入:

  • 聚合

  • 搜索

聚合:

我们收集到日志后,需要对内容进行一些统计,比如请求报错的比列,就要去统计error的数量。

搜索:

我们收集到日志后需要进行一些搜索,比如在进行问题排查的时候搜索一些具体的报错信息。

以上两个操作MySQL支持吗?很明显是支持的,用聚合函数和like函数可以轻松实现。但是性能喃?

日志是文本类的数据,是非结构化的,不是结构化的。要存储到mysql中也是将日志内容存到一个字段上,对这个字段内的内容进行模糊查询根本没办法用到索引,一旦数据量大了以后,会迎来性能上的灾难。除此之外我们再仔细思考一下,内容存在单字段内,似乎聚合也不是很好做。

所以我们说,关系型的数据交给关系型数据库来做,非关系型的数据还是交给非关系型的数据来做才合适。

这里复习一下什么是关系型和非关系型最核心的区别:

关系型,数据之间(表之间)可以通过主键、外键之间建立起很强的关系。

非关系型,数据之间相对独立,没有建立起很强关联关系的方式。

2.什么是ES?

前面我们聊过了对于文本内容来说,关系型数据库是很难满足业务要求的。这时候就需要用到专业的做文本搜索的组件。Elasticsearch(简称ES) 是为全文搜索而设计的,可以快速且高效地搜索大量文本数据。它支持复杂的查询,包括全文、模糊、通配符、范围和正则表达式查询等。

ES的架构其实可以类比数据库来理解:

ESdatabase
索引
类型
文档
字段

目前新版本的ES中是没有type这一层级的,这是因为ES使用了倒排索引,层级过多会影响性能,而且随着在实际应用中的铺开,大家发现对于文档来说,类型其实是多余的,如果非要使用类型的概念,索引层面已经可以实现了,把不同分类的数据放到不同的索引中就行了。于是在之前的三个大版本的迭代中,ES围绕淡化和去除type做了一些工作:

  • 5.X及其以前,一个index下允许存在多个type。

  • 6.X一个index下只允许存在一个type。

  • 7.X即其以后,取消了type这个概念。

3.ES的数据结构

ES是用Json的方式来组织数据的,下面来演示一下一篇文章在ES中是怎样存储的。

随便打开百度上今天的一条热搜新闻:

建立好索引并声明好各个字段的配置:

ES是采用rest api的方式通过http method+参数的方式来进行操作的,创建index是put方法跟上index的名字和index的详细描述。

PUT /my_article_index

{
  "settings": {
    "number_of_shards": 3,  // 设置分片数量
    "number_of_replicas": 1  // 设置副本数量
  },
  "mappings": {
    "properties": {
      "title": {
        "type": "text",  // 文本类型,用于全文搜索
        "fields": {
          "keyword": {
            "type": "keyword",  // 关键字类型,用于精确匹配
            "ignore_above": 256  // 忽略较长的文本
          }
        }
      },
      "content": {
        "type": "text",  // 文本类型,用于全文搜索
        "analyzer": "standard"  // 使用标准分析器
      },
      "author": {
        "type": "keyword"  // 关键字类型,用于精确匹配
      },
      "publish_date": {
        "type": "date",  // 日期类型
        "format": "yyyy-MM-dd HH:mm:ss||epoch_millis"  // 支持的日期格式
      }
    }
  }
}

将文章存进建立好的索引中:

ES是采用rest api的方式通过http method+参数的方式来进行操作的,向index中添加数据是post方法+index名字+_doc+id,id可以不指定自动生成,也可以指定。

POST /my_article_index/_doc/1

{
  "title": "天南地北迎新年 喜庆欢乐庆元旦",
  "content": "央视网消息(新闻联播):辞旧迎新,欢度元旦。天南地北的人们在丰富多彩的节庆活动中迎接2024年的到来。跨年夜,神州大地一派欢乐。在北京,新年倒计时主场活动在首钢园举行,精彩纷呈的光影秀、灯光雕塑、文艺表演等,将园区变成了欢乐的海洋。在江西南昌,充满科技与未来感的灯光秀,在城市楼宇间变幻出一幅幅美丽的画卷。在海南海口、安徽芜湖,数百架无人机摆出各种欢度节日的字样和图案,喜迎新年的到来。在重庆解放碑中央广场,众多市民和游客共同聆听新年钟声,许下美好的新年愿望。在福建平潭综合实验区、在太湖边的苏州湾、在北国江城吉林市,寓意着幸福安康、欢乐祥和的烟花秀在夜空绽放,为人们送上新年祝福。在河南郑州、山西忻州,打铁花、创意灯展等表演吸引了众多市民游客。在山东泰山脚下,民俗非遗夜游专场,让游客亲身体验民间习俗。在黑龙江鸡西,晶莹剔透的冰雕、栩栩如生的雪雕与五彩斑斓的花灯交相辉映,营造出浓浓的节日气氛。喜迎新年,尽享欢乐。今天(1月1日),广州白云国际机场、广州南站、广州白云站响起《我爱你中国》等歌曲,大家用快闪歌舞为祖国送上祝福。在内蒙古鄂尔多斯东胜区,堆雪人、亲子拉力赛,人们在冰雪那达慕活动中欢乐跨年。在浙江绍兴丰惠古城、在湖南益阳百年书院,糖画、扇绘、竹编等充满年味的古风集市处处洋溢着节日的喜庆。在贵州乌江寨,地方传统戏剧、杂技轮番上演,人们喝茶看戏,好不惬意。在广西富川瑶族村落,村民穿上节日盛装唱瑶歌,展示传统习俗,祝福新年五谷丰登、国泰民安。",
  "author": "央视网",
  "publish_date": "2024-01-01 20:07:27"
}

4.ES的核心原理

Elasticsearch中采用倒排索引来支持对文档进行高效的全局搜索。倒排索引是类比正排索引的一个概念。比如在文档中搜索关键字,正排索引的做法是指通过索引找到数据,再在数据中搜索关键字,比如通过id找到content,再在content中寻找关键字。

idcontent
1001my name is zhang san
1002my name is li si

倒排索引的做法是指的是通过数据找到索引,再通过索引找到文档,会有个地方专门记录每个字段和索引的对应关系。

keywordid
name1001,1002
zhang1001
............

Elasticsearch 采用倒排索引的方式,将每个词汇与其在文档中的位置建立索引。这样的设计使得它更适合文本搜索,尤其是全文搜索。字段和索引的对应关系是在建立倒排索引的时候生成的,Elasticsearch 在建立倒排索引时采用了分词(tokenization)的过程,使用分词器,将文本字段中的文本切分成一个个有意义的词(token)以便进行检索。关于分词器,这是一项开源的技术,其实现是五花八门的,常见的分词器包括标准分词器(standard tokenizer)、较简单的空格分词器(whitespace tokenizer)、关键字分词器(keyword tokenizer)等。ES是支持替换分词器的。

我想到这里大家会有这样的疑惑:

比如ES中存储的是海量数量的文章,那么分词出来的索引和分词的关系也是海量的,即使使用倒排索引,应该也很慢吧。MySQL的索引用了B+树来提升索引的匹配速度,ES是怎么处理的喃?

ES给出了以下两个维度的优化

  • 分布式

  • 倒排索引的优化

分布式:

Elasticsearch 是为分布式和水平扩展而设计的,它将数据分布在多个节点上,每个节点负责部分数据。这样可以让每个节点上的倒排索引总的规模要小一些。

倒排索引的优化:

Elasticsearch 对倒排索引进行了多方面的优化,包括倒排索引的压缩、分段存储、合并和优化等策略,以提高查询性能。

总的来说倒排索引是文档全文搜索最好的解法,剩下要做的都是围绕采用倒排索引后带来问题进行优化,仅此而已。

5.联系作者

商务合作、各种交流:

公众号:每日十分钟系列,上下班通勤路上,花十分钟掌握一个新的计算机技术知识点,欢迎关注文末公众号。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/591527.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何使用SeaFile搭建本地私有云盘并结合cpolar实现远程访问

文章目录 1. 前言2. SeaFile云盘设置2.1 SeaFile的安装环境设置2.2 SeaFile下载安装2.3 SeaFile的配置 3. cpolar内网穿透3.1 Cpolar下载安装3.2 Cpolar的注册3.3 Cpolar云端设置3.4 Cpolar本地设置 4.公网访问测试5.结语 1. 前言 现在我们身边的只能设备越来越多,…

系列三、下载 安装Nacos(单机版)

一、下载 & 安装Nacos(单机版) 1.1、下载 官网:https://github.com/alibaba/nacos/releases?page3 我分享的: 链接:https://pan.baidu.com/s/1-RNX1Jt3s4cwhWUzUqEHhg?pwdyyds 提取码:yyds 1.2、安…

Vuex(vue2中的状态机)

目录 Vuex state属性 getters属性 mutations属性 actions属性 modules属性 辅助函数 Vuex 状态管理模式 维护公共状态 公共数据 使用状态机模块维护状态 A组件中分发工作(发起异步请求)--->获取数据--->提交突变(将数据提交给突变 ) 通过突变修改状态…

k8s的三种发布方式

三种常见的发布方式 应用程序升级面临最大挑战是新旧业务切换,将软件从测试的最后阶段带到生产环境,同时要保证系统不间断提供服务。而最为常见三种发布方式分别为:蓝绿发布,灰度发布和滚动发布。 三种发布方式的最终目的都是为了…

服务器监控软件夜莺部署(一)

文章目录 一、夜莺介绍1. 简介2. 相关网站 二、夜莺部署1. 部署架构2. Docker启动3. 配置数据源4. 内置仪表盘效果5. 时序指标效果 一、夜莺介绍 1. 简介 夜莺监控系统是一款专业的服务器监控软件,它可以帮助用户实时监测服务器的CPU、内存、磁盘利用率等。 夜莺监…

TecoGAN视频超分辨率算法

1. 摘要 对抗训练在单图像超分辨率任务中非常成功,因为它可以获得逼真、高度细致的输出结果。因此,当前最优的视频超分辨率方法仍然支持较简单的范数(如 L2)作为对抗损失函数。直接向量范数作损失函数求平均的本质可以轻松带来时…

设计模式之工厂设计模式【创造者模式】

学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。各位小伙伴,如果您: 想系统/深入学习某技术知识点… 一个人摸索学习很难坚持,想组团高效学习… 想写博客但无从下手,急需…

程序员30而立的北京之路

作为一名程序员,职业规划和心灵成长是我工作和生活中不可或缺的部分。30岁是一个人生中的重要节点,也是所谓的“而立之年”,在这个阶段,我开始更加关注自己的职业发展和内心成长。在这篇文章中,我将分享我在北京这座城…

layuiadmin新建tabs标签页,点击保存,打开新的标签页并刷新

用的layuiamin前端框架 需求:新增的页面为一个标签页,保存后,需要刷新列表 1、新建customMethod.js文件,自定义自己的方法 layui.define(function (exports) {var $ layui.$var customMethod {// 表单点击保存后,…

软件开发的价格谜团:实战谈判技巧分享!

随着科技的飞速发展,软件开发已经渗透到我们生活的方方面面,无论是手机APP、网站还是企业级应用,软件开发的需求无处不在。 然而,面对市场上琳琅满目的开发报价,你是否曾感到困惑?软件开发的价格范围到底有多大?我们…

家政小程序 php 源码 上门保洁家政服务派单小程序系统开发制作源码 全开源可二开

随着社会的发展和人们生活水平的提高,家政服务逐渐成为我们生活中不可或缺的一部分。为了满足市场的需求,家政小程序的开发应运而生。下面分享一款家政小程序 php 源码,上门保洁家政服务派单小程序系统开发制作源码,源码开源可二开…

2024年最火爆的前端技术:虚拟DOM让页面性能飞升!

🎬 江城开朗的豌豆:个人主页 🔥 个人专栏 :《 VUE 》 《 javaScript 》 📝 个人网站 :《 江城开朗的豌豆🫛 》 ⛺️ 生活的理想,就是为了理想的生活 ! 目录 前言 正文 📘 一、什么是虚拟D…

无线路由器的五种工作模式:

1.Router,即无线路由模式,这也是我们最常用的一种工作方式,一般家里宽带连接,将宽带猫连接在无线路由的WAN口上,然后做拨号帐号设置,就用这个模式即可。 在Router(无线路由)模式下&a…

Linux:apache优化(2)—— 网页传输压缩

网页传输压缩 客户端在请求httpd服务器数据,httpd服务器在返回数据包给客户端时,先对返回的数据进行压缩,压缩之后再传输 作用:配置 Apache 的网页压缩功能,是使用 Gzip 压缩算法来对 Apache 服务器发布的网页内容进行…

研发中台拆分过程的一些心得总结

背景在 21 年,中台拆分在 21 年,以下为中台拆分的过程心得,带有一定的主观,偏向于中小团队中台建设参考(这里的中小团队指 3-100 人的团队),对于大型团队不太适用,毕竟大型团队人中 …

C++多态的使用

1. 多态 多种形态或多种实现方法,C中的多态是指一种接口(指的是父类接口),多种实现方法(指的是每个子类所实现的方法),即通过父类接口实现调用子类的多种方法 1.1 构成多态性的条件:…

【代数学作业1完整版-python实现GNFS一般数域筛】构造特定的整系数不可约多项式:涉及素数、模运算和优化问题

代数学作业1-完整版:python实现GNFS一般数域筛 写在最前面背景在GNFS算法中选择互质多项式时,需要考虑哪些关键因素,它们对算法的整体运行时间有何影响? 练习1题目题目分析Kleinjung方法简介通用数域筛法(GNFS)中的多…

浅谈开关量信号隔离器在钢铁厂除鳞系统的应用-安科瑞 蒋静

摘要:在钢铁生产线中,轧制是其中一项重要的加工工艺。通过轧制将金属坯料进行延展和定型,满足不同行业的使用要求。在轧制前需要进行除鳞,除鳞系统是通过高压水形成扇形水束,喷射到钢坯表面将氧化铁层剥离。高压水由高…

idea中java maven程序打JAR包的方式

JAR包是一种文件格式,用于将Java类、资源和元数据打包到一个文件中。它通常用于将Java库、应用程序或模块分发给其他开发人员或部署到不同的环境中。JAR包可以包含许多不同类型的文件,包括.class文件(编译后的Java类)、.java文件&…

Axure软件大全:原型设计下载与学习指南!

Axure可以有效地创建原型,包括绘制APP和网页的原型图、框架图、结构图等。Axure内置的小部件可以用来构建动态交互。即使新手设计师不懂程序代码,也可以在Axure中创建复杂、动态、功能丰富的原型。对于想要深入研究和花时间学习程序的设计师来说&#xf…