掌握ElasticSearch(六):分析过程

文章目录

  • 一、什么是分析
    • 1. 字符过滤 (Character Filtering)
    • 2. 分词 (Breaking into Tokens)
    • 3. 词条过滤 (Token Filtering)
    • 4. 词条索引 (Token Indexing)
  • 二、内置分析器分类
    • 1. 标准分析器 (Standard Analyzer)
    • 2. 简单分析器 (Simple Analyzer)
    • 3. 语言分析器 (Language Analyzers)
    • 4. 关键字分析器 (Keyword Analyzer)
    • 5. 模式分析器 (Pattern Analyzer)
    • 6. 音译分析器 (Phonetic Analyzer)
    • 7. 自定义分析器 (Custom Analyzer)
  • 三、如何使用分析器
    • 1. 在创建索引时使用分析器
      • 示例
    • 2. 在 ES 配置文件中指定全局的分析器
      • 示例
    • 3. 结合以上两种方法使用
      • 示例

一、什么是分析

Elasticsearch 的分析过程是将文本数据转换成适合搜索的形式的关键步骤。这一过程主要包括四个阶段:字符过滤、分词、词条过滤和词条索引。

在这里插入图片描述

1. 字符过滤 (Character Filtering)

字符过滤是分析过程的第一步,它发生在文本被分词之前。字符过滤器的主要作用是对输入文本进行预处理,以去除或替换某些字符。这一步可以帮助改善后续分析的效果,尤其是在处理包含特殊字符或格式化内容(如 HTML 标签)的文本时尤为重要。

  • 用途:例如,可以使用字符过滤器来删除文本中的 HTML 标签,或将某些字符转换为其他字符(比如将连字符转换为空格)。
  • 实现:Elasticsearch 提供了一些内置的字符过滤器,如 html_strip 用于剥离 HTML 标签。此外,也可以编写自定义的字符过滤器来满足特定的需求。

2. 分词 (Breaking into Tokens)

分词是将文本切分为更小的单位,即词条(tokens)的过程。每个词条代表一个独立的搜索项。分词器的选择对最终的搜索结果影响很大。

  • 分词器类型
    • 标准分词器:适用于多种语言,能够识别并分割大多数常见文本。
    • 语言特定分词器:如中文分词器(如 IK 分词器或结巴分词器),能够更好地处理特定语言的文本。
    • 模式分词器:允许使用正则表达式来自定义分词规则。
  • 例子:假设有一个句子 “Elasticsearch is a powerful search engine”,标准分词器会将其分解为 [“Elasticsearch”, “is”, “a”, “powerful”, “search”, “engine”]。

3. 词条过滤 (Token Filtering)

分词后的词条会通过一系列的词条过滤器进行处理,以优化搜索性能和相关性。词条过滤器可以执行多种操作,包括但不限于:

  • 小写转换:将所有词条转换为小写,以确保搜索时不区分大小写。
  • 停用词移除:移除那些在搜索中通常不提供有用信息的常见词汇,如 “the”、“and” 等。
  • 词干提取:将词条还原到其基本形式,例如将 “running” 转换为 “run”。
  • 同义词扩展:将词条替换为一组相关的词条,以提高搜索的覆盖范围。
  • 词形还原:将词条还原到其词典形式,与词干提取类似,但更精确。

4. 词条索引 (Token Indexing)

经过字符过滤、分词和词条过滤之后,最终的词条将被索引。索引过程涉及将词条及其元数据(如位置信息、频率等)存储在倒排索引中。倒排索引是一种数据结构,它允许快速查找包含特定词条的文档。

  • 倒排索引结构:每个词条对应一个文档列表,列表中的每个元素表示该词条出现在哪个文档中以及出现的位置。
  • 索引存储:词条和其元数据被高效地存储,以便于快速检索。

二、内置分析器分类

在这里插入图片描述

Elasticsearch 提供了多种内置的分析器,每种分析器都针对特定的使用场景进行了优化。这些内置分析器可以处理不同的语言和文本类型,帮助用户更有效地索引和搜索数据。下面详细介绍几种常用的内置分析器及其特点:

1. 标准分析器 (Standard Analyzer)

描述:这是 Elasticsearch 的默认分析器,适用于多种语言的通用文本分析。它使用标准分词器和标准词条过滤器。

分词器

  • 标准分词器:将文本拆分为单词,忽略标点符号和空白字符。

词条过滤器

  • 小写过滤器:将所有词条转换为小写。
  • 停止词过滤器:移除常见的停用词(如 “the”、“is” 等)。

示例

{"analyzer": {"standard": {"type": "standard"}}
}

2. 简单分析器 (Simple Analyzer)

描述:适用于简单的文本分析,主要用于英文。它使用简单分词器,将文本按非字母字符拆分,并将所有词条转换为小写。

分词器

  • 简单分词器:将文本按非字母字符拆分。

词条过滤器

  • 小写过滤器:将所有词条转换为小写。

示例

{"analyzer": {"simple": {"type": "simple"}}
}

3. 语言分析器 (Language Analyzers)

描述:Elasticsearch 提供了多种语言特定的分析器,每种语言分析器都针对特定语言的语法和词汇进行了优化。

示例

  • 英语分析器 (english):
    • 分词器:标准分词器
    • 词条过滤器:小写过滤器、英语停用词过滤器、英语词干提取过滤器
  • 中文分析器 (smartcn):
    • 分词器:智能中文分词器
    • 词条过滤器:小写过滤器

示例

{"analyzer": {"english": {"type": "english"},"smartcn": {"type": "smartcn"}}
}

4. 关键字分析器 (Keyword Analyzer)

描述:不进行任何分析,直接将整个输入文本作为一个单一的词条。适用于不需要分词的字段,如 ID、标签等。

分词器

  • 关键字分词器:将整个输入文本作为一个单一的词条。

示例

{"analyzer": {"keyword": {"type": "keyword"}}
}

5. 模式分析器 (Pattern Analyzer)

描述:使用正则表达式来分词。适用于需要自定义分词规则的场景。

分词器

  • 模式分词器:根据提供的正则表达式将文本拆分为词条。

示例

{"analyzer": {"pattern_analyzer": {"type": "pattern","pattern": "\\W+","lowercase": true}}
}

6. 音译分析器 (Phonetic Analyzer)

描述:将词条转换为其音译形式,适用于模糊匹配和拼写纠正。常用算法包括 Soundex 和 Metaphone。

分词器

  • 标准分词器

词条过滤器

  • 音译过滤器:将词条转换为其音译形式。

示例

{"analyzer": {"phonetic_analyzer": {"tokenizer": "standard","filter": ["soundex"]}}
}

7. 自定义分析器 (Custom Analyzer)

描述:用户可以根据需要组合不同的分词器、字符过滤器和词条过滤器来创建自定义分析器。

示例

{"settings": {"analysis": {"analyzer": {"my_custom_analyzer": {"type": "custom","char_filter": ["html_strip"],"tokenizer": "standard","filter": ["lowercase", "stop", "snowball"]}}}}
}

三、如何使用分析器

我们可以在创建索引时使用分析器,也可以在ES配置文件中指定全局的analyzer;以及结合以上两种方法使用。

1. 在创建索引时使用分析器

在创建索引时,可以指定特定字段使用的分析器。这种方式提供了细粒度的控制,可以根据每个字段的具体需求选择不同的分析器。

示例

假设我们有一个博客文章的索引,其中包含标题和内容字段,我们可以分别为这两个字段指定不同的分析器。

PUT /blog
{"settings": {"analysis": {"analyzer": {"default_title_analyzer": {"type": "standard"},"default_content_analyzer": {"type": "english"}}}},"mappings": {"properties": {"title": {"type": "text","analyzer": "default_title_analyzer"},"content": {"type": "text","analyzer": "default_content_analyzer"}}}
}

在这个示例中:

  • default_title_analyzer 使用标准分析器。
  • default_content_analyzer 使用英语分析器。
  • title 字段使用 default_title_analyzer
  • content 字段使用 default_content_analyzer

2. 在 ES 配置文件中指定全局的分析器

在 Elasticsearch 的配置文件(通常是 elasticsearch.yml)中,可以设置全局的分析器。这种方式适用于希望在整个集群中统一使用某个分析器的情况。

示例

假设我们希望在集群中统一使用标准分析器作为默认分析器。

index.analysis.analyzer.default.type: standard

这样配置后,所有新创建的索引如果没有指定特定的分析器,都会使用标准分析器。

3. 结合以上两种方法使用

在实际应用中,可以结合以上两种方法,既在配置文件中设置全局的分析器,又在创建索引时为特定字段指定不同的分析器。这样可以灵活地满足不同场景的需求。

示例

假设我们在配置文件中设置全局的默认分析器为标准分析器,但在创建索引时为特定字段指定不同的分析器。

配置文件 elasticsearch.yml:

index.analysis.analyzer.default.type: standard

创建索引时的配置:

PUT /blog
{"settings": {"analysis": {"analyzer": {"default_content_analyzer": {"type": "english"}}}},"mappings": {"properties": {"title": {"type": "text"},"content": {"type": "text","analyzer": "default_content_analyzer"}}}
}

在这个示例中:

  • 全局默认分析器是标准分析器。
  • title 字段没有指定分析器,因此会使用全局的默认分析器(标准分析器)。
  • content 字段指定了 default_content_analyzer,使用英语分析器。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/58644.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LabVIEW Modbus通讯稳定性提升

在LabVIEW开发Modbus通讯程序时,通讯不稳定是一个常见问题,可能导致数据丢失、延迟或错误。为了确保通讯的可靠性,可以从多个角度进行优化,以下是一些有效的解决方案,结合实际案例进行分析。 1. 优化通讯参数设置 通讯…

数据库安装使用

文章目录 一、目的二、原理三、过程 一、目的 Mysql数据库的解压Mysql数据库的的配置Mysql数据库的使用 二、原理 MySQL是一个关系型数据库管理系统,在 WEB 应用方面,MySQL是最好的RDBMS (Relational Database Management System,关系数据…

实时数据处理:技术支持和优势

在当今快节奏的数字世界中,企业不断寻找在竞争中保持领先地位的方法。批量和近实时的数据处理方法已经无法满足企业对于数据处理速度要求了。因此实时数据处理出现,逐渐帮助企业获取更快速的决策能力。本文,我们将深入研究实时处理&#xff0…

HCIP--以太网交换安全(总实验)

实验背景 假如你是公司的网络管理员,为了提高公司网络安全性,你决定在接入交换机部署一些安全技术:端口隔、端口安全、DHCP snooping、IPSG。 实验拓扑图 实验的要求: 1.在R1、R2连接在GE0/0/1和GE0/0/2接口下,均划…

高考新出路,综合评价招生全攻略,让你低分高就进名校

在高考改革的浪潮中,综合评价招生模式逐渐兴起,成为众多考生和家长关注的焦点。那么,什么是综合评价呢?简单来说,就是综合考量高考成绩、高校考核结果、高中学业水平考试成绩、综合素质评价以及其他特殊要求等五个维度…

一个图像处理的实验设计

在Rafael Gonzalez和Richard Woods的《数字图像处理》中有一道这样的实验设计题,我发现特别适合说明多个阈值的全局阈值分割的示例。 我嫌他说话啰嗦,修改了一下作为考试题。 基本流程 图像分割 选取中间灰度级的区域标记。 2. 形态学后处理 开运…

【Pandas】使用 pandas 处理多层级 Excel 表头的实用指南

背景 在数据分析和业务报告中,Excel 文件广泛用于存储和展示信息,特别是在需要对数据进行分类和分组时。许多商业场景中,数据会以多层级表头的形式呈现,体现不同维度的信息。例如,在财务报表中,可能按年度…

【YApi】接口管理平台

一、简介 YApi 是一个用于前后端开发团队协作的 API 管理平台,帮助团队更加高效地进行 API 接口的设计、测试、文档管理和版本控制等工作。 YApi 主要功能: API 设计和管理:提供 API 设计和文档生成工具,使开发者能够轻松创建、…

ctfshow(159->162)--文件上传漏洞

Web159 考点: 前端校验MIME验证黑名单 思路: 上传.user.ini文件: 文件内容auto_prepend_fileshell.png 由于网页存在前端过滤,只允许上传.png文件,所以我们将文件名修改为.user.ini.png上传,然后抓包删除.png后缀名…

使用pytest单元测试框架执行单元测试

Pytest 是一个功能强大且灵活的 Python 单元测试框架,它使编写、组织和运行测试变得更加简单。以下是 Pytest 的一些主要特点和优点: 简单易用:Pytest 提供了简洁而直观的语法,使编写测试用例变得非常容易。它支持使用 assert 语…

可视化平台FineBI的安装及简单使用

本章知识简介 主线B: 安装FineBI 主线C: FineBI的使用. 本章目标: 1:了解FineBI的安装; [了解]"傻瓜式"安装 2:知道FineBI的使用流程; [了解]a.连接数据b.创建组件与分析数据c.可视化组件d.添加交互效果e.制作仪表板 3:知道如何连接数据; [重点]添加业…

推荐一款优秀的pdf编辑器:Ashampoo PDF Pro

Ashampoo PDF Pro是管理和编辑 PDF 文档的完整解决方案。程序拥有您创建、转换、编辑和保护文档所需的一切功能。根据需要可以创建特定大小的文档,跨设备可读,还可以保护文件。现在您还能像编辑Word文档一样编辑PDF! 软件特点 轻松处理文字 如 Microso…

云原生后端开发教程

云原生后端开发教程 引言 随着云计算的普及,云原生架构逐渐成为现代软件开发的主流。云原生不仅仅是将应用部署到云上,而是一种构建和运行应用的方式,充分利用云计算的弹性和灵活性。本文将深入探讨云原生后端开发的核心概念、工具和实践&a…

XQT_UI 组件|02| 按钮 XPushButton

XPushButton 使用文档 简介 XPushButton 是一个自定义的按钮类,基于 Qt 框架构建,提供了丰富的样式和功能选项。它允许开发者轻松创建具有不同外观和行为的按钮,以满足用户界面的需求。 特性 颜色设置:支持多种颜色选择。样式设…

Linux线程安全(二)条件变量实现线程同步

目录 条件变量 条件变量初始化和唤醒 键盘触发条件变量唤醒线程demo 条件变量的等待 条件变量定时等待demo 条线变量实现多线程间的同步 条件变量 条件变量是为了控制多个线程的同步工作而设计的 比如说一个系统中有多个线程的存在但有且仅有一个线程在工作&#xff0c…

python的lambda实用技巧

lambda表达式 lambda表达式是一种简化的函数表现形式,也叫匿名函数,可以存在函数名也可以不存在。 使用一行代码就可以表示一个函数: # 格式 lambda arg[参数] : exp[表现形式] # 无参写法 lambda : "hello" # 一般写法 lambda …

复现第一周24

1.[SWPUCTF 2021 新生赛]gift_F12 1)打开题目 2)看源码 3)直接ctrl+f搜索flag 2.[SWPUCTF 2021 新生赛]nc签到 1)开题 2)下载附件用记事本打开 3)打开kali使用nc连接代码 输入l\s命令绕过黑名…

开发流程初学者指南——需求分析

目录 从零开始理解需求分析什么是需求分析?需求分析的目标需求分析的基本原则需求分析的各个阶段需求分析的常用方法和工具编写需求文档总结 从零开始理解需求分析 需求分析是软件开发过程中不可或缺的一环,它帮助我们明确用户的需求,确保最…

大模型,多模态大模型面试【LoRA,分类,动静态数据类型,DDPM,ControlNet,IP-Adapter, Stable Diffusion】

大模型,多模态大模型面试【LoRA,分类,动静态数据类型,DDPM,ControlNet,IP-Adapter, Stable Diffusion】 问题一:LoRA是用在节省资源的场景下,那么LoRA具体是节省了内存带宽还是显存呢…