Elasticsearch 创建自定义分析器(4)

一.自定义分析器

　　当内置分析器不能满足时，可以创建一个自定义分析器，自定义分析器(analyzer)由：

　　　　　　1)0或多个 charactcr filter 字符过滤器

　　　　　　2) 1个 tokenizer 分词器，将文本切分为分词

　　　　　 3)0或多个 token filter 令牌过滤器，是属于分词后再过滤

　　自定义配置参数如下

type	分析器类型，接收内置分析器类型，可以使用custom(代表自定义分析器)或者省略此参数
tokenizer	内置或自定义分词器 (必填)
char_filter	内置或自定义字符过滤器(character filters) 可选数组
filter	内置或自定义令牌过滤器(token filter)可选数组
position_increment_gap	间隙值，跨值访问，一般用于match_phrase短语查询检索数据，默认值100

　　示例1：自定义一个分析器

　　　　1)char_filter字符过滤器：使用html_strip去除html标签

　　　　2) tokenizer分词器：使用standard标准分词器

　　　　3)filter令牌过滤器: 使用 lowercase转小写，使用asciifolding转为ascii

　　　　定义分析器结构如下：

PUT my-index-000001
{"settings": {"analysis": {"analyzer": {"my_custom_analyzer": {  #自定义一个分析器"type": "custom", "tokenizer": "standard",  #使用标准分析词"char_filter": [     #使用char_filter字符过滤器"html_strip"],"filter": [        #使用filter过滤器"lowercase","asciifolding"]}}}}
}

　　　　使用自定义分析器分词

POST my-index-000001/_analyze
{"analyzer": "my_custom_analyzer","text": "Is this <b>déjà vu</b>?"
}

　　　　查看分词结果: [ is,this,deja,vu]

　　示例2：自定义一个复杂分析器，它结合了以下内容：

　　　　1)char_filter字符过滤器：自定义Mapping Character Filter映射：

　　　　　　:) 符号映射为 _happy_

　　　　　　:( 符号映射为 _sad_

　　　　2) tokenizer分词器：自定义Pattern 模式分词器

　　　　3) filter令牌过滤器: lowercase转小写，自定义过滤停用词

　　　　定义分析器结构：

PUT my-index-000001
{"settings": {"analysis": {"analyzer": {"my_custom_analyzer": {   #自定义一个分析器"char_filter": ["emoticons"           #自定义自符过滤器],"tokenizer": "punctuation",     #自定义一个分词器"filter": ["lowercase","english_stop"]}},"tokenizer": {          "punctuation": {           #模式分词器的配置"type": "pattern","pattern": "[ .,!?]"     #以里面符号来分词}},"char_filter": {         #字符过滤器的配置映射"emoticons": { "type": "mapping","mappings": [":) => _happy_",":( => _sad_"]}},"filter": {           #令牌过滤器的配置，过滤停用词"english_stop": {  "type": "stop","stopwords": "_english_"}}}}
}

　　　　使用自定义的分析器分词

POST my-index-000001/_analyze
{"analyzer": "my_custom_analyzer","text": "I'm a :) person, and you?"
}

　　　　查看分词结果：[ i'm, _happy_, person,you]

参考官方资料：Create a custom analyzer

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/pingmian/107.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

Elasticsearch 创建自定义分析器(4)

一.自定义分析器

相关文章

对一个全局变量进行多线程并发 -- 或者 ++ 操作是否是安全的？？是否是原子的？？

3D目标检测实用技巧（三）- 生成虚拟点

腾讯文档推出智能白板创新品类，自研开物引擎支持全端应用

ctfshow web入门 SQl注入web171--web179

数据结构 - 栈

✌粤嵌—2024/4/18—旋转链表✌

线程安全问题的原因和解决方案

GDB调试基础

制作直通网线和交叉网线

壁纸、软件、电子书、音乐资源、数据库资源，囤一囤

Windows突然蓝屏解决办法

Python 日期格式化，等日期相关操作

Python用于比较数据结构并生成差异报告的工具库之data-diff使用详解

tokio 学习

【Python-第三方库】cv2

新手做抖音小店，最易爆单的几大类目分享，抓紧收藏！

eclipse配置SVN和Maven插件

五款3dmax常用插件推荐(含云渲染工具）

Linux gcc 6

活动报名 | 如何进行全增量一体的异构数据库实时同步