【Elasticsearch】IK分词器的下载及使用

安装IK分词器

网址:https://github.com/infinilabs/analysis-ik

在这里插入图片描述

3.1.在线安装ik插件(较慢,不推荐)

# 进入容器内部 es为容器名称
docker exec -it es /bin/bash# 在线下载并安装 7.17.21为镜像版本要与之前保持一致
./bin/elasticsearch-plugin  install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.17.21/elasticsearch-analysis-ik-7.17.21.zip#退出
exit
#重启容器
docker restart es

3.2.离线安装ik插件(推荐)

1)下载ik,解压缩分词器安装包

ik下载地址:https://release.infinilabs.com/

在这里插入图片描述

将解压后的ik包拖入虚拟机中

2)查看数据卷目录

安装插件需要知道elasticsearch的plugins目录位置,而我们用了数据卷挂载,因此需要查看elasticsearch的数据卷目录,通过下面命令查看:

sudo docker volume inspect es-plugins

显示结果:

在这里插入图片描述

说明plugins目录被挂载到了:/var/lib/docker/volumes/es-plugins/_data 这个目录中。

3)将ik包拖到到es容器的插件数据卷中

也就是/var/lib/docker/volumes/es-plugins/_data

在这里插入图片描述

4)重启容器

# 4、重启容器
docker restart es
# 查看es日志
docker logs -f es

5)测试:

IK分词器包含两种模式:

  • ik_smart:最少切分

  • ik_max_word:最细切分

POST /_analyze
{"text":"合理小姐是凑巧先生独一无二的女主角","analyzer": "ik_smart"
}

结果:

{"tokens" : [{"token" : "合理","start_offset" : 0,"end_offset" : 2,"type" : "CN_WORD","position" : 0},{"token" : "小姐","start_offset" : 2,"end_offset" : 4,"type" : "CN_WORD","position" : 1},{"token" : "是","start_offset" : 4,"end_offset" : 5,"type" : "CN_CHAR","position" : 2},{"token" : "凑巧","start_offset" : 5,"end_offset" : 7,"type" : "CN_WORD","position" : 3},{"token" : "先生","start_offset" : 7,"end_offset" : 9,"type" : "CN_WORD","position" : 4},{"token" : "独一无二","start_offset" : 9,"end_offset" : 13,"type" : "CN_WORD","position" : 5},{"token" : "的","start_offset" : 13,"end_offset" : 14,"type" : "CN_CHAR","position" : 6},{"token" : "女主角","start_offset" : 14,"end_offset" : 17,"type" : "CN_WORD","position" : 7}]
}

在这里插入图片描述

3.3 扩展词词典

随着互联网的发展,“造词运动”也越发的频繁。出现了很多新的词语,在原有的词汇列表中并不存在。比如:“奥力给”,“传智播客” 等。

所以我们的词汇也需要不断的更新,IK分词器提供了扩展词汇的功能。

要拓展ik分词器的词库,只需要修改一个iK分词器目录中的confia目录中的lkAnalvzer.cfa.xml文件:

1)打开IK分词器config目录:

2)在IKAnalyzer.cfg.xml配置文件内容添加:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties><comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典 *** 添加扩展词典--><entry key="ext_dict">ext.dic</entry>
</properties>

3)新建一个 ext.dic,可以参考config目录下复制一个配置文件进行修改

山不在高
有杨则名
水不在深
有龙则灵

4)重启elasticsearch

docker restart es# 查看 日志
docker logs -f elasticsearch

日志中已经成功加载ext.dic配置文件

注意当前文件的编码必须是 UTF-8 格式,严禁使用Windows记事本编辑

3.4 停用词词典

在互联网项目中,在网络间传输的速度很快,所以很多语言是不允许在网络上传递的,如:关于宗教、政治等敏感词语,那么我们在搜索时也应该忽略当前词汇。

IK分词器也提供了强大的停用词功能,让我们在索引时就直接忽略当前的停用词汇表中的内容。

1)IKAnalyzer.cfg.xml配置文件内容添加:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties><comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典--><entry key="ext_dict">ext.dic</entry><!--用户可以在这里配置自己的扩展停止词字典  *** 添加停用词词典--><entry key="ext_stopwords">stopword.dic</entry>
</properties>

3)在 stopword.dic 添加停用词

小黄花,向杨而生

4)重启elasticsearch

# 重启服务
docker restart elasticsearch
docker restart kibana# 查看 日志
docker logs -f elasticsearch

日志中已经成功加载stopword.dic配置文件

注意当前文件的编码必须是 UTF-8 格式,严禁使用Windows记事本编辑

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/846954.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

筛斗数据清洗技术在客户需求分析中的应用

在当今的商业环境中&#xff0c;了解客户需求对于企业的成功至关重要。然而&#xff0c;随着数据的不断增长和多样化&#xff0c;如何从海量的数据中提取有价值的信息成为了一个挑战。数据清洗技术作为一种有效的数据处理方法&#xff0c;可以帮助企业清除无效、错误的数据&…

uniapp uni.showModal 出现点击没有反应

uni.showModal 里面有好些参数 点击后不弹出 是因为 出现了 null 或者undifind 字符 特别是content 里面 title: 提示, cancelColor: #000000, editable: true,//是否显示输入框 content: item.text?item.te…

Python变量数组:深入探索其定义、用法、特性及高级技巧

Python变量数组&#xff1a;深入探索其定义、用法、特性及高级技巧 在Python编程中&#xff0c;变量数组是一种强大的数据结构&#xff0c;它允许我们存储和操作一组相关的数据项。然而&#xff0c;对于初学者来说&#xff0c;变量数组的概念和用法可能会带来一些困惑和挑战。…

【java11】java11新特性之标准HttpClient

Java 9中引入了增强的HttpClient API作为实验性功能。在Java 11中&#xff0c;现在HttpClient是一个标准。 Java 11引入了一个新的标准HttpClient API&#xff0c;用于替代旧的HttpURLConnection&#xff0c;提供了更现代、更灵活的HTTP通信方式。这个API支持同步和异步请求、…

Anacode+YOLO识别图片

一、安装Anacoda 因为我原本是已经安装了python&#xff0c;后面直接卸载了&#xff0c;然后安装了最新版的anacoda 下载网址为&#xff1a; Index of /anaconda/archive/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror 下载版本是&#xff1a; 按照安装教程直接…

android framework input 及多指协议 (一)

触摸事件查询 getevent -lrt 以上数据格式&#xff1a;时间&#xff0c;具体节点文件名&#xff0c;事件类型&#xff0c;事件值 input问题排查&#xff0c;如果数据能打印出来&#xff0c;则是framework 问题&#xff0c;如果没有数据打印出来&#xff0c;则要看驱动问题。 …

80V高耐压低静态线性稳压器/LDO,Vout 1v-65v 3.3V及5V方案最佳选择

概述 PC93XX系列专为动力而设计-敏感应用程序。它包括一个精度第二个高压输入级&#xff0c;超低功率 偏置电流分支&#xff0c;并产生超低功率和低压差线性调节器。PC93XX通过输入电压工作VOUT1V至65V&#xff0c;仅消耗1.8μA的静态电流&#xff0c;并提供1%的初始精度和低…

kernelbase.dll故障怎么处理的几种常见方法,有效的解决kernelbase.dll故障

kernelbase.dll是 Windows 操作系统的一个系统文件&#xff0c;它是 Windows NT 基本 API 客户端库的一部分。如果你遇到了kernelbase.dll出现故障的情况&#xff0c;这可能会导致软件崩溃或无法正常运行。下面是一些处理kernelbase.dll故障的常见方法。 重新启动计算机&#x…

34. 【Java教程】反射

本小节我们来学习一个 Java 语言中较为深入的概念 —— 反射&#xff08;reflection&#xff09;&#xff0c;很多小伙伴即便参与了工作&#xff0c;可能也极少用到 Java 反射机制&#xff0c;但是如果你想要开发一个 web 框架&#xff0c;反射是不可或缺的知识点。本小节我们将…

机器视觉检测--光源

一&#xff0c;环形光源 较为常见的LED光源之一&#xff0c;提供基本的照明作用。 随着光源距离产品的工作距离LWD变化而产生的亮度分布&#xff0c;如下图暖色表示亮&#xff1b;冷色表示暗。 同时该图示是针对特定一款大小的环形光源的数据&#xff08;下同&#xff09;。 二…

酒店旅游API服务汇总

各大旅游平台常用API服务汇总&#xff1a; 实时房源服务【Airbnb】飞猪旅行开放服务途牛旅行开放平台API华为云数字差旅【差旅管理】动态信息接口【美团酒店】旅行商城商家管理API【马蜂窝】交易流程接口【美团酒店】电子导游【携程旅行】

设置docker容器开机自启动

前提&#xff0c;容器已经启动运行 必要性&#xff1a;每次服务器重启&#xff0c;相关容器也要启动&#xff0c;略显麻烦&#xff0c;可以设置开机启动&#xff0c;命令是 docker update nginx --restartalways update后面接容器名称或容器id&#xff0c;加上参数--restart…

在SpringBoot项目中连接mongodb5.0.11

目录 1、pom.xml 中引入依赖 2、在application.properties中配置连接mongodb数据库的配置数据 1、pom.xml 中引入依赖 <dependencies> ..... <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-dat…

【MachineLearning】| 机器学习:推动未来技术革新与应用的新引擎

一、引言 随着计算能力的飞速提升和大数据的广泛应用&#xff0c;机器学习已成为推动现代科技发展的关键力量。从自动化驾驶到精准医疗&#xff0c;再到金融风险评估&#xff0c;机器学习正逐步改变着我们的工作和生活方式。本文将围绕机器学习的技术革新及其在不同领域的应用…

RenderNode Demo

目录 Demo一、帧绘制流程1、RenderProxy::syncAndDrawFrame2、DrawFrameTask::drawFrame3、CanvsContext::draw4、SkiaOpenGLPipeline::draw&#xff08;真正开始绘制&#xff09;5、RenderNodeDrawable::onDraw6、DisplayList::draw 二、RenderNode传递过程1、SkiaRecordingCa…

nginx动静分离配置

在实现nginx动静分离时&#xff0c;需要将静态文件和动态请求进行分离&#xff0c;可以通过以下配置实现&#xff1a; 1. 静态文件配置&#xff1a; location /static/ {root /path/to/static/files;expires 7d;access_log off; }location /media/ {root /path/to/media/file…

【Power Compiler手册】6.反标翻转活动

5.反标翻转活动 可以对设计中的切换活动进行反标,以生成准确的功耗计算。 有关不同类型切换活动信息以及如何在门级设计上进行反标的信息,请参阅以下主题: 反标切换活动的类型使用RTL SAIF文件反标切换活动使用门级SAIF文件反标切换活动反标推断的切换活动使用set_switchin…

TDMQ CKafka 版弹性存储能力重磅上线!

导语 自 2024年5月起&#xff0c;TDMQ CKafka 专业版支持弹性存储能力&#xff0c;这种产品形态下&#xff0c;存储可按需使用、按量付费&#xff0c;一方面降低消费即删除、存储使用波动大场景下的存储成本&#xff0c;另一方面存储空间理论上无穷大。 TDMQ CKafka 版产品能…

Python实用代码片段分享(三)

在今天的博文中&#xff0c;我们将继续分享一些Python编程中非常实用的代码片段。这些代码片段将帮助你更高效地处理常见任务&#xff0c;从字符转换到数据类型检查&#xff0c;应有尽有。 1. ord函数和chr函数 Python的ord()函数可以返回Unicode字符对应的ASCII码值&#xf…

OJ3260最大数组和问题

题目&#xff1a; 小明是一名勇敢的冒险家&#xff0c;他在一次探险途中发现了一组神秘的宝石&#xff0c;这些宝石的价值都不同。但是&#xff0c;他发现这些宝石会随着时间的推移逐渐失去价值&#xff0c;因此他必须在规定的次数内对它们进行处理。 小明想要最大化这些宝石的…