docker安装EelasticSearch、目录权限修改、并安装IK 中文分词器

文章目录

  • docker安装EelasticSearch、目录权限修改、并安装IK 中文分词器
    • 1、docker安装ES
    • 2、docker ps发现容器没有正常启动,docker logs 容器id 查看日志发现是挂载目录的权限不足
    • 3、修改目录的权限
    • 4、使用docker restart 容器id重新启动刚才没有启动成功的容器
    • 5、在浏览器下载es客户端插件
    • 6、ik_smart和 ik_max_word中文分词器的安装
      • 6.1、为什么要安装分词器?
      • ik_smart
      • ik_max_word
      • 6.3、ik的安装
      • 6.4、使用客户端查看

docker安装EelasticSearch、目录权限修改、并安装IK 中文分词器

1、docker安装ES

在你的linux系统的opt目录下创建一个es7文件夹,里面再创建一个data文件夹

docker run -d --name es7 -e ES_JAVA_POTS="-Xms256m -Xmx256m" -e "discovery.type=single-node" -v /opt/es7/data/:/usr/share/elasticsearch/data  -p 9200:9200 -p 9300:9300 elasticsearch:7.14.0

2、docker ps发现容器没有正常启动,docker logs 容器id 查看日志发现是挂载目录的权限不足

在这里插入图片描述

3、修改目录的权限

进入刚才建立的es7目录,修改权限

cd /opt/es7/
chmod 777 ./data

在这里插入图片描述

4、使用docker restart 容器id重新启动刚才没有启动成功的容器

5、在浏览器下载es客户端插件

在这里插入图片描述

6、ik_smart和 ik_max_word中文分词器的安装

6.1、为什么要安装分词器?

ik_smartik_max_word 是 Elasticsearch 中 IK 分词器(IK Analyzer)的两种分词模式。IK 分词器是一款针对中文文本处理的插件,旨在提高中文文本在Elasticsearch中的索引和搜索效率。以下是这两种分词模式的详细解释:

ik_smart

ik_smart 模式,也称为“智能分词”模式,其特点是:

  1. 简明高效:该模式倾向于生成较少的词语切分结果,倾向于输出最具代表性和语义关联性强的词汇组合。它会尽可能减少冗余和无意义的词语片段,生成的分词结果相对精简。

  2. 歧义处理:ik_smart 在处理多义词、同音字、形似字等可能导致歧义的情况时,会依据上下文信息和语言模型进行判断,选择最符合语境的分词结果。

  3. 适用场景:由于生成的分词结果较为简洁且具有较高的语义相关性,ik_smart 模式通常适用于对查询效率要求较高或者希望减少无关结果干扰的场景。例如,在搜索引擎中进行精确匹配查询、短语查询或是在高精度推荐系统中进行关键词分析时,使用 ik_smart 可能会得到更精准的匹配效果。

ik_max_word

ik_max_word 模式,也称为“最大词数”或“细粒度分词”模式,其特点包括:

  1. 全面覆盖:该模式致力于生成最多的词语切分结果,力求穷尽文本中所有可能的词语组合,包括单个汉字、词组、成语以及专有名词等。因此,ik_max_word 分词结果通常包含大量的短词和长词组合。

  2. 无歧义处理:相较于 ik_smart,ik_max_word 模式在处理歧义时通常不做过多的语义判断,而是尽可能多地保留原始文本的所有可能切分结果。这意味着可能会包含一些在特定语境下并非最佳的分词选项。

  3. 适用场景:ik_max_word 模式适用于需要进行广泛匹配查询、全文检索、语料库建设、词语统计分析等对词汇覆盖率要求较高的场景。在这种情况下,全面且详细的分词结果有助于确保不会遗漏任何潜在的相关信息,尽管这可能会引入一些噪音(即无关或冗余的词语)。

总结来说,ik_smartik_max_word 主要区别在于分词结果的数量和精细化程度:

  • ik_smart 侧重于生成精炼、语义相关的词汇组合,适用于对查询效率和精确度要求较高的场景。
  • ik_max_word 则强调全面覆盖,尽可能输出所有可能的词语切分结果,适用于需要广泛匹配或进行详细词汇分析的场景。

实际应用中,选择哪种分词模式应根据具体的业务需求和应用场景来决定。

6.3、ik的安装

https://github.com/medcl/elasticsearch-analysis-ik/releases

#第一步 copy 插件到容器
docker cp /opt/es7/elasticsearch-analysis-ik-7.14.0.zip 容器id:/usr/share/elasticsearch#第二步进入你的容器
docker exec -it 容器id /bin/bash#第三步执行如下命令,安装插件,中间会提示 Y or N,直接写 Y ,回车即可
elasticsearch-plugin install file:\/usr/share/elasticsearch/elasticsearch-analysis-ik-7.14.0.zip#第四步退出容器
exit#第五步重启容器
docker restart 容器ID

6.4、使用客户端查看

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/201.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Leetcode 4.18

Leetcode 1.无重复字符的最长子串2.最长回文子串3.整数反转4.字符串转换整数 (atoi)5.正则表达式匹配 1.无重复字符的最长子串 无重复字符的最长子串 滑动窗口,先让右指针右移,如果发现这个子串有元素和右指针当前元素重复。 则: 左指针右移…

【嵌入式之中断】

Cortex-M4集成了嵌套式矢量型中断控制器(Nested Vectored Interrupt Controller (NVIC))来实现高效的异常和中断处理。NVIC实现了低延迟的异常和中断处理,以及电源管理控制。它和内核是紧密耦合的。 凡是打断程序顺序执行的事件都称为异常(exception&am…

极狐GitLab x LigaAI,AI 时代研发提效新范式

GitLab 是一个全球知名的一体化 DevOps 平台,很多人都通过私有化部署 GitLab 来进行源代码托管。极狐GitLab 是 GitLab 在中国的发行版,专门为中国程序员服务。可以一键式部署极狐GitLab。 近日,极狐GitLab 和 LigaAI 宣布合作,双…

CentOS 7安装Zookeeper

说明:本文介绍如何在CentOS 7操作系统下使用Zookeeper 下载安装 首先,去官网下载所需要安装的版本,我这里下载3.4.9版本; 上传到云服务器上,解压 tar -xvf zookeeper-3.4.9.tar.gz修改配置 进入Zookeeper目录下的co…

【技术变现之道】如何打造IT行业的超级个体?

前言 在当今的数字化时代,IT行业蓬勃发展,为具备技术专长的个人提供了无限的可能性。想要成为IT行业的超级个体,实现知识与技能的变现吗?以下是一些高效途径,助你一臂之力! 1. 独立接单外包 1&#xff09…

vue3数字滚动组件

效果图 一、安装插件 npm i vue3-count-to 二、components文件夹下新建BaseCountTo.vue文件 <template><BaseCountTo :endVal"endVal" :decimals"decimals" /> </template> <script setup > import { defineComponent, watch, r…

改手机IP地址的软件推荐

随着移动互联网的普及&#xff0c;手机已成为人们日常生活中不可或缺的一部分。而在使用手机的过程中&#xff0c;IP地址作为一个重要的网络标识&#xff0c;有时也需要进行修改或更改。为了满足这一需求&#xff0c;市面上涌现出了许多改手机IP地址的软件。虎观代理将对这些软…

韩顺平Java | C27 正则表达式

入门介绍 需求&#xff1a;提取文本中某类字符 传统方法&#xff1a;遍历每个字符&#xff0c;判断其是否在ASCII码中某种类型得编码范围内&#xff0c;代码量大&#xff0c;效率不高 正则表达式(RegExp, regular expression)&#xff1a;处理文本的利器&#xff0c;是对字符…

java混淆的公司有哪些

一些提供 Java 混淆服务的公司包括&#xff1a; PreEmptive Solutions&#xff1a;PreEmptive Solutions 提供了一系列用于保护 Java 和 .NET 应用程序的工具&#xff0c;包括混淆、代码压缩、加密和漏洞检测等功能。 DexGuard&#xff1a;DexGuard 是 Guardsquare 公司推出的…

【JavaWeb】异步请求——AJAX

目录 Ajax&#xff08;Asynchronous JavaScript and XML&#xff09;优点传统Web与Ajax的差异Ajax工作流程Ajax 经典应用场景XMLHttpRequest常用方法事件常用属性 ajax: GET请求和POST请求的区别 传统Ajax实现传统方式实现Ajax的不足 $.ajax()语法常用属性参数常用函数参数 Aja…

golang 迷宫回溯算法(递归)

// Author sunwenbo // 2024/4/14 20:13 package mainimport "fmt"// 编程一个函数&#xff0c;完成老鼠找出路 // myMap *[8][7]int 地图&#xff0c;保证是同一个地图&#xff0c;因此是引用类型 // i,j表示对地图的哪个点进行测试 func SetWay(myMap *[8][7]int, …

网络基础-基于TCP协议的Socket通讯

一、Socket通讯基于TCP协议流程图 UDP 的 Socket 编程相对简单些不在介绍。 二、 服务端程序启动 服务端程序要先跑起来&#xff0c;然后等待客户端的连接和数据。 服务端程序首先调用 socket() 函数&#xff0c;创建网络协议为 IPv4&#xff0c;以及传输协议为 TCP 的…

基于XML配置bean(二)

文章目录 1.工厂中获取bean1.静态工厂1.MyStaticFactory.java2.beans.xml3.测试 2.实例工厂1.MyInstanceFactory.java2.beans.xml3.测试 3.FactoryBean&#xff08;重点&#xff09;1.MyFactoryBean.java2.beans.xml3.测试 2.bean配置信息重用继承抽象bean1.beans.xml2.测试 3.…

HarmonyOS实战开发-如何实现一个简单的健康生活应用

功能概述 成就页面展示用户可以获取的所有勋章&#xff0c;当用户满足一定的条件时&#xff0c;将点亮本页面对应的勋章&#xff0c;没有得到的成就勋章处于熄灭状态。共有六种勋章&#xff0c;当用户连续完成任务打卡3天、7天、30天、50天、73天、99天时&#xff0c;可以获得…

SpringBoot框架——8.MybatisPlus常见用法(常用注解+内置方法+分页查询)

1.MybatisPlus常用注解&#xff1a; 1.1 当数据库、表名和字段名和实体类完全一致时无需加注解&#xff0c;不一致时&#xff1a; TableName指定库名 TableId指定表名 TableField指定字段名 1.2 自增主键&#xff1a; TableId(typeIdType.AUTO) private Long id; 1.3 实体类中属…

2000-2022年各省人力资本水平数据(含原始数据+计算过程+计算结果)(无缺失)

2000-2022年各省人力资本水平数据&#xff08;含原始数据计算过程计算结果&#xff09; 1、时间&#xff1a;2000-2022年 2、来源&#xff1a;国家统计局 3、指标&#xff1a;普通高等学校在校学生数(万人)、年末常住人口&#xff08;万人&#xff09;、人力资本水平 4、范…

CTFshow-PWN-前置基础(pwn20)

提交ctfshow{【.got表与.got.plt是否可写(可写为1&#xff0c;不可写为0)】,【.got的地址】,【.got.plt的地址】 前置基础知识&#xff1a; .got 和 .got.plt 是 ELF&#xff08;Executable and Linkable Format&#xff0c;可执行和可链接格式&#xff09;二进制文件中的两个…

(四)qt中使用ffmpeg播放视频,可暂停恢复

一、在qt中添加ffmpeg库及头文件 INCLUDEPATH /usr/local/ffmpeg/include LIBS -L/usr/local/lib -lavutil -lavcodec -lavformat -lswscale 二、详细代码 FFempegVideoDecode 视频解码类&#xff08;放入线程中&#xff09; ffmpegvideodecode.h #ifndef FFMPEGVIDEODE…

RHCE作业二

一.配置server主机要求如下&#xff1a; 1.server主机的主机名称为 ntp_server.example.com 2.server主机的IP为&#xff1a; 172.25.254.100 3.server主机的时间为1984-11-11 11&#xff1a;11&#xff1a;11 4.配置server主机的时间同步服务要求可以被所有人使用 二.设定cli…

Http 请求偶发400错误

1. 背景 生产环境偶发400请求错误&#xff0c;发生概率万分之一&#xff0c;异常信息如下&#xff1a; 1&#xff09; 从异常信息可以看到&#xff0c;skywalking的sw8 header解析失效导致异常信息。 2&#xff09; 0x0d0x0a 作为回车换行符号&#xff0c;没有被正确处理&#…