Java集成结巴中文分词器、Springboot项目整合jieba分词,实现语句最精确的切分、自定义拆词

文章目录

  • 一、jieba介绍
  • 二、集成
  • 三、原理
  • 四、自定义拆词
    • 4.1、方式一:在源码的dict.txt中修改然后重新打包(推荐)
    • 4.2、新建文件自定义拆词
  • 五、其他问题

一、jieba介绍

jieba是一个分词器,可以实现智能拆词,最早是提供了python包,后来由花瓣(huaban)开发出了java版本。

源码:https://github.com/huaban/jieba-analysis

分词的模式

  • search 精准的切开,用于对用户查询词分词
  • index 对长词再切分,提高召回率

二、集成

1.引入相关依赖

<dependency><groupId>com.huaban</groupId><artifactId>jieba-analysis</artifactId><version>1.0.2</version>
</dependency>

2.核心代码

public class Demo {public static void main(String[] args) {JiebaSegmenter js = new JiebaSegmenter();List<String> resultList = js.sentenceProcess("我爱中国"); //[我, 爱, 中国]System.out.println(resultList);}
}

在这里插入图片描述

三、原理

为什么jieba可以实现智能拆词?是否可以自己增加拆词呢?
jieba项目resource目录下有个dict.txt文件,里面维护了非常多的拆词,jieba就是根据这个文件进行拆词的。自己也可以在这个文件中添加自定义拆词,或者新建一个文件。

在这里插入图片描述

四、自定义拆词

4.1、方式一:在源码的dict.txt中修改然后重新打包(推荐)

我们可以把源码下载下来,然后修改dict.txt文件后重新打包,这种方式是比较推荐的。还有一种方式就是新建一个txt文件然后引用,但是新增文件会导致在两个地方维护了拆词,而且新增文件中的拆词有时候会跟jieba里的dict.txt冲突,导致影响其他拆词。

1.下载源码
https://github.com/huaban/jieba-analysis

2.修改dict.txt文件
dict.txt文件中是按照字母顺序排序的,每一行包括分词、词频、词性
在这里插入图片描述
3.测试
在这里插入图片描述
4.重新打包并引用
在这里插入图片描述

4.2、新建文件自定义拆词

resource目录下新增txt文件,通过initUserDict方法进行初始化
在这里插入图片描述

五、其他问题

  1. 新增或修改拆词后可能会导致其他拆词出现问题,所以有条件的最好都测试一下

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/3392.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

迪拜之行回顾:CESS 的 DePIN 创新之旅

迪拜最近是一个关键热词&#xff0c;成为了一系列 Web3 和加密活动的中心&#xff0c;吸引了行业领导者、创新者和爱好者&#xff0c;探索区块链和去中心化技术的最新发展。从 4 月中旬&#xff0c;一系列行业会议和活动陆续举行&#xff0c;吸引了一众与会者。然而暴雨积水又成…

2023平航杯——手机取证复现

手机最近连接的wifi"只有红茶可以吗"的密码是&#xff1f;【标准格式&#xff1a;ABCabc123!#】 手机上安装了某个运动软件&#xff0c;它的包名是&#xff1f;【标准格式&#xff1a;com.baidu.gpt】 com.dizhisoft.changdongli 该运动软件中最近一次运动记录的起点…

NodeJS操作符空格漏洞

Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境&#xff0c;它使得 JavaScript 可以脱离浏览器在服务器端运行。Node.js 利用事件驱动、非阻塞 I/O 模型等技术提高了性能&#xff0c;从而在开发领域得到广泛应用&#xff0c;比如Web服务应用&#xff08;尤其是非阻塞…

Python+Appium实现自动化测试

&#x1f345; 视频学习&#xff1a;文末有免费的配套视频可观看 &#x1f345; 关注公众号【互联网杂货铺】&#xff0c;回复 1 &#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 一、环境准备 1.脚本语言&#xff1a;Python3.x IDE&#x…

Mac安装flutter环境

好记性不如烂笔头,之前出现文章用的后面再访问就没了,不如自己保存备份一份,哈哈 MAC电脑安装flutter环境 一&#xff0c;获取Flutter SDK 去flutter官网下载其最新可用的安装包 地址&#xff1a;https://flutter.dev/docs/development/tools/sdk/releases?tabmacos#macos …

如何使用Vite创建vue项目中配置别名和扩展名

在vite.config.js中&#xff0c;resolve 用于配置模块解析规则&#xff0c;如设置别名、扩展名等。 import {defineConfig} from vite import vue from vitejs/plugin-vue import path from path;export default defineConfig({resolve: {// 别名配置alias: {// 将 指向根目录…

C++ set、map

文章目录 关联式容器键值对树形结构的关联式容器setset的介绍set的使用 multisetmapmap的介绍map的使用 multimap 关联式容器 CSTL包含了序列式容器和关联式容器&#xff1a; 序列式容器&#xff1a;vector/list/deque关联式容器&#xff1a;set/map等 关联式容器也是用来存…

Java基础:设计模式之抽象工厂模式

一、模式定义与目的 抽象工厂模式&#xff08;Abstract Factory Pattern&#xff09;是一种创建型设计模式&#xff0c;它为创建一组相关或相互依赖的对象提供了接口&#xff0c;而无需指定这些对象的具体类。这种模式允许客户端使用抽象接口来创建家族内的产品对象&#xff0…

Yolov5 export.py实现onnx模型的导出

查了很多资料&#xff0c;很多用python代码写的&#xff0c;只需要这个库那个库的&#xff0c;最后都没成功。 不如直接使用Yolov5里面的 export.py实现模型的转换。 一&#xff1a;安装依赖 因为yolov5里面的requirments.txt是将这些转换模型的都注释掉了 所以需要解除注释…

SAP如何批量标记生产订单的TECO状态

声明&#xff1a;本文仅代表作者观点和立场&#xff0c;不代表任何公司&#xff01;仅用于SAP软件应用学习参考。 SAP/ERP系统生产订单完工后&#xff0c;在进行结算之前&#xff0c;需要进行技术性完成操作&#xff0c;即将生产订单批量标记TECO&#xff0c;标记上TECO表示生…

独立站运营教程:站外引流如何做?

在当今全球化的商业环境中&#xff0c;跨境电商已经成为一个蓬勃发展的行业。对于跨境电商独立站来说&#xff0c;站外引流是非常关键的一环&#xff0c;它可以帮助独立站吸引更多潜在客户&#xff0c;提升品牌知名度&#xff0c;促进销售增长。本文将深入探讨如何实现跨境电商…

eNSP学习——静态路由及默认路由基本配置

目录 知识背景 实验目的 实验步骤 实验内容 实验拓扑 实验编址 实验前期准备 实验步骤 1、基本配置&#xff08;按照实验编址设置好对应的IP地址&#xff09; 2、是实现主机之间的通信 3、实现全网全通来增强网络的可靠性 4、使用默认路由实现简单的网络优化 需要各…

【静态分析】静态分析笔记07 - 指针分析基础

参考&#xff1a; 【课程笔记】南大软件分析课程7——指针分析基础&#xff08;课时9/10&#xff09; - 简书 -------------------------------------------------------------- 1. 指针分析规则 规则&#xff1a;采用推导形式&#xff0c;横线上面是条件&#xff0c;横线下…

MySQL--表的操作

目录 创建表 查看表结构 修改表 新增列 修改列类型 修改列名 修改表名&#xff1a; 删除列 删除表 创建表 语法&#xff1a; CREATE TABLE table_name ( field1 datatype, field2 datatype, field3 datatype ) character set 字符集 collate 校验规则 engine 存储引…

【论文阅读】Self-DC:何时检索,何时生成?

对于RAG来说&#xff0c;什么时候利用外部检索&#xff0c;什么时候使用大模型产生已知的知识&#xff0c;以回答当前的问题?这是一个非常有趣的话题。 《Self-DC: When to retrieve and When to generate? Self Divide-and-Conquer for Compositional Unknown Questions》这…

【设计模式】12、observer 观察者模式

文章目录 十二、observer 观察者模式12.1 subscriber12.1.1 broker_test.go12.2.2 broker.go12.2.3 client.go 十二、observer 观察者模式 https://refactoringguru.cn/design-patterns/observer 发布订阅模式, client 都可以向 broker 注册, broker 管理所有 connection, 当…

MySQL尾部空格处理与哪些设置有关? 字符集PAD SPACE与NO PAD属性的区别、MySQL字段尾部有空格为什么也能查询出来?

文章目录 一、问题背景二、字符集PAD_ATTRIBUTE属性&#xff08;补齐属性&#xff09;2.2、PAD SPACE与NO PAD的具体意义 三、CHAR类型尾部空格的处理四、其他问题4.1、在PAD SPACE属性时如何实现精准查询 五、总结 以下内容基于MySQL8.0进行讲解 一、问题背景 一次查询中发现…

Threejs加载字体加载FontLoader与TTFLoader

在 Three.js 中使用自定义字体进行 3D 文本渲染。它最初是以 JSON 格式加载字体&#xff0c;现在Three.js已经有一个 TTFLoader 类&#xff0c;可用于加载 TTF 字体文件并将它们用作 TextGeometry &#xff01; 1、最初使用FontLoader加载json字体方法如下 const loader new…

NVIDIA CUDA Toolkit

NVIDIA CUDA Toolkit CUDA Toolkit 12.4 Update 1 Downloads | NVIDIA Developer CUDA Toolkit是用于CUDA开发的软件包&#xff0c;主要包括CUDA编译器、运行时库、GPU驱动程序和开发工具等。它允许开发者使用通用编程语言&#xff08;如C、C&#xff09;来利用NVIDIA GPU进行…

ZDOCK linux 下载(无需安装)、配置、使用

ZDOCK 下载 使用 1. 下载1&#xff09;教育邮箱提交申请&#xff0c;会收到下载密码2&#xff09;选择相应的版本3&#xff09;解压 2. 使用方法Step 1&#xff1a;将pdb文件处理为ZDOCK可接受格式Step 2&#xff1a;DockingStep 3&#xff1a;创建所有预测结构 1. 下载 1&…