开源中文分词Ansj的简单使用

ANSJ是由孙健(ansjsun)开源的一个中文分词器,为ICTLAS的Java版本,也采用了Bigram + HMM分词模型:在Bigram分词的基础上,识别未登录词,以提高分词准确度。

虽然基本分词原理与ICTLAS的一样,但是Ansj做了一些工程上的优化,比如:用DAT高效地实现检索词典、邻接表实现分词DAG、支持自定义词典与自定义消歧义规则等。

1.项目地址

项目的github地址:https://github.com/NLPchina/ansj_seg
项目的文档地址:http://nlpchina.github.io/ansj_seg/

2.导入

2.1依赖

Ansj最新依赖包是5.1.6版本的,2018年更新的,最近已经不更新了:

<dependency>
            <groupId>org.ansj</groupId>
            <artifactId>ansj_seg</artifactId>
            <version>5.1.6</version>
</dependency>

2.2 配置文件

在ansj中配置文件名为library.properties,这是一个不可更改的约定。下面让我们看看都有哪些选项在这个配置文件中:

字段名默认值说明
isNameRecognitiontrue是否开启人名识别
isNumRecognitiontrue是否开启数字识别
isQuantifierRecognitiontrue是否数字和量词合并
isRealNamefalse是否取得真实的词,默认情况会取得标注化后的
isSkipUserDefinefalse是否用户辞典不加载相同的词
dic"library/default.dic"自定义词典路径
dic_[key]"你的词典路径"针对不同语料调用不同的自定义词典
ambiguity"library/ambiguity.dic"歧义词典路径
ambiguity_[key]"library/ambiguity.dic"歧义词典路径
crfnullcrf词典路径,不设置为默认
crf_[key]"你的模型路径"针对不同语料调用不同的分词模型
synonyms"默认的同义词典"针对不同语料调用不同的分词模型
synonyms_[key]"你的同义词典路径"针对不同语料调用不同的分词模型

默认的配置文件格式:

#path of userLibrary this is default library
dic=library/default.dic#redress dic file path
ambiguityLibrary=library/ambiguity.dic#set real name
isRealName=true#isNameRecognition default true
isNameRecognition=true#isNumRecognition default true
isNumRecognition=true#digital quantifier merge default true
isQuantifierRecognition=true

3.分词实现

3.1 ToAnalysis 精准分词

精准分词是Ansj分词的推荐款

它在易用性、稳定性、准确性以及分词效率上,都取得了一个不错的平衡。如果你初次尝试Ansj想开箱即用,那么就用这个分词方式是不会错的。

3.2 DicAnalysis 用户自定义词典优先策略的分词

用户自定义词典优先策略的分词。如果你的用户自定义词典足够好,或者你的需求对用户自定义词典的要求比较高,那么强烈建议你使用DicAnalysis的分词方式。

可以说在很多方面Dic优于ToAnalysis的结果。

3.3 NlpAnalysis 带有新词发现功能的分词

nlp分词是总能给你惊喜的一种分词方式。

它可以识别出未登录词,但是它也有它的缺点:速度比较慢、稳定性差。ps:我这里说的慢仅仅是和自己的其他方式比较,应该是40w字每秒的速度吧。

个人觉得nlp的适用方式:语法实体名抽取、未登录词整理、对文本进行发现分析等工作

3.4 IndexAnalysis 面向索引的分词

面向索引的分词。顾名思义就是适合在lucene等文本检索中用到的分词。主要考虑以下两点

  • 召回率
    • 召回率是对分词结果尽可能的涵盖。比如对“上海虹桥机场南路” 召回结果是[上海/ns, 上海虹桥机场/nt, 虹桥/ns, 虹桥机场/nz, 机场/n, 南路/nr]
  • 准确率
    • 其实这和召回本身是具有一定矛盾性的Ansj的强大之处是很巧妙的避开了这两个的冲突 。比如我们常见的歧义句“旅游和服务”->对于一般保证召回 。大家会给出的结果是“旅游 和服 服务” 对于ansj不存在跨term的分词。意思就是。召回的词只是针对精准分词之后的结果的一个细分。比较好的解决了这个问题

3.5 BaseAnalysis 最小颗粒度的分词

基本就是保证了最基本的分词。词语颗粒度最非常小的,所涉及到的词大约是10万左右。

基本分词速度非常快。在macAir上,能到每秒300w字每秒。同时准确率也很高,但是对于新词他的功能十分有限。

3.6 功能统计

名称用户自定义词典数字识别人名识别机构名识别新词发现
BaseAnalysisXXXXX
ToAnalysisXX
DicAnalysisXX
IndexAnalysisXX
NlpAnalysis

 4、使用实例

4.1 分词demo

package com.*;import org.ansj.splitWord.analysis.*;
import org.junit.Test;import java.util.*;/*** @author * @date 2023-07-26 15:29*/
public class SegTest {@Testpublic void test(){String str = "ANSJ是由孙健(ansjsun)开源的一个中文分词器,为ICTLAS的Java版本,也采用了Bigram + HMM分词模型:在Bigram分词的基础上,识别未登录词,以提高分词准确度。" ;System.out.println(BaseAnalysis.parse(str));System.out.println(ToAnalysis.parse(str));System.out.println(DicAnalysis.parse(str));System.out.println(IndexAnalysis.parse(str));System.out.println(NlpAnalysis.parse(str));}
}

分词结果:

BaseAnalysis

ANSJ/en,是/v,由/p,孙健/nr,(/w,ansjsun/en,)/w,开源/v,的/u,一个/m,中文/nz,分词/v,器/ng,,/w,为/p,ICTLAS/en,的/u,Java/en,版本/n,,/w,也/d,采用/v,了/u,Bigram/en, ,+/w, ,HMM/en,分词/v,模型/n,:/w,在/p,Bigram/en,分词/v,的/u,基础/n,上/f,,/w,识别/v,未/d,登录/vn,词/n,,/w,以/p,提高/v,分词/v,准确度/n,。/w

ToAnalysis:

ANSJ/en,是/v,由/p,孙健/nr,(/w,ansjsun/en,)/w,开源/v,的/u,一个/m,中文/nz,分词器/n,,/w,为/p,ICTLAS/en,的/u,Java/en,版本/n,,/w,也/d,采用/v,了/u,Bigram/en, ,+/w, ,HMM/en,分词/v,模型/n,:/w,在/p,Bigram/en,分词/v,的/u,基础/n,上/f,,/w,识别/v,未/d,登录/vn,词/n,,/w,以/p,提高/v,分词/v,准确度/n,。/w

DicAnalysis:

ANSJ/en,是/vshi,由/p,孙健/nr,(/w,ansjsun/en,)/w,开源/v,的/ude1,一个/mq,中文/nz,分词器/n,,/w,为/p,ICTLAS/en,的/ude1,Java/en,版本/n,,/w,也/d,采用/v,了/ule,Bigram/en, ,+/w, ,HMM/en,分词/v,模型/n,:/w,在/p,Bigram/en,分词/v,的/ude1,基础/n,上/f,,/w,识别/vn,未/d,登录/v,词/n,,/w,以/p,提高/v,分词/v,准确度/n,。/w

IndexAnalysis:

ANSJ/en,是/v,由/p,孙健/nr,孙/ng,健/ag,(/w,ansjsun/en,)/w,开源/v,开/v,源/ng,的/u,一个/m,一/m,个中/r,个/q,中文/nz,中/f,文/ng,分词器/n,分词/v,分/qt,词/n,器/ng,,/w,为/p,ICTLAS/en,的/u,Java/en,版本/n,版/n,本/rz,,/w,也/d,采用/v,采/v,用/p,了/u,Bigram/en, ,+/w, ,HMM/en,分词/v,分/qt,词/n,模型/n,模/ng,型/k,:/w,在/p,Bigram/en,分词/v,分/qt,词/n,的/u,基础/n,基/ng,础/ng,上/f,,/w,识别/v,识/v,别/d,未/d,登录/vn,登/v,录/ng,词/n,,/w,以/p,提高/v,提/v,高分/n,高/a,分词/v,分/qt,词/n,准确度/n,准确/a,准/a,确/d,度/qv,。/w

NlpAnalysis :

ANSJ/en,是/v,由/p,孙健/nr,(/w,ansjsun/en,)/w,开源/v,的/u,一个/m,中文/nz,分词器/n,,/w,为/p,ICTLAS/en,的/u,Java/en,版本/n,,/w,也/d,采用/v,了/u,Bigram/en, ,+/w, ,HMM/en,分词/v,模型/n,:/w,在/p,Bigram/en,分词/v,的/u,基础/n,上/f,,/w,识别/v,未/d,登录/vn,词/n,,/w,以/p,提高/v,分词/v,准确度/n,。/w 

4.2 使用demo

以ToAnalysis为例,其它方法大同小异:

	public static void main(String[] args) {String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我!" ;Result result = ToAnalysis.parse(str); //分词结果的一个封装,主要是一个List<Term>的termsSystem.out.println(result.getTerms());List<Term> terms = result.getTerms(); //拿到termsSystem.out.println(terms.size());for(int i=0; i<terms.size(); i++) {String word = terms.get(i).getName(); //拿到词String natureStr = terms.get(i).getNatureStr(); //拿到词性System.out.println(word + ":" + natureStr);}}

 基本使用方法分为几下几步:

  1、使用ToAnalysis.parse(str)将字符串进行分词,会返回一个Result,分词的结果就在它里面。

  2、然后继续result.getTerms()获得分词结果的内容,因为是返回的多个分词,所以最终获得的是一个List。

  3、然后遍历它,term.getName()获得的是词,term.getNatureStr()拿到的是这个词的词性。

4.3 个性化定制分词词典

4.3.1 自定义常用词典

  • 创建一个名为userLibrary.dic的文件,内容如下:

5G        n        1000

哈利·波特        n        1000

 第一个是词语,第二个是词性,第三个是权重。词性这里大家不用关注,编号以此类推即可,不要重复,各个以缩进(\t)分隔。

  • 加载自定义词典
// 配置自定义词典的位置。注意是绝对路径
MyStaticValue.ENV.put(DicLibrary.DEFAULT,System.getProperty("user.dir")+"/library/dictionary/userLibrary.dic");

 4.3.2 自定义停用词典

  • 创建一个名为stopLibrary.dic的文件,内容如下:







直接写停用词,每一行写一个。

  • 加载自定义词库
//去停用词
List<String> stopWords = getStopWords(System.getProperty("user.dir") + "/library/stopLibrary.dic");
StopRecognition filter = new StopRecognition(); 
filter.insertStopWords(stopWords);

String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我!" ;

//分词结果的一个封装,recognition增加分词过滤

Result result = ToAnalysis.parse(str).recognition(filter);
System.out.println(result.getTerms());

 4.3.3 自主添加个别词

DicLibrary.insert(DicLibrary.DEFAULT, "抠图");

DicLibrary.insert(DicLibrary.DEFAULT,"抠图","n",1000);

4.3.4  歧义纠正词典

歧义纠正是Ansj分词的最后最后的大招了,杀伤力巨大,谨慎使用,极可能造成其他的错误。

很多时候,分词发生歧异不是很好调整,用户需要更强的规则来约束所以ansj中增加了歧异消除的一个强规则方式。

  • 创建一个名为library/ambiguity.dic 的文件,内容格式如下:

三个    m    和尚    n

动漫    n    游戏    n

李民    nr    工作    vn

第一列是识别串,第二列是分词结果,奇数行是词,偶数行是词性。这里例子告诉计算机:如果你发现 "李民工作"---> "李/民工/作" 纠正为 --->"李民/工作/" 这种类型

ps:这个是优先分词运行的.所以添加时候要谨慎。

  • 在配置文件中设置ambiguity.dic 的路径

ambiguityLibrary=library/ambiguity.dic

  • 也可以用 MyStaticValue.ambiguityLibrary = "library/ambiguity.dic" 来设定;
  • 也可动态添加歧义纠正词典:
        System.out.println(ToAnalysis.parse("据说川府办发的发文很厉害"));//歧义纠正Value value = new Value("川府办", "川府办", "n");Library.insertWord(AmbiguityLibrary.get(), value);System.out.println(ToAnalysis.parse("据说川府办发的发文很厉害"));;

运行结果:

据说/v,川/j,府/ng,办发/j,的/u,发文/v,很/d,厉害/a
据说/v,川府办/n,发/v,的/u,发文/v,很/d,厉害/a

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/21360.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

根据省市区名字发送请求

思路 选择对应的区域其实是按照表格中的省市区的名字进行匹配 读取文件后对应的字典为&#xff1a; {台湾: {},新疆: {},港澳: {中国澳门: [凼仔岛, nan]},西藏: {昌都地区: [卡若区], 那曲地区: [nan]} } 字典解释例如 市区为空&#xff0c;就是选择省下面的全部市和区 区为空…

OA会议管理系统之我的审批(审批签字可生成图片)

目录 一、前言 1.导读 二、我的审批功能实现 1.功能介绍及分析 2.功能实现 2.1.Dao层 2.2.JSP层 2.3.Web层 3.案例演示 一、前言 1.导读 OA会议管理系统之我的会议&#xff08;会议排座&可拖拽座位&附源码&#xff09;http://t.csdn.cn/iVLAD 书接上…

详解Python中pyautogui库的最全使用方法

这篇文章主要介绍了详解Python中pyautogui库的最全使用方法&#xff0c;文中通过示例代码介绍的非常详细&#xff0c;对大家的学习或者工作具有一定的参考学习价值&#xff0c;需要的朋友们下面随着小编来一起学习学习吧 在使用Python做脚本的话&#xff0c;有两个库可以使用&…

Linux文件管理知识:查找文件

前几篇文章一一介绍了LINUX进程管理控制命令及网络层面的知识体系&#xff0c;综所周知&#xff0c;一个linux系统是由很多文件组成的&#xff0c;那么既然有那么多文件&#xff0c;那我们该如何管理这些文件呢&#xff1f; Linux中的所有数据都是以文件形式存在的&#xff0c…

飞凌嵌入式「国产」平台大盘点(一)瑞芯微系列

“国产化”一词正在被越来越多的提及&#xff0c;有着越来越高的关注度&#xff0c;飞凌嵌入式也已与多家国内芯片原厂联合推出了数款国产化智能平台。为了帮助大家快速认识飞凌嵌入式推出的各系列国产核心板产品&#xff0c;小编将以芯片品牌进行分类带大家一起盘点。 本篇文…

MySQL同过表里最大id来进行更新(update)或者插入(insert)

更新同一个表中值为最大值的位置 UPDATE stock_cost_content SET model_id 5 WHERE id (SELECT MAX(id) FROM stock_cost_content us) 但是&#xff0c;sql 显示表“stock_cost_content”定义两次的错误。我该如何解决这个问题&#xff1f; 在 MySQL 中&#xff0c;您可以将…

关于时间的基本概念

年的标准——纪元 Era Epoch 在中国古代&#xff0c; 皇帝会订立年号来纪年&#xff0c; 比如贞观就是唐太宗订立的年号&#xff0c; 于是天下使用贞观元年&#xff0c;贞观二年的方式来纪年。皇帝可以因为各种原因更换年号&#xff0c;比如武则天在位21年&#xff0c; 使用了…

PROFINET转TCP/IP网关profinet网线接头接法

大家好&#xff0c;今天要和大家分享一款自主研发的通讯网关&#xff0c;捷米JM-PN-TCPIP。这款网关可是集多种功能于一身&#xff0c;PROFINET从站功能&#xff0c;让它在通讯领域独领风骚。想知道这款网关如何实现PROFINET和TCP/IP网络的连接吗&#xff1f;一起来看看吧&…

redis 如何保证数据一致性

前言 日常开发中常会使用redis作为项目中的缓存&#xff0c;只要我们使用 Redis 缓存&#xff0c;就必然会面对缓存和数据库间的一致性保证问题。而且如果数据不一致&#xff0c;那么应用从缓存中读取的数据就不是最新数据&#xff0c;可能会导致严重的业务问题。 为什么会数…

2.3 网络安全协议

数据参考&#xff1a;CISP官方 目录 OSI七层模型TCP/IP体系架构TCP/IP安全架构 一、OSI七层模型 简介 开放系统互连模型&#xff08;Open System Interconnection Reference Model&#xff0c;OSI&#xff09;是国际标准化组织&#xff08;ISO&#xff09;于1977年发布的…

MBA拓展有感-见好就收,还是挑战到底?MBA拓展有感-见好就收,还是挑战到底?

今天看到新闻提到某位坚持了14年高考的同学滑档&#xff0c;让人心生感叹&#xff1a;无论在日常工作还是生活中&#xff0c;选择都是非常重要的。不由想起前段时间我参加研究生新生拓展时的一些感悟&#xff0c;和大家分享一下。 事情的起因是拓展活动中的一个分队竞技类的活…

Spring boot 集成 Skywalking 配置 || Skywalking 打不开【已解决】

一、Skywalking官网 Apache SkyWalking 1.下载Skywalking APM &#xff08;如果下载最新的&#xff0c;双击打开闪退&#xff0c;选老点的版本&#xff09; 2. 下载 Skywalking Agents 如果下载太慢&#xff0c;建议复制下载链接&#xff0c;然后用下载器下载&#xff0c;比…

MySql006——检索数据:基础select语句

在《MySql003——结构化查询语言SQL基础知识》中&#xff0c;我们学习了有关SQL的基础知识&#xff0c;也知道SQL中查询语句select使用最为频繁。 它的用途是从一个或多个表中检索信息。为了使用SELECT检索表数据&#xff0c;必须至少给出两条信息——想选择什么&#xff0c;以…

【OpenAI】AI写代码,idea插件、vscode插件

试了下AI自动写代码&#xff0c;在idea和vscode的插件市场能搜到五花八门的AI插件&#xff0c;感觉还可以的两个。aiXcoder和Tabnine。 使用心得 挺好&#xff0c;可以玩&#xff0c;但离投入生产使用还远远不够&#xff0c;要想AI写出自己想要的代码&#xff0c;需要用文字表…

C语言笔试训练【第二天】

文章目录 第一题 第二题 第三题 第四题 第五题 第六题 第七题 大家好&#xff0c;我是纪宁。 今天是C语言笔试训练的第二天&#xff0c;一起加油&#xff01; 第一题 1、以下程序段的输出结果是&#xff08; &#xff09; #include<stdio.h> int main() {char…

26 MFC序列号函数

文章目录 Serialize对于存储文件的序列化 Serialize Serialize 是一个在 MFC (Microsoft Foundation Classes) 中常用的函数或概念。它用于将对象的数据进行序列化和反序列化&#xff0c;便于在不同的场景中保存、传输和恢复对象的状态。 在 MFC 中&#xff0c;Serialize 函数…

连锁商店数据库课程设计

连锁商店数据库课程设计 1 需求分析 1.1 需求分析 伴随着连锁超市的不断增加&#xff0c;自动化管理水平不断提高&#xff0c;连锁超市管理系统的重要性也日益体现。为了准确掌握仓库信息&#xff0c;职工信息&#xff0c;销售信息&#xff0c;商品信息&#xff0c;保证商店工作…

上半年NOA计算方案份额首发,英伟达与地平线占比超八成

进入2023年&#xff0c;一边是少数头部车企开始发力城区NOA&#xff08;领航辅助驾驶&#xff09;&#xff0c;另一边则是更多车企进入普及高速NOA的新周期。 这也意味着&#xff0c;过去集中于30万元以上车型市场的高阶智能驾驶功能&#xff08;以NOA为代表&#xff09;&#…

认识Webpack插件Plugin;CleanWebpackPlugin插件;HtmlWebpackPlugin;DefinePlugin;Mode模式

目录 1_认识插件Plugin2_CleanWebpackPlugin3_HtmlWebpackPlugin4_DefinePlugin4.1_介绍4.2_DefinePlugin的使用 5_Mode模式 1_认识插件Plugin Webpack的另一个核心是Plugin&#xff0c;官方有这样一段对Plugin的描述&#xff1a; While loaders are used to transform certai…