【转载保存】修改IK分词器源码实现动态加载词典

链接:http://www.gongstring.com/portal/article/index/id/59.html

当前IKAnalyzer从发布最后一个版本后就一直没有再更新,使用过程中,经常遇到需要扩展词库以及动态更新字典表的问题,此处给出一种解决办法(注意:本方法中的IKAnalyzer代码我已经将源码移植到了自己的工程中,目录结构也进行了修改):

 

1、将扩展字典表做成可动态生成:

 1)、在IKAnalyzer.cfg.xml中添加扩展字典路径

    blob.png

 2)、在分词的时候,先采取动态生成上面两个字典表的方式进行更新,例如事先将字典词库放在数据表中,需要分词之前先更新字典。当然此方法只支持第一次调用的时候动态加载词库,如果服务没有重启之前,数据库中添加的词是不会进行重新加载的。下面是动态生成字典表的实现类:

package com.chz.apps.sm.IKAnalyzer;import java.io.ByteArrayInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.Reader;
import java.util.ArrayList;
import java.util.List;import com.chz.apps.sm.model.IkanalyzerExtendModel;
import com.chz.base.util.FileUtil;
import com.chz.plugin.IKAnalyzer.core.IKSegmenter;
import com.chz.plugin.IKAnalyzer.core.Lexeme;/*** @Description 分词工具类* @author gongstring<1@gongstring.com>* @createTime 2016年11月28日 下午2:46:06*/
public class IKAnalyzerTool {/*** 是否已经初始化过词库,如果没有,则会自动先调用词库*/private static boolean init_words = false;/*** 扩展关键字*/private static List<String> extendWords = new ArrayList<String>();/*** 停用关键字*/private static List<String> stopWords = new ArrayList<String>();/*** @Description 初始化词库以及停用词* @author gongstring<1@gongstring.com>* @createTime 2016年11月28日 下午2:29:59*/public static void initWords(){//从关键字表中查询扩展关键字,并生成到指定文件中IKAnalyzerTool.extendWords = new ArrayList<String>();List<IkanalyzerExtendModel> extendWords = IkanalyzerExtendModel.dao.findByProperty("status", 1);String fileDirPath = IKAnalyzerTool.class.getResource("/com/chz/apps/sm/IKAnalyzer/").getPath();String filePath = fileDirPath+"extend.dic";FileUtil.removeFile(filePath);//先删除文件,此处重新生成for (int i = 0; i < extendWords.size(); i++) {String txt = extendWords.get(i).getStr("extend_word");FileUtil.appendToFile(filePath, txt,true);IKAnalyzerTool.extendWords.add(txt);}//从关键字表中查询停用关键字,并生成到指定文件中IKAnalyzerTool.stopWords = new ArrayList<String>();List<IkanalyzerExtendModel> stopWords = IkanalyzerExtendModel.dao.findByProperty("status", 0);String stopFilePath = fileDirPath+"stopword.dic";FileUtil.removeFile(stopFilePath);//先删除文件,此处重新生成for (int i = 0; i < stopWords.size(); i++) {String txt = stopWords.get(i).getStr("extend_word");FileUtil.appendToFile(stopFilePath, txt,true);IKAnalyzerTool.stopWords.add(txt);}init_words = true;}/*** @Description 分词操作* @author gongstring<1@gongstring.com>* @createTime 2016年11月28日 下午3:30:10* @param str* @param justExist 是否只显示已经在词库中维护了的关键词* @return*/public static List<String> IKAnalysis(String str,boolean justExist) {List<String> tmp = IKAnalysis(str);List<String> result = new ArrayList<String>();if(justExist){for (int i = 0; i < tmp.size(); i++) {if(IKAnalyzerTool.extendWords.contains(tmp.get(i))){result.add(tmp.get(i));}}}else{result = tmp;}return result;}/*** @Description 根据字符串自动拆分成关键字集合* @author gongstring<1@gongstring.com>* @createTime 2016年11月28日 下午2:55:24* @param str* @return*/public static List<String> IKAnalysis(String str) {if(!init_words){initWords();}List<String> result = new ArrayList<String>();try {// InputStream in = new FileInputStream(str);//byte[] bt = str.getBytes();// strInputStream ip = new ByteArrayInputStream(bt);Reader read = new InputStreamReader(ip);IKSegmenter iks = new IKSegmenter(read, true);Lexeme t;while ((t = iks.next()) != null) {result.add(t.getLexemeText());}} catch (IOException e) {// TODO Auto-generated catch blocke.printStackTrace();}return result;}}

 

2、修改源码,实现动态更新字典表。通过查看源码IKAnalyzer.dic.Dictionary.java文件得出,字典对象是采取单例模式,也就是第一次加载后,后续不在重新加载,这样即使字典表内容变化,缓存中的字典库是不会变更的,所以需要修改源码,可以手动更新单例对象的内容,此处我采取添加clear方法,在需要更新时候调用,将instance对象设置为null,下次调用字典的时候,程序就会自动加载了

	/*** @Description 清空字典缓存,用于动态更新字典表* @author gongstring<1@gongstring.com>* @createTime 2016年11月29日 上午9:56:15*/public static void clear(){singleton = null;}

 

blob.png

 

源码修改完后,可以选择编译重新打包,或者将jar包中的class文件删除,java类在工程中按照源目录存放。

3、手动调用,我这里是做的一个页面,点击更新字典库时,调用更新代码:

	/*** @Description 刷新关键词缓存* @author gongstring<1@gongstring.com>* @createTime 2016年11月29日 上午9:33:49*/public void refreshCache(){IKAnalyzerTool.initWords();//重新加载词汇Dictionary.clear();//将字典表缓存清空this.renderSuccessJson(EnvConfig.APP_PATH+"/sm/ikanalyzerExtend");}

 

4、可能存在的性能问题:由于词库一般会比较大,所以每次大批量更新可能会出现性能损耗。。。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/508907.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【转载保存】Lucene 实战教程第六章 Lucene 的精确、包含、集合查询 Query 的简单使用

原链接&#xff1a;https://www.xttblog.com/?p3532 所有的搜索基本上都存在精确匹配&#xff0c;包含等操作。Lucene 中同样存在这样的操作&#xff0c;今天我们以 IntPoint 为例&#xff0c;来说说 Lucene 中的精确查询。 IntPoint、LongPoint、FloatPoint、DoublePoint 这…

【待解答】文件目录可以利用foreach边遍历边删除操作,为什么?

Testpublic void demoTestDitDel() {File file new File(util.Directory.GetAppPath("test"));File[] fs file.listFiles();for (File f : fs) {f.delete();System.out.println("del");}} 有时间再解答&#xff1a;

lucene分布式索引

当数据量较大访问量较大的时候&#xff0c;分布式就不可避免&#xff0c;我现在知道的处理方式有下面几种&#xff1a; 1&#xff0c;用一个好服务器作为索引服务器&#xff0c;磁盘冗余的方式保证搜索的正常进行&#xff1b; 2&#xff0c;索引服务器用一台&#xff0c;检索…

【转载保存】lucene3.0可以对docId、docField、queryParser设置Boost值来影响排序结果

转自&#xff1a;http://catastiger.iteye.com/blog/803796 前提:不对结果做sort操作. 在搜索中,并不是所有的Document和Fields都是平等的.有些技术会要求到对其Doucment或者Fields的权值改变,默认值为:1.0F,以上需求都是通过改变Document的boost因子来改变的. 下面是通过…

lucene6.0 查询语句设置关键字boost值

代码模板&#xff1a; public class Demo {public static void main(String[] args) throws IOException, Exception {//建立索引String indexDirPath util.Directory.GetAppPath("indexDir");Path path Paths.get(indexDirPath);StandardAnalyzer analyzer new …

【转载保存】Lucene7.1.0超详细的使用文档

转载地址&#xff1a;https://www.cnblogs.com/houzheng/p/9150314.html

【转载保存】lucene优秀文章整理

Lucene解析 - 基本概念: https://www.jianshu.com/p/fbb171e73721?fromtimeline&isappinstalled0 Lucene DocValues——没有看懂: https://www.cnblogs.com/bonelee/p/6669263.html Lucene DocValues详解: https://blog.csdn.net/zteny/article/details/60633374 So…

lucene中write.lock索引锁机制的原理

write.lock加锁的实现原理&#xff1a; 实现源码&#xff08;lucene 6.0&#xff09;&#xff1a; Override protected Lock obtainFSLock(FSDirectory dir, String lockName) throws IOException {Path lockDir dir.getDirectory();// Ensure that lockDir exists and is a…

正则表达式大全

[正则表达式]文本框输入内容控制 整数或者小数&#xff1a;^[0-9]\.{0,1}[0-9]{0,2}$ 只能输入数字&#xff1a;"^[0-9]*$"。 只能输入n位的数字&#xff1a;"^\d{n}$"。 只能输入至少n位的数字&#xff1a;"^\d{n,}$"。 只能输入m~n位的数字&am…

天气数据获取接口和网址汇总

免费API&#xff1a;https://www.sojson.com/blog/305.html 爬取网址&#xff1a;http://www.weather.com.cn/ https://www.tianqi.com/chinacity.html

鸡汤

史蒂芬柯维的7个习惯就是自己的原则和价值观&#xff1a; 积极主动以终为始要事第一双赢思维知彼解己综合综效不断更新 稻盛和的原则和价值观比如六项精进&#xff1a; 付出不亚于任何人的努力要谦虚&#xff0c;不要骄傲要每天反省或者就要感谢积善行&#xff0c;思利他不要…

【转载保存】索引文件锁LockFactory

索引文件锁LockFactory LockFactory在Lucene中用来对索引文件所在的目录进行加锁&#xff0c;使得同一时间总是只有一个IndexWriter对象可以更改索引文件&#xff0c;即保证单进程内(single in-process)多个不同IndexWriter对象互斥更改&#xff08;多线程持有相同引用的IndexW…

lucene大牛博客汇总保存

https://www.amazingkoala.com.cn/Lucene/Index/http://codepub.cn/tags/Lucene/

no segments* file found in SimpleFSDirectory问题总结

lucene6.0版本 场景一&#xff1a;第一次启动程序索引库为空抛出异常 最近在写lucene发现利用lucene6.0版本时候如果索引库为空构建indexWriter&#xff0c;代码如下&#xff1a; IndexWrterConfig config new IndexWriterConfig(analyzer); IndexWriter indexWriter new …

lucene Term查询

查询demo Path path Paths.get(util.Directory.GetAppPath("indexDir"));IndexReader reader DirectoryReader.open(FSDirectory.open(path));//获取IndexSearcher对象IndexSearcher indexSearcher new IndexSearcher(reader);Query query new TermQuery(new Ter…

IndexOptions类说明

IndexOptions是在lucene-core-x.jar包下面&#xff0c;其作用是在新建索引时候选择索引属性。 IndexOptions是一个枚举类&#xff1a; 枚举变量说明&#xff1a; NONE不被索引DOCS_AND_FREQS文档和词频建立索引DOCS_AND_FREQS仅对文档和词频建立索引DOCS_AND_FREQS_AND_POSIT…

【转载保存】lucene正则查询使用注意

今天要分享的是关于lucene中另外一种丰富的查询方式----正则查询&#xff0c;lucene内置了许多的查询API&#xff0c;以及更强大的自定义查询方式的QueryParse&#xff0c;大部分情况下我们使用内置的查询API&#xff0c;基本上就可以满足我们的需求了&#xff0c;但是如果你想…

lucene 各个版本介绍

官方说明文档&#xff1a;https://lucene.apache.org/core/8_3_0/changes/Changes.html#v8.3.0.other 开源中国翻译&#xff1a;https://www.oschina.net/p/lucene

【转载保存】搜索引擎调研文档

搜索引擎选型调研文档 Elasticsearch简介* Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。 它可以用于全文搜索&#xff0c;结构化搜索以及分析&#xff0c;当然你也可以将这三者进行组合。 Elasticsearch是一个建立在全…