java Trie实现英文单词查找树 搜索自动提示

原理解释文章:https://blog.csdn.net/beiyetengqing/article/details/7856113
代码应用:
wordTrie.txt(工具类):

package com.xq.algorithm;import java.util.ArrayList;
import java.util.List;/*** * <p>Title:</p>* <p>Description: 单词Trie树* </p>* @createDate:2013-10-17* @author xq* @version 1.0*/
public class WordTrie {/**trie树根*/private TrieNode root = new TrieNode();/**英文字符串正则匹配*/static String  englishPattern="^[A-Za-z]+$";/**中文正则匹配*/static String chinesePattern="[\u4e00-\u9fa5]";static int ARRAY_LENGTH=26;static String zeroString="";/*** * @Title: addWord* @Description: add word* @param @param word    * @return void   * @throws*/public void addWord(String word) {if(word==null || "".equals(word.trim())){throw new IllegalArgumentException("word can not be null!");}if(!word.matches(englishPattern)){throw new IllegalArgumentException("word must be english!");}addWord(root, word);}/*** * @Title: addWord* @Description:add word to node* @param @param node* @param @param word    * @return void   * @throws*/private void addWord(TrieNode node, String word) {if (word.length() == 0) { // if all characters of the word has been// addednode.count++;node.nodeState=1;} else {node.prefixCount++;char c = word.charAt(0);c = Character.toLowerCase(c);int index = c - 'a';if(index>=0 && index<ARRAY_LENGTH){if (node.next[index] == null) { node.next[index] = new TrieNode();}// go the the next characteraddWord(node.next[index], word.substring(1));}}}/*** * @Title: prefixSearchWord* @Description: 前缀搜索* @param @param word* @param @return    * @return List<String>   * @throws*/public List<String> prefixSearchWord(String word){if(word==null || "".equals(word.trim())){return new ArrayList<String>();}if(!word.matches(englishPattern)){return new ArrayList<String>();}char c = word.charAt(0);c = Character.toLowerCase(c);int index = c - 'a';if(root.next!=null && root.next[index]!=null){return depthSearch(root.next[index],new ArrayList<String>(),word.substring(1),""+c,word);}else{return new ArrayList<String>();}}/*** * @Title: searchWord* @Description: 搜索单词,以a-z为根,分别向下递归搜索* @param @param word* @param @return    * @return List<String>   * @throws*/public List<String> searchWord(String word){if(word==null || "".equals(word.trim())){return new ArrayList<String>();}if(!word.matches(englishPattern)){return new ArrayList<String>();}char c = word.charAt(0);c = Character.toLowerCase(c);int index = c - 'a';List<String> list=new ArrayList<String>();if(root.next==null){return list;}for(int i=0;i<ARRAY_LENGTH;i++){int j='a'+i;char temp=(char)j;if(root.next[i]!=null){if(index==i){fullSearch(root.next[i],list,word.substring(1),""+temp,word);}else{fullSearch(root.next[i],list,word,""+temp,word);}}}return list;}/*** * @Title: fullSearch* @Description: 匹配到对应的字母,则以该字母为字根,继续匹配完所有的单词。* @param @param node* @param @param list 保存搜索到的字符串* @param @param word 搜索的单词.匹配到第一个则减去一个第一个,连续匹配,直到word为空串.若没有连续匹配,则恢复到原串。* @param @param matchedWord 匹配到的单词* @param @return    * @return List<String>   * @throws*/private List<String> fullSearch(TrieNode node,List<String> list,String word,String matchedWord,String inputWord){if(node.nodeState==1  && word.length()==0){list.add(matchedWord);}if(word.length() != 0){char c = word.charAt(0);c = Character.toLowerCase(c);int index = c - 'a';for(int i=0;i<ARRAY_LENGTH;i++){if(node.next[i]!=null){int j='a'+i;char temp=(char)j;if(index==i){//连续匹配fullSearch(node.next[i], list, word.substring(1), matchedWord+temp,inputWord);}else{//未连续匹配,则重新匹配fullSearch(node.next[i], list, inputWord, matchedWord+temp,inputWord);}}}}else{if(node.prefixCount>0){for(int i=0;i<ARRAY_LENGTH;i++){if(node.next[i]!=null){int j='a'+i;char temp=(char)j;fullSearch(node.next[i], list, zeroString, matchedWord+temp,inputWord);}}}}return list;}/*** * @Title: depthSearch* @Description: 深度遍历子树* @param @param node* @param @param list 保存搜索到的字符串* @param @param word 搜索的单词.匹配到第一个则减去一个第一个,连续匹配,直到word为空串.若没有连续匹配,则恢复到原串。* @param @param matchedWord 匹配到的单词* @param @return    * @return List<String>   * @throws*/private List<String> depthSearch(TrieNode node,List<String> list,String word,String matchedWord,String inputWord){if(node.nodeState==1 && word.length()==0){list.add(matchedWord);}if(word.length() != 0){char c = word.charAt(0);c = Character.toLowerCase(c);int index = c - 'a';//继续完全匹配,直到word为空串,否则未找到if(node.next[index]!=null){depthSearch(node.next[index], list, word.substring(1), matchedWord+c,inputWord);}}else{if(node.prefixCount>0){//若匹配单词结束,但是trie中的单词并没有完全找到,需继续找到trie中的单词结束.//node.prefixCount>0表示trie中的单词还未结束for(int i=0;i<ARRAY_LENGTH;i++){if(node.next[i]!=null){int j='a'+i;char temp=(char)j;depthSearch(node.next[i], list, zeroString, matchedWord+temp,inputWord);}}}}return list;}class TrieNode {/*** trie tree word count*/int count=0;/*** trie tree prefix count*/int prefixCount=0;/*** 指向各个子树的指针,存储26个字母[a-z]*/TrieNode[] next=new TrieNode[26];/*** 当前TrieNode状态 ,默认 0 , 1表示从根节点到当前节点的路径表示一个词*/int nodeState = 0;TrieNode(){count=0;prefixCount=0;next=new TrieNode[26];nodeState = 0;}}
}

测试类:

package com.xq.algorithm;import java.util.List;public class WordTrieMain {public static void main(String[] args){test();}public static void test1(){WordTrie trie=new WordTrie();trie.addWord("ibiyzbi");System.out.println("----------------------------------------");List<String> words=trie.searchWord("bi");for(String s: words){System.out.println(s);}}public static void test(){WordTrie trie=new WordTrie();trie.addWord("abi");trie.addWord("ai");trie.addWord("aqi");trie.addWord("biiiyou");trie.addWord("dqdi");trie.addWord("ji");trie.addWord("li");trie.addWord("liqing");trie.addWord("liqq");trie.addWord("liqqq");trie.addWord("qi");trie.addWord("qibi");trie.addWord("i");trie.addWord("ibiyzbi");List<String> list=trie.prefixSearchWord("li");for(String s: list){System.out.println(s);}System.out.println("----------------------------------------");List<String> li=trie.searchWord("i");for(String s: li){System.out.println(s);}System.out.println("----------------------------------------");List<String> words=trie.searchWord("bi");for(String s: words){System.out.println(s);}System.out.println("----------------------------------------");List<String> lst=trie.searchWord("q");for(String s: lst){System.out.println(s);}}
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/509064.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java HashMap实现中文分词器 应用:敏感词过滤实现

今天下午部门内部技术分享是分词器算法。这次的主讲是大名鼎鼎的Ansj分词器的作者-孙健。 作者简介&#xff1a; Ansj分词器作者 elasticsearch-sql&#xff08;elasticsearch的sql插件&#xff09;作者&#xff0c;支持sql查询 nlp-lang自然语言工具包发起人 NLPCN&#xff…

java字典树(Trie)实现中文模糊匹配

原理解释&#xff1a; java实现&#xff1a;https://blog.csdn.net/yuhk231/article/details/51539840 c实现&#xff1a;https://blog.csdn.net/qq_31175231/article/details/77827324 代码模板&#xff1a;缺点&#xff0c;只能检索出在一个分支中的前缀匹配内容 package co…

Word2vec加TextRank算法生成文章摘要

依赖包&#xff1a;https://download.csdn.net/download/dreamzuora/10853874 代码&#xff1a; String document "算法可大致分为基本算法、数据结构的算法、数论算法、计算几何的算法、图的算法、动态规划以及数值分析、加密算法、排序算法、检索算法、随机化算法、并行…

hanlp中文分词、提取摘要关键字、语句分析、智能推荐

hanlp资源&#xff1a; hanlp介绍&#xff1a;http://hanlp.linrunsoft.com/ hanlp下载&#xff1a;https://github.com/hankcs/HanLP hanlp(分词)使用&#xff1a;https://blog.csdn.net/nima1994/article/details/72819973 hanlp1.7:https://github.com/hankcs/HanLP/tree/v1…

TextRank、BM25算法提取关键字、文章自动摘要优秀文章保存

转载地址&#xff1a;http://www.hankcs.com/nlp/textrank-algorithm-java-implementation-of-automatic-abstract.html

set 用法

Set常用用法 2013-04-22 19:24 86508人阅读 评论(1) 收藏 举报分类&#xff1a;CPlus&#xff08;54&#xff09; set集合容器&#xff1a;实现了红黑树的平衡二叉检索树的数据结构&#xff0c;插入元素时&#xff0c;它会自动调整二叉树的排列&#xff0c;把元素放到适当的位置…

去掉标点符号

//去掉标点符号、空格title title.replaceAll("[\\pP\\p{Punct}| ]", "");

C语言向文件写入内容并读取显示

将学生信息&#xff08;姓名、年龄、学号和平均分&#xff09;写入文件&#xff0c;然后读取显示出来。要求&#xff1a;从控制台输入学生信息&#xff1b;可以输入任意数目的学生信息&#xff1b;文件每行存储一条学生信息&#xff0c;姓名、年龄、学号、平均分以tab(\t)为分隔…

C语言main()主函数执行完毕后是否会再执行一段代码

C语言main()主函数执行完毕后是否会再执行一段代码 分享到&#xff1a;QQ空间新浪微博腾讯微博豆瓣人人网main() 主函数执行完毕后&#xff0c;是否可能会再执行一段代码&#xff1f;给出说明。main主函数是所有程序必须具备的函数&#xff0c;是C/C人员一接触代码就知道的函数…

java 操作redis

//连接redis &#xff0c;redis的默认端口是6379Jedis jedis new Jedis ("localhost",6379); //验证密码&#xff0c;如果没有设置密码这段代码省略jedis.auth("password"); jedis.connect();//连接jedis.disconnect();//断开连接Set<String> keys…

C语言用递归求斐波那契数,让你发现递归的缺陷和效率瓶颈

C语言用递归求斐波那契数&#xff0c;让你发现递归的缺陷和效率瓶颈 分享到&#xff1a;QQ空间新浪微博腾讯微博豆瓣人人网递归是一种强有力的技巧&#xff0c;但和其他技巧一样&#xff0c;它也可能被误用。一般需要递归解决的问题有两个特点&#xff1a;存在限制条件&#xf…

【转载保存】java四种线程池的使用

https://blog.csdn.net/qq_31441667/article/details/78830395

size_t strtok

C语言字符串长度统计函数strlen()的实现原理 分享到&#xff1a;QQ空间新浪微博腾讯微博豆瓣人人网C标准库中有一个字符串长度统计函数strlen()&#xff0c;用来统计字符串的长度&#xff0c;它的实现与下面类似。 复制纯文本复制 #include <stdlib.h>size_t strlen( cha…

【保存】maven的pom.xml标签的xsi:schemaLocation处报错

maven装X的原因是 maven对下载不下来的jar文件会生成一个 *.lastUpdated 文件 &#xff0c;不将*.lastUpdated文件干掉&#xff0c;它是不会给你重新下载jar, so 将 *.lastUpdated 这个家伙干掉&#xff0c;再update一下就OK了 原文&#xff1a;https://blog.csdn.net/…

strlen() Bug

C语言strlen()以NUL作为字符串结束标记&#xff0c;自定义一个字符串长度统计函数消除这个Bug 分享到&#xff1a;QQ空间新浪微博腾讯微博豆瓣人人网我们知道&#xff0c;字符串长度统计函数 strlen() 以NUL作为字符串结束标记&#xff0c;但是很不幸的是&#xff0c;有时候字符…

C语言中文件的读取和写入

C语言中文件的读取和写入 注意&#xff1a; 1、由于C是缓冲写 所以要在关闭或刷新后才能看到文件内容 2、电脑处理文本型和二进制型的不同 &#xff08;因为电脑只认识二进制格式&#xff09; 在C语言中写文件 //获取文件指针 FILE *pFile fopen("1.txt", //打开文件…

基于ansj_seg和nlp-lang的简单nlp工具类

1、首先在pom中引入ansj_seg和nlp-lang的依赖包&#xff0c; ansj_seg包的作用&#xff1a; 这是一个基于n-GramCRFHMM的中文分词的java实现&#xff1b; 分词速度达到每秒钟大约200万字左右&#xff08;mac air下测试&#xff09;&#xff0c;准确率能达到96%以上; 目前实现了…

ArrayList的四种初始化方法

转载&#xff1a;https://beginnersbook.com/2013/12/how-to-initialize-an-arraylist/ Method 1: Initialization using Arrays.asList Syntax: ArrayList<Type> obj new ArrayList<Type>(Arrays.asList(Object o1, Object o2, Object o3, ....so on)); Exam…

C++ Deque(双向队列

C Deque(双向队列)C Deque(双向队列) 是一种优化了的、对序列两端元素进行添加和删除操作的基本序列容器。它允许较为快速地随机访问&#xff0c;但它不像vector 把所有的对象保存在一块连续的内存块&#xff0c;而是采用多个连续的存储块&#xff0c;并且在一个映射结构中保存…