java英文拼写检查并自动纠正

SpellCorrect原理:https://www.cnblogs.com/jianxinzhou/p/4740392.html
项目源码:

package com.xq.algorithm;import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.HashMap;
import java.util.HashSet;
import java.util.List;
import java.util.Map;
import java.util.Set;public class SpellCorrect {public static final char[] c = {'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h','i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u','v', 'w', 'x', 'y', 'z'};static Map<String,Integer> trainMap=train();public static void editDistance1Test(String word){Set<String> set =editDistance1(word);for (String s : set) {System.out.println(s);}System.out.print(set.size());}public static String correct(String word){Set<String> set=new HashSet<String>();String str=known(word, trainMap);if(!"".equals(str)){return str;}else{set.add(word);}set.addAll(known(editDistance1(word), trainMap));set.addAll(editDistance2(word, trainMap));//set.add(word);Map<String,Integer> wordsMap=new HashMap<String,Integer>();for(String s: set){wordsMap.put(s, trainMap.get(s)==null ? 0: trainMap.get(s));}List<Map.Entry<String, Integer>> info = new ArrayList<Map.Entry<String, Integer>>(wordsMap.entrySet());Collections.sort(info, new Comparator<Map.Entry<String, Integer>>() {public int compare(Map.Entry<String, Integer> obj1, Map.Entry<String, Integer> obj2) {return obj2.getValue() - obj1.getValue();}});//语料库中没有该单词,则返回该单词本身return info.get(0).getValue()>0 ? info.get(0).getKey() : word;}/*** * @Title: words* @Description: 读取语料库文件* @param @return* @param @throws IOException    * @return Map<String,Integer>   * @throws*/public static Map<String,Integer> train(){try {
//			String cnt = util.MyFileTool.readFile(util.Directory.GetAppPath("data") + "big.txt");
//			System.out.println(cnt);} catch (Exception e1) {e1.printStackTrace();}
//		InputStream is;
//		try {
//			is = new FileInputStream(new File(util.Directory.GetAppPath("data") + "big.txt"));
//		} catch (FileNotFoundException e1) {
//			System.out.println("error");
//			e1.printStackTrace();
//		}
//		InputStream is = new SpellCorrect().getClass().getClassLoader().getResourceAsStream(util.Directory.GetAppPath("data") + "big.txt");
//        if(is == null){
//        	throw new RuntimeException("big.txt not found!!!");
//        }Map<String,Integer> map = new HashMap<String,Integer>();BufferedReader br = null;try {//读取语料库big.txt
//			BufferedReader br = new BufferedReader(new InputStreamReader(is , "UTF-8"), 512);br = util.MyFileTool.GetBufferReader(util.Directory.GetAppPath("data") + "big.txt");String s="";while ((s = br.readLine()) != null) {// 去掉文档中除字母外的所有符号s = s.replaceAll("\\pP|\\pS|\\pM|\\pN|\\pC", "");// 将文档转成小写,然后切分成单词,存在list中s = s.toLowerCase();String[] splits = s.split(" ");for (int j = 0; j < splits.length; j++) {if (!" ".equals(splits[j]) && !"".equals(splits[j])	&& !splits[j].equals(null)){if(map.containsKey(splits[j])){Integer count=map.get(splits[j]);map.put(splits[j], count+1);}else{map.put(splits[j], 1);}}}}} catch (FileNotFoundException e) {e.printStackTrace();}catch(IOException e){e.printStackTrace();}finally{try{br.close();}catch(Exception e){e.printStackTrace();}}return map;}/*** * @Title: editDistance2* @Description: 编辑距离为2的集合.通过editDistance1函数得到编辑距离为1的集合,该集合单词再通过editDistance1函数,就可以得到编辑距离为2的集合* @param @param set* @param @param trainMap* @param @return    * @return Set<String>   * @throws*/public static Set<String> editDistance2(Set<String> set,HashMap<String,Integer> trainMap){Set<String> editDistance2Set=new HashSet<String>();Set<String> tempSet=new HashSet<String>();Set<String> tmpSet=new HashSet<String>();for(String s: set){tempSet.addAll(editDistance1(s));}for(String s: tempSet){editDistance2Set.addAll(editDistance1(s));}for(String s : editDistance2Set){if(!trainMap.containsKey(s)){tmpSet.add(s);}}return tmpSet;}/*** * @Title: editDistance2* @Description: 得到一个word的编辑距离为2的集合* @param @param word* @param @param trainMap* @param @return    * @return Set<String>   * @throws*/public static Set<String> editDistance2(String word,Map<String,Integer> trainMap){Set<String> editDistance2Set=new HashSet<String>();Set<String> tmpSet=new HashSet<String>();Set<String> editDistance1Set=editDistance1(word);for(String s: editDistance1Set){editDistance2Set.addAll(editDistance1(s));}for(String s : editDistance2Set){if(!trainMap.containsKey(s)){tmpSet.add(s);}}return tmpSet;}/*** * @Title: known* @Description: 输入的单词集合是否在训练语料库中* @param @param wordsSet* @param @param map* @param @return    * @return Set<String>   * @throws*/public static Set<String> known(Set<String> wordsSet, Map<String, Integer> map) {Set<String> set = new HashSet<String>();for(String s : wordsSet){if (map.containsKey(s)) {set.add(s);}}return set;}public static String known(String word, Map<String, Integer> map) {if(map.containsKey(word)){return word;}else{return "";}}/*** * @Title: editDistance1* @Description: 编辑距离为1的函数* @param @param word* @param @return    * @return Set<String>   * @throws*/public static Set<String> editDistance1(String word) {String tempWord = "";Set<String> set = new HashSet<String>();int n = word.length();// delete一个字母的情况for (int i = 0; i < n; i++){tempWord = word.substring(0, i) + word.substring(i + 1);set.add(tempWord);}//transpositionfor (int i = 0; i < n - 1; i++) {/*tempWord = word.substring(0, i) + word.substring(i + 1, i + 2)+ word.substring(i, i + 1) + word.substring(i + 2, n);*/tempWord = word.substring(0, i) + word.charAt(i+1)+word.charAt(i)+word.substring(i + 2, n);set.add(tempWord);}// alteration 26nfor (int i = 0; i < n; i++) {for (int j = 0; j < 26; j++) {tempWord = word.substring(0, i) + c[j] + word.substring(i + 1, n);set.add(tempWord);}}// insertion 26nfor (int i = 0; i < n+1; i++) {for (int j = 0; j < 26; j++) {tempWord = word.substring(0, i) + c[j] + word.substring(i, n);set.add(tempWord);}}// 将字母插入到最后 nfor (int j = 0; j < 26; j++) {set.add(word + c[j]);}return set;}public static void main(String[] args) throws Exception {
//		String cnt = util.MyFileTool.readFile(util.Directory.GetAppPath("data") + "big.txt");System.out.println(correct("speling"));System.out.println(correct("love"));System.out.println(correct("korrecter"));System.out.println(correct("korrect"));System.out.println(correct("qove"));//editDistance1Test("korrecter");}
}

maven项目下载地址:https://blog.csdn.net/ryo1060732496/article/details/80170797

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/509065.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java Trie实现英文单词查找树 搜索自动提示

原理解释文章&#xff1a;https://blog.csdn.net/beiyetengqing/article/details/7856113 代码应用&#xff1a; wordTrie.txt(工具类)&#xff1a; package com.xq.algorithm;import java.util.ArrayList; import java.util.List;/*** * <p>Title:</p>* <p>…

java HashMap实现中文分词器 应用:敏感词过滤实现

今天下午部门内部技术分享是分词器算法。这次的主讲是大名鼎鼎的Ansj分词器的作者-孙健。 作者简介&#xff1a; Ansj分词器作者 elasticsearch-sql&#xff08;elasticsearch的sql插件&#xff09;作者&#xff0c;支持sql查询 nlp-lang自然语言工具包发起人 NLPCN&#xff…

java字典树(Trie)实现中文模糊匹配

原理解释&#xff1a; java实现&#xff1a;https://blog.csdn.net/yuhk231/article/details/51539840 c实现&#xff1a;https://blog.csdn.net/qq_31175231/article/details/77827324 代码模板&#xff1a;缺点&#xff0c;只能检索出在一个分支中的前缀匹配内容 package co…

Word2vec加TextRank算法生成文章摘要

依赖包&#xff1a;https://download.csdn.net/download/dreamzuora/10853874 代码&#xff1a; String document "算法可大致分为基本算法、数据结构的算法、数论算法、计算几何的算法、图的算法、动态规划以及数值分析、加密算法、排序算法、检索算法、随机化算法、并行…

hanlp中文分词、提取摘要关键字、语句分析、智能推荐

hanlp资源&#xff1a; hanlp介绍&#xff1a;http://hanlp.linrunsoft.com/ hanlp下载&#xff1a;https://github.com/hankcs/HanLP hanlp(分词)使用&#xff1a;https://blog.csdn.net/nima1994/article/details/72819973 hanlp1.7:https://github.com/hankcs/HanLP/tree/v1…

TextRank、BM25算法提取关键字、文章自动摘要优秀文章保存

转载地址&#xff1a;http://www.hankcs.com/nlp/textrank-algorithm-java-implementation-of-automatic-abstract.html

set 用法

Set常用用法 2013-04-22 19:24 86508人阅读 评论(1) 收藏 举报分类&#xff1a;CPlus&#xff08;54&#xff09; set集合容器&#xff1a;实现了红黑树的平衡二叉检索树的数据结构&#xff0c;插入元素时&#xff0c;它会自动调整二叉树的排列&#xff0c;把元素放到适当的位置…

去掉标点符号

//去掉标点符号、空格title title.replaceAll("[\\pP\\p{Punct}| ]", "");

C语言向文件写入内容并读取显示

将学生信息&#xff08;姓名、年龄、学号和平均分&#xff09;写入文件&#xff0c;然后读取显示出来。要求&#xff1a;从控制台输入学生信息&#xff1b;可以输入任意数目的学生信息&#xff1b;文件每行存储一条学生信息&#xff0c;姓名、年龄、学号、平均分以tab(\t)为分隔…

C语言main()主函数执行完毕后是否会再执行一段代码

C语言main()主函数执行完毕后是否会再执行一段代码 分享到&#xff1a;QQ空间新浪微博腾讯微博豆瓣人人网main() 主函数执行完毕后&#xff0c;是否可能会再执行一段代码&#xff1f;给出说明。main主函数是所有程序必须具备的函数&#xff0c;是C/C人员一接触代码就知道的函数…

java 操作redis

//连接redis &#xff0c;redis的默认端口是6379Jedis jedis new Jedis ("localhost",6379); //验证密码&#xff0c;如果没有设置密码这段代码省略jedis.auth("password"); jedis.connect();//连接jedis.disconnect();//断开连接Set<String> keys…

C语言用递归求斐波那契数,让你发现递归的缺陷和效率瓶颈

C语言用递归求斐波那契数&#xff0c;让你发现递归的缺陷和效率瓶颈 分享到&#xff1a;QQ空间新浪微博腾讯微博豆瓣人人网递归是一种强有力的技巧&#xff0c;但和其他技巧一样&#xff0c;它也可能被误用。一般需要递归解决的问题有两个特点&#xff1a;存在限制条件&#xf…

【转载保存】java四种线程池的使用

https://blog.csdn.net/qq_31441667/article/details/78830395

size_t strtok

C语言字符串长度统计函数strlen()的实现原理 分享到&#xff1a;QQ空间新浪微博腾讯微博豆瓣人人网C标准库中有一个字符串长度统计函数strlen()&#xff0c;用来统计字符串的长度&#xff0c;它的实现与下面类似。 复制纯文本复制 #include <stdlib.h>size_t strlen( cha…

【保存】maven的pom.xml标签的xsi:schemaLocation处报错

maven装X的原因是 maven对下载不下来的jar文件会生成一个 *.lastUpdated 文件 &#xff0c;不将*.lastUpdated文件干掉&#xff0c;它是不会给你重新下载jar, so 将 *.lastUpdated 这个家伙干掉&#xff0c;再update一下就OK了 原文&#xff1a;https://blog.csdn.net/…

strlen() Bug

C语言strlen()以NUL作为字符串结束标记&#xff0c;自定义一个字符串长度统计函数消除这个Bug 分享到&#xff1a;QQ空间新浪微博腾讯微博豆瓣人人网我们知道&#xff0c;字符串长度统计函数 strlen() 以NUL作为字符串结束标记&#xff0c;但是很不幸的是&#xff0c;有时候字符…

C语言中文件的读取和写入

C语言中文件的读取和写入 注意&#xff1a; 1、由于C是缓冲写 所以要在关闭或刷新后才能看到文件内容 2、电脑处理文本型和二进制型的不同 &#xff08;因为电脑只认识二进制格式&#xff09; 在C语言中写文件 //获取文件指针 FILE *pFile fopen("1.txt", //打开文件…

基于ansj_seg和nlp-lang的简单nlp工具类

1、首先在pom中引入ansj_seg和nlp-lang的依赖包&#xff0c; ansj_seg包的作用&#xff1a; 这是一个基于n-GramCRFHMM的中文分词的java实现&#xff1b; 分词速度达到每秒钟大约200万字左右&#xff08;mac air下测试&#xff09;&#xff0c;准确率能达到96%以上; 目前实现了…

ArrayList的四种初始化方法

转载&#xff1a;https://beginnersbook.com/2013/12/how-to-initialize-an-arraylist/ Method 1: Initialization using Arrays.asList Syntax: ArrayList<Type> obj new ArrayList<Type>(Arrays.asList(Object o1, Object o2, Object o3, ....so on)); Exam…