本文实例讲述了java实现的最大匹配分词算法。分享给大家供大家参考,具体如下:
全文检索有两个重要的过程:
1分词
2倒排索引
我们先看分词算法
目前对中文分词有两个方向,其中一个是利用概率的思想对文章分词。 也就是如果两个字,一起出现的频率很高的话,我们可以假设这两个字是一个词。这里可以用一个公式衡量:m(a,b)=p(ab)/p(a)p(b),其中 a表示一个字,b表示一个字,p(ab)表示ab相邻出现的概率,p(a)表示a在这篇文章中的频度,p(b)表示b在这篇文章中的频度。用概率分词的好 处是不需要借助词典的帮助,坏处是算法比较麻烦,效率不高,也存在一定的出错率。
另外的一个方向是使用词典分词。就是事先为程序准备一个词典,然后通过这个词典对文章分词。目前较流行的方式有正向最大匹配算法和逆向最大匹配算法。逆向最大匹配算法在准确性上要更好一些。
以 “我是一个坏人” 为例,并最大词长为3,词库包含有 我、是、一、个、一个、坏人、大坏人
正向的顺序为
我是一
我是
我 ===> 得到一个词
是一个
是一
是 ===>得到一个词
一个坏
一个===> 得到一个词
坏人===>得到一个词
结果 我、是、一个、坏人
反向算法
个坏人
坏人==> 坏人
是一个
一个==> 一个
我是
是==> 是
我==> 我
结果 我、是、一个、坏人
java代码如下
package data;
import java.util.arrays;
import java.util.hashset;
import java.util.set;
/**
* 最大匹配分词算法
*
* @author jyc506
*
*/
public class splitstring {
private set set = new hashset();
private int positiveover = 0;
private int reverseover = 0;
/**
* 正向最大匹配
*
* @param str 要分词的句子
* @param num 词的最大长度
* @return
*/
public string[] positivesplit(string str, int maxsize) {
int tem = 0;
int length = str.length();
string[] ss = new string[length];
char[] cc = str.tochararray();
for (int i = 0; i < length; i++) {
positiveover = 0;
string sb = this.tostr(cc, i, maxsize);
ss[tem++] = sb;
i = i + positiveover;
}
string[] ss2 = new string[tem];
system.arraycopy(ss, 0, ss2, 0, tem);
return ss2;
}
/**
* 添加词库
*
* @param words
*/
public void addword(string[] words) {
for (string st : words) {
this.set.add(st);
}
}
/**
* 逆向最大匹配
*
* @param str
* @param num
* @return
*/
public string[] reversesplit(string str, int num) {
int tem = 0;
int length = str.length();
string[] ss = new string[length];
char[] cc = str.tochararray();
for (int i = str.length() - 1; i > -1; i--) {
reverseover = 0;
string sb = this.tostr2(cc, i, num);
tem++;
ss[--length] = sb;
i = i - reverseover;
}
string[] ss2 = new string[tem];
system.arraycopy(ss, str.length() - tem, ss2, 0, tem);
return ss2;
}
private string tostr(char[] cs, int start, int num) {
int num2 = num;
out: for (int j = 0; j < num; j++) {
stringbuffer sb = new stringbuffer();
for (int i = 0; i < num2; i++) {
if (start + i < cs.length) {
sb.append(cs[start + i]);
} else {
num2--;
j--;
continue out;
}
}
if (set.contains(sb.tostring())) {
positiveover = num2 - 1;
return sb.tostring();
}
num2--;
}
return string.valueof(cs[start]);
}
private string tostr2(char[] cs, int start, int num) {
int num2 = num;
for (int j = 0; j < num; j++) {
stringbuffer sb = new stringbuffer();
for (int i = 0; i < num2; i++) {
int index = start - num2 + i + 1;
if (index > -1) {
sb.append(cs[index]);
} else {
num2--;
}
}
if (set.contains(sb.tostring())) {
reverseover = num2 - 1;
return sb.tostring();
}
num2--;
}
return string.valueof(cs[start]);
}
public static void main(string[] args) {
string[] words = new string[] { "我们", "我们五人", "五人一组", "一组" };
splitstring ss = new splitstring();
/*添加词到词库*/
ss.addword(words);
string st = "我们五人一组";
system.out.println("萬仟网测试结果:");
system.out.println("要分词的句子:" + st);
/*使用两种方式分词,下面我指定最大词长度为4*/
string[] ss2 = ss.reversesplit(st, 4);
string[] ss1 = ss.positivesplit(st, 4);
system.out.println("正向最大匹配分词算法分词结果:" + arrays.tostring(ss1));
system.out.println("逆向最大匹配分词算法分词结果:" + arrays.tostring(ss2));
}
}
希望本文所述对大家java程序设计有所帮助。
希望与广大网友互动??
点此进行留言吧!