模式匹配是数据结构中字符串的一种基本运算,给定一个子串,要求在某个字符串中找出与该子串相同的所有子串。假设P是给定的子串,T是待查找的字符串,要求从T中找出与P相同的所有子串,这个问题成为模式匹配问题。P称为模式,T称为文本。
这篇文章介绍了蛮力法在字符串匹配问题中的应用(JAVA)--朴素模式匹配算法,没有基础的读者可以先参考这篇文章。
上述的蛮力法求解的思路为:从左到右比较模式和文本中的每一对相应的字符,一旦匹配失败,模式右移一格,进行下一轮尝试。这种方法的时间复杂度为O(nm),实在是不够高效。
也有一些高效的算法被实现,诸如KMP算法和BM算法,这些算法中大多采用了输入增强思想(即对模式进行预处理以得到一些信息,将信息存储到表中,以便在匹配时能够使用这些信息)。这里将介绍BM算法的一种简化版本Horspool算法。
Horspool算法每次从右往左对模式串和文本进行匹配,如果出现一对匹配失败,则将模式串按情况从左往右移动。这里注意匹配的方向和移动的方向是不一样的。而“按情况”这就是比朴素匹配要高明的地方。
朴素匹配的移动方式,一旦匹配失败,所有情况都只会右移一个重新匹配。
而对于Horspool算法来说,我们假定文本匹配窗口(指的是文本中当前与模式进行匹配的等长部分,下图方框中的内容)这里的情况有四种。
情况一:如果匹配串中不包含c(下图中就是字母S),那么需要将模式串str移动str.length个长度(如果移动的幅度小于str.lengh,那么模式中的其他元素还是会和c对齐,这是没有意义的操作过程),如下图:
情况二:如果模式串中包含c,但不是模式的最后一个字符(下图中就是字母B),需要将模式串str中最右边的c与文本中的c对齐(因为该算法的匹配方式是从右往左匹配,这样能使匹配窗口尽可能的满足)。
情况三:如果c刚好是模式中的最后一个字符,但在模式的其他m-1个字符中不包含c,移动情况类似于情况一
情况四:如果c刚好是模式中的最后一个字符,但在模式的前m-1个字符中也包含c,移动情况类似于情况二
但是,还有一个重要的问题就是,如果我们每次都要尝试检查模式中的每个字符,那该算法也就失去了意义,改进方法就是通过预处理来解决,我们要预先计算除每次移动的距离并存储在表中,以便查找使用。
Horspool算法思路:
1. 对给定的长度为m的模式和在模式及文本中用到的字母,按照上面的方法构造移动表t[ ]
2. 将模式与文本的开始处对齐
3. 当构成文本匹配窗口后(也就是至少要从开始处移动m长度之后),从模式的最后一个字符开始,比较模式与文本中的相应字符,如全部匹配成功,则终止;如果遇到不匹配的字符,按照t[ ]移动模式。
完整代码如下:
import java.util.HashMap;public class Main {public static final char[] CHAR_TABLE = { 'a', 'b', 'c', 'd', 'e', 'f','g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's','t', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F','G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S','T', 'U', 'V', 'W', 'X', 'Y', 'Z', '0', '1', '2', '3', '4', '5','6', '7', '8', '9', '(', ')', '{', '}', '[', ']', '<', '>', ',','.', '_', '-', '+', '=', '~', '/', '?', ';', ':', '"', '|', '!','@', '#', '$', '%', '^', '&', '*' };public static HashMap<Character, Integer> ShiftTable(String p) {int m = p.length();HashMap<Character, Integer> table = new HashMap<Character, Integer>();for (int i = 0; i < CHAR_TABLE.length; i++)table.put(CHAR_TABLE[i], m);for (int i = 0; i < m - 1; i++)table.put(p.charAt(i), m - 1 - i);return table;}public static int HorspoolMatching(String p, String t) {HashMap<Character, Integer> table = ShiftTable(p);int m = p.length();int n = t.length();int i = m - 1; // 模式左右边的位置while (i <= n - 1) {int k = 0;while ((k <= m - 1) && p.charAt(m - 1 - k) == t.charAt(i - k)) {k++;}if (k == m)return i - (m - 1);elsei += table.get(t.charAt(i));}return -1;}public static void main(String[] argv) {String p="AECDE";String t="ZXYABPDEAECDE";System.out.println(HorspoolMatching(p, t));}}