Horspool 字符串快速查找算法

Horspool算法是后缀搜索算法,对于每个文本搜索窗口,将窗口内的最后一个字符与模式串(needle)的最后一个字符进行比较。如果相等,则继续从后向前验证其他字符,直到完全相等或者某个字符不匹配。当遇到字符不匹配的情况时就需要将搜索窗口往后移动,计算移动的距离可以有不同方法,Wikipedia中给出的C语言实现版本是基于窗口的最后一个字符(haystack上的)。

 

C语言版代码分析:

 1 // 在 haystack 中查找 needle 子字符串
 2 const unsigned char *horspool_memmem(const unsigned char *haystack, size_t hlen,
 3                                      const unsigned char *needle, size_t nlen)
 4 {
 5   size_t scan = 0;
 6   
 7   // 单个字符的位移对照表
 8   size_t bad_char_skip[UCHAR_MAX + 1];
 9 
10   // 参数检查
11   if (nlen <= 0 || !haystack || !needle)
12     return NULL;
13 
14   // 初始化位移对照表,缺省值是 needle 的长度,即遇到不匹配时将搜索窗口往后移动 needle 长度
15   // 比如:如果遇到 needle 中没有的字符时,就可以将搜索窗口后移 needle 长度,以跳过该字符
16   for (scan = 0; scan <= UCHAR_MAX; scan = scan + 1)
17     bad_char_skip[scan] = nlen;
18 
19   // needle 最后一个字符的下标
20   size_t last = nlen - 1;
21 
22   // 遍历 needle 的字符(排除最后一个字符),计算该字符到最后一个字符的位移。
23   // 此处遍历需要从头开始,因为 needle 中可能会出现重复字符,同一个字符必须使用其最后出现位置的位移。
24   // 
25   // 排除 needle 最后一个字符的原因是:如果 needle 的最后一个字符在 needle 中是唯一的,那么其位移对照表中的值是 nlen,
26   // 只要当次搜索匹配失败,并且搜索窗口上 haystack 的最后一个字符就是 needle 的最后一个字符,那么就应该将搜索窗口后移 nlen,
27   // 因为该字符没有重复出现 needle 的其它位置上,就可以安全的跳过当前窗口。
28   for (scan = 0; scan < last; scan = scan + 1)
29     bad_char_skip[needle[scan]] = last - scan;
30 
31   // 开始搜索匹配
32   // 由于搜索窗口不断往后移动,即 haystack 指针值向后移动,hlen 保存 haystack 的剩余字符串长度。
33   // 当 hlen 的长度小于 nlen 时,查找失败。
34   while (hlen >= nlen) {
35     // 从搜索窗口的尾部向前匹配
36     for (scan = last; haystack[scan] == needle[scan]; scan = scan - 1) {
37       if (scan == 0)  // 头部字符匹配则查找成功,返回子字符串位置
38         return haystack;
39     }
40     
41     // 如果匹配失败则基于搜索窗口上 haystack 的最后一个字符 haystack[last] 后移搜索窗口
42     hlen     -= bad_char_skip[haystack[last]];
43     haystack += bad_char_skip[haystack[last]];
44   }
45 
46   // 到达此处说明查找失败
47   return NULL;
48 }

 

查找过程示例:

原始串
haystack: efaboxcbcabcdsdxzcxx
needle:   abcd初始化
last: 3
bad_char_skip['a'] = 3
bad_char_skip['b'] = 2
bad_char_skip['c'] = 1
bad_char_skip['d'] = 1循环1
last: 3
haystack[last]: b
bad_char_skip[haystack[last]]: 2
haystack: aboxcbcabcdsdxzcxx
needle:   abcd循环2
last: 3
haystack[last]: x
bad_char_skip[haystack[last]]: 4
haystack: cbcabcdsdxzcxx
needle:   abcd循环3
last: 3
haystack[last]: a
bad_char_skip[haystack[last]]: 3
haystack: abcdsdxzcxx
needle:   abcd循环4
匹配成功

 

参考文档

  1. Boyer–Moore–Horspool algorithm - Wikipedia
  2. Horspool字符串匹配算法

  

转载于:https://www.cnblogs.com/edwardlost/archive/2013/01/25/2875320.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/295980.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

由NTC电阻值 计算温度 C语言,高精度NTC测温电路设计及电阻值计算

什么是NTCNTC是热敏电阻&#xff0c;其电阻值对温度变化敏感&#xff0c;在不同的温度下&#xff0c;可以呈现不同的电阻值。热敏电阻有两类&#xff0c;一类是负温度系数电阻(NTC)&#xff0c;温度增加时&#xff0c;电阻值降低&#xff0c;另一类是正温度系数电阻(PTC)&#…

史上最被低估的两个学科!它们远比你想的更重要!

▲点击查看哈佛大学本杰明教授曾说&#xff1a;“越是到了高等教育的阶段&#xff0c;人们就越重视从历史中总结经验&#xff0c;尤其是精英阶层。很多人都想好好读读历史&#xff0c;但是一直以来&#xff0c;读历史都有一个问题&#xff1a;看着满满都是字的大部头&#xff0…

c#10:string内插处理

string内插是指用$"日期&#xff1a;{DateTime.Now.ToString("yyyy年MM月dd日")}。"&#xff0c;这种使用方式&#xff0c;在c#10.0时&#xff0c;引进了这种string内插的处理&#xff0c;可以写自定义的处理程序&#xff0c;来提升使用体验。具体用法见下…

Application Fundamentals

Application Fundamentals 署名&#xff1a;译言biAji 链接&#xff1a;http://developer.android.com/guide/topics/fundamentals.html 应用程序基础(Application Fundamentals) Android应用程序使用Java做为开发语言。aapt工具把编译后的Java代码连同其它应用程序需要的数据…

Android之玩转选项卡(TabHost、TabWidget、FrameLayout)

选项卡(TabHost、TabWidget、FrameLayout) 选项卡由TabHost、TabWidget、FrameLayout 这3个组件构成,用于实现一个多标签页的用户界面,不费话了,先爆图,就知道是什么鬼了,怎么用了。 第一步 配置activity_main.xml <TabHost xmlns:android="http://schemas.andro…

c语言扑克牌随机发三张牌,扑克牌发三张概率组合一副扑克牌52张(不含大、小王),发三张牌,一共多少种组合.另外:1)三张中含一对的组合有多少张?(...

共回答了20个问题采纳率&#xff1a;95%这个题目我喜欢所有组合为&#xff1a;C(52,5)1、A组为三张不关联明牌,组合&#xff1a;52*48*44,与B组二张暗牌组成一个对子.B的组合为&#xff1a;(12-3)*(52-12).概率&#xff1a;(12-3)*(52-12)*2/C(49,2)30.6%组成两个对子的概率3*3…

iOS使用NSURLConnection发送同步和异步HTTP Request

1. 同步发送- (NSString *)sendRequestSync{// 初始化请求, 这里是变长的, 方便扩展NSMutableURLRequest *request [[NSMutableURLRequest alloc] init];// 设置[request setURL:[NSURL URLWithString:urlStr]];[request setHTTPMethod:"POST"];[request setValue:h…

请设计各种管理系统、业务系统的大哥大姐们,设计新系统时,拜托您,请允许我修改用户名、密码...

大概在2-3年前&#xff0c;我在宁波最大的一家IT公司工作&#xff0c;我们公司日常开发人员经常会使用的系统有很多&#xff0c;夸张的 说接近10个吧&#xff0c;有些是自己公司开发的&#xff0c;有些是成熟的商品化软件&#xff0c;这些系统又由不同的维护人员维护&#xff0…

这是你想象中的泳池美女吗?爱了吗?

1 小手一插&#xff0c;谁都不爱▼2 玩滑板讲究顺其自然哪里摔倒&#xff0c;就在哪里跪下▼3 陪老婆待产的企鹅们▼4 这就是米其林三星级的地摊吗&#xff1f;▼5 年度最好的送男友礼物▼6 张雨绮表演内心戏全程▼7 说&#xff01;这种极品西瓜哪里有卖&#xff1f;▼你…

如何快速学习使用mybatis以及总结

第一步 让我来介绍下初学者怎么快速更好的使用mybatis这个框架 使用mybatis的话&#xff0c;每个Dao就对于一个相应的xml文件&#xff0c;我来给个例子个大家看&#xff0c;先要配置好环境。在application.xml里面<!-- c3p0 connection pool configuration 数据库的配置 --…

Abp Vnext Vue3 的版本实现

Abp Vnext Pro 的 Vue3 实现版本 开箱即用的中后台前端/设计解决方案开始Github地址文档地址演示地址系统功能[x] 用户管理[x] 角色管理[x] 审计日志[x] 后台任务[x] 集成事件[x] IdentityServer4[x] 客户端管理[x] Api 资源管理[x] ApiScope 管理[x] Identity 资源管理[x] Sin…

递归函数就兔子数C语言,【C语言】求斐波那契(Fibonacci)数列通项(递归法、非递归法)...

意大利的数学家列昂那多斐波那契在1202年研究兔子产崽问题时发现了此数列&#xff0e;设一对大兔子每月生一对小兔子&#xff0c;每对新生兔在出生一个月后又下崽&#xff0c;假若兔子都不死亡&#xff0e;问&#xff1a;一对兔子&#xff0c;一年能繁殖成多少对兔子&#xff1…

struts2配置中Action的name 和package的name和namespace作用

2019独角兽企业重金招聘Python工程师标准>>> struts2配置中Action的name 和package的name和namespace是什么作用 在struts2 struts.xml 配置中 <package name"ajax" extends"json-default" namespace"/json"> <action na…

【译】Tablix指南----通向报表服务的阶梯系列(四)

“Ah ha,发现你了&#xff01;”你的经理突然从桌子后面的假花旁冒出来&#xff0c;发出胜利的叫声。你沮丧地转过头看着经理。 “我已经创建了一个基本报表&#xff0c;并抓取了一些数据&#xff0c;我正打算-”你在他打断你之前快速的解释着。 “赶紧做完就好&#xff0c;大B…

workaround for %33 texture memory bug

原帖链接&#xff1a;http://www.cocos2d-iphone.org/forum/topic/29121 PS: 为什么要关心 NPOT 呢&#xff1f; 因为苹果的OpenGL驱动有一个bug&#xff0c;导致如果使用 POT 的纹理&#xff0c;则会产生额外33%的内存消耗。 So, If you didnt know, when you create a textur…

熊吃人该不该杀?这头3米高的大熊吃了7个人,还在洞里藏了很多女人用的东西.........

全世界只有3.14 % 的人关注了爆炸吧知识10月18日&#xff0c;有网友爆料称“上海野生动物园猛兽区一饲养员遭群熊撕扯”。随后&#xff0c;上海野生动物园证实&#xff0c;该饲养员目前已身亡。据悉&#xff0c;他才27岁&#xff0c;还没成家。从网上发布的现场视频来看&#x…

如何快速学习freemarker以及使用经验

freemarker freemarker是静态模板&#xff0c;和html 、jsp类似&#xff0c;我第一次看见后缀是 .ftl文件&#xff0c;我嚓&#xff0c;这是什么鬼&#xff0c;原来是freemarker&#xff0c;使用它的时候你就可以理解前端页面和jsp什么没什么区别&#xff0c;怎样学习它&#x…

还在纠结Dapper或者EF Core?不妨试试“混合ORM”--RepoDb

在.NET世界中&#xff0c;提到ORM&#xff0c;最常用的是下面2个&#xff1a;Dapper&#xff0c;通过提供IDbConnection的扩展方法来查询数据库。它的优点在于可以轻松地执行参数化查询&#xff0c;将结果转化为对象&#xff1b;非常高效&#xff0c;在速度方面拥有micro-ORM之…

android chart坐标轴互换,android - MPAndroidChart:在BarChart中将X轴的标签旋转90度 - SO中文参考 - www.soinside.com...

只需覆盖XAxisRenderer和renderAxisLabels(c: Canvas)方法。并将其设置为barChart itemView.barChart.setXAxisRenderer(CustomBarChartRenderer(itemView.barChart.viewPortHandler, itemView.barChart.xAxis, itemView.barChart.rendererXAxis.transformer))import android.g…

Rails IDE 有很多选择,但是具体到ubuntu 64bit 选择的余地就不多了,这里选择Aptana Studio 3 Beta...

1 下载 http://www.aptana.com/downloads/start 2 根据 要求安装sun JDK 1.6.* 安装步骤参考&#xff1a; 1. 编辑 /etc/apt/sources.list&#xff0c;去掉注释&#xff1a; ## Uncomment the following two lines to add software from Canonicals## partner repository.## Th…