正则表达式之反向引用

1.概述

捕获组捕获到的内容,不仅可以在正则表达式外部通过程序进行引用,也可以在正则表达式内部进行引用,这种引用方式就是反向引用。要了解反向引用,首先要了解捕获组,关于捕获组,参考 正则基础之——捕获组(capture group)。

反向引用的作用通常是用来查找或限定重复、查找或限定指定标识配对出现等等。

对于普通捕获组和命名捕获组的引用,语法如下:

普通捕获组反向引用:\k<number>,通常简写为\number

命名捕获组反向引用:\k<name>或者\k'name'

普通捕获组反向引用中number是十进制的数字,即捕获组的编号;命名捕获组反向引用中的name为命名捕获组的组名。

2.反向引用匹配原理

捕获组(Expression)在匹配成功时,会将子表达式匹配到的内容,保存到内存中一个以数字编号的组里,可以简单的认为是对一个局部变量进行了赋值,这时就可以通过反向引用方式,引用这个局部变量的值。一个捕获组(Expression)在匹配成功之前,它的内容可以是不确定的,一旦匹配成功,它的内容就确定了,反向引用的内容也就是确定的了。

反向引用必然要与捕获组一同使用的,如果没有捕获组,而使用了反向引用的语法,不同语言的处理方式不一致,有的语言会抛异常,有的语言会当作普通的转义处理。

3.举例说明一

源字符串:abcdebbcde

正则表达式:([ab])\1

对于正则表达式“([ab])\1”,捕获组中的子表达式“[ab]”虽然可以匹配“a”或者“b”,但是捕获组一旦匹配成功,反向引用的内容也就确定了。如果捕获组匹配到“a”,那么反向引用也就只能匹配“a”,同理,如果捕获组匹配到的是“b”,那么反向引用也就只能匹配“b”。由于后面反向引用“\1”的限制,要求必须是两个相同的字符,在这里也就是“aa”或者“bb”才能匹配成功。

考察一下这个正则表达式的匹配过程,在位置0处,由“([ab])”匹配“a”成功,将捕获的内容保存在编号为1的组中,然后把控制权交给“\1”,由于此时捕获组已记录了捕获内容为“a”,“\1”也就确定只有匹配到“a”才能匹配成功,这里显然不满足,“\1”匹配失败,由于没有可供回溯的状态,整个表达式在位置0处匹配失败。

正则引擎向前传动,在位置5之前,“([ab])”一直匹配失败。传动到位置5处时,,“([ab])”匹配到“b”,匹配成功,将捕获的内容保存在编号为1的组中,然后把控制权交给“\1”,由于此时捕获组已记录了捕获内容为“b”,“\1”也就确定只有匹配到“b”才能匹配成功,满足条件,“\1”匹配成功,整个表达式匹配成功,匹配结果为“bb”,匹配开始位置为5,结束位置为7。

扩展一下,正则表达式“([a-z])\1{2}”也就表达连续三个相同的小写字母,“([a-z])\1+”表示连续的n个相同的小写字母。

4.举例说明二

详细的分析讨论参考:正则表达式正向预搜索的问题。

源字符串:aaa bbbb ffffff 999999999

正则表达式:(\w)((?=\1\1\1)(\1))+

测试代码:

string test = "aaa bbbb ffffff 999999999";

Regex reg = new Regex(@"(\w)((?=\1\1\1)(\1))+");

MatchCollection mc = reg.Matches(test);

foreach (Match m in mc)

{

      richTextBox2.Text += "匹配结果:" + m.Value.PadRight(12, ' ') + "匹配开始位置:" + m.Index + "\n";

}

//输出

匹配结果:bb          匹配开始位置:4

匹配结果:ffff        匹配开始位置:9

匹配结果:9999999     匹配开始位置:16

匹配结果分析:

正则表达式(\w)((?=\1\1\1)(\1))+从匹配结果上分析,其实就等价于 (\w)(\1)*(?=\1\1\1)(\1) ,这个会相对好理解一些,下面讨论下分析过程。

因为“+”等价于“{1,}”,表示至少匹配1次,下面把子表达式“((?=\1\1\1)(\1))+”展开来看下规律,下表中的“次数”表示子表达式“((?=\1\1\1)(\1))+”匹配成功的次数 。

次数

等价表达式

1

(\w)((?=\1\1\1)(\1))

2

(\w)((?=\1\1\1)(\1))((?=\1\1\1)(\1))

3

(\w)((?=\1\1\1)(\1))((?=\1\1\1)(\1))((?=\1\1\1)(\1))

如果最后一个“((?=\1\1\1)(\1))”匹配成功,那么中间的“((?=\1\1\1)(\1))”一定可以匹配成功,所以中间的限制条件(?=\1\1\1)就没有意义了,这时就可以简写为“(\1)”,也就是

次数

等价表达式

1

(\w)((?=\1\1\1)(\1))

2

(\w)(\1)((?=\1\1\1)(\1))

3

(\w)(\1)(\1)((?=\1\1\1)(\1))

可以归纳为等价于

(\w)(\1)*((?=\1\1\1)(\1))

因为“((?=\1\1\1)(\1))”开始和结尾的()原来是用作量词+修饰范围的,这里已经没有什么意义了,所以表达式最后可以归纳为等价于

(\w)(\1)*(?=\1\1\1)(\1)

分析这个表达式就容易多了。“(\w)”匹配一个字符,占一位,“\1”是对“\w”匹配内容的引用,“(\1)*”可以匹配0到无穷多个“(\w)”匹配到的字符,“(?=\1\1\1)(\1)”只占一位,但是“(?=\1\1\1)”要求所在位置右侧有三个连续相同的“(\w)”匹配到的字符,所以在“(?=\1\1\1)”这个位置右侧应该有三个字符,不过只有这个位置右侧的一个字符计入最后的匹配结果,最后两个只作为限制条件,不计入最后的匹配结果 。

以“999999999”为例,第一个“9”由“(\w)”匹配,第二到第六个“9”由“(\1)*”来匹配,第七个“9”由“(?=\1\1\1)(\1)”中最后的“(\1)”来匹配,而第七、八、九这三个“9”是用来保证满足“(?=\1\1\1)”这个条件的。

 

 

详细描述参考:正则基础之——反向引用

 

转载于:https://www.cnblogs.com/guorange/p/6693168.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/416935.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL 表一列逗号分隔字段,按逗号切割

直接查询 ---切割前 select id,content from test_split; 1 12,13,14 2 21,25 3 33 --切割后 1 12 1 13 1 14 2 21 2 25 3 33 --执行sql SELECT a.id,SUBSTRING_INDEX(SUBSTRING_INDEX(a.content,,,b.help_topic_id1),,,-1) AS num FROM test_split a join mys…

jquery template.js前端模板引擎

作为现代应用&#xff0c;ajax的大量使用&#xff0c;使得前端工程师们日常的开发少不了拼装模板&#xff0c;渲染模板 在刚有web的时候&#xff0c;前端与后端的交互&#xff0c;非常直白&#xff0c;浏览器端发出URL&#xff0c;后端返回一张拼好了的HTML串。浏览器对其进行渲…

webflux databuffer输出

直接输出JSON对象 GetMapping("selectMy") public Mono<Void> selectMy(ServerHttpRequest request, ServerHttpResponse response) {String pageNumber request.getQueryParams().getFirst("pageNumber");AuthUser authUser LoginProcess.getCurr…

Debug Hook

命名 关于这个命名是我自己这样说的&#xff0c;至于这种HOOK技术&#xff0c;先前在一个开源项目中叫做RemoteHook&#xff0c;我比较喜欢自己的这种命名&#xff0c;所以就叫Debug Hook。如果有错误&#xff0c;请指出。 先来说说调试的原理 在Windows操作系统&#xff0c;有…

多种时间格式字符串转换为Date对象

maven引入包 org.apache.commons commons-lang3 3.8 使用类 org.apache.commons.lang3.time.DateUtils 调用示例 Date date DateUtils.parseDate(strDate, "yyyy-MM-dd","yyyy-MM-dd HH:mm:ss","yyyy/MM/dd","yyyy/MM/dd HH:mm:ss&q…

SPFA 算法详解

适用范围&#xff1a;给定的图存在负权边&#xff0c;这时类似Dijkstra等算法便没有了用武之地&#xff0c;而Bellman-Ford算法的复杂度又过高&#xff0c;SPFA算法便派上用场了。 我们约定有向加权图G不存在负权回路&#xff0c;即最短路径一定存在。当然&#xff0c;我们可以…

webflux上传下载文件

上传文件 PostMapping("addAttach") public Mono<JsonResult> addAttach(RequestPart("file") FilePart filePart,//获取文件参数RequestPart("dataId") String dataId,//获取其他参数 ){String strFileName filePart.filename();//获取…

js 数字千分位展示

str.replace(/\d{1,3}(?(\d{3})$)/g,function(s){ return s, })

TCP基础知识 复习

前言 说来惭愧&#xff0c;大二时候学的计算机网络好多都不太记得了&#xff0c;不过还好有认真学过&#xff0c;捡起来也挺快的&#xff0c;就是对于现在业界中使用的网络算法的不是很懂&#xff1b; 1 TCP报文段结构 1.1 序号和确认号 序号&#xff0c;是报文段首字节的字节流…

Ant Design Tabs切换控制

注意点&#xff1a; 1.需要绑定activeKey&#xff0c;而不是defaultActiveKey属性&#xff0c;否则加载完成后无法通过设置state值切换。 2.绑定activeKey后选项卡切换点击无效&#xff0c;需通过点击事件修改state值才行。 切换控制 this.setState({ defaultActiveKey:&qu…

linux安装mongodb(设置非root用户和开机启动)

官网地址&#xff1a;https://www.mongodb.com/ 在官网上选择不同的linux系统得到不同的下载地址&#xff0c;我们用的下载地址是&#xff1a;https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel62-3.4.3.tgz 1.mongodb的安装及连接 cd opt/ wget https://fastdl.mon…

Ant Design Tabs标签页隐藏的标签内元素无法获取到

Tabs.TabPane# 参数 说明 类型 默认值 forceRender 被隐藏时是否渲染 DOM 结构 boolean false 修改该值为true即可&#xff0c;该TabPane隐藏也可以渲染dom结构&#xff0c;示例&#xff1a; <TabPane tab"进度分析" key"2" forceRender"…

Mvc NuGet 数据迁移

网上有很多的ef code first 的使用的方式&#xff0c;很乱&#xff0c;下面是我自己整理出来的&#xff0c;有什么不正确的地方还请指正&#xff0c;本人菜鸟一枚&#xff01; 1、新建一个类库 》引用 右击 管理NuGet程序包 添加EntityFramework 类库中就会有添加一个App.conf…