[正则表达式] 可以解析HTML/XHTML页面的所有元素和结构的Regular Expression![ZT]

ZT: http://www.cnblogs.com/Laser_Lu/archive/2005/04/21/142605.html

哈哈,继 昨天的那个正则表达式 之后又写了一个更长的Regular Expression,全长527,是用于查找出所有的XHTML/HTML的标记外面的所有空格,并将之转换为 的。 希望这个能够解决dudu提的一个cnblogs的bug:)即使不能解决问题也算是对System.Text.RegularExpression.Regex的一个练笔了:)

(?:(?:\<(?:Style)(?:\s+(?:[\w-]+)(?:=(?:[^\s\>\<]*|\"[\s\S]*?\"|\'[\s\S]*?\'))?)*\s*(?:/)?\>)(?:[\s\S]*?)(?:\</(?:Style)\>))|(?:(?:\<(?:script)(?:\s+(?:[\w-]+)(?:=(?:[^\s\>\<]*|\"[\s\S]*?\"|\'[\s\S]*?\'))?)*\s*(?:/)?\>)(?:[\s\S]*?)(?:\</(?:script)\>))|(?:\<!(?:[\w-]+)(?:\s+(?:[\w-]+|\"[\s\S]*?\"|\'[\s\S]*?\'))*\s*\>)|(?:\<!--[\s\S]*?--\>)|(?:\<(?:[\w-]+)(?:\s+(?:[\w-]+)(?:=(?:[^\s\>\<]*|\"[\s\S]*?\"|\'[\s\S]*?\'))?)*\s*(?:/)?\>)|(?:\</(?:[\w-]+)\>)|(?:\<!\[CDATA\[(?:[\s\S]*?)\]\]\>)|(?:(?:(?<blank>[ ]+)|[^ \<\>])+)

这个正则表达式虽然很长,但可不是我用手code出来的哦,是我写的程序产生的,代码如下:)
None.gif
None.gif
public static string ReplaceSpace(string content)
ExpandedBlockStart.gifContractedBlock.gif
dot.gif{
InBlock.gif
string tag = @"(?:[\w-:]+)";
InBlock.gif
string attribute = @"(?:[\w-:]+)(?:=(?:[^\s\>\<]*|\""[\s\S]*?\""|\'[\s\S]*?\'))?";
InBlock.gif
string name = @"(?:[\w-:]+)";
InBlock.gif
string argument = @"(?:[\w-:]+|\""[\s\S]*?\""|\'[\s\S]*?\')";
InBlock.gif
InBlock.gif
string beginningTag = @"(?:\<" + tag + @"(?:\s+" +attribute + @")*\s*(?:/)?\>)";
InBlock.gif
string endingTag = @"(?:\</" + tag + @"\>)";
InBlock.gif
string xmlComment = @"(?:\<!--[\s\S]*?--\>)";
InBlock.gif
string xmlDirective = @"(?:\<!" +name + @"(?:\s+" +argument + @")*\s*\>)";
InBlock.gif
string xmlCData = @"(?:\<!\[CDATA\[(?:[\s\S]*?)\]\]\>)";
InBlock.gif
string styleBlock = @"(?:(?:\<(?:Style)(?:\s+" +attribute + @")*\s*(?:/)?\>)(?:[\s\S]*?)(?:\</(?:Style)\>))";
InBlock.gif
string scriptBlock = @"(?:(?:\<(?:script)(?:\s+" +attribute + @")*\s*(?:/)?\>)(?:[\s\S]*?)(?:\</(?:script)\>))";
InBlock.gif
string xmlLiteral = @"(?:(?:(?<blank>[ ]+)|[^ \<\>])+)";
InBlock.gif
InBlock.gif
string pattern = styleBlock + "|" + scriptBlock + "|" + xmlDirective + "|" + xmlComment + "|" + beginningTag + "|" + endingTag + "|" + xmlCData + "|" + xmlLiteral;
InBlock.gif
InBlock.gif Regex r
= new Regex(pattern, RegexOptions.IgnoreCase | RegexOptions.Compiled);
InBlock.gif
InBlock.gif MatchCollection mc
= r.Matches(content);
InBlock.gif
InBlock.gif StringBuilder sb
= new StringBuilder(content.Length + 1024);
InBlock.gif
foreach (Match m in mc)
ExpandedSubBlockStart.gifContractedSubBlock.gif
dot.gif{
InBlock.gif
if (m.Groups["blank"].Captures.Count > 0)
ExpandedSubBlockStart.gifContractedSubBlock.gif
dot.gif{
InBlock.gif sb.Append(m.Value.Replace(
" ", "&nbsp;"));
ExpandedSubBlockEnd.gif }

InBlock.gif
else
ExpandedSubBlockStart.gifContractedSubBlock.gif
dot.gif{
InBlock.gif sb.Append(m.Value);
ExpandedSubBlockEnd.gif }

ExpandedSubBlockEnd.gif }

InBlock.gif
return sb.ToString();
ExpandedBlockEnd.gif }

None.gif



最后,再给个更长的(全长765)正则表达式,这个算是我写的最长的正则表达式了。其实上面给出的第一个Regex是下面这个的一个专用于捕获blank的简化版本。
虽 然长,但很有用,可以解析出整个XHTML/HTML页面的所有元素和结构来:)解析后的内容都分别保存在named groups中了,可以通过match.Groups["name"];来提取,比如match.Groups["tag"];match.Groups ["attribute"];match.Groups["Style_Block";match.Groups["XML_Comment"];等,感 兴趣的不妨试一试就知道了:)

(?#Copyright 2005, by Laser Lu.)(?<Style_Block>(?<begin>\<(?<tag>style)(?:\s+(?<attribute>[\w-:]+)(?:=(?<value>[^\s\>\<]*|\"[\s\S]*?\"|\'[\s\S]*?\'))?)*\s*(?:/)?\>)(?<body>[\s\S]*?)(?<end>\</\k<tag>\>))|(?<Script_Block>(?<begin>\<(?<tag>script)(?:\s+(?<attribute>[\w-:]+)(?:=(?<value>[^\s\>\<]*|\"[\s\S]*?\"|\'[\s\S]*?\'))?)*\s*(?:/)?\>)(?<body>[\s\S]*?)(?<end>\</\k<tag>\>))|(?<XML_Directive>\<!(?<name>[\w-:]+)(?:\s+(?<argument>[\w-:]+|\"[\s\S]*?\"|\'[\s\S]*?\'))*\s*\>)|(?<XML_Comment>\<!--[\s\S]*?--\>)|(?<Beginning_Tag>\<(?<tag>[\w-:]+)(?:\s+(?<attribute>[\w-:]+)(?:=(?<value>[^\s\>\<]*|\"[\s\S]*?\"|\'[\s\S]*?\'))?)*\s*(?:/)?\>)|(?<Ending_Tag>\</(?<tag>[\w-:]+)\>)|(?<XML_CDATA>\<!\[CDATA\[(?<data>[\s\S]*?)\]\]\>)|(?<XML_Literal>(?:(?<blank>[ ]+)|[^ \<\>])+)

关于以上的两个Regex的相关说明,应该说功能还是比较强大的了:
1。这两个正则表达式能够解析最好是HTML/XHTML格式,如果是其他格式的字符串,有可能会运行不正常;
2。支持识别的标记有:普通的HTML标记,<!--HTML注释-->,<!XML指令>,<![CDATA[ ... ]]>,标记或指令的标识符支持[a-zA-Z0-9_-:];
3。支持name=value和单独一个name的attribute,能够识别出""或''包括的属性值;
4。针对<style></style>和<script></script>标记包含的内容进行特殊处理,也就是所有的CSS和Script代码将原封不动的作为整体捕获。

转载于:https://www.cnblogs.com/junmorn/archive/2006/02/23/336552.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/300988.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

我用段子讲.NET之依赖注入(一)

我用段子讲.NET之依赖注入&#xff08;一&#xff09;1&#xff09;西城的某个人工湖畔&#xff0c;湖水清澈见底&#xff0c;湖畔柳树成荫。人工湖往北&#xff0c;坐落着两幢写字楼&#xff0c;水晶大厦靠近地铁站&#xff0c;由于为了与湖面天际线保持一致&#xff0c;楼层只…

.net core 嵌入 js(javascript)脚本引擎

漂亮的目录1、万能的脚本2、内部嵌入引擎方式3、调用NodeJs服务&#xff0c;与之通信方式结论1、万能的脚本折腾无止境&#xff0c;.net core 提供了更多的可能&#xff0c;今天我们就来看看脚本引擎。提起脚本&#xff0c;不得不说说Javascript——WEB互联网世界的一大半江山都…

用一个小球揭开地球的面纱,探索地球运转的秘密!

一个人一旦对某事物有了浓厚的兴趣&#xff0c;就会主动去求知、去探索、去实践&#xff0c;并在求知、探索、实践中产生愉快的情绪和体验。所以&#xff0c;古今中外的教育家无不重视兴趣在智力开发中的作用。小木之前推荐过一款AR地球仪&#xff0c;它是一个互动性强、内容丰…

Eclipse C++的配置问题launch failed binary not found

首先下载eclipse c 我的是64bit版本 安装好MinGW&#xff0c;并配置好环境变量&#xff0c;参考我的博客 http://www.cnblogs.com/fickleness/p/3273044.html 配置eclipse 选executable,选mingw gcc .按make toolchain(s) preferred.ok 配置好关闭eclipse 然后 1、安装minGW先 …

张善友: .NET社区运营 | 2021 中国开发者生态峰会

内容来源&#xff1a;2021 年 6 月 5 日&#xff0c;由 SegmentFault 思否主办的 2021 中国开发者生态峰会圆满落幕。会上&#xff0c; .NET基金会成员、资深.NET顾问和解决方案专家张善友发表了主题为《 .NET社区运营》的演讲&#xff0c;以社区工程师的角度分享了 .NET社区发…

到底要不要拯救地球?真·逻辑鬼才!| 今日最佳

全世界只有3.14 % 的人关注了青少年数学之旅真逻辑鬼才↓ ↓ ↓

从零实操基于WSL2 Docker部署Asp.Net Core项目

前言平日在公司里都是基于阿里Teambition中的飞流进行Docker部署Api项目或服务&#xff0c;已经习惯了那一套成熟的操作流程&#xff0c;开发和部署确实快捷方便&#xff0c;但是还没在自己的电脑上进行操作过&#xff0c;特别是Windows10开始已经有WSL、WSL2去年在笔记本上捣鼓…

linux启动xorg进程,Linux 黑话解释:Xorg,X11,Wayland,什么是显示服务器

原标题&#xff1a;Linux 黑话解释&#xff1a;Xorg&#xff0c;X11&#xff0c;Wayland&#xff0c;什么是显示服务器您是否想知道X Server&#xff0c;Xorg&#xff0c;X11&#xff0c;Wayland以及诸如此类的东西到底是什么&#xff1f;Wayland vs Xorg&#xff0c;哪个更好&…

有气质的人都在看什么?

全世界只有3.14 % 的人关注了青少年数学之旅王小波说&#xff1a;我活在世上&#xff0c;无非想要明白些道理&#xff0c;遇见些有趣的事&#xff0c;倘能如我所愿&#xff0c;我的一生就算成功。你的圈子将决定你的人生。每一位对事物都有着独特的态度让你成为一个有趣的人。今…

投影变换[转]

4. 投影变换 一个投影变换类似于选择一个透镜的焦距&#xff0c;它是三种变换中最复杂的一个。 4.1 视锥&#xff08;Viewing Frustum&#xff09; 4.2 什么是投影变换? 4.3 设置投影矩阵 4.4 一个“W-Friendly”投影矩阵 4.1 视锥视锥就是场景中的一个三维空间&#xff0c;…

那些把天聊死的神操作。。| 今日最佳

全世界只有3.14 % 的人关注了青少年数学之旅【1】【2】【3】【4】【5】【6】【7】【8】【9】【10】【11】【12】&#xff08;图源网络&#xff0c;侵权删&#xff09;有话请“直”说↓ ↓ ↓

SqlDataReader对象的NextResult方法读取存储过程多个结果集

如上图&#xff0c;我这里有返回4个记录集,分别表示 发送的总数&#xff0c;成功数&#xff0c;失败数&#xff0c;以及所有的记录集&#xff0c;那么我怎么去获取呢&#xff1f; 如果我第二个记录集 第三个记录集 都是多行的话&#xff0c;怎么办&#xff1f;可以参考下面这张…

全部换新-微软复兴.NET,C#10 .NET6 VS2022各个强势!

VS2022.NET6C#10一起体验是啥感觉&#xff1f;爽&#xff01;令人印象深刻的是VS2022打开超大项目的流畅&#xff0c;.NET6极致简化的MiniAPI框架&#xff0c;C#10各种炫酷新语法。看看下图的代码你能认识吗&#xff1f;来自MiniAPI框架&#xff0c;直接在MapGet里面使用Lambda…

linux 修复图形界面,图形界面操作的备份和恢复Linux发行版

原标题&#xff1a;图形界面操作的备份和恢复Linux发行版来自&#xff1a;Linux迷链接&#xff1a;https://www.linuxmi.com/redo-rescue-2-0-6-linux.html现在可以下载Redo Rescue 2.0.6备份和恢复Linux发行版&#xff0c;该发行版增加了各种改进和新功能以及常见的错误修复。…

汇编语言的Hello World

汇编语言的Hello World&#xff0c;汇编语言没有我想象的那么低级&#xff0c;它已经具备了不少高级语言的特性&#xff0c;代码也变得清晰&#xff0c;层次清楚&#xff0c;易于维护了。a.asm.386.model flat,stdcall includelib kernel32.lib includelib user32.lib MessageB…

一条线一万美元的故事误导了你多少年

全世界只有3.14 % 的人关注了青少年数学之旅福特公司请斯坦门茨检修电机&#xff0c;画一道线用了一万美元&#xff0c;这个几乎人尽皆知的故事告诉我们一个道理&#xff1a;知识就是财富。故事讲到这里就结束了&#xff0c;但实际上&#xff0c;故事还有下文……20世纪初&…

ylbtech-Model-Account(通用账户模块设计)

ylbtech-DatabaseDesgin:ylbtech-Model-Account(通用账户模块设计)ylbtech-Model-Account(通用账户模块设计) 1.A&#xff0c;数据库关系图(Database Diagram)1.B&#xff0c;数据库设计脚本(Database Design Script)-- -- 用户模块设计 -- 2013-8-24 -- author:yuanbo -- US…

祝大家圣诞节快乐

同时庆祝 JWFD 20周年

刘敏:优麒麟开源操作系统运营实践 | DEV. Together 2021 中国开发者生态峰会

内容来源&#xff1a;2021 年 6 月 5 日&#xff0c;由 SegmentFault 思否主办的 2021 中国开发者生态峰会圆满落幕。会上&#xff0c;优麒麟开源社区运营负责人刘敏发表了主题为《优麒麟开源操作系统运营实践》的演讲&#xff0c;从市场的角度去讲解了一些其他板块的知识。分享…

拖延的本质是逃避!| 今日最佳

全世界只有3.14 % 的人关注了青少年数学之旅&#xff08;图源网络&#xff0c;侵权删&#xff09;扎心了↓ ↓ ↓