c 正则提取html,c – 正则表达式以获取HTML表格内容

确实没有可能的正则表达式解决方案适用于任意数量的表数据,并将每个单元格放入单独的后向引用中.这是因为通过反向引用,您需要为要创建的每个backref创建一个独特的开放式窗口,并且您不知道自己有多少个单元格.

使用一种或另一种循环来提取数据没有任何问题.例如,在最后一个,在Perl中,这将是这个,因为$tr已经包含你需要的行:

@td = ( $tr =~ m{

(.*?)}sg );

现在$td [0]将包含第一个< td>,$td [1]将包含第二个,等等.如果你想要一个二维数组,你可以将它包装在这样的循环中以填充新的@cells变量:

our $table; # assume has full table in it

my @cells;

while(my($tr) =~ $table = m{

(.*?)}sg) {

push @cells, [ $tr =~ m{

(.*?)}sg ];

}

现在你可以进行二维寻址,允许$cells [0] [0]等.外部显式循环一次处理一行,内部隐式循环拉出所有单元格.

这将适用于您展示的固定样本数据.如果这对你来说足够好,那就太好了.使用它并继续前进.

什么可能是错的?

但是,关于数据内容的模式实际上有很多假设,我不知道你知道的.首先,请注意我是如何使用/ s以便它不会卡在换行符上的.

但主要问题是最小匹配并不总是你想要的.至少,不是一般情况.有时它们并不像你想象的那么小,匹配的比你想要的多,有时它们只是不够匹配.

例如,像< i>(.*?)< / i>的模式.如果字符串是:将获得比你想要的更多:

foobarness

因为您最终会匹配字符串< i> foo< i> bar< / i>.

另一个常见问题(不包括不常见的问题)是像< tag.*?>这样的模式.可能匹配得太少,比如

>more

现在,如果您使用简单的< img.*?>在那,你只会捕获< img alt =“>,这当然是错误的.

我认为最后一个主要问题是你必须完全忽略解析中的某些事情.这个嵌入式注释的最简单的演示(也是< script>,< style>和CDATA`),因为你可以有类似的东西

some stuff

这会甩掉像< i>(.*?)< / i>这样的东西.

当然,有很多方法可以解决这些问题.一旦你这样做了,这真的是相当多的努力,你会发现你已经构建了一个真正的解析器,完全有很多辅助逻辑,而不仅仅是一个模式.

即便如此,您只处理格式良好的输入字符串.错误恢复和轻柔失败是一种完全不同的艺术.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/288286.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(五)python3 只需3小时带你轻松入门—— 逻辑运算符

如果if判断中存在多个表达式判断&#xff0c;需要使用逻辑运算符。 例如有一个变量a&#xff0c;需要判断是否在1到5之间&#xff0c;那么则需要判断a是否大于1且a小于5。这个时候需要使用and逻辑运算符进行判断。 and python中使用and判断左右两边表达式是同时正确&#xff0c…

[linux]unixODBC的安装配置说明

什么是unixODBC&#xff1a; ODBC(Open Database Connect)是由Microsoft 公司于1991 年提出的一个开放的&#xff0c;用于访问数据库的统一接口规范。 unixODBC的是为非Window平台的系统实现ODBC规范接口的中间件。 unixODBC的安装 有GUI的用户可以使用ODBCConfig tool 安装。教…

linux之systemctl设置自定义服务

1 问题 在linux系统上设置自定义服务,或者让我的服务开机就运行起来,比如我们就以tomcat服务为例子 /usr/local/tomcat/bin/startup.sh 启动tomcat的脚本/usr/local/tomcat/bin/shutdown.sh 关闭tomcat的脚本/usr/local/tomcat/bin/restart.sh 重启tomcat的脚本 2 解决方法 …

ASP.NET MVC入门(一)---MVC的Hello World

简单的MVC Hello world,着重处理Controller。 Step1 创建一个Asp.Net MVC 5项目打开Visual studio 2013 点“文件”->新建->项目。

for循环批量写文件 shell_shell脚本:for循环批量重命名带空格文件名的文件

今天在学习shell脚本攻略第二章2.13 批量重命名和移动时,由于我的文件命令有的文件名字中出现空格,出现了许多问题,因此将解决问题的过程记录了下来,希望能够和大家交流学习,共同进步,谢谢!问题代码问题代码最终成功代码最终代码步骤一思路: 由于在shell中运行此脚本时,发现将找…

HDU 4864 Task(贪心或高斯消元)

题意&#xff1a;n台机器工作时间为ai,等级bi,m个任务需要时间ai&#xff0c;等级bi,一台机器只能完成一个任务&#xff0c;完成一个任务收益为500*ai2*bi,求最大收益&#xff1b;(n,m>100000) 思路&#xff1a;先从大到小排时间&#xff0c;再从大到小排等级&#xff0c;借…

android模拟器无法拍照,为什么dafault相机无法在android模拟器中工作?

当我试图打开摄像头应用程序在模拟器defaultly给出&#xff0c;它意外停止和logcat的显示为什么dafault相机无法在android模拟器中工作&#xff1f;02-08 11:18:35.005: INFO/ActivityManager(83): Starting activity: Intent {act android.intent.action.MAIN cat[android.int…

nginx作为tcp代理 虚拟主机配置 模板

# tcp协议虚拟主机的配置文件模板 # cat /usr/local/nginx/conf/tcp/tcp.test.com.conf user nginx; worker_processes auto; worker_rlimit_nofile 102400;error_log /data0/log/tcp.test.com.error.log info;events {use epoll;worker_connections 25600; }http {includ…

(四)python3 只需3小时带你轻松入门—— 流程控制

缩进 python中使用缩进代表代码块&#xff1b;每一个块代表一个层次&#xff08;分支&#xff09;&#xff0c;每个单独的分支是独立的&#xff0c;但是从整体逻辑上又是相融的&#xff1b;就像一本书一样&#xff0c;每个知识点是独立的&#xff0c;但是每个知识点组成了这本书…

ASP.NET Core 正确获取查询字符串参数

前言有网友在交流群中询问&#xff0c;如何获取查询字符串参数&#xff1a;默认情况下&#xff0c;ASP.NET Core 的模型绑定以键值对的形式从 HTTP 请求中的以下列表中指示的顺序扫描源并获取数据&#xff1a;表单域请求正文路由数据查询字符串参数上传的文件因此&#xff0c;不…

poj 1318

http://poj.org/problem?id1318 这个题目还是比较水的&#xff0c;不过也可以提升你对字符串的熟悉度以及对一些排序函数和字符函数的使用。 大概的题意就是给你一个字典&#xff0c;这个字典有一些单词&#xff0c;先对这些单词排好序&#xff0c;然后再给你一串字母&#xf…

C语言之#和##和__VA_ARGS__和##__VA_ARGS__

1、问题 看到代码宏里面很多##__VA_ARGS__不知道什么意思 2、直接写测试代码 #include <stdio.h>#define my_printf(x) printf(#x" is %d\n", x) #define my_printf1(x) printf("value is %d\n", x##x) #define my_printf2(...) printf(__VA_ARGS_…

ASP.NET MVC入门(二)---MVC数据传递

先来看一个简单的从Model到View传递数据的例子。 1、Model 在Models文件夹下新建一个类: using System; using System.Collections.Generic; using System.Linq; using System.Web;namespace Demo02_MVC数据传递.Models {public class Man{public string name { get; set; }p…

(三)python3 只需3小时带你轻松入门—— 变量的简单运算

变量运算 在编程时&#xff0c;需要对数据进行计算&#xff0c;计算的形式不限于&#xff1a;字符串拼接、相加减、相乘除及普遍的数学运算、剔除或指定剔除、添加或指定添加等。 在python中&#xff1a; *表示乘法/表示除法表示加法-表示减法 a,b10,11 cog3 j2 print(ca)#加…

安川伺服总线通讯方式_MⅢ总线特点 安川伺服选型与应用案例

MⅢ总线特点 安川伺服选型与应用案例的详细描述&#xff1a;MⅢ总线特点 安川伺服选型与应用案例降低系统成本在MECHATROLINK-Ⅲ中&#xff0c;可连接62个站点&#xff0c;从而大幅度降低系统的配线费用与时间。与过程控制、工厂自动化领域中的连接端子和电缆配套使用&#xff…

使用XMLConfiguration解析xml,properties等相应信息

org.apache.commons.configuration.XMLConfiguration; Apache Common-Configuration工具可以从Properties文件&#xff0c;XML文件,JNDI,JDBC数据源&#xff0c;System Properties,Applet parameters,Servlet Parameters等读取相应信息 使用步骤 前提&#xff0c;引入commons-c…

[家里蹲大学数学杂志]第405期中国科学院数学与系统科学研究院2015年夏令营分析与代数试题...

该试卷分两部分: 分析 $5$ 题 (共 $50$ 分), 代数 $5$ 题 (共 $50$ 分). 考试时间: $120$ 分钟 1. ($10$) 对哪些实数 $\al$, 级数 $\dps{\vsm{n}\sex{\frac{1}{n}-\sin \frac{1}{n}}^\al}$ 收敛? 2. ($6$) 设 $y$ 是 $[0,1]$ 上 $C^1$ 光滑实函数, 满足方程 $$\bex y(x)y(x)-…

html文本框整数范围,验证HTML表单文本框中的数值范围。 PHP或Javascript

重要的是要提的&#xff0c;你的$卷&#xff0c;$增益&#xff0c;$高音&#xff0c;$中&#xff0c;$低音永远实际上是空的&#xff0c;因为除了$ _POST值之外&#xff0c;你还为它们分配了一个字符串。另外&#xff0c;在尝试使用它们之前&#xff0c;您应该始终检查$ _POST值…

SVN之如何添加默认.a文件

1 问题 SVN之如何添加默认.a文件 2 解决办法 我们安装了tortoiseSVN&#xff0c;点击鼠标右键&#xff0c;然后点解Settings,然后点击按钮 “edit”,然后会打开一个conf文件 我们找到[auto-props]&#xff0c;然后在[auto-props]上面添加 global-ignores *.o *.lo *.la *.…

ASP.NET MVC入门---实例演示:通过ContentResult实现主题定制

实例演示:通过ContentResult实现主题定制 由于可以通过ContentResult的ContentType属性指定媒体类型,所以我们不仅仅可以利用它来返回最终会在浏览器中显示的文本,还可以返回其他一些类型的文本内容,比如JavaScript脚本(“text/javascript”)和CSS样式(“text/css”)等…