使用HtmlParser解析HTML

如果要对HTML进行解析,提取HTML的数据或者修改HTML数据,HtmlParser是一个不错的选择.
使用HtmlParser可以解析本地和网络上的HTML数据:
Parser parser = new Parser( new Winista.Text.HtmlParser.Http.HttpProtocol(new Uri("uriString")));

Parser parser 
= new Parser( new Winista.Text.HtmlParser.Lex.Lexer( "HtmlString" ) );

System.IO.Stream stream 
= new System.IO.FileStream( "filePath" , System.IO.FileMode.Open );
Parser parser 
= new Parser( new Winista.Text.HtmlParser.Lex.Lexer( new Winista.Text.HtmlParser.Lex.Page( stream ,"charSet") ) );
还可以分析某些特定节点的数据,使用 NodeClassFilter 指定要分析的节点类型:
NodeFilter filter = new NodeClassFilter( typeof( Winista.Text.HtmlParser.Tags.Div ) );
使用Parser实例的Parse方法可以获得节点数组
NodeList nodeList = parser.Parse( null );

NodeList nodeList 
= parser.Parse( filter);
现在分析一下的一段HTML:
<div class="divCss" id="div_1">
    
<div name="div" class="divCss" id="div_2">div_2</div>
    
<table name="table" id="table_1">
        
<tr>
            
<td>HtmlParser</td>
            
<td><div id="div_3"><font color="red">HtmlParser</font></div></td>
        
</tr>
    
</table>
</div>

txtResult是显示分析处理后的数据,txtSource是读取HTML数据的文本框
//记录个节点的起始位置,避免重复处理
    IList<int> start = new List<int>( );
    
protected void Button1_Click ( object sender , EventArgs e )
ExpandedBlockStart.gifContractedBlock.gif    
{
        
this.txtResult.Text = string.Empty;
        Lexer lexer 
= new Lexer( this.txtSource.Text );
        Parser parser 
= new Parser( lexer );
        NodeFilter filter 
= new NodeClassFilter( typeof( Winista.Text.HtmlParser.Tags.Div ) );
        NodeList nodeList 
= parser.Parse( null );
        
if ( nodeList.Count == 0 )
            txtResult.Text 
= "没有符合要求的节点";
        
else
ExpandedSubBlockStart.gifContractedSubBlock.gif        
{
            
for ( int i = 0 ; i < nodeList.Count ; i++ )
ExpandedSubBlockStart.gifContractedSubBlock.gif            
{
                paserData( nodeList[i] );
            }

        }

    }

    
private ITag getTag ( INode node )
ExpandedBlockStart.gifContractedBlock.gif    
{
        
if ( node == null )
            
return null;
       return 
 node is ITag  ? node as ITag :  null;
    }


    
private void paserData ( INode node)
ExpandedBlockStart.gifContractedBlock.gif    
{
        ITag tag 
= getTag( node );
        
if ( tag != null && !tag.IsEndTag( ) && !start.Contains(tag.StartPosition))
ExpandedSubBlockStart.gifContractedSubBlock.gif        
{
            
object oId = tag.GetAttribute( "ID" );
            
object oName = tag.GetAttribute( "name" );
            
object oClass = tag.GetAttribute( "class" );
            
this.txtResult.Text += tag.TagName + ":\r\nID:" + oId + " Name:" + oName
                   
+ " Class:" + oClass + " StartPosition:" + tag.StartPosition.ToString( ) + "\r\n";
            start.Add( tag.StartPosition );
        }

        
//子节点
        if ( node.Children != null && node.Children.Count > 0 )
ExpandedSubBlockStart.gifContractedSubBlock.gif        
{
            paserData( node.FirstChild );
        }

        
//兄弟节点
        INode siblingNode = node.NextSibling;
        
while ( siblingNode != null )
ExpandedSubBlockStart.gifContractedSubBlock.gif        
{
            paserData( siblingNode );
            siblingNode 
= siblingNode.NextSibling;
        }

    }
txtResult显示的数据为:
DIV:
ID:div_1 Name: Class:divCss StartPosition:0
DIV:
ID:div_2 Name:div Class:divCss StartPosition:34
TABLE:
ID:table_1 Name:table Class: StartPosition:90
TR:
ID: Name: Class: StartPosition:127
TD:
ID: Name: Class: StartPosition:136
TD:
ID: Name: Class: StartPosition:160
DIV:
ID:div_3 Name: Class: StartPosition:164
FONT:
ID: Name: Class: StartPosition:180
HtmlParser将我们指定的数据给分析出来了,现在来对要分析的数据进行一些修改:给没有name和class属性的指定属性:
           object oId = tag.GetAttribute( "ID" );
            
object oName = tag.GetAttribute( "name" );
            
object oClass = tag.GetAttribute( "class" );

            
if ( oName == null )
ExpandedBlockStart.gifContractedBlock.gif            
{
                oName 
= "name";
                tag.SetAttribute( 
"name" , oName.ToString( ) );
            }

            
if ( oClass == null )
ExpandedBlockStart.gifContractedBlock.gif            
{
                oClass 
= "class";
                tag.SetAttribute( 
"name" , oClass.ToString( ) );
            }

            
this.txtResult.Text += tag.TagName + ":\r\nID:" + oId + " Name:" + oName
                   
+ " Class:" + oClass + " StartPosition:" + tag.StartPosition.ToString( ) + "\r\n";
            start.Add( tag.StartPosition );
txtResult显示的数据为:
DIV:
ID:div_1 Name:name Class:divCss StartPosition:0
DIV:
ID:div_2 Name:div Class:divCss StartPosition:34
TABLE:
ID:table_1 Name:table Class:class StartPosition:90
TR:
ID: Name:name Class:class StartPosition:127
TD:
ID: Name:name Class:class StartPosition:136
TD:
ID: Name:name Class:class StartPosition:160
DIV:
ID:div_3 Name:name Class:class StartPosition:164
FONT:
ID: Name:name Class:class StartPosition:180
HtmlParser实现了我们的目的,现在在给节点为DIV并且ID为div_3的节点添加一个子节点:
            object oId = tag.GetAttribute( "ID" );
            
object oName = tag.GetAttribute( "name" );
            
object oClass = tag.GetAttribute( "class" );
            
if ( tag.TagName == "DIV" && tag.GetAttribute( "ID" ) == "div_3" )
ExpandedBlockStart.gifContractedBlock.gif            
{
                INode newNode 
= new TextNode( "add a new node" );
                tag.Children.Add( newNode );
            }

            
this.txtResult.Text += tag.TagName + ":\r\nID:" + oId + " Name:" + oName
                   
+ " Class:" + oClass + " StartPosition:" + tag.StartPosition.ToString( ) + "\r\n";
输出nodeList[0].ToHtml( ):
<div class="divCss" id="div_1">
    
<div name="div" class="divCss" id="div_2">div_2</div>
    
<table name="table" id="table_1">
        
<tr>
            
<td>HtmlParser</td>
            
<td><div id="div_3"><font color="red">HtmlParser</font>add a new node</div></td>
        
</tr>
    
</table>
</div>
id为div_3的div节点后面加上了要添加的数据.

转载于:https://www.cnblogs.com/amityat/archive/2009/12/21/1628847.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/435701.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【转】VScode快捷键(超无敌详细版)

转自&#xff1a;VScode快捷键(超无敌详细版)_但行好事&#xff0c;莫问前程-CSDN博客 通用快捷键&#xff1a; 快捷键作用CtrlShiftP,F1展示全局命令面板CtrlP快速打开最近打开的文件CtrlShiftN打开新的编辑窗口CtrlShiftW关闭编辑器 基础编辑快捷键&#xff1a; 快捷键作用…

WinCE中得Catalog Items前的标记图标的意义总结

先看下来自微软对Platform Builder里的图标解释&#xff0c;在以后的CE里&#xff0c;也类似。 The Catalog window and the OSDesignView tab contain a number of icons used to represent object types. The icons make it possible for you to differentiate between Catal…

JavaScript 图片上传预览效果

图片上传预览是一种在图片上传之前对图片进行本地预览的技术。 使用户选择图片后能立即查看图片&#xff0c;而不需上传服务器&#xff0c;提高用户体验。 但随着浏览器安全性的提高&#xff0c;要实现图片上传预览也越来越困难。 不过群众的智慧是无限的&#xff0c;网上已经有…

【转】GigE Vision简介

转自&#xff1a;GigE Vision简介_计算机视觉小菜鸟的专栏-CSDN博客_gige vision GigE Vision是由AIA制定的通信协议&#xff0c;用来实现在机器视觉领域利用千兆以太网接口进行图像的高速传输。该标准是基于UDP协议&#xff0c;与普通网络数据包不同之处在于应用层协议&#…

如果C++程序要调用已经被编译后的C函数,该怎么办?

C语言支持函数重载&#xff0c;C 语言不支持函数重载。函数被C编译后在库中的名字 与C 语言的不同。假设某个C函数的声明如下&#xff1a; void foo(int x, int y); 该函数被C编译器编译后在库中的名字为_foo&#xff0c;而C编译器则会产生像_foo_int_int之类的名字用来支持函数…

在Sql Server 2005使用公用表表达式CTE简化复杂的查询语句

公用表表达式CTE是Sql Server 2005引入的一种新的表表达式。CTE在许多方面都类似于派生表。逻辑上CTE是一个临时结果集&#xff0c;它仅仅存在于它发生的语句中。您可以在SELECT、INSERT、DELETE、UPDATE或CTEATE VIEW语句中建立一个CTE。 CTE的优点 与派生表不同&#xff0c;C…

【转】搞机:window10安装Linux子系统(WSL)及迁移到非系统盘

转自&#xff1a;搞机&#xff1a;window10安装Linux子系统&#xff08;WSL&#xff09;及迁移到非系统盘_泛泛之素-CSDN博客_wsl移动到非系统盘 痛点&#xff1a; 在电脑上想要使用linux又想使用windows系统只能安装双系统&#xff0c;因为虚拟机的性能差且使用麻烦&#xf…

关键字static、const、volatile的作用

关键字static的作用是什么&#xff1f; 这个简单的问题很少有人能回答完全。在C语言中&#xff0c;关键字static有三个明显的作用&#xff1a; 1、在函数体&#xff0c;一个被声明为静态的变量在这一函数被调用过程中维持其值不变。 2、 在模块内&#xff08;但在函数体外&…

IE8中解决Cell华表插件不显示方法!

最近一不小心更新了IE&#xff0c;从IE7一跃变成了IE8用户&#xff0c;但网上目前对IE8的评价不是很好&#xff0c;有很多东西不兼容&#xff0c;尤其是在IE7下开发的系统不兼容的地方还是存在的。就Cell来说也是一样的&#xff0c;调试好久&#xff0c;虽然没找到原回&#xf…

【转】CMake Error: The current CMakeCache.txt directory CMakeCache.txt is different than the directory

转自&#xff1a;CMake Error: The current CMakeCache.txt directory is different..._万俟淋曦的进击手记-CSDN博客 零、问题描述 开始学ROS时&#xff0c;需要编译别人的功能包&#xff0c;常常把别人的工作空间拿过来使用&#xff0c;但编译时会出现各种错误&#xff0c;如…

WinCE 5.0 WIFI 无线网卡的配置和建立连接(转)

From&#xff1a;http://blog.csdn.net/xajhuang/archive/2008/12/02/3419512.aspx 在 Windows CE 下自带有无线网卡的配置和连接程序&#xff0c;可是我的系统剪裁掉了资源管理器和任务栏&#xff0c;导致自带的无线网卡配置程序不能再使用了&#xff0c;只好自力更生。 我的…

【转】Qt所有的类

转自&#xff1a;Qt所有的类 - IT观察者 - 博客园 QAccel处理键盘加速器和快捷键Handles keyboard accelerator and shortcut keysQAccessibleEnums与可达性的静态函数Enums and static functions relating to accessibilityQAccessibleInterface定义一个接口&#xff0c;该接…

异步调用与多线程

异步调用并不是要减少线程的开销, 它的主要目的是让调用方法的主线程不需要同步等待在这个函数调用上, 从而可以让主线程继续执行它下面的代码.与此同时, 系统会通过从ThreadPool中取一个线程来执行,帮助我们将我们要写/读的数据发送到网卡.由于不需要我们等待, 我们等于同时做…

【转】DPDK(一):专业术语

转自&#xff1a;DPDK&#xff08;一&#xff09;&#xff1a;专业术语 - 小蚂蚁_CYJ - 博客园 一&#xff1a;简介 1、术语 EAL&#xff1a;Environment Abstraction Layer LPM&#xff1a;Longest Prefix Match IOVA-contiguous&#xff1a; VFIO&#xff1a;VFIO是一个可以…

wince2秒快速启动TOC分析

为什么29M的wince内核nk.nb0文件在2秒钟就能快速启动&#xff0c;如果你用汇编设计一个从NAND单纯拷贝29M nk.nb0的快速程序&#xff0c;你会发现用200MFCLK的2410或者用400MFCLK的2440都至少需要十几秒&#xff0c;那为什么ce能够启动这么快呢&#xff0c;有什么加速算法吗&am…

插座上的Linux充电器.不..Marvell Plug Computer

一直以来&#xff0c;台式机都有变小的趋势&#xff0c;于是变成了一体机&#xff0c;主机也有变小的趋势&#xff0c;那样可以占用更小的空间&#xff0c;却提供一样的功 能&#xff0c;Marvell Plug Computer 3.0 同样是那种壁插式主机&#xff0c;身形小巧&#xff0c;能够直…

【转】tftp命令详解

转自&#xff1a;tftp命令详解 - 张大猛 - 博客园 介绍一个 FTP客户端-IIS7服务器管理工具 作为FTP客户端&#xff0c;它支持批量管理ftp站点。定时上传和定时下载&#xff0c;定时备份&#xff0c;且操作简洁。同时iis7服务器管理工具还是vnc客户端。并且支持批量管理管理…

对Multi-bin 技术的理解

[bin文件的格式]&#xff1a; Bin文件格式比较简单.结构如下&#xff1a; struct BinFile { BYTE signature[7]; //前面7个字节是标志, 固定的{‘B’,‘0’,‘0’,‘0’,‘F’,‘F’,‘\a’}. DWORD ImageStart; //Image Start表示image的开始地址 DWORD ImageLength; …

关于C#程序调用AMFPHP服务的问题!!

我想实现的功能是实现一个c# winform客户端&#xff08;web也行&#xff09;&#xff0c;与php服务器以amf3格式通信&#xff0c;其实就是模拟flex与php通信的机制&#xff0c;这方面资料真的太少了&#xff0c;不知道该怎么实现&#xff0c;求帮助&#xff0c;谢谢&#xff01…

【转】总结_C++日志系统log4cxx使用

转自&#xff1a;总结_C日志系统log4cxx使用_OneByOne-CSDN博客_log4cxx C日志系统log4cxx使用总结 参考连接: log4CXX第二篇---配置文件&#xff08;properties文件&#xff09;详解_crazyhacking的专栏-CSDN博客 C日志系统log4cxx使用总结_邵明_新浪博客 一、log4cxx组件…