python解析html的库_用python解析html

python中,有三个库可以解析html文本,HTMLParser,sgmllib,htmllib。他们的实现方法不通,但功能差不多。这三个库中 提供解析html的类都是基类,本身并不做具体的工作。他们在发现的元件后(如标签、注释、声名等),会调用相应的函数,这些函数必须重载,因为基类中不 作处理。

比如:

"""

Advice

The IETF admonishes:

Be strict in what you send.

"""

如果对这个数据做处理,当检测到标签时,对于HTMLParser,会调用handle_starttag函数。

下面具体介绍下几个库

1、HTMLParser

#------------------ HTMLParser_stack.py ------------------#

#-- coding: GBK --

import HTMLParser,sys,os,string

html = """

Advice

The IETF admonishes:

Be strict in what you send.

"""

tagstack = []

class ShowStructure(HTMLParser.HTMLParser):

def handle_starttag(self, tag, attrs): tagstack.append(tag)

def handle_endtag(self, tag): tagstack.pop()

def handle_data(self, data):

if data.strip():

for tag in tagstack: sys.stdout.write('/'+tag)

sys.stdout.write(' >> %s/n' % data[:40].strip())

ShowStructure().feed(html)

此函数的输出:

/html/body/p >> The

/html/body/p/a >> IETF admonishes:

/html/body/p/a/i >> Be strict in what you

/html/body/p/a/i/b >> send

/html/body/p/a/i >> .

对于一些网页,可能并没有严格的开始结束标签对,这时,我们可以去忽略一些标签。可以自己写个堆栈来处理这些标签。

#*--------------- TagStack class example -----------------#

class TagStack:

def __init__(self, lst=[]): self.lst = lst

def __getitem__(self, pos): return self.lst[pos]

def append(self, tag):

# Remove every paragraph-level tag if this is one

if tag.lower() in ('p','blockquote'):

self.lst = [t for t in self.lst

if t not in ('p','blockquote')]

self.lst.append(tag)

def pop(self, tag):

# "Pop" by tag from nearest pos, not only last item

self.lst.reverse()

try:

pos = self.lst.index(tag)

except ValueError:

raise HTMLParser.HTMLParseError, "Tag not on stack"

del self.lst[pos]

self.lst.reverse()

tagstack = TagStack()

HTMLParser有个bug,就是不能处理中文属性,比如说,如果网页里有这么一段:

那么解析到这一行时就会出错。

错误原因还是正则表达式惹的祸。

attrfind = re.compile(

r'/s*([a-zA-Z_][-.:a-zA-Z_0-9]*)(/s*=/s*'

r'(/'[^/']*/'|"[^"]*"|[-a-zA-Z0-9./,:;+*%?!&$/(/)_#=~@]*))?')

attrfind 没有匹配中文字符。

可以更改这个匹配已修正这个错误。sgmllib则不存在这种错误。

2、sgmllib

html格式为sgml格式的一个子集,所以sgml可以处理跟多的东西,下面通过一段代码来示例sgmllib的用法。

#------------------ HTMLParser_stack.py ------------------#

#-- coding: GBK --

import sgmllib,sys,os,string

html = """Advice

The IETF admonishes:

Be strict in what you send.

 我 

"""

os.chdir('d://python')

f=file('testboard.txt','r')

contest=f.read()

tagstack = []

class ShowStructure(sgmllib.SGMLParser):

def handle_starttag(self, tag, method,attrs): tagstack.append(tag)

def handle_endtag(self, tag): tagstack.pop()

def handle_data(self, data):

if data.strip():

for tag in tagstack: sys.stdout.write('/'+tag)

sys.stdout.write(' >> %s/n' % data[:40].strip())

def unknown_starttag(self,tag,attrs):

print 'start tag:'

def unknown_endtag(self,tag):

print 'end tag:'+tag+'>'

def start_lala(self,attr):

print 'lala tag found'

ShowStructure().feed(html)

输出:

start tag:

start tag:

/lala >> Advice

end tag:

end tag:

start tag:

start tag:

/lala >> The

start tag:

/lala >> IETF admonishes:

start tag:

/lala >> Be strict in what you

start tag:

/lala >> send

end tag:

/lala >> .

end tag:

end tag:

end tag:

start tag:

start tag:

/lala >> ϒ

start tag:

end tag:

end tag:

end tag:

和HTMLParser一样,如果要用sgmllib解析html,则要继承sgmllib.SGMLParser类,此类里的函数都是空的,用户需要重载它。这个类提供的功能是在特定情况下调用相应的函数。

比如当发现标签时,如果并没有定义 start_html(self,attr)函数,则会调用unknown_starttag函数,具体怎么处理则更具用户。

sgml的标签是可以自定义的,比如自己定义了一个start_lala函数,则就会处理标签。

个地方要说明下,如果定义了start_tagname函数,有定义了handle_starttag函数,则函数只会运行

handle_starttag函数,start_tagname为空函数都没有问题,如果没有定义handle_starttag函数,则遇

到标签时,会运行start_tagname函数。如果没有定义tagname的start函数,则此标签为未知标签,调

用unknown_starttag函数

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/437163.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【转】3.1(译)构建Async同步基元,Part 1 AsyncManualResetEvent

传送门:异步编程系列目录…… 最近在学习.NET4.5关于“并行任务”的使用。“并行任务”有自己的同步机制,没有显示给出类似如旧版本的:事件等待句柄、信号量、lock、ReaderWriterLock……等同步基元对象,但我们可以沿溪这一编程习…

java异或_JAVA面试必备之HashMap必会点

今天我们就面试会问到关于HashMap的问题进行一个汇总,以及对这些问题进行解答。1、HashMap的数据结构是什么?2、为啥是线程不安全的?3、Hash算法是怎样实现的?4、HashMap是如何处理Hash碰撞的?5、增加元素的方法是怎么…

【编译原理】什么是AST?

自己写的确实没有别人写的好,所以在此推荐以下内容供参考: 抽象语法树—百度百科 AST系列(一): 抽象语法树为什么抽象 编程语言的实现,从AST(抽象语法树)开始 知乎话题-抽象语法树

【转】3.2(译)构建Async同步基元,Part 2 AsyncAutoResetEvent

传送门:异步编程系列目录…… 最近在学习.NET4.5关于“并行任务”的使用。“并行任务”有自己的同步机制,没有显示给出类似如旧版本的:事件等待句柄、信号量、lock、ReaderWriterLock……等同步基元对象,但我们可以沿溪这一编程习…

对分查找的最多次数_「剑指offer题解」数组中出现次数超过一半的数字

关注我——个人公众号:后端技术漫谈我目前是一名后端开发工程师。主要关注后端开发,数据安全,网络爬虫,物联网,边缘计算等方向。原创博客主要内容Java知识点复习全手册Leetcode算法题解析剑指offer算法题解析SpringClo…

【编译原理】学习LUA

前言 先了解一下什么是LUA: LUA官网:LUA官网 LUA介绍:LUA-百度百科 LUA教程:LUA教程-菜鸟教程 深入LUA 想要深入LUA,只有一个办法,就是看源码,下面是地址: https://github.com/l…

【转】3.3(译)构建Async同步基元,Part 3 AsyncCountdownEvent

传送门:异步编程系列目录…… 最近在学习.NET4.5关于“并行任务”的使用。“并行任务”有自己的同步机制,没有显示给出类似如旧版本的:事件等待句柄、信号量、lock、ReaderWriterLock……等同步基元对象,但我们可以沿溪这一编程习…

rabbitmq导出队列_消息队列BCMQ在大云运维管理平台BCDeepWatch中的应用

友情提示:全文约2600字,预计阅读时间12分钟摘要消息队列作为重要的中间件,广泛用于分布式系统中各子系统间的异步解耦;本文主要介绍了大云消息队列中间件BC-MQ在BC-DeepWatch中的应用案例。一、消息队列应用场景简介消息队列是分布…

【编译原理】如何编写BNF?

此篇文章承接上一篇:【编译原理】理解BNF 前言 理解了BNF,就能实现代码解析了吗?还有点早,因为理解了BNF,还要会写BNF。实际上,BNF实现有固定的模式,也有现成的工具,比如可以使用ya…

【转】3.4(译)构建Async同步基元,Part 4 AsyncBarrier

传送门:异步编程系列目录…… 最近在学习.NET4.5关于“并行任务”的使用。“并行任务”有自己的同步机制,没有显示给出类似如旧版本的:事件等待句柄、信号量、lock、ReaderWriterLock……等同步基元对象,但我们可以沿溪这一编程习…

python语言中百分号是什么意思_Python中%是什么意思?python中百分号如何使用?...

常见的两种第一种:数值运算 1 % 3 是指模运算, 取余数(remainder)>>> 7%21# -*- coding: utf-8 -*-python读取文件,偶数行输出一个文件,奇数行输出一个文件def fenhang(infile,outfile,outfile1):infopen open(infile,r,encodingut…

【编译原理】如何根据EBNF编写代码?

此篇文章承接上一篇:【编译原理】如何编写BNF? 我们知道,完整的编译过程总体大概需要经历六个阶段: 词法分析->语法分析->语义分析->中间代码生成->代码优化->目标代码生成 EBNF是位于词法分析阶段涉及的技术。 要…

【转】3.5(译)构建Async同步基元,Part 5 AsyncSemaphore

传送门:异步编程系列目录…… 最近在学习.NET4.5关于“并行任务”的使用。“并行任务”有自己的同步机制,没有显示给出类似如旧版本的:事件等待句柄、信号量、lock、ReaderWriterLock……等同步基元对象,但我们可以沿溪这一编程习…

python利用写模块_使用C++编写python扩展模块

简介长话短说,这里说的扩展Python功能与直接用其它语言写一个动态链接库,然后让Python来调用有点不一样(虽然本质是一样的)。而是指使用Python本身提供的API,使用C来对Python进行功能性扩展,可以这样理解,使用更高效的…

【编译原理】词法分析程序设计

概述 词法分析即对程序源码进行分词处理,分词处理就是把文本流分割成一个又一个符号。分词处理的输入输出是什么呢? 输入是源码字符串流输出是: 整型的类型枚举值,表示符号类型,如字符串;符号内容信息&…

【转】3.6(译)构建Async同步基元,Part 6 AsyncLock

传送门:异步编程系列目录…… 最近在学习.NET4.5关于“并行任务”的使用。“并行任务”有自己的同步机制,没有显示给出类似如旧版本的:事件等待句柄、信号量、lock、ReaderWriterLock……等同步基元对象,但我们可以沿溪这一编程习…

python 当前时间减一个月_python排序了解一下

排序是每个开发人员都需要掌握的技能。排序是对程序本身有一个全面的理解。不同的排序算法很好地展示了算法设计上如何强烈的影响程序的复杂度、运行速度和效率。今天的文章和谈谈大家都熟悉的各种排序使用 Python 如何实现,废话就不多说啦,开干&#xf…

开发与重构

软件开发过程主要追求的是高效、易于维护。 高效开发体现了代码的复用率即开发效率,是为了缩短开发周期。 易于维护体现了代码的重构效率,是为了缩短维护周期。 编程语言,从C到C,实现了从函数复用,到类复用。其实编程…

【转】3.7(译)构建Async同步基元,Part 7 AsyncReaderWriterLock

传送门:异步编程系列目录…… 最近在学习.NET4.5关于“并行任务”的使用。“并行任务”有自己的同步机制,没有显示给出类似如旧版本的:事件等待句柄、信号量、lock、ReaderWriterLock……等同步基元对象,但我们可以沿溪这一编程习…

面向对象软件开发代码结构(1)

类内部结构 类内部架构实际上是一个小型的状态机,成员变量是状态变量,成员函数是处理机。一般提倡一个类实现一种特定的功能,这样可以降低实现的复杂性,状态机越简单,越利于实现。 实例间通信 软件的功能是多个模块…