动手写的Python的HTML语法分析器(面向对象)

动手写的Python的HTML语法分析器(面向对象)

主要包括4个文件,util.py文件主要负责截取每个块。

rules.py文件定义两个类,超类Rule和分别对应的子类,子类定义了不同的划分块的要求,子类包换action函数,调用handler处理

handlers.py定义了处理类,超类定义了方法,子类通过名字调用

markup.py定义了超类parser,定义了子类basicTextParser,超类主要负责创造过滤器,添加规则,对每个块执行处理。

#handler.py
#
-*- coding: cp936 -*-
class Handler:
"""
处理从parser调用的方法对象

这个解析器会在每个块的开始部分调用start()和end()方法,使用合适的块名作为参数。sub()会用于
正则表达式替换中,当使用了'emphasis'这样的名字调用时,它会返回核实的替换函数
"""
def callback(self,prefix,name , *args):
method = getattr(self , prefix + name , None)
if callable(method):return method(*args)
def start(self ,name):
self.callback('start_',name)
def end(self,name):
self.callback('end_' ,name)
def sub(self,name):
def substitution(match):
result = self.callback('sub_', name,match)
if result is None:
result = match.group(1)
return result
return substitution
class HTMLRenderer(Handler):
"""
用于生成HTML的具体处理程序
类中所有的方法都可以通过超类处理程序的START()、end()、sub()方法来访问,他们实现了HTML的基本标签
"""
def start_document(self):
print '<html><head><title>...</title></head><body>'
def end_document(self):
print '</body></html>'
def start_paragraph(self):
print '<p>'
def end_paragraph(self):
print '</p>'
def start_heading(self):
print '<h2>'
def end_heading(self):
print '<h2>'
def start_list(self):
print '<ul>'
def end_list(self):
print '</ul>'
def start_listitem(self):
print '<li>'
def end_listitem(self):
print '</li>'
def start_title(self):
print '<h1>'
def end_title(self):
print '</h1>'
def sub_emphasis(self,match):
return '<em>%s<em>' % match.group(1)
def sub_url(self ,match):
return '<a href="%s">%s</a>' % (match.group(1),match.group(1))
def sub_mail(self,match):
return '<a href="mailto:%s">%s</a>' % (match.group(1),match.group(1))
def feed(self,data):
print data
# -*- coding: cp936 -*-
#
rules.py
class Rule:
"""所有规则的基类"""
def action(self,block ,handler):
handler.start(self.type)
handler.feed(block)
handler.end(self.type)
return True

class HeadingRule(Rule):
"""
标题占一行,且标题的数目不大于70个字符,且最后不能以冒号结尾
"""
type = 'heading'
def condition(self,block):
return not '\n' in block and len(block)<=70 and not block[-1]==':'

class TitleRule(HeadingRule):
"""
题目是文档的第一个块,前提他是大标题
"""
type = 'title'
first= True

def condition(self,block):
if not self.first:return False
self.first = False
return HeadingRule.condition(self, block)

class ListItemRule(Rule):
type ='listitem'

def condition(self,block):
return block[0]=='-'
def action(self,block,handler):
handler.start(self.type)
handler.feed(block[1:].strip())
handler.end(self.type)
return True
class ListRule(ListItemRule):
type = 'list'
inside = False
def condition(self,block):
return True
def action(self,block,handler):
if not self.inside and ListItemRule.condition(self, block):
handler.start(self.type)
self.inside=True
elif self.inside and not ListItemRule.condition(self, block):
handler.end(self.type)
self.inside=False
return False

class ParagraphRule(Rule):

type ='paragraph'
def condition(self,block):
return True


#util.py
def lines(file):
for line in file:yield line
yield '\n'

def blocks(file):
block =[]
for line in lines(file):
if line.strip():
block.append(line)
elif block:
yield ''.join(block).strip()
block=[]

 

#markup.py
import sys , re
from handlers import *
from util import *
from rules import *

class Parser:
"""
the processer of this , read data ,then use rule , and control to process data block
"""
#initial
def __init__(self,handler):
self.handler = handler
self.rules =[]
self.filters =[]
#addrule to the Parser
def addRule(self,rule):
self.rules.append(rule)
#add filter to the Parser
def addFilters(self,patten,name):
def filter(block , handler):
return re.sub(patten,handler.sub(name),block)
self.filters.append(filter)
def parse(self,file):
self.handler.start('document')
for block in blocks(file):
for filter in self.filters:
block = filter(block , self.handler)
for rule in self.rules:
if rule.condition(block):
last = rule.action(block,self.handler)
if last:break
self.handler.end('document')

class BasicTextParser(Parser):
def __init__(self,hanler):
Parser.__init__(self,handler)
self.addRule(ListRule())
self.addRule(ListItemRule())
self.addRule(TitleRule())
self.addRule(HeadingRule())
self.addRule(ParagraphRule())

self.addFilters(r'\*(.+?)\*', 'emphasis')
self.addFilters(r'(http://[\.a-zA-z/]+)', 'url')
self.addFilters(r'([\.a-zA-Z/]+@[\.a-zA-z]+[a-zA-Z]+)', 'mail')


handler = HTMLRenderer()
parser = BasicTextParser(handler)
f= open(r'D://python27/input.txt')
parser.parse(f)






posted on 2012-03-06 15:47 lzhenf 阅读(...) 评论(...) 编辑 收藏

转载于:https://www.cnblogs.com/lzhenf/archive/2012/03/06/2382056.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/267280.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux中mysql的卸载和重装,在Linux下面卸载与重新安装Postgresql

在Linux下面卸载与重新安装Postgresql1. 先把原来的postgresql安装包找出来&#xff0c;如果找不到就可以直接安装了。[roottestserver postgresql]# rpm -qa|grep postpostgresql-docs-8.0.3-1.1AXpostgresql-libs-8.0.3-1.1AXfreeradius-postgresql-1.0.1-3.RHEL4.1AXpostgre…

[原]Jenkins(二十) jenkins再出发之Error: Opening Robot Framework log failed

错误缘由&#xff1a;使用plugin [public robot framework test results] 生成的HTML文件都无法正常打开.解决方案&#xff1a;Connect on your jenkins url (http://[IP]:8080/) Click on administer Jenkins Click on consol jenkins Copy this into the field and execut…

【016】VS2010连接内置SQL数据库

参考&#xff1a;传智播客.Net培训.net视频教程 >> 【05】第五季 ADO.NET&#xff08;1-30&#xff09; 示例代码&#xff1a;sql_test.zip 首先建立一个 控制台 或者 WinForm 项目&#xff0c;然后进行下面的操作&#xff01; 1. 在 项目 上面右键》添加》新建项 2. 接下…

linux终端机详解,Linux reset设定终端机的状态命令详解

名称: reset, tset使用方法: tset [-IQqrs] [-] [-e ch] [-i ch] [-k ch] [-m mapping] [terminal]使用说明:reset 其实和 tset 是一同个命令&#xff0c;它的用途是设定终端机的状态。一般而言&#xff0c;这个命令会自动的从环境变数、命令列或是其它的组态档决定目前终端机的…

json-server模拟后台接口

前言&#xff1a; 项目开发中&#xff0c;影响项目进程的常常是由于在前后端数据交互的开发流程中停滞&#xff0c;前端完成静态页面的开发后&#xff0c;后端迟迟未给到接口。而现在&#xff0c;我们就可以通过根据后端接口字段&#xff0c;建立一个REST风格的API接口&#xf…

为什么生产环境都是linux,关于生产环境linux系统中的wheel用户组

本文系统环境&#xff1a;CentOS Linux release 7.7.1908 (Core)一般来说&#xff0c;目前linux系统中的wheel组&#xff0c;默认情况是没有使用到的、如果要使用wheel组&#xff0c;让其有具体的作用&#xff0c;需要结合/etc/pam.d/su文件配置很多在Linux中为了更进一步加强系…

微信小程序----全局变量

全局变量的作用 在微信小程序开发中&#xff0c;会遇到一个很实际的应用场景&#xff0c;就是一个变量会在多个页面进行使用。 例如&#xff1a; 1. 在微信小程序开发中使用高德地图的微信小程序开发&#xff0c;其中key值就需要在多个页面使用&#xff1b; 2. 在微信小程序开…

目录同步 linux,Linux系统目录实时同步

1.当操作系统根分区空间不够时(有大量的日志写入或应用部署在根分区)&#xff0c;可以将单个或多个目录进行同步出来&#xff0c;源目录是磁盘较大的分区&#xff0c;目标目录是在根分区下&#xff0c;实际文件写入在较大的分区。[rootmysql01 ~]# mkdir /home/123 /123 …

byte转化为Bitmap,防止内存溢出

Java代码 ByteArrayInputStream is new ByteArrayInputStream(byte[]); BitmapFactory.Options optionsnew BitmapFactory.Options(); options.inPurgeable true; options.inInputShareable true; options.inSampleSize 2; try …

Hadoop点滴-HDFS命令行接口

1、-help[cmd] 显示命令的帮助信息 ./hdfs dfs -help ls1 2、-ls(r) 显示当前目录下的所有文件 -R层层循出文件夹 ./hdfs dfs -ls /log/map ./hdfs dfs -lsr /log/ (递归的)1 3、-du(s) 显示目录中所有文件大小,或者当只指定一个文件时&#xff0c;显示此文件的大小 ./hdfs d…

linux centos-6.5,Linux(CentOS 6.5)安装 mysql

linux下安装软件的方式很多&#xff0c;这里是使用简单而方便的yum来安装一、使用yum 安装mysql服务&#xff0c;客户端1、检查是否已经安装&#xff1a; yum list installed | grep mysql2、 yum list installed | grep MYSQL3、查询结果&#xff1a;4、这是我已经安装的mysq…

amcharts应用

查看选中的软件的下载量&#xff0c;通过amchart报表工具显示出软件日下载量&#xff0c;月下载量以及年下载量&#xff0c;下面简单介绍&#xff0c;amchart在struts2中的应用。 amCharts提供JavaScript/HTML5图表。一套包括串行&#xff08;列&#xff0c;栏&#xff0c;线&a…

两种常见挂载Jenkins slave节点的方法

1、挂载slave节点的方法 在Jenkins的Master上&#xff0c;进入Mange node页面&#xff0c;可以管理node节点&#xff0c;例如新加、删除等操作。 其中&#xff0c; Name是节点名字&#xff1b; Description是节点描述&#xff1b; // of executors是该节点可以同时运行job的数…

linux下makefile中cp,make与makefile 的理解

当我们写程序过程中存在多个文件之间有复杂的包含关系时&#xff0c;若修改了其中一个源文件&#xff0c;就重新编译所有文件&#xff0c;一般是不必要的&#xff0c;并且当文件很多时&#xff0c;就显得非常笨拙。所有包含该文件的文件需要重新编译&#xff0c;而其它无关系的…

spinlock与linux内核调度的关系

作者&#xff1a;刘洪涛&#xff0c;华清远见嵌入式学院高级讲师&#xff0c;ARM公司授权ATC讲师。 关于自旋锁用法介绍的文章&#xff0c;已经有很多&#xff0c;但有些细节的地方点的还不够透。我这里就把我个人认为大家容易有疑问的地方拿出来讨论一下。 一、自旋锁&#x…

Python参数类型

位置参数默认参数可变参数命名关键字参数关键字参数1 def position_only(a, b):2 print(a, b)3 4 def keyword(aa, bb):5 print(a, b)6 7 def arg(a, *args):8 print(a, args)9 10 def kw(a, **kwargs): 11 print(a, kwargs) 12 13 def many1(a, b, cc, *arg…

keil用c语言怎么编辑器,用keil软件编写单片机程序的步骤

猜你感兴趣&#xff1a;新手教程&#xff1a;单片机的学习实践步骤运用单片机便是了解单片机硬件结构&#xff0c;以及内部资源的运用&#xff0c;在汇编或C语言中学会各种功用的初始化设置&#xff0c;以及完成各种功用的程序编制。 运用按钮输入信号&#xff0c;发光二极管显…

24c语言程序设计是啥,《C语言程序设计》作业答案.docx

精心整理《 C 语言程序设计》作业答案1&#xff0e;第 4题以下程序的输出结果是______。main(){intn[3][3],i,j;精心整理for(i0;ifor(j0;jfor(i0;ifor(j0;j)n[i1][j1]n[i][j];printf("%d\n",n[i][j]);---来源网络&#xff0c;仅供分享学习2/145精心整理}A.14B.0C.6D.…

体重 年龄 性别 身高 预测鞋码_【新手扫盲】身高体重性别年龄身体素质影响玩滑板吗?...

很多新手在迈入滑板大门之前都会有诸多顾虑&#xff0c;以为滑板跟其他运动一样&#xff0c;门槛很高我想说&#xff0c;滑板是项自由友好的运动下到3岁小宝宝&#xff0c;上到60岁以上老人只要你想玩&#xff0c;那就可以参与进来没有任何因素能阻止你玩滑板1、你比他高吗&…

c语言读入文件排序,帮忙-如何对文件排序啊

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼楼主加分哦&#xff0c;看看吧#include #include //#include #include #include using namespace std;void dfsFolder(string folderPath){ _finddata_t FileInfo; string strfind folderPath "\\*.*"; long Handle _…