文章目录
- 1 html.parser
- 1.1 初始化和基础使用
- 1.1.1 handle_starttag(self, tag, attrs)
- 1.1.2 handle_endtag(self, tag)
- 1.1.3 handle_startendtag(self, tag, attrs)
- 1.1.4 handle_data(self, data)
- 1.1.5 handle_comment(self, data)
- 1.2 解析HTML文档的流程
- 2 百度搜索关键词链接
- 2.1 检查页面元素
- 2.2 获取html
- 2.3 定义解析器
- 2.4 抽取链接和标题
- 2.5 应用测试
- 3 提取新闻内容
- 3.1 获取html
- 3.2 解析html
- 3.3 触发安全验证
- 4 参考附录
1 html.parser
html.parser是Python标准库中的一个模块,用于解析和处理HTML。
它的核心类是HTMLParser,这个类提供了多种方法,允许你处理HTML文档的各个部分。
通过继承这个类并重写其提供的回调方法,可以自定义对HTML标签、属性和内容的处理方式。
1.1 初始化和基础使用
from html.parser import HTMLParser# 创建自定义解析器类,继承HTMLParser
class MyHTMLParser(HTMLParser):def handle_starttag(self, tag, attrs):print(f"开始tag: {tag}")if attrs:for attr in attrs:print(f" Attribute: {attr}")def handle_endtag(self, tag):print(f"结束tag: {tag}")def handle_data(self, data):print(f"数据: {data}")# 创建解析器实例
parser = MyHTMLParser()