https://cuiqingcai.com/1319.html
Python -BS4详细介绍
Python 在处理html方面有很多的优势,一般情况下是要先学习正则表达式的.
在应用过程中有很多模块是非常方便的,先尝试使用BeautifulSoup和Urllib进行网页的处理,仅供学习.
首先列举所需要导入的模块:
from bs4 import BeautifulSoup # 处理获取的网页信息
import bs4 # 用于判读各类类型
import os #系统模块,详细信息整理于下一章节
import re # 正则表达式,其实用不到
import time # 时间模块,用于设置超时处理等
from urllib import request # 用于获取网页信息
相关操作:
url = 'HTTP://XXXX' # 定义网页地址
respons = request.urlopen(url,data=None,timeout=2) # 打开地址
data = respons.read().decode('utf-8') # 读取网页信息
soup = BeautifulSoup(data, "html5lib") # 用BeautifulSoup 解析
href = soup.find_all('a',target = "XXXX") # BS4最重要的函数,获取相关节点儿,详细信息自行学习
###
剩下的就自己处理就行了.
于2018-6-5 补充如下:
关于解析器引用官方文档截图:
1. tag
tag中最重要的属性: name和attributes
tag.name 和tag["XXX"]
2. tag.string 和 tag.strings 获取字符内容
3. find_all( name , attrs , recursive , text , **kwargs )
name:tag的name
attrs : 属性