图/文:迷神
我们做python爬虫,通过requests抓取到内容就需要正则匹配,或者其他解析库解析内容。很多可能和我一样的人,都使用jquery的,那用的还是非常爽的。而pyquery库就是jQuery的Python实现,能够以jQuery的语法来操作解析 HTML 文档,易用性和解析速度都不错。
虽然,Beautiful Soup 中可以使用 CSS 选择器,但是好像他的 CSS 选择器并没有想像中的强大,PyQuery反而更优一些,因此,我们来说说,Python爬虫神器:PyQuery。
PyQuery库官方文档
官方文档:https://pyquery.readthedocs.io/en/latest/
PyPI:https://pypi.org/project/pyquery/
Github:https://github.com/gawel/pyquery
1、PyQuery初始化内容
PyQuery初始化有3种形式:
1.1、直接初始化requests返回的html内容
from pyquery import PyQuery as pq#初始化为PyQuery对象doc = pq(html)print(type(doc))print(doc)
1.2、直接读取文件的形式
#filename参数为html文件路径doc = pq(filename = 'test.html')print(type(doc))print(doc)
1.3、读取网址的形式
doc = pq(url = 'https://www.toutiao.com')print(type(doc))print(doc)
2、常用CSS选择器:
pyquery强大的地方,就是在于使用了类似jquery一样的选择,进行网页节点解析。
html = """
Python 大法 好 """
获取id为object-1的标签
print(doc('#object-1'))#返回:好#还可以:print(doc('#container #object-1'))
获取class为object-1的标签
print(doc('.object-1'))#返回:Python
获取ul标签:
print(doc('ul'))#返回
Python大法好
如果获取多个li,可以遍历:
a = doc('li')for item in a.items(): print(item)
其他的我们还可以查找节点
我们接着介绍一下常用的查找函数,这些查找函数最赞的地方就是它们和 JQuery 的用法完全一致。
find() : 查找节点的所有子孙节点。
children() : 只查找子节点。
parent() : 查找父节点。
parents() : 查找祖先节点。
siblings() : 查找兄弟节点。
3、获取标签的信息
我们在定位到目标之后,就需要获取标签的内容信息,常用的有:
3.1、attr() 获取属性,返回属性值
object_2 = doc.find('.object-2')print(object_2.attr('class'))#返回object-2
3.2、text() 标签的文本
object_1 = docs.find('.object-1')print(object_1.text())#返回Python
当然pyquery还有很多,比如remove去掉节点内容,获取url网址的,还可以自定义cookie和header等。
Beautiful Soup 对新手比较友好,pyquery对用过jquery的来说,更简单更方便,是一个非常不错的选择。
好了,就这么多啦,我是迷神,更多精彩python内容,可以关注我哦,有问题也可以评论哦。