python中beautifulsoup是什么库_BeautifulSoup库详解(个人整理)

BeautifulSoup4是爬虫必学的技能。BeautifulSoup最主要的功能是从网页抓取数据,Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐使用lxml 解析器。

一、简介

灵活又方便的网页解析库,处理高效,支持多种解析器。

利用它不用编写正则表达式即可方便地实现网页信息的提取。

安装:pip3 install BeautifulSoup4

解析器使用方法优势劣势

Python标准库BeautifulSoup(markup, “html.parser”)Python的内置标准库、执行速度适中 、文档容错能力强Python 2.7.3 or 3.2.2)前的版本中文容错能力差

lxml HTML 解析器BeautifulSoup(markup, “lxml”)速度快、文档容错能力强需要安装C语言库

lxml XML 解析器BeautifulSoup(markup, “xml”)速度快、唯一支持XML的解析器需要安装C语言库

html5libBeautifulSoup(markup, “html5lib”)最好的容错性、以浏览器的方式解析文档、生成HTML5格式的文档速度慢、不依赖外部扩展

二、基本用法

#基本用法from bs4 import BeautifulSoupbs = BeautifulSoup(html,"html.parser") # 缩进格式print(bs.prettify())print(bs.prettify()) # 格式化html结构print(bs.title) # 获取title标签的名称print(bs.title.name) # 获取title的nameprint(bs.title.string) # 获取head标签的所有内容print(bs.head) print(bs.div) # 获取第一个div标签中的所有内容print(bs.div["id"]) # 获取第一个div标签的id的值print(bs.a) print(bs.find_all("a")) # 获取所有的a标签print(bs.find(id="u1")) # 获取id="u1"for item in bs.find_all("a"): print(item.get("href")) # 获取所有的a标签,并遍历打印a标签中的href的值for item in bs.find_all("a"): print(item.get_text())#选择元素from bs4 import BeautifulSoupsoup = BeautifulSoup(html, "lxml")print(soup.title)print(type(soup.title))print(soup.head)print(soup.p)#获取名称print(soup.title.name)print(soup.p.attrs["name"])print(soup.p["name"])#获取内容print(soup.p.string)#获取子孙节点print(soup.p.children)for i, child in enumerate(soup.p.children): print(i, child)

3.find_all( name , attrs , recursive , text , **kwargs )

可根据标签名、属性、内容查找文档,返回所有符合条件的内容

#通过标签from bs4 import BeautifulSoupsoup = BeautifulSoup(html, "lxml")print(soup.find_all("ul"))print(type(soup.find_all("ul")[0]))#通过属性print(soup.find_all(attrs={"id": "list-1"}))print(soup.find_all(attrs={"name": "elements"}))print(soup.find_all(id="list-1"))print(soup.find_all(class_="element"))#通过textprint(soup.find_all(text="Foo"))

4.find( name , attrs , recursive , text , **kwargs )

find返回单个元素,find_all返回所有元素

from bs4 import BeautifulSoupsoup = BeautifulSoup(html, "lxml")print(soup.find("ul"))print(type(soup.find("ul")))print(soup.find("page"))

find_parents() find_parent()

find_parents()返回所有祖先节点,find_parent()返回直接父节点。

find_next_siblings() find_next_sibling()

find_next_siblings()返回后面所有兄弟节点,find_next_sibling()返回后面第一个兄弟节点。

find_previous_siblings() find_previous_sibling()

find_previous_siblings()返回前面所有兄弟节点,find_previous_sibling()返回前面第一个兄弟节点。

find_all_next() find_next()

find_all_next()返回节点后所有符合条件的节点, find_next()返回第一个符合条件的节点

find_all_previous() 和 find_previous()

find_all_previous()返回节点后所有符合条件的节点, find_previous()返回第一个符合条件的节点

5.css选择

通过select()直接传入CSS选择器即可完成选择

from bs4 import BeautifulSoupsoup = BeautifulSoup(html, "lxml")print(soup.select(".panel .panel-heading"))print(soup.select("ul li"))print(soup.select("#list-2 .element"))print(type(soup.select("ul")[0]))for ul in soup.select("ul"): print(ul.select("li"))#获得属性for ul in soup.select("ul"): print(ul["id"]) print(ul.attrs["id"])#获取内容for li in soup.select("li"): print(li.get_text())三、BeautifulSoup4四大对象种类

BeautifulSoup4将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

1.Tag

我们可以利用 soup 加标签名轻松地获取这些标签的内容,这些对象的类型是bs4.element.Tag。但是注意,它查找的是在所有内容中的第一个符合要求的标签。

print(type(bs.a))

对于 Tag,它有两个重要的属性,是 name 和 attrs:

2.NavigableString

既然我们已经得到了标签的内容,那么问题来了,我们要想获取标签内部的文字怎么办呢?很简单,用 .string 即可

print(type(bs.title.string))

3.BeautifulSoup

BeautifulSoup对象表示的是一个文档的内容。大部分时候,可以把它当作 Tag 对象,是一个特殊的 Tag,我们可以分别获取它的类型,名称,以及属性

4.Comment

Comment 对象是一个特殊类型的 NavigableString 对象,其输出的内容不包括注释符号。

四、遍历文档树

1、.contents:获取Tag的所有子节点,返回一个list

# tag的.content 属性可以将tag的子节点以列表的方式输出print(bs.head.contents)# 用列表索引来获取它的某一个元素print(bs.head.contents[1])

2、.children:获取Tag的所有子节点,返回一个生成器

for child in bs.body.children: print(child)

3.descendants:获取Tag的所有子孙节点

4、.strings:如果Tag包含多个字符串,即在子孙节点中有内容,可以用此获取,而后进行遍历

5、.stripped_strings:与strings用法一致,只不过可以去除掉那些多余的空白内容

6、.parent:获取Tag的父节点

7、.parents:递归得到父辈元素的所有节点,返回一个生成器

8、.previous_sibling:获取当前Tag的上一个节点,属性通常是字符串或空白,真实结果是当前标签与上一个标签之间的顿号和换行符

9、.next_sibling:获取当前Tag的下一个节点,属性通常是字符串或空白,真是结果是当前标签与下一个标签之间的顿号与换行符

10、.previous_siblings:获取当前Tag的上面所有的兄弟节点,返回一个生成器

11、.next_siblings:获取当前Tag的下面所有的兄弟节点,返回一个生成器

12、.previous_element:获取解析过程中上一个被解析的对象(字符串或tag),可能与previous_sibling相同,但通常是不一样的

13、.next_element:获取解析过程中下一个被解析的对象(字符串或tag),可能与next_sibling相同,但通常是不一样的

14、.previous_elements:返回一个生成器,可以向前访问文档的解析内容

15、.next_elements:返回一个生成器,可以向后访问文档的解析内容

16、.has_attr:判断Tag是否包含属性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/273195.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

iOS 设置系统音量和监听系统音量变化

很简单的调用 首先在工程引入MediaPlayer.framework #import <MediaPlayer/MediaPlayer.h> 1. 获取系统音量 // 获取系统音量 MPVolumeView *volumeView [[MPVolumeView alloc] init];UISlider *volumeViewSlider nil;for (UIView *view in [volumeView subviews]){if …

h5关于选择器以及class的小加强

1、querySelector和querySelectorAll 这两个方法类似于jquery的选择器 document.querySelector(.box) document.querySelectorAll(.box)前者只能选择一组中的第一个&#xff0c;后者选择一组元素。 2、getElementsByClassName document.getElementsByClassName(box) 选择的结…

1 睡眠唤醒_一劳永逸解决WIN10所有睡眠问题

1.初级阶段&#xff0c;解决因硬件的唤醒事件powercfg -lastwake查看上次唤醒电脑的设备哪些硬件能唤醒电脑&#xff1f;powercfg /devicequery wake_armed列出现在可以唤醒电脑的所有硬件设备&#xff0c;可以看到现在键盘能唤醒powercfg /devicequery wake_programmable列出全…

[转]Device Context 设备环境 设备上下文 理解

http://blog.csdn.net/p424671075/article/details/7235601转载于:https://www.cnblogs.com/qrlozte/p/4582594.html

生成路径 vs 设置_Simulink代码生成之模型配置

欢迎关注我的微信公众号【新能源动力电池与BMS】&#xff0c;头条号&#xff1a;【阿Q在江湖】&#xff1b;所有文章资料会在公众号首发。本文已同步录制视频讲解&#xff1a;Simulink代码生成之模型配置_视频教程 - 知乎。PS&#xff1a;前段时间&#xff0c;传出美国禁用一些…

常见电容器图片_各种电容器图片大集合

图1是胆&#xff1b;图2是灯具&#xff1b;图3是mkph电容&#xff1b;图4是met电容&#xff1b;图5、图10是pei电容&#xff1b;图6是胆贴片电容&#xff1b;图7是mpe电容&#xff1b;图8是贴片电容&#xff1b;图11是轴向电解电容器&#xff1b;图12是mpp电容。图1是ppn电容&a…

解析php混淆加密解密的手段,如 phpjm,phpdp神盾,php威盾

解析php混淆加密解密的手段&#xff0c;如 phpjm,phpdp神盾,php威盾 原文 解析php混淆加密解密的手段&#xff0c;如 phpjm,phpdp神盾,php威盾 php做为一门当下非常流行的web语言&#xff0c;常常看到有人求解密php文件&#xff0c;想当年的asp也是一样。一些人不理解为什么要混…

bootstrap 合并菜单_Bootstrap与tab组合,切换菜单实例

Test$(function () {$(#myTab a:last).tab(show);//初始化显示哪个tab$(#myTab a).click(function (e) {e.preventDefault();//阻止a链接的跳转行为$(this).tab(show);//显示当前选中的链接及关联的content})})HomeProfileMessagesSettings服务器.home....profile...messages..…

WCF 宿主与通信模式(二)

宿主 每个WCF服务都必须托管在Windows进程中&#xff0c;该进程称为宿主进程(host process) 单个宿主进程可以托管多个服务&#xff0c;相同的服务类型也可以托管在多个宿主进程中。 wcf中托管服务一般有一下四种&#xff1a; 寄宿方式 描述 Console寄宿 利于开发调试&#…

mysql端口被占用_MySQL重启端口被占用处理

1,查看日志的ERROR2018-05-23T01:26:59.230382Z 0 [Warning] NO_AUTO_CREATE_USER sql mode was not set.2018-05-23T01:26:59.230409Z 0 [Note] --secure-file-priv is set to NULL. Operations related to importing and exporting data are disabled2018-05-23T01:26:59.230…

poj 3660 传递闭包 **

题意&#xff1a;题目给出了m对的相对关系&#xff0c;求有多少个排名是确定的。 链接&#xff1a;点我 如果这个点到其他点的关系是确定的&#xff0c;那么这个点就是确定的&#xff0c;注意如果这个点到不了其他点&#xff0c;但其他点能到这个点&#xff0c;那么这个点和其他…

C# 网络编程之webBrowser获取网页url和下载网页中图片

该文章主要是通过C#网络编程的webBrowser获取网页中的url并简单的尝试下载网页中的图片,主要是为以后网络开发的基础学习.其中主要的通过应用程序结合网页知识、正则表达式实现浏览、获取url、下载图片三个功能.而且很清晰的解析了每一步都是以前一步为基础实现的. 一.界面设计…

mysql员工脚本_mySQL常用脚本汇总

mysql的常用脚本有哪些呢&#xff1f;我们来做个总结建表语句sql语句最后指定主键DROP TABLE IF EXISTS user_info1;CREATE TABLE user_info1 (id int(11) NOT NULL AUTO_INCREMENT COMMENT 主键,name varchar(20) COLLATE utf8_bin DEFAULT NULL COMMENT 姓名,password varcha…

多线程 调用多线程的方法 Runtime与ProcessBuilder

一般我们使用Java运行其他类中的方法的时候&#xff0c;无论是静态调用还是动态调用&#xff0c;都是在当前的进程中执行的。也就是只有一个Java虚拟机实例在运行。有时候需要通过Java代码启动多个Java子进程&#xff0c;这样做会消耗些资源&#xff0c;但是程序变得更稳定。因…

mysql可连接_mysql开启远程可连接

1.打开cmd窗口&#xff0c;进入MySql安装的bin目录2.执行命令登录数据库,之后会出现一行要你输入密码的mysql -u root -p3.执行以下命令分配新用户&#xff1a;grant all privileges on *.* to ‘用户名‘‘IP地址‘ identified by ‘密码‘;4.执行完上述命令后用下面的命令刷新…

ubuntu14.04 python2.7 安装配置OpenCV3.0

环境&#xff1a;ubuntu14.04 python2.7 内容&#xff1a;安装并配置OpenCV3.0 今天按照OpenCV官网上的步骤装了OpenCV但是&#xff0c;装好之后python提示“No module named cv2” 首先&#xff0c;安装OpenCV的步骤&#xff1a; OpenCV官网的安装步骤&#xff1a;http://doc…

mysql导出如何不区分大小写_mysql 不区分大小写

show variables like %case%-------------------------------| Variable_name | Value |-------------------------------| lower_case_file_system | OFF || lower_case_table_names | 1 | 表示已经是支持忽略大小写了-------------------------------修改 /etc/mysql/…

[iOS] Win8下在Vmware11中安装使用苹果系统OS X 10.10

近来因为人事变动&#xff0c;领导打算安排我做 iOS 的项目&#xff0c;所以需要花一些时间提前准备一下iOS相关的东西。因为自己手头上并没有 Mac&#xff08;过年为了闲的时候能玩玩游戏买了联想&#xff0c;唉&#xff09;&#xff0c;想想不能只靠每天在公司的时间练 demo …

html5的网络书店图书网站代码_【技能提升】10个编写HTML5的实用小技巧

1. 新的文档类型(Doctype)html PUBLIC ”-//W3C//DTD XHTML 1.0 Transitional//EN”“http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd”>上面这个既麻烦又难记的XHTML文档类型你还在使用吗&#xff1f;如果还是这样的话&#xff0c;现在该切换到新的HTML5文档类型…

hdu2457 Trie图+dp

hdu2457 给定n个模式串&#xff0c; 和一个文本串 问如果修改最少的字符串使得文本串不包含模式串&#xff0c; 输出最少的次数&#xff0c;如果不能修改成功&#xff0c;则输出-1 dp[i][j] 表示长度为i的字符串&#xff0c; 到达状态j&#xff08;Trie图中的结点&#xff09;…