【Python从入门到进阶】32、bs4的基本使用

接上篇《31、使用JsonPath解析淘票票网站地区接口数据》
上一篇我们介绍了如何使用JSONPath来解析淘票票网站的地区接口数据,本篇我们来学习BeautifulSoup的基本概念,以及bs4的基本使用。

一、BeautifulSoup简介

1、bs4基本概念

BeautifulSoup是一个Python库(简称“bs4”),用于从HTML或XML文件中提取数据。它的设计目标是使解析复杂的文档变得简单、快速,并提供一种便捷的方式来浏览和搜索文档树。

BeautifulSoup可以处理不规则标记、修复糟糕的HTML和提供简单的遍历和搜索功能。使用BeautifulSoup,可以通过标签名称、属性值和文本内容等条件来搜索文档元素,并提取所需的数据。

通过BeautifulSoup,可以轻松地提取文档中的数据,例如标题、段落、链接、表格等。您还可以通过遍历树状结构,定位某个特定元素、获取其属性值以及修改文档内容。

2、BeautifulSoup与lxml对比

(1)BeautifulSoup优点
简单易用,提供了简洁的API,使得从文档中提取数据变得容易。
支持多种解析器,包括标准库中的html.parser、lxml和xml等,具有较好的兼容性。可以处理不规则标记和修复糟糕的HTML,适用于实际应用中常见的网页解析任务。
(2)BeautifulSoup缺点
解析速度相对较慢,特别是在处理大型文档时可能会更明显。
功能相对较少,相比于专注于解析的库如lxml,功能选项较少。
(3)lxml优点
解析速度快,由于是C库的实现,处理大型文档效率高。
提供了丰富的功能选项,如XPath表达式、CSS选择器等,可以更精确地定位和提取数据。
(4)lxml缺点
相对于BeautifulSoup,使用起来稍微复杂一些,需要学习额外的功能和语法。
安装和配置可能需要一些额外的工作,尤其在某些平台和环境下。

综上所述,如果我们需要简单而易用的文档解析和数据提取,可以选择BeautifulSoup。如果您处理的是大量数据或复杂的文档结构,并且需要更高的解析速度和更多的功能选项,可以选择lxml。

二、bs4的安装及创建

使用BeautifulSoup需要先安装bs4库,然后导入相关模块。然后可以将HTML或XML文件传递给BeautifulSoup对象进行解析。解析后的文档将被转换成一个层次结构的树状对象,可以使用各种方法和属性来访问和操作这个树。示例代码:
注:首先要通过“pip install bs4”来安装bs4库。

# _*_ coding : utf-8 _*_
# @Time : 2023-08-20 17:48
# @Author : 光仔December
# @File : bs4基础联系
# @Project : Python_Projectsfrom bs4 import BeautifulSoup# 要解析的HTML或XML文档
html_doc = """
<html>
<head><title>示例网页</title>
</head>
<body><h1>欢迎使用BeautifulSoup</h1><p class="description">这是一个示例网页,用于演示BeautifulSoup的基本用法。</p><ul><li>列表项1</li><li>列表项2</li><li>列表项3</li></ul>
</body>
</html>
"""# 创建BeautifulSoup对象,并制定解析器(此处使用默认的html.parser)
soup = BeautifulSoup(html_doc, 'html.parser')# 访问和操作解析后的文档树
title = soup.title # 获取标题元素
h1 = soup.h1 # 获取第一个<h1>元素
description = soup.find(class_="description") # 根据class属性查找<p>元素
list_items = soup.find_all('li') # 查找所有<li>元素# 打印获取到的内容
print("标题:", title.text)
print("第一个<h1>元素:", h1.text)
print("描述段落:", description.text)
print("列表项:")
for item in list_items:print(item.text)

效果:

三、bs4的常用语法和操作

1、创建BeautifulSoup对象

使用BeautifulSoup函数可以将HTML或XML内容转换为BeautifulSoup对象。
语法:soup = BeautifulSoup(html_doc, 'html.parser')

2、标签选择器

使用标签名称可以直接选择对应的元素。
语法:soup.tag_name(选择第一个匹配到的标签)或 soup.find('tag_name')(选择所有匹配到的标签)。
第二层直接访问,如soup.a.name或soup.a.attrs。

3、属性选择器

使用标签名称和属性来选择元素。
语法:soup.find('tag_name', attrs={'attr_name': 'attr_value'})

4、CSS选择器

使用CSS选择器语法来选择元素。
语法:soup.select('css_selector')(返回所有匹配到的元素列表)

5、遍历文档树

使用.contents属性可以获取当前节点的所有子节点。
使用.parent属性可以访问当前节点的父节点。
使用.next_sibling和.previous_sibling属性可以访问当前节点的下一个兄弟节点和上一个兄弟节点。

6、获取元素内容

使用.text属性可以获取元素的文本内容。
使用.get('attribute_name')方法可以获取元素的特定属性值。

7、搜索文档树

使用.find()方法可以按条件查找第一个匹配的元素。
使用.find_all()方法可以查找所有匹配的元素。
可以通过标签名称、属性值、文本内容等条件进行搜索。

8、修改文档树

使用.replace_with(new_tag)方法可以替换当前节点为指定的新节点。
使用.append(new_tag)方法可以在当前节点末尾添加一个新节点。
使用.extract()方法可以将当前节点从文档树中移除。

以上是bs4的一些常用语法和操作,可以根据具体需求使用对应的方法和属性来解析、遍历和搜索HTML或XML文档树,并获取所需的数据。下面的示例代码演示了使用bs4常用的语法和操作来解析、遍历、搜索和修改包含更复杂HTML结构的文档树。通过逐个示例,大家可以了解如何使用不同的方法和属性来实现所需的功能:

# _*_ coding : utf-8 _*_
# @Time : 2023-08-20 18:06
# @Author : 光仔December
# @File : bs4基本语法练习
# @Project : Python_Projectsfrom bs4 import BeautifulSoup# HTML文档
html_doc = """
<html>
<head><title>示例网页</title>
</head>
<body><h1>欢迎使用BeautifulSoup</h1><div id="content"><p class="description">这是一个示例网页,用于演示BeautifulSoup的基本用法。</p><ul><li><a href="https://www.example.com">链接1</a></li><li><a href="https://www.example.com">链接2</a></li><li><a href="https://www.example.com">链接3</a></li></ul><table><tr><th>姓名</th><th>年龄</th></tr><tr><td>张三</td><td>25</td></tr><tr><td>李四</td><td>30</td></tr></table></div>
</body>
</html>
"""# 创建BeautifulSoup对象
soup = BeautifulSoup(html_doc, 'html.parser')# 标签选择器示例
title = soup.title
print("标题:", title.text)
h1 = soup.h1
print("第一个<h1>元素:", h1.text)# 直接访问标签示例
a_tag = soup.a
print("a标签名称:", a_tag.name)
print("a标签属性:", a_tag.attrs)# 属性选择器示例
description = soup.find('p', class_="description")
print("描述段落:", description.text)# 搜索文档树示例
first_link = soup.find('a')
print("第一个链接地址:", first_link['href'])# CSS选择器示例
links = soup.select('ul li a')
print("链接:")
for link in links:print(link.text)# 遍历文档树示例
table = soup.table
rows = table.find_all('tr')
print("表格内容:")
for row in rows:cells = row.find_all('td')for cell in cells:print(cell.text)print()# 修改文档树示例
replacement_tag = soup.new_tag('b')
replacement_tag.string = "新的加粗文本"
# 将p中间的字符串替换为新的加粗文本
description.string.replace_with(replacement_tag)# 打印修改后的内容
print("更换后的描述段落:", soup.div.p)

效果:

至此,有关使用BeautifulSoup的基本介绍及语法示例就全部学习完毕,下一篇我们来使用BeautifulSoup来抓取星巴克的数据。

参考:尚硅谷Python爬虫教程小白零基础速通教学视频

转载请注明出处:https://guangzai.blog.csdn.net/article/details/132394556

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/45183.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

KUST_LI计算机视觉实验室服务器安装与管理

第一步&#xff1a;安装 Linux-Ubuntu系统 系统语言设置为英文 ENGLISH&#xff0c;防止系统 BUG&#xff1b;选择-清除整个磁盘并安装系统&#xff1b;设置用户名和密码&#xff0c;实验室统一其余全部默认设置 开机后设置磁盘挂载 在系统设置中找到 desk 打开&#xff0c;…

动物IT

动物是地球上最丰富和多样化的生物群体之一。它们包括鱼类、鸟类、爬行动物、两栖动物和哺乳动物等各种类型。动物在地球上有着不同的生态角色和生活习性。 动物对于维持生态平衡和生态系统的稳定性至关重要。它们在食物链中扮演着重要的角色&#xff0c;通过捕食和被捕食来保…

轻松搭建书店小程序

在现今数字化时代&#xff0c;拥有一个自己的小程序成为了许多企业和个人的追求。而对于书店经营者来说&#xff0c;拥有一个能够提供在线购书服务的小程序将有助于吸引更多的读者&#xff0c;并提升销售额。本文将为您介绍如何轻松搭建书店小程序&#xff0c;并将其成功上线。…

第7步---MySQL的视图操作和

第7步---MySQL的视图操作 虚拟表。保存的只是视图的定义。不存放真实的数据&#xff0c;数据还是在原先的表中。 好处是方便和简化代码以及安全。 1.视图创建 数据准备 -- 创建表的测试数据 create table dept(deptno int primary key,dname varchar(20),loc varchar(20) ); …

Android学习之路(8) Activity

本节引言&#xff1a; 本节开始讲解Android的四大组件之一的Activity(活动)&#xff0c;先来看下官方对于Activity的介绍&#xff1a; 移动应用体验与桌面体验的不同之处在于&#xff0c;用户与应用的互动并不总是在同一位置开始&#xff0c;而是经常以不确定的方式开始。例如&…

项目管理实战笔记1:项目管理常识

序 看了下极客时间的《项目管理实战》&#xff0c;觉得跟之前学习PMP的标准资料还是有所侧重。重新整理下&#xff0c;相比书上繁杂的知识&#xff0c;这个更通俗易懂。 1 角色转换&#xff1a;三大误区 误区1&#xff1a;事必躬亲 自己做事情是可控的&#xff0c;做项目依赖…

【脚踢数据结构】图(纯享版)

(꒪ꇴ꒪ )&#xff0c;Hello我是祐言QAQ我的博客主页&#xff1a;C/C语言&#xff0c;Linux基础&#xff0c;ARM开发板&#xff0c;软件配置等领域博主&#x1f30d;快上&#x1f698;&#xff0c;一起学习&#xff0c;让我们成为一个强大的攻城狮&#xff01;送给自己和读者的…

Python Django 模型概述与应用

今天来为大家介绍 Django 框架的模型部分&#xff0c;模型是真实数据的简单明确的描述&#xff0c;它包含了储存的数据所必要的字段和行为&#xff0c;Django 遵循 DRY Principle 。它的目标是你只需要定义数据模型&#xff0c;然后其它的杂七杂八代码你都不用关心&#xff0c;…

“Spring管理JavaBean的过程及Bean的生命周期“

目录 引言1.弹簧容器2. Bean的生命周期2.1 配置javaBean2.2. 解析Bean的定义2.3 检查是否需要添加自己的功能2.4 初始化2.5 实现Aware接口2.6 扩展2.7. 销毁 3. 单例模式和原型模式3.1. 单例模式3.2. 原型模式 4. 总结 引言 Spring框架是一个非常流行的Java应用程序框架&#…

【前端】快速掌握HTML+CSS核心知识点

文章目录 1.HTML核心基础知识1.1.编写第一个HTML网页1.2.超链接a标签和路径1.3.图像img标签的用法1.4.表格table标签用法1.5.列表ul、ol、dl标签用法1.6.表单form标签用法1.7.区块标签和行内标签用法 2.CSS核心基础知识2.1.CSS标签选择器viewport布局2.2.CSS样式的几种写法2.3.…

【ES6】—解构赋值

一、定义 解构赋值&#xff1a;解构赋值就是一种模式的匹配&#xff0c;只要等号两边的模式完全相同的&#xff0c;那么左边的变量就会被赋值对应右边的值 二、数组的解构赋值 PS&#xff1a;数组解构赋值时&#xff0c;是通过索引的唯一性赋值的 1. 一维数组解构赋值 (1)…

大数据从入门到放弃——浅谈数据架构的前世今生

文章目录 1. 背景2. 数据的定义及分类2.1 数据的定义2.2 数据的分类2.3 数据和信息的区别 3. 数据的作用4. 数据的那些美好时代4.1 人脑时代4.2 文件时代4.3 数据库时代4.3.1 大服务器时代4.3.2 读写分离时代4.4 数据库的分布式时代4.5 云端时代 5. 数据的未来 1. 背景 随着云时…

自学C#,要懂得善用MSDN

很多初学者学习编程&#xff0c;都会通过看别人写的教程、或者录制的视频&#xff0c;来学习。 这是一个非常好的途径&#xff0c;因为这个是非常高效的。 但是这样&#xff0c;存在两个问题&#xff1a; 1、教程不够全面&#xff1a;任何再好的教程&#xff0c;都无法囊括所…

【C++_primary】类和对象 —— 类

类 ~ ~ ~ 一、面向过程和面向对象初步认识a. 面向过程编程b. 面向对象编程例如&#xff1a;无人机送货系统1、面向过程编程方式2、面向对象编程方式 二、类的引入1、定义类的关键字2、栈的手动实现a. C语言实现栈b. C实现栈 三、类的定义类的两种定义方式&#xff1a; 四、类的…

【Go】锁相关

文章目录 Mutex锁mutex源码分析LockUnLock mutex两种运行模式mutex normal 正常模式自旋 mutex starvation 饥饿模式 锁的底层实现类型 RWMutexRWMutex 实现其他共享内存线程安全的方式 思考如何设计一个并发更高的锁&#xff1f; Mutex锁 mutex源码分析 Locker接口&#xff…

【python知识点】锦集

【版权声明】未经博主同意&#xff0c;谢绝转载&#xff01;&#xff08;请尊重原创&#xff0c;博主保留追究权&#xff09; https://blog.csdn.net/m0_69908381/article/details/132368704 出自【进步*于辰的博客】 相关博文&#xff1a;【python细节、经验】锦集。 注&#…

MyBatis入门配置及CURD实现

目录 一、MyBatis简介 1. 什么是 MyBatis ? 2. MyBatis的特性 3. 什么是持久层框架&#xff1f; 二、MyBatis环境配置 2.1 创建maven工程 2.2 导入相关pom依赖 2.3 导入jdbc配置文件 2.4 Mybatis相关插件安装 3.5 Mybatis-cfg.xml 核心配置 2.6 引入Log4j2日志文件…

Vue2-配置脚手架、分析脚手架、render函数、ref属性、props配置项、mixin配置项、scoped样式、插件

&#x1f954;:总有一段付出了没有回报的日子 是在扎根 更多Vue知识请点击——Vue.js VUE2-Day6 配置脚手架脚手架结构render函数vue.js与vue.runtime.xxx.js的区别引入render函数为什么要引入残缺的vue呢&#xff1f; 脚手架默认配置ref属性props配置项传递数据接收数据注意点…

NLP序列标注问题,样本不均衡怎么解决?

【学而不思则罔&#xff0c;思而不学则殆】 1.问题 NLP序列标注问题&#xff0c;样本不均衡怎么解决&#xff1f; 2.解释 以命名实体识别&#xff08;NER&#xff09;为例&#xff0c;这个样本不均衡有两种解释&#xff1a; &#xff08;1&#xff09;实体间类别数量不均衡…

华为网络篇 RIP的负载均衡-29

难度2复杂度2 目录 一、实验原理 二、实验拓扑 三、实验步骤 四、实验过程 总结 一、实验原理 RIP是使用跳数&#xff08;经过路由的数量&#xff09;作为metric值的&#xff0c;当网络上存在去往目标的路由有两条以上都是相同metric时&#xff0c;就出现了流量负载均衡。…