bs4模块使用（一）

bs4模块使用（一）

pingmian/2025/9/18 7:21:22/文章来源:https://blog.csdn.net/weixin_45839955/article/details/140592181

1. 安装BS4

pip install beautifulsoup4
pip install lxml

2. 对象种类

bs4将html文档解析成一个树形结构，每个节点都是python对象，大概可分为下面四种：

2.1 Tag

后面再详细介绍，先介绍最重要的两个属性
name

soup = BeautifulSoup("<li><a href='https://news.cnblogs.com/' οnclick='''countClicks(''nav'', ''skin-navbar-news'')'''>新闻</a></li>",features="lxml")print(soup)
a=soup.a
print(a)
print(a.name)
# 修改name会影响，bs4对html文档的解析
a.name = "b"
print(a.name)
print(a)
print(soup)

在这里插入图片描述

attributes
对于tag对象的属性操作，和操作字典一样

from bs4 import BeautifulSoupsoup = BeautifulSoup("<li><a class='a b c d e' href='https://news.cnblogs.com/' οnclick='countClicks()'>新闻</a></li>",features="lxml")a = soup.a
# 查看所有属性及其值
a_dic = a.attrs
print(a_dic)for item in a_dic.keys():print(a_dic[item])a_dic["href"] = "https://www.baidu.com"
a_dic["data-index"] = 99
print(a_dic["class"])

在这里插入图片描述

对于含有多个属性值的属性，查看属性时，返回列表，元素为属性值

2.2 NavigableString

Beautiful Soup用 NavigableString 类来包装tag中的字符串

from bs4 import BeautifulSoup
soup = BeautifulSoup("<li><a class='a b c d e' href='https://news.cnblogs.com/' οnclick='countClicks()'>新闻</a></li>",features="lxml")a = soup.a
print(a.string)
print(type(a.string))
# tag中包含的字符串不能编辑,但是可以被替换成其它的字符串,用 replace_with() 方法
a.string.replace_with("news")
print(a.string)
print(a)

在这里插入图片描述

如果想在Beautiful Soup之外使用 NavigableString 对象,需要调用 unicode() 方法,将该对象转换成普通的Unicode字符串,否则就算Beautiful Soup已方法已经执行结束,该对象的输出也会带有对象的引用地址.这样会浪费内存.

2.3 BeautifulSoup

BeautifulSoup 对象表示的是一个文档的全部内容，BeautifulSoup 对象并不是真正的HTML或XML的tag，没有name和attribute属性

2.4 Comment

Comment 对象是一个特殊类型的 NavigableString 对象
NavigableString 存在许多子类，不用适用于解析xml文件

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/pingmian/48558.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【mybatis 一级缓存】

【mybatis 一级缓存】

前言 mybatis 默认开启一级缓存，为什么我们很少遇到缓存带来的问题呢；我工作6年也只遇到过一次，最近才遇到的，并且我还记录了：不懂myabits缓存引发的问题这篇文章主要是记录当时排查这个问题的过程。今天这篇文主要回…

阅读更多...

数据结构——队列（链式结构）

数据结构——队列（链式结构）

一、队列链式结构定义队列的链式存储结构是一种用链表实现的队列，它不像顺序存储结构那样需要预先分配固定大小的空间。链式存储结构的队列由节点组成，每个节点包括数据和指向下一个节点的指针。队列的链式存储结构可以动态地分配内存，更灵活地处理数据。在链式存储结构中…

阅读更多...

【java SE语法篇】1.运算符

【java SE语法篇】1.运算符

目录 1. 运算符和表达式2. 算数运算符3. 隐式转换4. 强制转换5. 自增自减运算符6. 赋值运算符7. 扩展运算符8. 关系运算符9. 逻辑运算符9.1 & 和 | 的使用：9.2 ^（异或）的使用：9.3 !（取反）的使用&#x…

阅读更多...

解决：事件监听器 addEventListener 被多次调用

解决：事件监听器 addEventListener 被多次调用

背景： 给一个元素添加了事件监听，click 会触发然而在实际场景中，点击一次，事件会被触发两次阻止冒泡也没有用解决： 使用API：event.stopImmediatePropagation() stopImmediatePropagation() 方法可防止…

阅读更多...

【Spring Security】初识Spring Security

【Spring Security】初识Spring Security

今天晚上因为一个项目问题，而正式开始学习Spring Security。这个问题是“APP端的操作员应仅可查看管理后台的项目负责人分配给自己的计划”。一、Spring Security的核心组件： Spring Security的核心组件包括：SecurityContextHolder、Auth…

阅读更多...

02-用户画像-技术架构+业务划分

02-用户画像-技术架构+业务划分

技术架构 python开发 es flume 流数据读取写入kafka文件 kafka 消息队列 sqoop 将数据导入数仓hive StructureStream 动态画像的处理 SparkSQL 静态画像的处理 ，批数据处理读取kafka获取用户行为数据 fineBI 数据展示业务划分离线业务静态画像 …

阅读更多...

Springboot开发之 Excel 处理工具（三） -- EasyPoi 简介

Springboot开发之 Excel 处理工具（三） -- EasyPoi 简介

引言 Springboot开发之 Excel 处理工具（一） – Apache POISpringboot开发之 Excel 处理工具（二）-- Easyexcel EasyPoi是一款基于 Apache POI 的高效 Java 工具库，专为简化 Excel 和 Word 文档的操作而设计。以下是对…

阅读更多...

监控易直播回放2407期：IT监控平台可视化运维

监控易直播回放2407期：IT监控平台可视化运维

主播：监控易技术经理刘美玲大家好，现在是7月18号下午2点，欢迎大家来到本次的直播分享。今天，我们将深入探讨IT监控平台的可视化实现。在这个信息化时代，IT设备的稳定性对于业务的连续性起着至关重要的作用。而IT监控…

阅读更多...

Unity入门——引擎窗口

Unity入门——引擎窗口

主要内容 1.窗口布局 2.Hierarchy层级窗口 3.Scene场景窗口窗口布局右上角layout选项层级和场景窗口 Scene和Hierarchy 场景窗口和层级窗口是息息相关的，层级窗口中看到的内容就是场景窗口中的显示对象。 Hierar层级窗口我们可以在Hierarchy窗口中创建…

阅读更多...

项目部署上线（跨域问题的处理）

项目部署上线（跨域问题的处理）

前言: 项目想要上线，前提是肯定需要一台服务器我下面使用的是腾讯服务器和宝塔Linux的管理工具来进行项目的部署上线服务器配置（初始化）-CSDN博客项目部署： 我原来那篇文章写了用nginx的原生部署，不过我觉得那…

阅读更多...

Redis 性能测试

Redis 性能测试

Redis 性能测试引言 Redis作为一种高性能的键值存储数据库，被广泛应用于各种场景中，如缓存、消息队列、排行榜等。为了确保Redis在实际应用中的性能满足需求，进行性能测试是至关重要的。本文将介绍Redis性能测试的方法、工具以及一些最佳实…

阅读更多...

MySQL——查询优化

MySQL——查询优化

在查询大量的数据和多表查询时，经常会遇到查询慢，效率低下的问题，这时候就需要去优化查询，提高查询速度。查询慢的原因怎么才知道这个语句查询慢？ 可以在 select 语句前加上EXPLAIN关键字，就可以看到查…

阅读更多...

数据闭环的核心-Auto-labeling方案分享

数据闭环的核心-Auto-labeling方案分享

1. 简介 BEV算法的开发已经到了深水区，各家都投入了大量的精力去做bev的落地开发，其中一块最关键的就是如何高效的完成BEV的数据标注，无论是BEV 3D 目标，BEV 去高精地图或者是BEV Occupancy。相比于车端的感知算法，…

阅读更多...

exo 大模型算力共享；Llama3-70B是什么

exo 大模型算力共享；Llama3-70B是什么

目录 exo 大模型算力共享 exo框架的特点如何使用exo框架注意事项结论 Llama3-70B是什么一、基本信息二、技术特点三、性能与应用四、未来发展 exo 大模型算力共享 exo框架的特点异构支持：支持多种不同类型的设备，包括智能手机、平板电脑、笔记本电脑以及高…

阅读更多...

C语言检查日期是否有效

C语言检查日期是否有效

日期相关: 一个小小的工具函数，也行以后会用到。 #include<stdbool.h> #include<stdio.h>struct date {int month;int day;int year;// 月 - 日 - 年 };bool isleap(struct date d); //判断是否为闰年 int NumberOfDays(struct date d);…

阅读更多...

【Python】探索 Python 中的 breakpoint 方法

【Python】探索 Python 中的 breakpoint 方法

为何每次早餐仍然魂离魄散原来那朝分手都要啜泣中上班明明能够过得这关赢回旁人盛赞原来顽强自爱这样难难得的激情总枉费残忍的好人都美丽别怕你将无人会代替 🎵 陈慧娴《情意结》调试是编程过程中至关重要的一部分，能…

阅读更多...

2024Summer周报二

2024Summer周报二

本周总结:时间还是一样的不够用，题补不完，虽然说补题速度有点慢，但是基本上补过的题都能理解好，学习到不一样的思想,方法。同样的，没补完的题，会继续抓紧补，然后这周的题单都没时间写&#xff0…

阅读更多...

全国区块链职业技能大赛第十套区块链产品需求分析与方案设计

全国区块链职业技能大赛第十套区块链产品需求分析与方案设计

任务1-1：区块链产品需求分析与方案设计养老保险平台中涉及到参保人、社保局、公安局、工作单位等参与方，他们需要在区块链养老保险平台中完成账户注册、身份上链、社保代缴、信息核查等多种业务活动。通过对业务活动的功能分析，可以更好的服务系统的开发流程。基于养老保险…

阅读更多...

java之log4j反序列化

java之log4j反序列化

1 审计思路以Log4j漏洞审计为案例，谈一谈审计如何快速的锁定通用型漏洞 1.1 确定源码是否引用了漏洞所属的开源组件该项目是一个maven项目，直接在Pom文件中搜索log4j的jar包及版本引用问题，如果该版本受影响，进入下一步 1.2 寻找漏洞的入口 1.3 逐个排查入口是否有效…

阅读更多...

[MySQL][深入理解隔离性][上][MVCC]详细讲解

[MySQL][深入理解隔离性][上][MVCC]详细讲解

目录 0.铺垫1.初识MVCC2.三个记录隐藏列字段1.是什么？2.示例 3.undo日志4.模拟MVCC5.思考 0.铺垫在RR级别的时候，多个事务的update，多个事务的insert，多个事务的delete，是否会有加锁现象？ 现象结果是&…

阅读更多...

最新文章