bs4模块使用(一)

1. 安装BS4

pip install beautifulsoup4
pip install lxml

2. 对象种类

bs4将html文档解析成一个树形结构,每个节点都是python对象,大概可分为下面四种:

2.1 Tag

后面再详细介绍,先介绍最重要的两个属性
name

soup = BeautifulSoup("<li><a href='https://news.cnblogs.com/' οnclick='''countClicks(''nav'', ''skin-navbar-news'')'''>新闻</a></li>",features="lxml")print(soup)
a=soup.a
print(a)
print(a.name)
# 修改name会影响,bs4对html文档的解析
a.name = "b"
print(a.name)
print(a)
print(soup)

在这里插入图片描述

attributes
对于tag对象的属性操作,和操作字典一样

from bs4 import BeautifulSoupsoup = BeautifulSoup("<li><a class='a b c d e' href='https://news.cnblogs.com/' οnclick='countClicks()'>新闻</a></li>",features="lxml")a = soup.a
# 查看所有属性及其值
a_dic = a.attrs
print(a_dic)for item in a_dic.keys():print(a_dic[item])a_dic["href"] = "https://www.baidu.com"
a_dic["data-index"] = 99
print(a_dic["class"])

在这里插入图片描述

对于含有多个属性值的属性,查看属性时,返回列表,元素为属性值

2.2 NavigableString

Beautiful Soup用 NavigableString 类来包装tag中的字符串

from bs4 import BeautifulSoup
soup = BeautifulSoup("<li><a class='a b c d e' href='https://news.cnblogs.com/' οnclick='countClicks()'>新闻</a></li>",features="lxml")a = soup.a
print(a.string)
print(type(a.string))
# tag中包含的字符串不能编辑,但是可以被替换成其它的字符串,用 replace_with() 方法
a.string.replace_with("news")
print(a.string)
print(a)

在这里插入图片描述

如果想在Beautiful Soup之外使用 NavigableString 对象,需要调用 unicode() 方法,将该对象转换成普通的Unicode字符串,否则就算Beautiful Soup已方法已经执行结束,该对象的输出也会带有对象的引用地址.这样会浪费内存.

2.3 BeautifulSoup

BeautifulSoup 对象表示的是一个文档的全部内容,BeautifulSoup 对象并不是真正的HTML或XML的tag,没有name和attribute属性

2.4 Comment

Comment 对象是一个特殊类型的 NavigableString 对象
NavigableString 存在许多子类,不用适用于解析xml文件

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/48558.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【mybatis 一级缓存】

前言 mybatis 默认开启一级缓存&#xff0c;为什么我们很少遇到缓存带来的问题呢&#xff1b;我工作6年也只遇到过一次&#xff0c;最近才遇到的&#xff0c;并且我还记录了&#xff1a;不懂myabits缓存引发的问题这篇文章主要是记录当时排查这个问题的过程。今天这篇文主要回…

数据结构——队列(链式结构)

一、队列链式结构定义 队列的链式存储结构是一种用链表实现的队列,它不像顺序存储结构那样需要预先分配固定大小的空间。链式存储结构的队列由节点组成,每个节点包括数据和指向下一个节点的指针。队列的链式存储结构可以动态地分配内存,更灵活地处理数据。在链式存储结构中…

【java SE语法篇】1.运算符

目录 1. 运算符和表达式2. 算数运算符3. 隐式转换4. 强制转换5. 自增自减运算符6. 赋值运算符7. 扩展运算符8. 关系运算符9. 逻辑运算符9.1 & 和 | 的使用&#xff1a;9.2 ^&#xff08;异或&#xff09;的使用&#xff1a;9.3 !&#xff08;取反&#xff09;的使用&#x…

解决:事件监听器 addEventListener 被多次调用

背景&#xff1a; 给一个元素添加了事件监听&#xff0c;click 会触发 然而在实际场景中&#xff0c;点击一次&#xff0c;事件会被触发两次 阻止冒泡也没有用 解决&#xff1a; 使用API&#xff1a;event.stopImmediatePropagation() stopImmediatePropagation() 方法可防止…

【Spring Security】初识Spring Security

今天晚上因为一个项目问题&#xff0c;而正式开始学习Spring Security。 这个问题是“APP端的操作员应仅可查看管理后台的项目负责人分配给自己的计划”。 一、Spring Security的核心组件&#xff1a; Spring Security的核心组件包括&#xff1a;SecurityContextHolder、Auth…

02-用户画像-技术架构+业务划分

技术架构 python开发 es flume 流数据读取写入kafka文件 kafka 消息队列 sqoop 将数据导入数仓hive StructureStream 动态画像的处理 SparkSQL 静态画像的处理 &#xff0c;批数据处理 读取kafka获取用户行为数据 fineBI 数据展示 业务划分 离线业务 静态画像 …

Springboot开发之 Excel 处理工具(三) -- EasyPoi 简介

引言 Springboot开发之 Excel 处理工具&#xff08;一&#xff09; – Apache POISpringboot开发之 Excel 处理工具&#xff08;二&#xff09;-- Easyexcel EasyPoi是一款基于 Apache POI 的高效 Java 工具库&#xff0c;专为简化 Excel 和 Word 文档的操作而设计。以下是对…

监控易直播回放2407期:IT监控平台可视化运维

主播&#xff1a;监控易技术经理 刘美玲 大家好&#xff0c;现在是7月18号下午2点&#xff0c;欢迎大家来到本次的直播分享。今天&#xff0c;我们将深入探讨IT监控平台的可视化实现。在这个信息化时代&#xff0c;IT设备的稳定性对于业务的连续性起着至关重要的作用。而IT监控…

Unity入门——引擎窗口

主要内容 1.窗口布局 2.Hierarchy层级窗口 3.Scene场景窗口 窗口布局 右上角layout选项 层级和场景窗口 Scene和Hierarchy 场景窗口和层级窗口是息息相关的&#xff0c;层级窗口中看到的内容就是场景窗口中的显示对象。 Hierar层级窗口 我们可以在Hierarchy窗口中创建…

项目部署上线(跨域问题的处理)

前言: 项目想要上线&#xff0c;前提是肯定需要一台服务器 我下面使用的是腾讯服务器和宝塔Linux的管理工具来进行项目的部署上线 服务器配置&#xff08;初始化&#xff09;-CSDN博客 项目部署&#xff1a; 我原来那篇文章写了用nginx的原生部署&#xff0c;不过我觉得那…

Redis 性能测试

Redis 性能测试 引言 Redis作为一种高性能的键值存储数据库&#xff0c;被广泛应用于各种场景中&#xff0c;如缓存、消息队列、排行榜等。为了确保Redis在实际应用中的性能满足需求&#xff0c;进行性能测试是至关重要的。本文将介绍Redis性能测试的方法、工具以及一些最佳实…

MySQL——查询优化

在查询大量的数据和多表查询时&#xff0c;经常会遇到查询慢&#xff0c;效率低下的问题&#xff0c;这时候就需要去优化查询&#xff0c;提高查询速度。 查询慢的原因 怎么才知道这个语句查询慢&#xff1f; 可以在 select 语句前加上EXPLAIN关键字&#xff0c;就可以看到查…

数据闭环的核心-Auto-labeling方案分享

1. 简介 BEV算法的开发已经到了深水区&#xff0c;各家都投入了大量的精力去做bev的落地开发&#xff0c;其中一块最关键的就是如何高效的完成BEV的数据标注&#xff0c;无论是BEV 3D 目标&#xff0c;BEV 去高精地图或者是BEV Occupancy。 相比于车端的感知算法&#xff0c;…

exo 大模型算力共享;Llama3-70B是什么

目录 exo 大模型算力共享 exo框架的特点 如何使用exo框架 注意事项 结论 Llama3-70B是什么 一、基本信息 二、技术特点 三、性能与应用 四、未来发展 exo 大模型算力共享 exo框架的特点 异构支持:支持多种不同类型的设备,包括智能手机、平板电脑、笔记本电脑以及高…

C语言 检查日期是否有效

日期相关: 一个小小的工具函数&#xff0c;也行以后会用到。 #include<stdbool.h> #include<stdio.h>struct date {int month;int day;int year;// 月 - 日 - 年 };bool isleap(struct date d); //判断是否为闰年 int NumberOfDays(struct date d);…

【Python】 探索 Python 中的 breakpoint 方法

为何每次早餐 仍然魂离魄散 原来 那朝分手都要啜泣中上班 明明能够过得这关 赢回旁人盛赞 原来 顽强自爱这样难 难得的激情总枉费 残忍的好人都美丽 别怕 你将无人会代替 &#x1f3b5; 陈慧娴《情意结》 调试是编程过程中至关重要的一部分&#xff0c;能…

2024Summer周报二

本周总结:时间还是一样的不够用&#xff0c;题补不完&#xff0c;虽然说补题速度有点慢&#xff0c;但是基本上补过的题都能理解好&#xff0c;学习到不一样的思想,方法。同样的&#xff0c;没补完的题&#xff0c;会继续抓紧补&#xff0c;然后这周的题单都没时间写&#xff0…

全国区块链职业技能大赛第十套区块链产品需求分析与方案设计

任务1-1:区块链产品需求分析与方案设计 养老保险平台中涉及到参保人、社保局、公安局、工作单位等参与方,他们需要在区块链养老保险平台中完成账户注册、身份上链、社保代缴、信息核查等多种业务活动。通过对业务活动的功能分析,可以更好的服务系统的开发流程。基于养老保险…

java之log4j反序列化

1 审计思路 以Log4j漏洞审计为案例,谈一谈审计如何快速的锁定通用型漏洞 1.1 确定源码是否引用了漏洞所属的开源组件 该项目是一个maven项目,直接在Pom文件中搜索log4j的jar包及版本引用问题,如果该版本受影 响,进入下一步 1.2 寻找漏洞的入口 1.3 逐个排查入口是否有效…

[MySQL][深入理解隔离性][上][MVCC]详细讲解

目录 0.铺垫1.初识MVCC2.三个记录隐藏列字段1.是什么&#xff1f;2.示例 3.undo日志4.模拟MVCC5.思考 0.铺垫 在RR级别的时候&#xff0c;多个事务的update&#xff0c;多个事务的insert&#xff0c;多个事务的delete&#xff0c;是否会有加锁现象&#xff1f; 现象结果是&…