bs4模块使用(二)

遍历文档树

怎样从文档的一段内容找到另一段内容?

html_doc = """
<html><head><title>The Dormouse's story</title></head><body>
<p class="title"><b>The Dormouse's story</b></p><p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p><p class="story">...</p>
"""from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')

子节点

一个Tag可能包含多个字符串或其它的Tag,这些都是这个Tag的子节点

tag名字

想要获取节点,最简单的方法就是提供tag名字,甚至可以在文档树的tag中多次调用这个方法

通过点取属性的方式只能获得当前名字的第一个tag,后面会介绍获取全部

print(soup.head)
print(soup.title)
print(soup.body.p)
.contents和.children
  • .contents
    .contents 属性可以将tag的子节点以列表的方式输出
  • .children
    通过tag的 .children 生成器,可以对tag的子节点进行循环

print(soup.body.contents)for item in soup.body.children:print(item)

字符串没有子节点
.contents和.children属性获取的子节点,仅包含tag的直接子节点

.descendants

.descendants属性,不仅可以获取直接子节点,子孙节点也可以获取

html_doc = """<html><head><title>The Dormouse's story</title></head><body><p class="title"><b>The Dormouse's story</b></p><p class="story">Once upon a time there were three little sisters; and their names were<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;and they lived at the bottom of a well.</p><p class="story">...</p>"""soup = BeautifulSoup(html_doc,features="lxml")for item in soup.body.descendants:print(item)print("--------------")
for item in soup.body.contents:print(item)
print("--------------")for item in soup.body.children:print(item)

在这里插入图片描述

使用该属性,不需要对直接子节点的子节点进行二次数据提取

.string
  • tag只有一个NavigableString类型的子节点,可以使用.string得到子节点
  • tag仅有一个子节点,那么tag调用.string属性,输出结果和上述一致

如果tag中存在多个字符串,可以用.strings来循环获取,如果存在很多空格或空行,可以通过.stripped_strings去除多余空白内容

全部是空格的行会被忽略掉,段首和段末的空白会被删除

父节点

每个tag或字符串都有父节点:被包含在某个tag中

.parent

通过 .parent 属性来获取某个元素的父节点

.parents

通过元素的.parents属性可以递归得到元素的所有父辈节点

兄弟节点

是同一个元素的子节点,可以被称为兄弟节点

.next_sibling和.previous_sibling

首个子节点无.previous_sibling,最后一个子节点无.next_sibling属性,这两个用于获取兄弟节点

通过 .next_siblings 和 .previous_siblings 属性可以对当前节点的兄弟节点迭代输出

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/48476.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于SpringBoot+Vue的财务管理系统(带1w+文档)

基于SpringBootVue的财务管理系统(带1w文档) 基于SpringBootVue的财务管理系统(带1w文档) 财务管理系统的开发运用java技术、springboot框架&#xff0c;MIS的总体思想&#xff0c;以及Mysql等技术的支持下共同完成了该系统的开发&#xff0c;实现了财务管理的信息化&#xff0…

Android开机优化系列文档

Android开机优化系列文档 Android系统开机优化系列文档&#xff0c;将与开机优化相关的文档收集在这里&#xff0c;便于管理和查看 Android 14 开机时间优化措施汇总-CSDN博客 Android 14 开机时间优化措施-CSDN博客 根据systrace报告优化系统时需要关注的指标和优化策略-CSD…

ccf-csp认证--仓库规划

西西艾弗岛上共有 n 个仓库&#xff0c;依次编号为 1⋯n。每个仓库均有一个 m 维向量的位置编码&#xff0c;用来表示仓库间的物流运转关系。 具体来说&#xff0c;每个仓库 i 均可能有一个上级仓库 j&#xff0c;满足&#xff1a;仓库 j 位置编码的每一维均大于仓库 i 位置编…

docker安装指导

需求:为了开放设备给客户使用,在设备里面创建docker镜像ubuntu,客户程序跑在ubuntu里面。 一、docker安装 1.先将docker安装包(docker-26.1.4.tgz)拷贝到DM系统中。 2.解压docker安装包 tar zxf docker-26.1.4.tgz 3.将docker可执行程序拷贝到/usr/bin/下面 cp docker/…

ReLU-KAN:仅需要矩阵加法、点乘和ReLU*的新型Kolmogorov-Arnold网络

摘要 由于基函数&#xff08;B样条&#xff09;计算的复杂性&#xff0c;Kolmogorov-Arnold网络&#xff08;KAN&#xff09;在GPU上的并行计算能力受到限制。本文提出了一种新的ReLU-KAN实现方法&#xff0c;该方法继承了KAN的核心思想。通过采用ReLU&#xff08;修正线性单元…

运维团队如何高效监控容器化环境中的PID及其他关键指标

随着云计算和容器化技术的快速发展&#xff0c;越来越多的企业开始采用容器化技术来部署和管理应用程序。然而&#xff0c;容器化环境的复杂性和动态性给运维团队带来了前所未有的挑战。本文将从PID&#xff08;进程标识符&#xff09;监控入手&#xff0c;探讨运维团队如何高效…

什么是 MLPerf?

什么是 MLPerf&#xff1f; MLPerf 是一个用于衡量机器学习硬件、软件和服务性能的标准化基准测试平台。它由 MLCommons 组织开发&#xff0c;该组织是由多家领先的科技公司和学术机构组成的。MLPerf 的目标是通过一系列标准化的基准测试任务和数据集&#xff0c;提供一个统一…

JAVA面试题---JAVA集合框架

JAVA集合框架概述 JAVA集合框架是JAVA提供的一组类和接口&#xff0c;用于存储和操作一组对象。 Collection&#xff1a;集合层次结构的根节点List&#xff1a;有序集合&#xff0c;可以包含重复元素Set&#xff1a;无序集合&#xff0c;不包含重复元素Queue&#xff1a;按照…

【网络】socket和udp协议

socket 一、六个背景知识1、Q1&#xff1a;在进行网络通信时&#xff0c;是不是两台机器在进行通信&#xff1f;2、端口号3、端口号vs进程PID4、目的端口怎么跟客户端绑定的呢&#xff1f;也就是怎么通过目的端口去找到对应的进程的呢&#xff1f;5、我们的客户端&#xff0c;怎…

土土土土土土土土圭

#include <tf2/LinearMath/Quaternion.h> //增加头文件 #include <tf2_ros/transform_broadcaster.h> //增加头文件 /***************************************************************************/ /* 解析udp接收数据函数 */ /***************************…

区间加减使得数组变成指定类型

这个问题要怎么去考虑呢&#xff0c;首先我们将两个数组做差得到相对大小&#xff0c;问题就变成了把我们构造的数组通过区间加一或者区间减一变成全部都是0的最小次数 这里就涉及到我们的一个技巧&#xff0c;我们需要把负数序列和正数序列分开处理&#xff0c;如何能得到最小…

【C++】一、Visual Studio 2017使用教程:内存窗口、预处理文件、obj文件,调试优化

文章目录 概述编译期&#xff08;Compile&#xff09;查看预处理后的文件查看obj文件开启编译器调试优化 链接期&#xff08;Linking&#xff09;报错信息概述自定义入口点 调试内存窗口值转16进制查看查看汇编代码 注意 概述 记录一下Cherno的vs配置下载地址 https://thecher…

WebAssembly在前端开发中的创新与应用

引言 WebAssembly (简称 Wasm) 是一项新兴的技术&#xff0c;正在改变前端开发的格局。它允许开发者在现代 Web 浏览器中运行高性能的、低级别的编程语言&#xff0c;如 C/C&#xff0c;从而扩展了 Web 应用程序的能力和性能。本文将探讨 WebAssembly 的基本概念、工作原理及其…

Unity 调试死循环程序

如果游戏出现死循环如何调试呢。 测试脚本 我们来做一个测试。 首先写一个死循环代码&#xff1a; using System.Collections; using System.Collections.Generic; using UnityEngine;public class dead : MonoBehaviour {void Start(){while (true){int a 1;}}}Unity对象设…

Qt 4.8.7 + MSVC 中文乱码问题深入分析

此问题很常见&#xff0c;然而网上关于此问题的分析大多不够深刻&#xff0c;甚至有错误&#xff1b;加之Qt5又更改了一些编码策略&#xff0c;而很多文章并未提及版本问题&#xff0c;或是就算提了&#xff0c;读者也不重视。这些因素很容易让读者产生误导。今日我彻底研究透了…

Python并发编程:多线程和多进程

多线程&#xff08;Threading&#xff09; 多线程允许程序同时执行多个线程。在Python中&#xff0c;由于GIL的存在&#xff0c;多线程并不能真正地实现并行计算&#xff08;即同时执行多个线程&#xff09;&#xff0c;但在I/O密集型任务中&#xff0c;多线程仍然可以提高效率…

【TORCH】获取第一个batch数值的几种方法

文章目录 使用 enumerate() 函数遍历 dataloader使用next() 使用 enumerate() 函数遍历 dataloader 在 PyTorch 中&#xff0c;使用 enumerate() 函数遍历 dataloader 可以同时提供 batch 的索引和内容。如果你只想获取第一个 batch&#xff0c;可以结合使用 enumerate() 和一…

MCU常见相关术语缩写说明

AAI Auto Address Increment 地址自增模式 AHB Advanced High Performance Bus 高级高性能总线 APB Advanced Peripheral Bus 高级外设总线 CKGEN Clock Generator …

html5——CSS背景属性设置

目录 背景颜色 background-color 背景图像 背景定位 背景样式简写 背景尺寸 ​编辑渐变属性 背景颜色 background-color 背景图像 background-image background-image:url(图片路径); 背景重复方式&#xff1a; background-repeat 属性&#xff1a; repeat&#…

Qt中在pro中实现一些宏定义

在pro文件中利用 DEFINES 定义一些宏定义供工程整体使用。&#xff08;和在cpp/h文件文件中定义使用有点类似&#xff09;可以利用pro的中的宏定义实现一些全局的判断 pro中实现 #自定义一个变量 DEFINES "PI\"3.1415926\"" #自定义宏 DEFINES "T…