Python爬虫---解析---BeautifulSoup

BeautifulSoup简称:bs4

作用:解析和提取数据

1. 安装:pip install bs4  或pip install bs4 -i https://pypi.douban.com/simple(使用国内镜像下载)

注意:需要安装在python解释器相同的位置,例如:D:\Program Files\Python3.11.4\Scripts

2. 导入: from bs4 import BeautifulSoup

3. 创建对象:

        1)服务器响应的文件生成对象:

        soup = Bequtifulsoup(response.read().decode(),'lxml')

        2)本地文件生成对象 soup = BeautifulSoup(open('1.html'),'lxml')

        注意:默认打开文件的编码格式gbk所以需要指定打开编码格式

4.使用:

4.1. bs4的一些函数:  1) find   2) findall    3) select

        1) find:获取第一个符合条件的数据

        2) findall:返回的是一个列表,且返回所有符合条件的标签,如果获取多个标签的数据,需要放在列表中

        3) select:返回的是一个列表,并且会返回多个数据

4.2.  例子:

from bs4 import BeautifulSoup# 通过解析本地文件
soup = BeautifulSoup(open("1224-解析-BeautifulSoup.html", encoding="utf-8"), "lxml")
# print(soup)# 根据标签名查找节点
print(soup.a)  # 获取第一个符合条件的数据的 a标签
print(soup.a.attrs)  # 获取第一个a标签的属性和属性值# bs4的一些函数:  1) find   2) findall    3) select# 1) find:获取第一个符合条件的数据
print(soup.find("a"))  # 获取第一个a标签
print(soup.find("a", title="a2"))  # 根据title值来找到对应的标签对象
print(soup.find("a", class_="a1"))  # 根据class值找到对应标签对象,注意class需要添加下划线# 2) findall:返回的是一个列表,且返回所有符合条件的标签,如果获取多个标签的数据,需要放在列表中
print(soup.find_all("a"))  # 返回所有符合条件的a标签
print(soup.find_all(["a", "span"]))  # 多个需要放在列表中
print(soup.find_all("li", limit=2))  # limit:查找前几个数据# 3) select:返回的是一个列表,并且会返回多个数据
print(soup.select("a"))
print(soup.select(".a1"))  # 可以通过.代表class
print(soup.select("#l1"))  # 可以通过#代表id
# 属性选择器------通过属性查找对应的标签
print(soup.select("li[id]"))  # 查找到li标签中有id的标签
print(soup.select("li[id='l2']"))  # 查找li标签中id为l2的标签
# 层级选择器
print(soup.select("div li"))  # 后代选择器  div下面的li
print(soup.select("div>ul>li"))  # 子代选择器
print(soup.select("a,li"))   # 找到a标签和li标签的所有的对象# 节点信息:
# 1)获取节点内容
obj = soup.select("#d1")[0]
# 如果标签对象中,只有内容,那么string和get_text()都可以用
# 如果标签对象中,除了内容还有标签,那么string就获取不到数据,而get_text()可以获取到数据
print(obj.string)    # None
print(obj.get_text())   # 我是第二个span
# 2)节点的属性
obj1 = soup.select("#p1")[0]
print(obj1.name)  # name:标签的名字     p
print(obj.attrs)  # 将属性值作为一个字典返回       {'id': 'd1'}# 3)获取节点的属性
obj2 = soup.select("#p1")[0]
print(obj2.attrs.get("class"))   # ['p1']
print(obj2.get("class"))   # ['p1']
print(obj2["class"])   # ['p1']

html:

<!doctype html>
<html lang="en">
<head><meta charset="UTF-8"><meta name="viewport"content="width=device-width, user-scalable=no, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0"><meta http-equiv="X-UA-Compatible" content="ie=edge"><title>Document</title>
</head>
<body><div><ul><li id="l1">张三</li><li id="l2">李四</li><li>王五</li><a href="" id="" class="a1">BeautifulSoup</a><span>我是span</span></ul></div><a href="" title="a2">百度</a><div id="d1"><span>我是第二个span</span></div><p id="p1" class="p1">我是p标签</p>
</body>
</html>

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/578507.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

外贸中的很多跟想的不一样的事情

说说最近遇到的几个客户情况&#xff0c;以及对一些事情刷新的认知。 第一个客户姑且称为A吧&#xff0c;这个客户在询价的时候&#xff0c;产品的名称以及数量以还有走货的方式写的很清楚&#xff0c;客户A要的产品不是很多&#xff0c; 顶多算是个样品单。 一般情况下&…

23-二分-值域二分-制作 m 束花所需的最少天数

这是二分法的第23篇算法&#xff0c;力扣链接。 给你一个整数数组 bloomDay&#xff0c;以及两个整数 m 和 k 。 现需要制作 m 束花。制作花束时&#xff0c;需要使用花园中 相邻的 k 朵花 。 花园中有 n 朵花&#xff0c;第 i 朵花会在 bloomDay[i] 时盛开&#xff0c;恰好 可…

前端性能优化三十四:花裤衩模板引入打包分析工具

测量各个插件和loader所花费的时间 (1). install: yarn add speed-measure-webpack-plugin -D(2). Vue-cli 3.x设置: const SpeedMeasurePlugin require(speed-measure-webpack-plugin) const smp new SpeedMeasurePlugin({outputFormat: human }) // 包裹configureWebpac…

PostgreSQL 可观测性最佳实践

简介 软件简述 PostgreSQL 是一种开源的关系型数据库管理系统 (RDBMS)&#xff0c;它提供了许多可观测性选项&#xff0c;以确保数据库的稳定性和可靠性。 可观测性 可观测性&#xff08;Observability&#xff09;是指对数据库状态和操作进行监控和记录&#xff0c;以便在…

Linux操作系统——进程(四)进程切换与命令行参数

进程切换 概念引入 下面我们先了解几个概念&#xff1a; 竞争性: 系统进程数目众多&#xff0c;而CPU资源只有少量&#xff0c;甚至1个&#xff0c;所以进程之间是具有竞争属性的。为了高效完成任务&#xff0c;更合理竞争相关资源&#xff0c;便具有了优先级 独立性: 多进程…

Java 基础面试

1 JDK 和 JRE 有什么区别&#xff1f; DK&#xff08;Java Development Kit&#xff09;是Java开发工具包的缩写&#xff0c;它包含了Java编译器&#xff08;javac&#xff09;、Java虚拟机&#xff08;JVM&#xff09;和其他开发工具。JDK提供了开发Java应用程序所需的所有…

[论文阅读笔记28] 对比学习在多目标跟踪中的应用

这次做一篇2D多目标跟踪中使用对比学习的一些方法. 对比学习通过以最大化正负样本特征距离, 最小化正样本特征距离的方式来实现半监督或无监督训练. 这可以给训练MOT的外观特征网络提供一些启示. 使用对比学习做MOT的鼻祖应该是QDTrack, 本篇博客对QDTrack及其后续工作做一个总…

Linux OpenEuler(欧拉系统)无公网ip实现SSH远程连接

&#x1f525;博客主页&#xff1a; 小羊失眠啦. &#x1f3a5;系列专栏&#xff1a;《C语言》 《数据结构》 《Linux》《Cpolar》 ❤️感谢大家点赞&#x1f44d;收藏⭐评论✍️ 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;…

研究生可以直接当教师吗

在教育领域&#xff0c;教师岗位的竞争日益激烈。许多即将毕业的研究生&#xff0c;尤其是教育学专业的&#xff0c;都怀揣着一个共同的疑问&#xff1a;我能不能一出校门就直接当教师&#xff1f; 成为教师并不只是有个学历那么简单。它需要具备扎实的教育学基础、良好的教学技…

1.3 Python高级编程-生成器

摘要&#xff1a; 在Python编程中&#xff0c;生成器是一种特殊类型的迭代器&#xff0c;它允许你在需要时动态生成值。生成器使用关键字yield来返回一个值&#xff0c;这使得它们非常适合处理大量数据或执行计算密集型任务。在本教程中&#xff0c;我们将介绍生成器的基础知识…

Java 接口默认方法和静态方法

Java 8 引入的新特性 默认方法&#xff1a;Java 8&#xff08;发布于2014年3月&#xff09;开始&#xff0c;接口中可以定义带有实现的方法&#xff0c;称为默认方法&#xff08;Default Methods&#xff09;。静态方法&#xff1a;同样从Java 8开始&#xff0c;接口还可以定义…

Matlab:解非线性方程组

1、基于问题求解非线性方程组 例&#xff1a; xoptimvar(x,2); %将x定义为一个二元素优化变量 eq1exp(-exp(-(x(1)x(2))))x(2)*(1x(1)^2); %创建第一个方程作为优化等式表达式 eq2x(1)*cos(x(2))x(2)*sin(x(1))1/2; %创建第二个方程作为优化等式表达式 probe…

【数据结构和算法】找到最高海拔

其他系列文章导航 Java基础合集数据结构与算法合集 设计模式合集 多线程合集 分布式合集 ES合集 文章目录 其他系列文章导航 文章目录 前言 一、题目描述 二、题解 2.1 前缀和的解题模板 2.1.1 最长递增子序列长度 2.1.2 寻找数组中第 k 大的元素 2.1.3 最长公共子序列…

一台机器搭建Redis 主从复制

机器IP&#xff1a; 192.168.1.10主机配置&#xff1a; protected-mode no port 6379 pidfile /var/run/redis_6379.pid requirepass foobaredslave端配置 protected-mode no port 16379 pidfile /var/run/redis_16379.pid requirepass foobaredslaveof 192.168.1.10 6379 m…

fpga verilog rs232 发送模块实现

RS-232是一种串行通信协议&#xff0c;用于在计算机和其他外部设备之间进行数据传输。RS-232定义了电气特性、信号级别、机械特性和传输速率等规范&#xff0c;为串行通信提供了一种标准化的接口。 RS-232通常使用DB9连接器&#xff0c;用于传输和接收数据、控制信号以及地线连…

12月25日作业

串口发送控制命令&#xff0c;实现一些外设LED 风扇 uart4.c #include "uart4.h"void uart4_config() {//1.使能GPIOB\GPIOG\UART4外设时钟RCC->MP_AHB4ENSETR | (0x1 << 1);RCC->MP_AHB4ENSETR | (0x1 << 6);RCC->MP_APB1ENSETR | (0x1 <…

边缘计算云边端全览—边缘计算系统设计与实践【文末送书-10】

文章目录 一.边缘计算1.1边缘计算的典型应用 二.边缘计算 VS 云计算三.边缘计算系统设计与实践【文末送书-10】3.1 粉丝福利&#xff1a;文末推荐与福利免费包邮送书&#xff01; 一.边缘计算 边缘计算是指在靠近物或数据源头的一侧&#xff0c;采用网络、计算、存储、应用核心…

STM32CubeIDE在使用freertos的情况下空间占用情况

因为STM32F103C8T6芯片的存储空间太小了&#xff0c;只有64K&#xff0c;在使用STM32CubeIDE的freertos情况下空间占用情况做个简单的测试&#xff1a; 不使用程序优化&#xff1a; 空间占用情况&#xff1a; 如果使用浮点运算功能的printf&#xff1a; 这个使用空间占用更大…

Isaac Sim 仿真机器人urdf文件导入

本教程展示如何在 Omniverse Isaac Sim 中导入 urdf 一. 使用内置插件导入urdf 安装urdf 插件 方法是转到“window”->“Extensions” 搜索框中输入urdf, 并启用 通过转至Isaac Utils -> Workflows -> URDF Importer菜单来访问 urdf 扩展。 表格中的 1,2,3 对应着…