HTML解析之Beautiful Soup

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm=1001.2014.3001.5501

Beautiful Soup是一个用于从HTML和XML文件中提取数据的Python库。Beautiful Soup 提供一些简单的、函数用来处理导航、搜索、修改分析树等功能。Beautiful Soup模块中的查找提取功能非常强大,而且非常便捷,它通常可以节省程序员大量的工作时间。

Beautiful Soup 自动将输入文档转换为 Unicode 编码,输出文档转换为UTF-8 编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup 就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

(1)Beautiful Soup的安装

Beautiful Soup 3已经停止开发,目前推荐使用的是Beautiful Soup 4,不过它已经被移植到bs4当中了,所以在导入时需要from bs4然后再导入Beautiful Soup。安装Beautiful Soup有以下三种方式:

方式一:如果您使用的是最新版本的Debian或Ubuntu Linux,则可以使用系统软件包管理器安装Beautiful Soup安装命令为:apt-get install python-bs4。

方式二:Beautiful Soup 4是通过PyPi发布的,在Windows系统下可以通过easy_install或pip来安装它。包名是beautifulsoup4,它可以兼容Python2和Python3。安装命令为:easy_install beautifulsoup4或者是pip install beautifulsoup4。

注意:在使用Beautiful Soup 4之前需要先通过命令pip install bs4进行bs4库的安装。

方式三:如果当前的Beautiful Soup不是您想要的版本,可以通过下载源码的方式进行安装,源码的下载地址为“https://www.crummy.com/software/BeautifulSoup/bs4/download/”,然后在控制台中打开源码的指定路径,输入命令“python setup.py install”即可,如图6所示。

图6  通过源码安装Beautiful Soup

Beautiful Soup支持Python标准库中包含的HTML解析器,但它也支持许多第三方Python解析器,其中包含lxml解析器。根据不同的操作系统,您可以使用以下命令之一安装lxml:

l  apt-get install python-lxml:适用于Linux系统

l  easy_install lxml:适用于Windows系统

l  pip install lxml:适用于Windows系统

另一个解析器是html5lib,它是一个用于解析HTML的Python库,按照Web浏览器的方式解析HTML。您可以使用以下命令之一安装html5lib:

l  apt-get install python-html5lib:适用于Linux系统

l  easy_install html5lib:适用于Windows系统

l  pip install html5lib:适用于Windows系统

在表2中总结了每个解析器的优缺点。

表2  解析器的比较

解  析  

用    

优    

缺    

Python标准库

BeautifulSoup(markup, "html.parser")

Python标准库

执行速度适中

(在Python 2.7.3或3.2.2之前的版本中)文档容错能力差

lxml的HTML解析器

BeautifulSoup(markup, "lxml")

速度快

文档容错能力强

需要安装C语言库

lxml的XML解析器

BeautifulSoup(markup, "lxml-xml")

BeautifulSoup(markup, "xml")

速度快

唯一支持XML的解析器

需要安装C语言库

html5lib

BeautifulSoup(markup, "html5lib")

最好的容错性

以浏览器的方式解析文档

生成HTML5格式的文档

速度慢,不依赖外部扩展

(2)Beautiful Soup的使用

Beautiful Soup安装完成以后,下面将介绍如何通过Beautiful Soup库进行HTML的解析工作,具体示例步骤如下:

1)导入bs4库,然后创建一个模拟HTML代码的字符串,代码如下:

from bs4 import BeautifulSoup      # 导入Beautiful Soup库

# 创建模拟HTML代码的字符串

html_doc = """

<html><head><title>The Dormouse's story</title></head>

<body>

<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were

<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,

<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and

<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;

and they lived at the bottom of a well.</p>

<p class="story">...</p>

"""

2)创建Beautiful Soup对象,并指定解析器为lxml,最后通过打印的方式将解析的HTML代码显示在控制台中,代码如下:

# 创建一个Beautiful Soup对象,获取页面正文

soup = BeautifulSoup(html_doc, features="lxml")

print(soup)                     # 打印解析的HTML代码

运行结果如图7所示。

图7  显示解析后的HTML代码

说明:如果将html_doc字符串中的代码,保存在index.html文件中,可以通过打开HTML文件的方式进行代码的解析,并且可以通过prettify()方法进行代码的格式化处理,代码如下:

# 创建Beautiful Soup对象打开需要解析的html文件

soup = BeautifulSoup(open('index.html'),'lxml')

print(soup.prettify())             # 打印格式化后的代码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/27332.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

代码随想录:回溯20-21

51.N皇后 题目 按照国际象棋的规则&#xff0c;皇后可以攻击与之处在同一行或同一列或同一斜线上的棋子。 n 皇后问题 研究的是如何将 n 个皇后放置在 nn 的棋盘上&#xff0c;并且使皇后彼此之间不能相互攻击。 给你一个整数 n &#xff0c;返回所有不同的 n 皇后问题 的解…

【深度学习】Transformer分类器,CICIDS2017,入侵检测,随机森林、RFE、全连接神经网络

文章目录 1 前言2 随机森林训练3 递归特征消除 RFE Recursive feature elimination4 DNN5 Transformer5.1. 输入嵌入层&#xff08;Input Embedding Layer&#xff09;5.2. 位置编码层&#xff08;Positional Encoding Layer&#xff09;5.3. Transformer编码器层&#xff08;T…

堆的实现及其应用

堆的概念 堆是完全二叉树&#xff0c;分为大堆和小堆。大堆&#xff1a;任何一个父亲都大于等于孩子&#xff0c;小堆&#xff1a;任何一个父亲都小于等于孩子。 堆的实现 目录 typedef int HPDataType;typedef struct Heap { HPDataType* a;int size;int capacity; }HP;//交…

高考志愿填报秘籍:未来篇

选择适合自己的大学和专业&#xff0c;对广大考生来说至关重要。从某种程度上来说&#xff0c;决定了考生未来所从事的行业和发展前景。为了帮助广大考生更加科学、合理地填报志愿&#xff0c;选择适合自己的大学和专业&#xff0c;本公众号将推出如何用AI填报高考志愿专栏文章…

C语言之操作符

目录 一、二进制 原码、反码、补码 二、移位操作符 位操作符 三、 逗号表达式 四、下标访问[]、函数调用() 五. 操作符的属性 整型提升 算术转换 六、总结 一、二进制 其实2进制、8进制、10进制、16进制是数值的不同表示形式而已。 其实10进制是生活中经常使用的&am…

MPLS的配置

1、IP可达--- 使用路由协议全网可达 2、配置 MPLS ——LDP [r2]mpls lsr-id 2.2.2.2 必须先定义 mpls 的router-id&#xff0c;要为本地设备的真实ip地址&#xff0c;且邻居可达&#xff0c;因为该地址将用于建立 TCP 会话&#xff0c;建议使用环回地址 [r2]mpls 再开…

嵌入式微处理器重点学习(二)

影响cache命中率的因素 影响Cache命中率的因素主要包括以下几个方面&#xff1a; Cache大小&#xff1a;一般来说&#xff0c;Cache的大小越大&#xff0c;其能够存储的数据也就越多&#xff0c;因此可能缓存更多需要访问的数据&#xff0c;从而提高命中率。但是&#xff0c;增…

MySQL为什么需要事务回滚机制

在MySQL中事务回滚通过日志完成&#xff0c;所有事务进行的修改都会先记录到回滚日志中&#xff0c;然后再对数据库中的对应行进行写入。当事务被提交后就无法回滚了。 回滚日志的作用&#xff1a; 能够在发生错误或用户执行rollback时提供回滚的相关信息。 在整个系统发生崩溃…

Sklearn简介、安装教程、入门学习

当谈到sklearn&#xff08;scikit-learn&#xff09;教程时&#xff0c;以下是一个清晰、分点表示和归纳的概述&#xff0c;结合了参考文章中的相关信息&#xff1a; 1. Sklearn简介 定义&#xff1a;Scikit-learn&#xff08;sklearn&#xff09;是Python中用于机器学习的开…

类别朴素贝叶斯CategoricalNB和西瓜数据集

CategoricalNB 1 CategoricalNB原理以及用法2 数据集2.1 西瓜数据集2.2 LabelEncoder2.3 OrdinalEncoder 3 代码实现 1 CategoricalNB原理以及用法 &#xff08;1&#xff09;具体原理 具体原理可看&#xff1a;贝叶斯分类器原理 sklearn之CategoricalNB对条件概率的原理如下&…

粉丝经济时代:微信订阅号如何助力中小企业增长

在数字化浪潮席卷全球的今天&#xff0c;微信订阅号凭借其独特的优势&#xff0c;成为了中小企业数字化出海的重要工具。作为NetFarmer&#xff0c;我们致力于帮助企业充分利用这一平台&#xff0c;推动业务发展和市场拓展。今天将深入探讨微信订阅号的概念、用途、使用方法、适…

【驱动】使用fdisk、parted等命令制作SD启动卡

1、检查文件大小 计算烧写的文件系统大小 和 SD卡的大小,判断SD是否可以装下文件系统 1.1 计算文件系统大小 1)在终端中输入命令 $ du ./filesystem -b --max-depth=0 661447340 ./filesystem2)在脚本中计算 data_size=$(du ./filesystem -b --max-depth=0 | gre…

mac安装高版本git(更新git)

问题 问题&#xff1a;新下载的idea&#xff0c;此idea的版本较高&#xff0c;但是在工作发现这个版本的git存在一定漏洞会导致一些信息泄露问题。 1.安装Homebrew 对于Mac更新git&#xff0c;最简单的就是使用brew命令。所以我们首先下载homebrew。已下载的同学忽略直接下一…

【数据结构陈越版笔记】进阶实验1-3.1:两个有序序列的中位数

我这答案做的可能不对&#xff0c;如果不对&#xff0c;欢迎大家指出错误&#xff0c;思路大部分直接写在注释中了。 进阶实验1-3.1&#xff1a;两个有序序列的中位数 已知有两个等长的非降序序列S1, S2, 设计函数求S1与S2并集的中位数。有序序列 A 0 , A 1 , . . . , A n −…

JavaScript clearInterval 清除页面所有定时器

清除页面所有定时器&#xff1a; var time setInterval(() > {console.log("hello world") }, 10000); //清除 for(var i 1;i<time;i){clearInterval(i); }还可以用&#xff1a; 这种方法可以确保页面上所有的定时器都被有效地清除&#xff0c;以防止它们继…

Oracle 排查慢SQL

Oracle 排查慢SQL select * from v s q l a r e a w h e r e r o w n u m < 10 ; s e l e c t ∗ f r o m v sqlarea where rownum<10; select * from v sqlareawhererownum<10;select∗fromvsql where rownum<10; select * from dba_hist_sqltext where rownum<…

ES升级--05--快照生成 和备份

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 备份ES数据1.关闭集群自动均衡2.执行同步刷新3.停止集群节点的Elasticsearch服务4.修改Elasticsearch配置文件&#xff0c;开启快照功能&#xff0c;配置仓库目录为…

第一百零九节 Java面向对象设计 - Java抽象类和方法

Java面向对象设计 - Java抽象类和方法 Java可以定义一个类&#xff0c;其对象不能被创建。 它的目的只是表示一个想法&#xff0c;这是其他类的对象共有的。 这样的类称为抽象类。 语法 我们需要在类声明中使用 abstract 关键字来声明一个抽象类。 例如&#xff0c;下面的…

[240614] 微软推迟发布 Recall AI 功能 | YouTube 尝试在服务器端注入广告

目录 微软推迟发布 Recall AI 功能YouTube 尝试在服务器端注入广告 微软推迟发布 Recall AI 功能 微软表示&#xff0c;由于担心隐私风险&#xff0c;不会在下周推出 “Recall” 功能&#xff0c;这是一项跟踪计算机使用情况的 AI 功能 Recall 功能能跟踪网页浏览&#xff0c…

微信群发机器人.使用指南.

0.简介 1.介绍 微信群发机器人是用来群发微信消息的工具,通过控制电脑的键盘和鼠标操作微信app来实现群发.支持的消息类型有:文字,图片,视频,文件,小程序,位置等. 群发机器人也可以将微信联系人中的信息保存到电脑csv表格中,以供分析. 因其是通过模拟用户操作鼠标键盘来实现群…