Python爬虫学习笔记(六)————BeautifulSoup(bs4)解析

目录

1.bs4基本简介

(1)BeautifulSoup简称

(2)什么是BeatifulSoup?

(3)优缺点

2.bs4安装以及创建

(1)安装         

(2)导入         

(3)创建对象

3.节点定位

(1)根据标签名查找节点

(2)函数

        ①find(返回一个对象)

        ②find_all(返回一个列表)

        ③select(根据选择器得到节点对象)【推荐】

               <1>element

                <2>.class

                <3>#id

                <4>属性选择器

                <5>层级选择器

4.节点信息

(1).获取节点内容:适用于标签中嵌套标签的结构

(2).节点的属性

(3).获取节点属性

5.实例

(1)解析本地文件生成对象

 (2)爬取星巴克网站产品图片及数据—— 解析服务器响应的文件生成对象 


1.bs4基本简介

(1)BeautifulSoup简称

                bs4

(2)什么是BeatifulSoup?

                 BeautifulSoup,和lxml一样,是一个html的解析器,主要功能也是解析和提取数据

(3)优缺点

                缺点:效率没有lxml的效率高

                优点:接口设计人性化,使用方便

2.bs4安装以及创建

(1)安装         

                pip install bs4

(2)导入         

                from bs4 import BeautifulSoup

(3)创建对象

                服务器响应的文件生成对象 

                        soup = BeautifulSoup(response.read().decode(), 'lxml')

                本地文件生成对象

                        soup = BeautifulSoup(open('1.html'), 'lxml')

                        注意:默认打开文件的编码格式gbk所以需要指定打开编码格式

3.节点定位

(1)根据标签名查找节点

        soup.a 【注】只能找到第一个a

                soup.a.name

                soup.a.attrs

(2)函数

        ①find(返回一个对象)

                find('a'):只找到第一个a标签

                find('a', title='名字')

                find('a', class_='名字')

        ②find_all(返回一个列表)

                 find_all('a') 查找到所有的a

                find_all(['a', 'span']) 返回所有的a和span,要加中括号

                find_all('a', limit=2) 只找前两个a

        ③select(根据选择器得到节点对象)【推荐】
               <1>element

                        eg:p

                <2>.class

                        eg:.firstname

                <3>#id

                        eg:#firstname

                <4>属性选择器

                        [attribute]

                                eg:li = soup.select('li[class]')

                        [attribute=value]

                                 eg:li = soup.select('li[class="hengheng1"]')

                <5>层级选择器

                        element element  (空格)

                                div p

                        element>element

                                div>p

                        element,element

                                div,p

                                        eg:soup = soup.select('a,span')

4.节点信息

(1).获取节点内容:适用于标签中嵌套标签的结构

        obj.string

        obj.get_text()【推荐】

(2).节点的属性

        tag.name 获取标签名

                eg:tag = find('li)

                        print(tag.name)

                tag.attrs将属性值作为一个字典返回

(3).获取节点属性

        obj.attrs.get('title')【常用】

        obj.get('title')

        obj['title']

5.实例

(1)解析本地文件生成对象

HTML文件

<!DOCTYPE html>
<html lang="en">
<head><meta charset="UTF-8"><title>Title</title>
</head>
<body><div><ul><li id="l1">张三</li><li id="l2">李四</li><li>王五</li><a href="" id="" class="a1">尚硅谷</a><span>嘿嘿嘿</span></ul></div><a href="" title="a2">百度</a><div id="d1"><span>哈哈哈</span></div><p id="p1" class="p1">呵呵呵</p>
</body>
</html>

python代码

from bs4 import BeautifulSoup# 通过解析本地文件 来将bs4的基础语法进行讲解
# 默认打开的文件的编码格式是gbk 所以在打开文件的时候需要指定编码
soup = BeautifulSoup(open('075_尚硅谷_爬虫_解析_bs4的基本使用.html',encoding='utf-8'),'lxml')# 根据标签名查找节点
# 找到的是第一个符合条件的数据
print(soup.a)
# 获取标签的属性和属性值
print(soup.a.attrs)# bs4的一些函数
# (1)find
# 返回的是第一个符合条件的数据
print(soup.find('a'))# 根据title的值来找到对应的标签对象
print(soup.find('a',title="a2"))# 根据class的值来找到对应的标签对象  注意的是class需要添加下划线,为了与class关键字区分
print(soup.find('a',class_="a1"))# (2)find_all  返回的是一个列表 并且返回了所有的a标签
print(soup.find_all('a'))# 如果想获取的是多个标签的数据 那么需要在find_all的参数中添加的是列表的数据
print(soup.find_all(['a','span']))# limit的作用是查找前几个数据
print(soup.find_all('li',limit=2))# (3)select(推荐)
# select方法返回的是一个列表  并且会返回多个数据
print(soup.select('a'))# 可以通过.代表class  我们把这种操作叫做类选择器
print(soup.select('.a1'))print(soup.select('#l1'))# 属性选择器---通过属性来寻找对应的标签
# 查找到li标签中有id的标签
print(soup.select('li[id]'))# 查找到li标签中id为l2的标签
print(soup.select('li[id="l2"]'))# 层级选择器
#  后代选择器
# 找到的是div下面的li
print(soup.select('div li'))# 子代选择器
#  某标签的第一级子标签
# 注意:很多的计算机编程语言中 如果不加空格不会输出内容  但是在bs4中 不会报错 会显示内容
print(soup.select('div > ul > li'))# 找到a标签和li标签的所有的对象
print(soup.select('a,li'))# 节点信息
#    获取节点内容
# select方法返回的是一个列表  并且会返回多个数据,所以要取列表第一个数据,即【0】才能获得数据
obj = soup.select('#d1')[0]
# 如果标签对象中 只有内容 那么string和get_text()都可以使用
# 如果标签对象中 除了内容还有标签 那么string就获取不到数据 而get_text()是可以获取数据
# 我们一般情况下  推荐使用get_text()
print(obj.string)
print(obj.get_text())# 节点的属性
obj = soup.select('#p1')[0]
# name是标签的名字
print(obj.name)
# 将属性值左右一个字典返回
print(obj.attrs)# 获取节点的属性
obj = soup.select('#p1')[0]print(obj.attrs.get('class'))  # attrs返回属性的字典,字典的get方法
print(obj.get('class'))
print(obj['class'])

 (2)爬取星巴克网站产品图片及数据—— 解析服务器响应的文件生成对象 


import urllib.requesturl = 'https://www.starbucks.com.cn/menu/'response = urllib.request.urlopen(url)content = response.read().decode('utf-8')from bs4 import BeautifulSoupsoup = BeautifulSoup(content,'lxml')# xpath方法
# //ul[@class="grid padded-3 product"]//strong/text()#bs4
name_list = soup.select('ul[class="grid padded-3 product"] strong')for name in name_list:print(name.get_text())

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1295.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一个月学通Python(十二):Python发送电子邮件及图像办公文档处理

专栏介绍 结合自身经验和内部资料总结的Python教程,每天3章,1个月就能全方位的完成Python的学习并进行实战开发。加油吧!卷起来! 全部文章请访问专栏:《Python全栈教程(0基础》 文章目录 专栏介绍网络应用开发发送电子邮件发送短信图像和办公文档处理操作图像计算机图像…

Ceph 块存储系统 RBD 接口

-创建 Ceph 块存储系统 RBD 接口- 1、创建一个名为 rbd-demo 的专门用于 RBD 的存储池 ceph osd pool create rbd-demo 64 642、将存储池转换为 RBD 模式 ceph osd pool application enable rbd-demo rbd3、初始化存储池 rbd pool init -p rbd-demo # -p 等同于 --pool4、…

jenkins手把手教你从入门到放弃01-jenkins简介(详解)

一、简介 jenkins是一个可扩展的持续集成引擎。持续集成&#xff0c;也就是通常所说的CI&#xff08;Continues Integration&#xff09;&#xff0c;可以说是现代软件技术开发的基础。持续集成是一种软件开发实践&#xff0c; 即团队开发成员经常集成他们的工作&#xff0c;通…

STM32 Proteus仿真LCD12864火灾检测烟雾火焰温度报警器MQ2 -0064

STM32 Proteus仿真LCD12864火灾检测烟雾火焰温度报警器MQ2 -0064 Proteus仿真小实验&#xff1a; STM32 Proteus仿真LCD12864火灾检测烟雾火焰温度报警器MQ2 -0064 功能&#xff1a; 硬件组成&#xff1a;STM32F103R6单片机 LCD12864 液晶显示DS18B20 温度传感器多个按键电位…

【LangChain】概要(Summarization)

LangChain学习文档 流行 【LangChain】Retrieval QA【LangChain】对话式问答(Conversational Retrieval QA)【LangChain】SQL【LangChain】概要(Summarization) 概要 summarization chain可用于汇总多个文档。一种方法是输入多个较小的文档&#xff0c;将它们分为块后&#…

单例模式:懒汉式和饿汉式

目录 懒汉模式和饿汉模式 区别 示例 懒汉模式线程不安全 懒汉模式线程安全 懒汉模式内部静态变量线程安全 饿汉式线程安全 指的是在系统生命周期内&#xff0c;只产生一个实例。 懒汉模式和饿汉模式 分为懒汉式和饿汉式 区别 创建时机和线程安全 线程安全&#xff1…

高时空分辨率、高精度一体化预测技术的风、光、水自动化预测技术的应用

第一章 预测平台讲解及安装 一、高精度气象预测基础理论介绍 综合气象观测数值模拟模式&#xff1b; 全球预测模式、中尺度数值模式&#xff1b; 二、自动化预测平台介绍 Linux系统 Crontab定时任务执行机制 Bash脚本自动化编程 硬件需求简介 软件系统安装 …

分享一个加载按钮动画

先看效果&#xff1a; 再看代码&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>加载动画按钮</title><script src"https://cdnjs.cloudflare.com/ajax/libs/animejs/3.2…

flutter开发实战-卡片翻转动画效果Transform+IndexedStack+rotateAnimation

flutter开发实战-实现卡片翻转动画效果 之前开发中遇到了商品卡片翻转&#xff0c;商品正面是商品图片、商品名称&#xff1b;背面是商品价格&#xff0c;需要做卡片翻转动画。 动画实现即&#xff1a;在一段时间内&#xff0c;快速地多次改变UI外观&#xff1b;由于人眼会产生…

FL Studio是什么软件?FL Studio2023最新更新内容

FL Studio是什么软件 FL Studio是由比利时软件公司Image-Line开发的音乐制作软件&#xff0c;它拥有丰富的音效、合成器、采样器、鼓机等工具。FL Studio支持多种音频文件格式&#xff0c;包括MIDI、MP3、WAV、OGG等&#xff0c;可以帮助用户自由地进行音乐创作。 FL Studio界…

如何有效利用chatgpt?

如何有效地使用ChatGPT&#xff1f; 代码、诗歌、歌曲和短篇小说都可以由 ChatGPT 以特定的风格编写。您所需要的只是正确的问题和适当的提示。以下是有关如何有效使用ChatGPT的一些提示和想法&#xff1a; 头脑 风暴获取初稿解决编码问题尝试不同的提示格式查找标题寻求帮助…

Android 内存泄漏的常见原因及其对应的解决方案

Android 内存泄漏 Android应用程序中常见的内存泄漏原因有很多&#xff0c;以下是一些常见的原因及对应的解决方案&#xff1a; 1. 静态引用导致的内存泄漏&#xff1a; 静态变量持有对Activity或Fragment的引用&#xff0c;导致它们无法被垃圾回收机制释放。 解决方案&…

rk3588+视频采集(mpp硬编码H.265)

rk3588+视频采集(mpp硬编码H.265) mpp硬编码 mpp硬编码可以压缩500倍左右,详细代码见该专栏文章《MPP硬编码H265(500倍压缩)》; 视频采集 本案例是通过opencv+定时器(需按照FPS刷新)获取frame; 自定义一个counter计数,保存counter个帧; 当需要保存一个视频时: 可…

DASCTF密码第一题,bbcrypto

貌似叫这个名字。 # -*- coding:utf-8 -*- import A,SALT from itertools import *def encrypt(m, a, si):c""for i in range(len(m)):chex(((ord(m[i])) * a ord(next(si))) % 128)[2:].zfill(2)return c if __name__ "__main__":m flag{************…

随手笔记——实现去畸变部分的代码

随手笔记——实现去畸变部分的代码 说明关键代码 说明 本程序实现去畸变部分的代码。尽管我们可以调用OpenCV的去畸变&#xff0c;但自己实现一遍有助于理解。 关键代码 // 本程序实现去畸变部分的代码。尽管我们可以调用OpenCV的去畸变&#xff0c;但自己实现一遍有助于理解…

WordPress作为可扩展的企业级解决方案

网络商业世界就像一片汪洋大海&#xff0c;大型企业是大海中最大的鱼。然而&#xff0c;只因为你比其他人都大&#xff0c;并不意味着你不能逆流而上。相反&#xff0c;企业业务面临的挑战更大&#xff0c;对网站的技术要求更高。 多年来&#xff0c;大型公司通常依赖最昂贵的…

Centos终端显示-bash-4.2#的解决方法

登录linux系统过后&#xff0c;突然发现显示的是-bash-4.2# 而不是root主机名 路径的显示方式&#xff0c;发生这种情况的原因是根目录下缺失几个配置文件&#xff0c;从默认配置中拷贝过来就可以解决了。 cp /etc/skel/.bashrc /root/ cp /etc/skel/.bash_profile /root/如…

Linux总线设备驱动模型

1. 简介 驱动模型中的总线可以是真是存在的物理总线&#xff08;USB总线&#xff0c;I2C总线&#xff0c;PCI总线&#xff09;&#xff0c;也可以是为了驱动模型架构设计出的虚拟总线&#xff08;Platform总线&#xff09;。为此linux设备驱动模型都将围绕"总线–设备–驱…

科普一下Elasticsearch中BM25算法的使用

首先还是先了解几个概念&#xff0c;Elasticsearch是一个开源的分布式搜索和分析引擎&#xff0c;它使用一系列算法来计算文档的相关性分数&#xff08;relevance score&#xff09;。这些算法用于确定查询与文档的匹配程度&#xff0c;以便按相关性对搜索结果进行排序。以下是…

生命在于折腾——MacOS(Inter)渗透测试环境搭建

一、前景提要 之前使用的是2022款M2芯片的MacBook Air 13寸&#xff0c;不得不说&#xff0c;是真的续航好&#xff0c;轻薄&#xff0c;刚开始我了解到M芯片的底层是ARM架构&#xff0c;我觉得可以接受&#xff0c;虚拟机用的不多&#xff0c;但在后续的使用过程中&#xff0…