beautifulsoup获取属性_Python爬虫常用模块:BeautifulSoup

BeautifulSoup用途 BeautifulSoup 借助网页的结构和属性等特性来解析网页,可以用它来方便地从网页中提取所需信息。
BeautifulSoup自动将输入文档转换为Unicode编码,输出文档转换为UTF-8编码。BeautifulSoup依赖于解析器
它除了支持Python标准库中的HTML解析器外,还支持第三方解析器:

ca875193d5702edcb0ced8ba9dffdb0d.png

用法示例
在以下示例中,使用的均是 Python 标准库中的HTML解析器,使用方法为 BeautifulSoup(markup, 'html.parser')

bf01d44867d6c8026c32ee5f23819dc2.png

① prettify() 方法
使用 prettify() 方法把网页信息(字符串)以标准的缩进格式输出,输出的结果中很多节点,每一个节点都可以作为一个对象,直接调用节点的名称就可以提取节点元素。

2889661db367abc26dffa1fce83c3b43.png

② 输出指定节点的文本内容
在使用 prettify() 方法输出的结果中,可以看到有 title 节点:

82cf01c16f89e1ed196079dacced3ea8.png

使用 soup.title 可以提取出 title 节点,输出结果为:<title>猫眼电影 - 一网打尽好电影</title> 。
查看一下 soup.title 的类型,为 bs4.element.Tag类型,这是 BeautifulSoup 中一个重要的数据结构,我们通过节点提取的结果都是这种 Tag 类型。Tag 具有一些属性,例如 string 属性。
调用 string 属性就可以得到这个节点内的文本内容了:

1555e24d0f4e4165ea0f66fcfbc8cd5d.png

注意:以上这种提取节点元素的方式,当同一节点名出现多次时,只能提取到第一个匹配的节点。③ 获取 Tag (标签)的属性
使用 soup.标签名.attrs 可以获取指定标签的所有属性。例如:

f9347a230559f7d0953cbed8404252e5.png

使用 soup.标签名['属性名'] 可以获取标签中指定属性的内容。例如:

daecfd6b1f7b1fe7090f704855ccacff.png

④ find() 和 find_all() 方法——面向对象的匹配
BeautifulSoup 提供了一些查询方法,比如 find()find_all() 等,调用它们,然后传入相应的参数,就可以灵活查询了。find()
使用 find() 方法,可以得到符合条件的第一个元素。例如,使用 soup.find(name='p') 可以得到节点名为 p 的第一个元素:

ece9637ef7d58e60f7a629e34fbe0b22.png

find_all()
使用 find_all() 方法,可以得到所有符合条件的元素。例如,使用 soup.find(name='p') 可以得到节点名为 p 的所有元素组成的列表:

14947449d2763fb6b5537b45db92d997.png

find() 和 find_all() 方法 常与 正则表达式 配合使用。
挖个坑,以后填:
什么是正则表达式?如何使用?
------------------- End -------------------

相关阅读

Python抓取静态网页内容​mp.weixin.qq.comPython爬虫常用模块:requests库的7个主要方法、13个关键字参数以及响应对象的5种属性​mp.weixin.qq.com

3ce779345a200e3fd0f43eecf978c790.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/470120.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CSS3选择器的研究

属性选择器 [title]:选择带有title属性的元素 [titlehello]:选择属性是title并且值是hello的元素 [title~hello]:选择属性是title并且部分值是hello的元素&#xff0c;hello需要是单独的值&#xff0c;以空格分开 [title*hello]:选择属性是title并且其中包含了hello的元素 [tit…

手写实现简单的Vue事件总线

一、什么是事件总线 自定义事件总线属于一种观察者模式&#xff0c;其中包括三个角色&#xff1a; 发布者&#xff08;Publisher&#xff09;&#xff1a;发出事件&#xff08;Event&#xff09;&#xff1b;订阅者&#xff08;Subscriber&#xff09;&#xff1a;订阅事件&a…

dhs手术是什么意思_#下颌角手术# #磨骨瘦脸# 下颌角手术多少钱?

不要一上来就问价格多少钱&#xff0c;有些人就留言说怕我这里手术太贵&#xff0c;前面问一圈其他问题都白问了。还有些人担心手术会因人定价&#xff0c;坐地起价之内的。其他地方我不知道&#xff0c;反正我能确保我这里价格标准都是一致的&#xff0c;下颌角总计30000-3500…

手写实现深拷贝函数

对象相互赋值的一些关系&#xff0c;分别包括&#xff1a; 引入的赋值&#xff1a;指向同一个对象&#xff0c;相互之间会影响&#xff1b;对象的浅拷贝&#xff1a;只是浅层的拷贝&#xff0c;内部引入对象时&#xff0c;依然会相互影响&#xff1b;对象的深拷贝&#xff1a;两…

第一款支持容器和云部署的开源数据库Neo4j 3.0

导读Neo4j 3.0.0 正式发布&#xff0c;这是 Neo4j 3.0 系列的第一个版本。此版本对内部架构进行了全新的设计&#xff1b;提供给开发者更强大的生产力&#xff1b;提供更广阔的部署选择。Neo4j 3.0 被认为是世界上最具伸缩性的基于Java的图片数据库。Neo4j 3.0.0 主要的新特性&…

八皇后解法(回溯法)

package com.company;/** * Created by Administrator on 2016/9/15. */public class EigthQueue { private static int N 8; private int count 0; // 总方案数 private int[] flag {-1, -1, -1, -1, -1, -1, -1, -1}; //回溯法递归实现八皇后问题 //输出棋…

手写防抖和节流函数

一、认识防抖debounce函数 我们用一副图来理解一下它的过程&#xff1a; 当事件触发时&#xff0c;相应的函数并不会立即触发&#xff0c;而是会等待一定的时间&#xff1b;当事件密集触发时&#xff0c;函数的触发会被频繁的推迟&#xff1b;只有等待了一段时间也没有事件触…

中webgl解析json_WebGL蒙皮(下)

今天继续学习webgl一个重要功能&#xff1a;skinning(蒙皮)&#xff0c;内容来自学习网站webglfundamentals&#xff0c;这里仅供学习交流&#xff0c;原文链接&#xff1a;https://webglfundamentals.org/webgl/lessons/zh_cn/webgl-skinning.html。文章并非原创&#xff01;如…

Vue权限控制——动态注册路由

需求&#xff1a;实现后台管理系统不同用户的权限控制 根据登录的用户的角色动态展示后台管理系统的左侧菜单栏的菜单列表内容&#xff0c;然后还要动态注册对应子菜单的路由 菜单列表内容应该通过后端接口返回&#xff1a; sort为1表示当前项有子菜单sort为2表示当前项没有子…

react不同环境不同配置angular_前端问题集:vue配置环境-给不同的环境配不同的打包命令...

通过vue-cli脚手架构建出一个前端项目&#xff0c;通过npm run build打包&#xff0c;发布到线上&#xff0c;但是这样做需要每次都手动修改接口地址。我们可以通过自行配置打包命令实现无需修改接口地址&#xff0c;打各个环境的包。文档结构大致如下图&#xff1a;1.找到conf…

使用PLSql连接Oracle时报错ORA-12541: TNS: 无监听程序

今天用plsql连接oracle的时候报了无监听程序&#xff0c;寻思是plsql的问题&#xff0c;可惜重装了也没什么卵用&#xff0c;才把注意力集中到oracle服务上&#xff0c;啥也不说了&#xff0c; 直接上链接&#xff1a; 使用PLSql连接Oracle时报错ORA-12541: TNS: 无监听程序转载…

基于Element-plus封装配置化表单组件(组件的v-model实现)

一、预备知识 1.1 组件的v-model 前面我们在input中可以使用v-model来完成双向绑定&#xff1a; 这个时候往往会非常方便&#xff0c;因为v-model默认帮助我们完成了两件事&#xff1b;v-bind:value的数据绑定 和 input的事件监听&#xff1b; 如果我们现在封装了一个组件…

Scala IDE for Eclipse的下载、安装和WordCount的初步使用(本地模式和集群模式)

不多说&#xff0c;直接上干货&#xff01; 这篇博客是&#xff0c; 是在Scala IDEA for Eclipse里maven创建scala和java代码编写环境。 Scala IDEA for Eclipse里用maven来创建scala和java项目代码环境&#xff08;图文详解&#xff09; 本博文包括&#xff1a; Scala IDE fo…

笔记本AutoCAD启动时闪退怎么办_戴尔笔记本电脑开不了机如何解决【解决方法】...

生活在互联时代下&#xff0c;我们对笔记本的需求是无处不在的&#xff0c;不管是上班族还是学生党&#xff0c;使用笔记本办公和学习给我们的生活带来很大的便捷。但使用的过程中&#xff0c;总有可能会遇到无法预料的问题。比方说 笔记本电脑 无法开机的问题&#xff0c;当…

JS高级——函数执行、作用域链内存结构图

一、JavaScript的执行过程 假如我们有下面一段代码&#xff0c;它在JavaScript中是如何被执行的呢&#xff1f; 1.1 第一步&#xff1a;初始化全局对象 js引擎会在执行代码之前&#xff0c;会在堆内存中创建一个全局对象&#xff1a;Global Object&#xff08;GO&#xff09…

两个队列+k叉哈夫曼树 HDU 5884

1 // 两个队列k叉哈夫曼树 HDU 58842 // camp题解&#xff1a;3 // 题意&#xff1a;nn个有序序列的归并排序.每次可以选择不超过kk个序列进行合并,合并代价为这些序列的长度和.总的合并代价不能超过TT, 问kk最小是多少。4 // .5 // 题解&#xff1a;首先二分一下这个kk。然后在…

JS高级——内存管理和闭包

0、预备知识 0.1 认识内存管理 不管什么样的编程语言&#xff0c;在代码的执行过程中都是需要给它分配内存的&#xff0c;不同的是某些编程语言需要我们自己手动的管理内存&#xff0c;某些编程语言会可以自动帮助我们管理内存&#xff1a; 不管以什么样的方式来管理内存&…

Google-优秀移动站点设计10招

Google-优秀移动网站设计10招 1&#xff09;添加一个醒目的搜索条&#xff1a;在移动终端上&#xff0c;人们希望能够快速找到自己需要的东西 2&#xff09;把大表格拆分成小块&#xff1a;别搞一个长长的表格页面&#xff0c;上面包含各种输入框 3&#xff09;允许用户匿名浏览…

div超出不换行_div+CSS设置一行内文字超过宽度不换行且不显示

当一行文字超过DIV或者Table的宽度的时候&#xff0c;浏览器中默认是让它换行显示的&#xff0c;如果我们不想让他换行显示那要怎么办呢&#xff1f;看到这个标题很容易就会想到截断文字加“...”的做法。一般的文字截断(适用于内联与块)&#xff1a;CSS.text-overflow{display…

Angular2学习笔记——在子组件中拿到路由参数

工作中碰到的问题&#xff0c;特此记录一下。 Angular2中允许我们以path\:id\childPath的形式来定义路由&#xff0c;比如&#xff1a; export const appRoutes: RouterConfig [{path: app/:id, component: AppComponent,children: [{ path: share, component: AppShareCompon…