css 查看更多_在Scrapy中如何利用CSS选择器从网页中采集目标数据——详细教程(上篇)...

aa57d8287c7e7ca2ba7f31a9d2261c9f.png

/前言/

今天小编给大家介绍Scrapy中另外一种选择器,即大家经常听说的CSS选择器。

/CSS基础/

CSS选择器和Xpath选择器的功能是一致的,都是帮助我们去定位网页结构中的某一个具体的元素,但是在语法表达上有区别。Xpath选择器明明已经可以帮助我们提取信息了,为什么还要学习CSS选择器呢?

萝卜青菜各有所爱,对于不同知识背景的小伙伴,都可以来提取网页信息。只要是能抓到老鼠的猫,都是好猫,同样的,只要能提取信息,不论是正则表达式、BeateafulSoup、Xpath选择器亦或是CSS选择器,都是好的选择器,只不过在效率和难易程度上不一样。此外,对应前端的小伙伴来说,CSS选择器对他们来说就简单很多。

CSS选择器功能强大,从实用性出发,下面是部分比较常用的一些CSS选择器语法,相对来说比较简单,但是也是非常实用的语法,希望大家都可以牢牢掌握,后期在提取网页信息的时候将会事半功倍。

19e16051487b34afdefc8c9de0e01f8a.png

有了以上的CSS基础之后,接下来我们进行实际应用。

/实际应用/

仍然以之前的网站为例进行说明,我们的目标数据是标题、发布日期、主题、正文内容、点赞数、收藏数、评论数等。

1、关于标题部分,之前我们利用Xpath的表达式的时候就分析过,得到了唯一性的定位标签,在此不再赘述,如下图所示。

2f0039e7789b7af2868c85a4b0fd66eb.webp

2、仍然利用scrapyshell的调试模式进行助攻,结合上边的CSS基础语法,标题的具体CSS表达式如下图所示。

18291f764c9b1d9998d06f6d7ef56243.png

需要注意的是在CSS中获取标签文本内容的方式是在CSS表达式后边紧跟“::text”,记住是有两个冒号噢,与Xpath表达式不一样。这个表达式看上去比Xpath表达式要简洁一些,所以当某些情况下,大家如果觉得CSS选择器的表达式比Xpath表达式要简短或者理解起来相对容易的话,可以首选CSS选择器,没有具体的要求,大家根据自己的喜爱来进行选择即可,反之亦成立,当然也可以同时在一个爬虫文件将两个或者多个选择器进行交叉使用。

3、接下来是发布日期的提取,仍然是以交互式的方式实现网页与源码之间的交互,其中标签“entry-meta-hide-on-mobile”具有全局唯一性,可以很方便的定位到元素,如下图所示。

af1313a9673e300ebf4dec2080a646b5.png

4、根据网页结构,我们可轻易的写出发布日期的CSS表达式,可以在scrapy shell中先进行测试,再将选择器表达式写入爬虫文件中,详情如下图所示。

120b805490bd2d6eef564353ec83d8b9.png

5、关于文章主题标签的CSS表达式,可以看到其在网页结构上处于日期的下方,如下图所示。

77adde8e94e558182cd02dc2a4b11bc1.png

6、通过更改一下发布日期的CSS表达式,即可获取到文章主题标签。文章主题标签处于a标签下,如下图所示。

cd7889bf460c13e6fe55a467a07a0cbe.png

获取到整个列表之后,利用join函数将数组中的元素以逗号连接生成一个新的字符串叫tags,然后写入Scrapy爬虫文件中去。

7、对于点赞数,其分析方法同之前一致,找到唯一的一个标签“vote-post-up”即可定位到数据。

f3faf151c95e4a9b8bc7f47800696570.png

8、点赞数在h10标签下,根据网页结构写出CSS表达式,调试的过程如下图所示。

902929988a39dad587c9fb32b47e15cc.png

取出的点赞数是个字符串,需要利用int()将其强制转换为数字。

/小结/

本文基于CSS理论基础,主要介绍了CSS选择器的简单语法和利用CSS选择器做相关数据采集,下一篇文章将继续分享CSS表达式数据采集方法,敬请期待,希望对大家的学习有帮助。

想学习更多关于Python的知识,可以参考学习网址:,点击阅读原文,可以直达噢~

【编辑推荐】

【责任编辑:

姜华

TEL:(010)68476606】


点赞 0

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/504247.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【LeetCode笔记】85. 最大矩形(Java、单调栈)

文章目录题目描述思路 && 代码二刷题目描述 其实是84. 柱状图中最大的矩形的兄弟题目,理解成多个84题,对结果取max即可。 思路 && 代码 一行抽象出一个【柱状图】,分别套到84题的函数里即可时空复杂度:O(n2n…

c4d启动无反应_浙江无填料喷雾式冷却塔

浙江无填料喷雾式冷却塔大容量静压储能设备广泛运用在厂区全热力、城市交通和道路通行中,全循环泵吸式:由高效的系统循环和分区启动两个关键部件组成。其进、出口均采用橡胶隔墙为隔离设施;提供一个保证阀体抗剪力的安全及密封的良好环境&…

【LeetCode笔记】312. 戳气球(Java、动态规划)

文章目录题目描述思路 && 代码二刷题目描述 一眼动态规划,但思路确实不好想面试被问过,直接人没了 思路 && 代码 核心思路:关心【最后一个被爆的气球】,自底向上进行动态规划 class Solution {// 思路&…

selinux= 为 disabled_安德里茨为巴西KLabin Puma II 项目提供气化炉和生物质处理线

ANDRITZ to supply gasification plant and biomass handling line to Klabin’s Puma II project in Brazil.国际技术集团公司安德里茨收到KLabin的订单,为其位于巴西的Ortigueira浆厂提供一台完整的生物质气化炉和一条新的生物质处理线。International technology…

【LeetCode笔记】301. 删除无效的括号(Java、DFS、字符串)

文章目录题目描述思路 && 代码二刷题目描述 【所有可能结果】-> 【暴力DFS】 思路 && 代码 代码比较长,但是总体思路很清晰。剪枝:舍弃左括号、舍弃右括号两种情况(见注释)分情况:当前字符有【左…

css3宽度变大动画_动画演示流量计的工作原理

​流量计(Flowmeter)是工业生产的眼睛,与国民经济、国防建设、科学研究有着密切的关系,在国民经济中占据重要地位与作用,可用于气体、液体、蒸汽等介质流量的测量。为了更好的展示流量计测量原理,小编采用动画演示的方法来给大家介…

cfiledialog 保存 扩展名_儿童美术:油画棒 插画一组超萌的大饼脸小孩 保存了跟小朋友一起画吧...

儿童美术:油画棒 插画一组超萌的大饼脸小孩 保存了跟小朋友一起画吧今天继续带来Hannah Sun的“大饼脸”系列。画者使用的作画工具为油画棒,因其效果厚重的特点,与人物的笨拙特征相得益彰,从而让人过目不忘。01020304050607这些作…

【LeetCode笔记】253. 会议室 II(Java、偏数学)

文章目录题目描述思路 && 代码计划里 hot 100 剑指Offer 的题目中唯一一道会员题,同时也是最后一道没写的题,刚好今天 leetcode 发了一天会员可以写上…简直命运石之门的选择,感动! 题目描述 转化成上下车问题&#xff…

【学习笔记】第二章——管程(解决生产者消费者问题、封装、Java 体现)

填坑系列!立个这几天补完的 Flag 因为这个视频的笔记,很多人都已经写得很好了,所以接下来的博客,只会记录一些 【常考】【和 Java 相关】【感觉很有必要记录】的内容 文章目录一. 概念二. 用于解决生产者、消费者问题Java 里的管程…

手机浏览器网址_打开URL(在其他应用中访问网址)app下载-打开URL(在其他应用中访问网址)v2.6安卓版下载...

打开URL让你能够在其它的软件当中打开你所需要的页面,下面就由微侠网小编给您介绍这款软件,相对来说就是在你手机当中的任何一个软件当中加入内置的浏览器,让你将各种网址在你所需要的地点当中打开,这对于用户能够能够起到一定的帮助的作用&a…

基于fpga的dds函数信号发生器的设计_超声信号功率放大器驱动压电陶瓷测试

压电陶瓷片是一种电子发音元件,以锆钛酸铅压电陶瓷材料制成。基于压电效应原理,当在两片电极上面接通交流音频信号时,压电片会根据信号的大小频率发生震动而产生相应的声音来。压电陶瓷驱动电源的性能直接关系着高精度微位移的实现&#xff0…

【学习笔记】第三章——内存 I(交换技术、进程七状态模型、动态分区分配、动态分区算法)

文章目录一. 交换状态、进程七状态模型二. 内存的分配方式三. 动态分配算法一. 交换状态、进程七状态模型 交换技术:内存空间紧张,把某些进程暂时换出外存。(进程在内存与磁盘间动态调度)进程七状态:相对于五状态&…

ktv管理系统_KTV经营管理的几个原则

KTV的竞争已经到了拼综合实力的阶段,向管理要效益、建立完善的KTV企业管理体系的重要性已经不言而喻了,建立全面的管理体系,可以促进KTV整体管理工作同步化、协调化,全面提升管理绩效,是KTV企业立足市场,基…

【学习笔记】第三章——内存 II(分页存储、快表与局部性原理、两级页表)

文章目录一. 分页存储概念二. 地址转换1)为什么页面大小为2的次幂?三. 页表1)页表项长度、页号"隐含"四. 局部性原理与快表五. 二级页表1)单级页表存在的问题2)两级页表3)如何解决单级页表的问题一. 分页存…

xcode动态改变窗口大小_详细的理论要点+3个经典案例,帮助你深入理解动态面板...

什么是动态面板动态面板是Axure的高级交互元件,由不同的状态面板组成,是我们制作交互过程中运用频率最高的元件,很多交互效果需要依赖动态面板实现。动态面板的状态面板就像是一个容器,我们可以在里面放置任何东西,自由…

【学习笔记】第三章——内存 III(分段存储、段页式存储、分段和分页对比)

文章目录一. 分段存储1) 概念2)段表二. 分段 VS 分页1)对比2)优缺点分析三. 段页式存储1)定义2)逻辑地址结构一. 分段存储 1) 概念 离散,每段从0开始编址,每个段都有段名段占内存中连续空间&a…

【学习笔记】第三章——内存 IV(虚拟内存、请求分页、页面置换、缺页中断、抖动现象)

文章目录一. 虚拟内存1)传统存储管理方式的特征、缺点2)虚拟内存的定义和特征3)如何实现虚拟内存 —— 请求分页存储管理二. 缺页中断1)缺页中断机构2)请求分页的地址变换机构三. 页面置换四. 页面分配、置换策略一. 虚…

响应文件是不是标书_标书的编制

标书应该怎么样编制?有没有全面的针对标书的,有针对性的全方位的解决方案,并且对电子标书的形象异动以及精辟突出进行全方位的展示,充分展示公司的实力形象案例以及各种资质,分明有针对性的对招标文件进行针对性的响应…

【学习笔记】第四章——文件 I(文件管理、逻辑结构、目录与文件分配方式)

文章目录一. 初识文件管理1)文件的属性2)向上提供的功能二. 逻辑结构与目录1)顺序文件2) 目录三. 文件分配方式连续分配链式分配索引分配一. 初识文件管理 1)文件的属性 文件名:同一目录下不允许有重名文件标识符&am…

easyvision视觉软件 源码_一对一直播源码都有哪些独具一格的优势?

视频在线观看直播行业发展趋势稳定,一对一直播源码越来越受到大家的欢迎,它拥有着独特的优势,丰富多彩的玩法运用和普遍的主要用途,一对一直播源码有哪些优势呢?1、一对一直播源码别具特色的语音通话。网红是直播时期的…