beautifulsoup网页爬虫解析_爬虫第三天——初识Xpath

解析神器Xpath:

1. 什么是Xpath

XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。
XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。
可以阅读该文档了解更多关于Xpath的知识。

2. Xpath解析网页的流程

  • 首先通过Requests库获取网页数据
  • 通过网页解析,得到想要的数据或者新的链接
  • 网页解析可以通过Xpath或者其它解析工具进行,Xpath在是一个非常好用的网页解析工具

v2-04b1374240439fe8e13074606e096fc8_b.jpg

3. 常用的网页解析

  • 正则表达式使用比较困难,学习成本较高
  • BeautifulSoup性能较慢,相对于Xpath较难,在某些特定场景下有用
  • Xpath使用简单,速度快(Xpath是lxml里面的一种),是抓取数据最好的选择

Xpath的使用:

1. 使用Xpath解析网页数据的步骤

  • 从lxml导入etree
  • 解析数据,返回xml结构
  • 使用.xpath()寻找和定位数据
from 

2. 获取Xpath的方法

  • 第一种方法:从浏览器直接复制
  • 首先在浏览器上定位到需要爬取的数据
  • 右键,点击“检查”,在“Elements”下找到定位到所需数据
  • 右键——Copy——Copy Xpath,即可完成Xpath的复制
  • 第二种方法:手写Xpath
  • 获取文本内容用 text()
  • 获取注释用 comment()
  • 获取其它任何属性用@xx,如:
    href
    src
    value
  • 想要获取某个标签下所有的文本(包括子标签下的文本),使用string
    如”< p>123< a>来获取我啊< /a>< /p>”,这边如果想要得到的文本为”123来获取我啊”,则需要使用string
  • starts-with 匹配字符串前面相等
  • contains 匹配任何位置相等

附录

Xpath教程

  • 阅读Xpath教程,掌握Xpath的基本知识

Xpath的基本使用

  • 阅读爬虫入门到精通-网页的解析(xpath),参考Xpath的使用方法
  • 阅读Python爬虫利器三之Xpath语法与lxml库的用法,了解更多Xpath的使用方法示例

正则表达式

  • 阅读Python正则表达式,了解正则表达式及其基本的语法
  • 阅读爬虫入门到精通-网页的解析(正则),学习使用正则表达式匹配网页数据

BeautifulSoup

  • 阅读Beautiful Soup 中文教程,了解使用BeautifulSoup解析网页的方法
  • 阅读Beautiful Soup 4.2.0 文档这篇BeautifulSoup的官方文档,了解其更加全面的用法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/490528.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器人4.0时代来临!四大核心技术助推大规模商用部署

来源&#xff1a;北京物联网智能技术应用协会当前&#xff0c;全球机器人市场规模持续扩大&#xff0c;工业机器人市场增速稳定&#xff0c;服务机器人增速突出。2018 年&#xff0c;全球机器人市场规模达 298.2 亿美元&#xff0c; 2013-2018 年的平均增长率约为 15.1%。 在装…

Chapter2 MSP430硬件结构

1、总架构 MSP430单片机采用冯诺依曼结构&#xff0c;包含16位RISC CPU、存储器、片内外设、时钟系统、仿真系统以及数据总线和地址总线。 2、MSP430X CPU(CPUX) DB    AB          ALU位数 MSP430F1XX 16位  16位(最大寻址64KB) …

Matlab给Ansys助攻

大家好&#xff0c;今天二狗准备介绍一下如何利用matlab写一些简单的脚本去解决一些复杂的事情&#xff0c;比如为大型有限元软件Ansys服务&#xff08;类比&#xff09;包括数值模拟的前处理和后处理&#xff0c;都大有作为。用过Ansys&#xff08;没有Ctrlz&#xff09;的童鞋…

归并排序的时间复杂度为什么为nlogn

归并排序的递归过程如下&#xff0c;该递归树的高度为log2n&#xff08;计算过程&#xff1a;假设待排序的数组元素个数为n&#xff0c;设高度为x&#xff0c;x意味着n个元素需要连续二分x次才剩下1个元素&#xff0c;即n/2^x1&#xff0c;xlog2n&#xff09;&#xff0c;每一层…

深度解读达芬奇架构:华为AI芯片的“秘密武器”

本文转自华为官网2019年6月&#xff0c;华为发布全新8系列手机SoC芯片麒麟810&#xff0c;首次采用华为自研达芬奇架构NPU&#xff0c;实现业界领先端侧AI算力&#xff0c;在业界公认的苏黎世联邦理工学院推出的AI Benchmark榜单中&#xff0c;搭载麒麟810的手机霸榜TOP3&#…

记忆化搜索 codevs 2241 排序二叉树

codevs 2241 排序二叉树 ★ 输入文件&#xff1a;bstree.in 输出文件&#xff1a;bstree.out 简单对比时间限制&#xff1a;1 s 内存限制&#xff1a;128 MB 【问题描述】 一个边长为n的正三角形可以被划分成若干个小的边长为1的正三角形&#xff0c;称为单位三角形。 …

窥探当今AI芯片中的类脑模型

来源&#xff1a;脑人言撰文丨邓 磊&#xff08;加州大学-圣塔芭芭拉分校UCSB 博士后&#xff09;责编丨高茂森 Soma排版丨夏獭科学研究的动机&#xff0c;并非仅仅是出于能看到多酷炫的应用&#xff0c;而是因为我们尚有诸多未知世界需要探寻&#xff0c;这是一切应用的前提。…

mysql调优_MYSQL企业常用架构与调优经验分享

一、选择Percona Server、MariaDB还是MYSQL1、Mysql三种存储引擎MySQL提供了两种存储引擎&#xff1a;MyISAM和 InnoDB&#xff0c;MySQL4和5使用默认的MyISAM存储引擎。从MYSQL5.5开始&#xff0c;MySQL已将默认存储引擎从MyISAM更改为InnoDB。MyISAM没有提供事务支持&#xf…

SpringMVC学习--参数绑定

spring参数绑定过程 从客户端请求key/value数据&#xff0c;经过参数绑定&#xff0c;将key/value数据绑定到controller方法的形参上。springmvc中&#xff0c;接收页面提交的数据是通过方法形参来接收。而不是在controller类定义成员变更接收。 默认支持的类型直接在controll…

现代物理学7大经典问题,你能理解几个?或许一个都不能理解

来源&#xff1a;搜狐新闻算法与数学之美相对论相对论是物理学中两大著名理论之一&#xff0c;两者都是阿尔伯特爱因斯坦提出的。1905年爱因斯坦出版了狭义相对论&#xff0c;后者确定最终宇宙速度极限&#xff1a;光速。并称时间因某物体移动的速度而实现加速或者减慢。1916年…

unity asset store下载不了_Unity手游实战:从0开始SLG——资源管理系统-基础篇(三)AssetBundle原理...

先用一句话介绍一下AssetBundle吧。AssetBundle系统提供了一种压缩文件的格式&#xff0c;可以把1到多个文件进行索引和序列化。Unity项目在交付安装之后&#xff0c;会通过AssetBundle对不包含代码的资源进行更新。这就允许开发人员先提交一个小的应用程序包&#xff0c;将运行…

matlab中GUIDE的UItable居中方法

需要借助JAVA&#xff0c;代码示意如下&#xff1a; import javax.swing.*; %导入javax.swing类 table findjobj(handles.uitable1); %需要findjobj.m文件&#xff0c;matlab中是没有的 table1 get(table,Viewport); jtable get(table1,View); renderer jtable.getCellRe…

MySQL Workbench运行脚本

首先在SCHEMAS区域右击&#xff0c;选择创建“create schema” 填入自定义名称&#xff0c;点击“apply” 在弹出来的框中点击“apply”&#xff0c;再在弹出来的框中点击finish 点击菜单栏“file”——“run SQL script”&#xff0c;选择sql文件&#xff0c;在下面选择刚刚创…

自动驾驶事故权威揭秘:算法和软件错误太多

本文来源&#xff1a;AutoR智驾自动驾驶发展就好比是登月计划。从传感器到人工智能&#xff0c;经典的电子供应链已经形成了一个协作矩阵&#xff0c;致力于实现自动驾驶车辆的安全性。为此&#xff0c;还需进行大量硬件和软件开发工作&#xff0c;以确保驾驶员、乘客和行人受到…

MySQL新建数据库和表

首先在MySQL Workbench上&#xff08;如果没有的话建议安装一个&#xff09;新建一个数据库 首先在SCHEMAS区域右击&#xff0c;选择创建“create schema” 填入自定义名称&#xff0c;点击“apply”&#xff0c;这里我命名为crashcourse 在弹出来的框中点击“apply”&#xf…

【微读书】《人工智能颠覆未来战争》连载之一:机器战胜人类?——AlphaGo人机对战的启示...

来源&#xff1a;中国指挥与控制学会编者按目前&#xff0c;人工智能技术正加速向军事领域渗透&#xff0c;军事智能化既面临千载难逢的发展机遇&#xff0c;也面临前所未有的挑战。如何加强风险研究和预判&#xff0c;防范重大风险&#xff0c;已经客观而现实地摆在我们面前。…

《崛起的超级智能》入选中国好书2019年7月榜单

来源&#xff1a;中国好书中国好书评选活动由中国图书评论学会主办&#xff0c;旨在通过好书推介传递正能量&#xff0c;推动和引导全民阅读。中国图书评论学会是由中宣部出版局创办、国家新闻出版广电总局主管的国家一级学会。自2014年举办首届年度好书盛典至今&#xff0c;“…

.net函数查询_SQL查询语句总是先执行SELECT?你们都错了!

很多 SQL 查询都是以 SELECT 开始的。不过&#xff0c;最近我跟别人解释什么是窗口函数&#xff0c;我在网上搜索”是否可以对窗口函数返回的结果进行过滤“这个问题&#xff0c;得出的结论是”窗口函数必须在 WHERE 和 GROUP BY 之后&#xff0c;所以不能”。于是我又想到了另…

大数据世界要熟悉的5门语言

大数据世界要熟悉的5门语言课程 Python OpenStack Java Hadoop Scala Spark Shell Linux SQL DB JS 华丽分割线 转载于:https://www.cnblogs.com/TendToBigData/p/10501438.html

知识图谱嵌入(KGE):方法和应用的综述

来源&#xff1a;专知导读本文主要是参考《Knowledge Graph Embedding: A Survey of Approaches and Applications》和刘知远的《知识表示学习的研究与进展》做的总结&#xff0c;主要介绍了最近关于知识图谱嵌入所涉及到的研究方法&#xff0c;主要从融合事实信息、融合附加信…