python爬虫lxml xpath测试

xpath测试1:
main.py

"""=== coding: UTF8 ==="""
from lxml import etreexml = """
<book><id>1</id><name>春风</name><price>1.56</price><nick>万里</nick><author><nick id="10086">周大庆</nick><nick id="10010">黄天山</nick><nick class="joy">周谈浩</nick><div><nick>嘟嘟</nick></div><span><nick>珊瑚</nick></span></author>
</book>
""""""
========================================
主函数功能测试
========================================
"""
if __name__ == '__main__':tree = etree.XML(xml)# result = tree.xpath("/book")  # /表示层级关系,第一个/是根节点# result = tree.xpath("/book/name/text()")  # text()拿文本# result = tree.xpath("/book/author//nick/text()")  # //后代result = tree.xpath("/book/author/*/nick/text()")  # *任意的节点,通配符print(result)

xpath测试2:
test.html

<!DOCTYPE html>
<html lang="en">
<head><meta charset="UTF-8"><title>测试</title>
</head>
<body><ul><li><a href="http://www.baidu.com">百度</a></li><li><a href="http://www.google.com">谷歌</a></li><li><a href="http://www.sogou.com">搜狗</a></li></ul><ol><li><a href="feiji">飞机</a></li><li><a href="dapao">大炮</a></li><li><a href="huoche">火车</a></li></ol><div class="job">高凡尔</div><div class="common">刘珂</div>
</body>
</html>

main.py

"""=== coding: UTF8 ==="""
from lxml import etree"""
========================================
主函数功能测试
========================================
"""
if __name__ == '__main__':parser = etree.HTMLParser(encoding='utf-8')tree = etree.parse("test.html", parser=parser)# result = tree.xpath("/html")  # /表示层级关系,第一个/是根节点# result = tree.xpath("/html/body/ul/li/a/text()")  # text()拿文本# result = tree.xpath("/html/body/ul/li[1]/a/text()")  # xpath的顺序是从1开始数的,[]表示索引# result = tree.xpath("/html/body/ol/li/a[@href='dapao']/text()")  # @xxx=xxx表示属性的筛选# print(result)ol_li_list = tree.xpath("/html/body/ol/li")for li in ol_li_list:# 从每一个li中提取到文字信息result = li.xpath("./a/text()")  # 在li中继续查找,相对查找print(result)result = li.xpath("./a/@href")  # 拿到属性值: @属性print(result)print(tree.xpath("/html/body/ul/li/a/@href"))print(tree.xpath("/html/body/div[1]/text()"))print(tree.xpath("/html/body/ol/li/a/text()"))

关注公众号,获取更多资料
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/546557.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

命令行下Apache日志统计举例

Apache日志统计举例加些来了解一下如何统计Apache的访问日志&#xff0c;一般可以用tail命令来实时查看日志文件变化&#xff0c;但是各种的应用系统中的日志会非常复杂&#xff0c;一堆长度超过你浏览极限的日志出现在你眼前时&#xff0c;你会觉得非常无奈&#xff0c;怎么办…

漫画:什么是中台?

没有中台的时代在传统IT企业&#xff0c;项目的物理结构是什么样的呢&#xff1f;无论项目内部的如何复杂&#xff0c;都可分为“前台”和“后台”这两部分。什么是前台&#xff1f;首先&#xff0c;这里所说的“前台”和“前端”并不是一回事。所谓前台即包括各种和用户直接交…

MySQL 面试,必须掌握的 8 大核心点

上周末和在北京的哥们国仔涮火锅&#xff0c;席间聊起了最近面试的经历。他说想换工作的原因很简单&#xff0c;就是要涨工资&#xff0c;原来的公司呆了两年多&#xff0c;薪资浮动不超过 500 元。而身边跳槽的那些同事&#xff0c;薪资都已经是自己的 2 倍了。在准备面试的过…

基于小波变换的数字图像处理(MATLAB源代码)

基于小波变换的数字图像处理&#xff08;MATLAB源代码&#xff09; clear all; close all; clc;M256;%原图像长度N64; %水印长度[filename1,pathname]uigetfile(*.*,select the image); image1imread(num2str(filename1));subplot(2,2,1);imshow(image1); title(original image…

python Chrome + selenium自动化测试与python爬虫获取网页数据

一、使用PythonseleniumChrome 报错&#xff1a; selenium.common.exceptions.SessionNotCreatedException: Message: session not created: This version of ChromeDriver only supports Chrome version 78 说明&#xff0c;这个chrom驱动支持78版本 谷歌浏览器版本 进入驱动…

[Python]网络爬虫(七):Python中的正则表达式教程(转)

接下来准备用糗百做一个爬虫的小例子。 但是在这之前&#xff0c;先详细的整理一下Python中的正则表达式的相关内容。 正则表达式在Python爬虫中的作用就像是老师点名时用的花名册一样&#xff0c;是必不可少的神兵利器。 以下内容转自CNBLOG&#xff1a;http://www.cnblogs.co…

八种常见的 SQL 错误用法

来源&#xff1a;https://dwz.cn/cgAPOWPx1、LIMIT 语句分页查询是最常用的场景之一&#xff0c;但也通常也是最容易出问题的地方。比如对于下面简单的语句&#xff0c;一般 DBA 想到的办法是在 type, name, create_time 字段上加组合索引。这样条件排序都能有效的利用到索引&a…

最快速度找到内存泄漏

2019独角兽企业重金招聘Python工程师标准>>> 确认是否存在内存泄漏 我们知道&#xff0c;MFC程序如果检测到存在内存泄漏&#xff0c;退出程序的时候会在调试窗口提醒内存泄漏。例如&#xff1a; class CMyApp : public CWinApp { public:BOOL InitApplication(){in…

如何手撸一个队列?队列详解和面试题汇总(含答案)

队列&#xff08;Queue&#xff09;&#xff1a;与栈相对的一种数据结构&#xff0c; 集合&#xff08;Collection&#xff09;的一个子类。队列允许在一端进行插入操作&#xff0c;而在另一端进行删除操作的线性表&#xff0c;栈的特点是后进先出&#xff0c;而队列的特点是先…

Python根据IP地址获取MAC地址

Python3根据IP地址获取MAC地址&#xff08;不能获取本机IP&#xff0c;可以获取与本机同局域网设备IP的MAC&#xff09; main.py #!/usr/bin/env python3 # -*- coding: utf-8 -*- import os import platform import reclass IP2MAC:"""Python3根据IP地址获取…

eclipse启动tomcat 404

eclipse启动tomcat 404 引用自&#xff1a;http://blog.sina.com.cn/s/blog_8020e41101014lvu.html 感谢博主 状态描述&#xff1a; 在eclipse中启动Tomcat后&#xff0c;在浏览器中访问localhost:8080&#xff0c;显示404错误。 在%tomcat_home%/bin中启动startup.sh却可以正常…

漂亮又好用的Redis可视化客户端汇总

因为 Redis 官方只提供了命令行版的 Redis 客户端 redis-cli&#xff0c;以至于我们在使用的时候会比较麻烦&#xff0c;通常要输入一堆命令&#xff0c;而且命令行版的客户端看起来也不够直观&#xff0c;基于以上两个原因我们需要找一个可视化的 Redis 客户端&#xff0c;下面…

python基本的信号与槽函数的使用 信号发射 槽函数接收

# 熟悉信号与槽的使用 # -*- coding: utf-8 -*- from PyQt5.QtWidgets import * from PyQt5.QtCore import * import sys# 创建信号类 class QTypeSigner(QObject):# 定义一个信号sendmsg pyqtSignal(object)def __init__(self):super(QTypeSigner, self).__init__()def run(s…

Linux 高性能服务器编程——多线程编程

问题聚焦&#xff1a;在简单地介绍线程的基本知识之后&#xff0c;主要讨论三个方面的内容&#xff1a; 1 创建线程和结束线程&#xff1b; 2 读取和设置线程属性&#xff1b; 3 线程同步方式&#xff1a;POSIX信号量&#xff0c;互斥锁和条件变量。Linux线程概述线程…

图解Redis事务机制

作为关系型数据库中一项非常重要的基础功能——事务&#xff0c;在 Redis 中是如何处理并使用的&#xff1f;1.前言事务指的是提供一种将多个命令打包&#xff0c;一次性按顺序地执行的机制&#xff0c;并且保证服务器只有在执行完事务中的所有命令后&#xff0c;才会继续处理此…

Redis事务深入解析和使用

作为关系型数据库中一项非常重要的基础功能——事务&#xff0c;在 Redis 中是如何处理并使用的&#xff1f; 1.前言 事务指的是提供一种将多个命令打包&#xff0c;一次性按顺序地执行的机制&#xff0c;并且保证服务器只有在执行完事务中的所有命令后&#xff0c;才会继续处…

局域网在线设备扫描工具V2.0软件说明

软件简介&#xff1a; 一个场所的在线设备&#xff08;例如&#xff1a;监控摄像头或计算机&#xff09;一般都处在同一个局域网内&#xff0c;当在调试和维护在线设备时&#xff0c;如果不知道在线设备的IP地址&#xff0c;可以使用本工具扫描局域网内在线设备的IP地址和MAC地…

漫画:什么是归并排序?

————— 第二天 —————————————————举个例子&#xff0c;有A、B、C、D、E、F、G、H一共8个武术家参考参加比武大会。第一轮&#xff0c;两两一组&#xff0c;有4名选手胜出&#xff08;四分之一决赛&#xff09;第二轮&#xff0c;两两一组&#xff0c;有…

世界上没有技术驱动型公司

点击上方“Java中文社群”&#xff0c;选择“设为星标”终身学习者&#xff0c;以编程为乐&#xff01;来源&#xff1a;zhihu.com/question/312019918/answer/608965942作者介绍&#xff1a;智煜徽&#xff0c;洛林大学计算机专业研究生&#xff0c;现就职于华为&#xff0c;从…

单片机Proteus7.8仿真和Proteus8.6仿真 LED点阵 温度采集 电子琴 温度报警 电子秤 音乐播放器 PWM 电压表 温度计 交通灯

单片机Proteus7.8仿真&#xff1a; 单片机Proteus8.6仿真&#xff1a; 下载地址&#xff1a; 关注公众号&#xff0c;获取资料 部分仿真图&#xff1a; 下载地址&#xff1a; 关注公众号&#xff0c;获取资料