python动态页面元素爬取_爬取动态网页python+Web kit

上一篇文章爬取动态网页python+selenium+webdriver介绍了爬取动态网站的一种模拟浏览器的方法,该方法的优劣也很明显

优:

可以模拟任何人的操作,输入账号密码,点击登录等等操作

劣:

1.每次执行都要打开桌面上的Chrome浏览器(自动化测试需要)

2.浏览器的各个操作步骤都需要sleep几秒进行等待,效率低

本文针对两个劣点的进行解决

PhantomJS

webdriver有很多种类的浏览器比如Internet Explorer、Chrome和 Firefox等,PhantomJS是一个无界面的浏览器,可以解决第一个问题。

渲染的问题

一个含有 JS 渲染的网页。想要抓取网页中所有信息。如果我们利用 HTTP 方法无法获得任何信息。

import requests

from lxml import html

# storing response

response = requests.get('http://pycoders.com/archive')

# creating lxml tree from response body

tree = html.fromstring(response.text)

# Finding all anchor tags in response

print tree.xpath('//div[@class="campaign"]/a/@href')

因为这是动态渲染的网站,我们只能拿到一堆还没被解析为html的js代码。

Web kit

什么是 Web kit呢?

Web kit 可以实现浏览器所能处理的任何事情。对于某些浏览器来说,Web kit就是其底层的网页渲染工具。

Web kit 是 QT 库的一部分,因此需要安装 QT 和PyQT4 库来使用Web kit

sudo apt-get install python-qt4

注意:

上篇文章中使用selenium+webdriver其实也是通过浏览器来进行渲染那些js,原理相同

解析数据

思路:我们首先通过 Web kit 发送请求信息,然后等待网页被完全加载后将其赋值到某个变量中。接下来我们利用 lxml 从 HTML 数据中提取出有效的信息。

1.类 Render 可以用来渲染网页,当我们新建一个 Render 类时,它可以将 url 中的所有信息加载下来并存到一个新的框架中。

import sys

from PyQt4.QtGui import *

from PyQt4.Qtcore import *

from PyQt4.QtWebKit import *

class Render(QWebPage):

def __init__(self, url):

self.app = QApplication(sys.argv)

QWebPage.__init__(self)

self.loadFinished.connect(self._loadFinished)

self.mainFrame().load(QUrl(url))

self.app.exec_()

def _loadFinished(self, result):

self.frame = self.mainFrame()

self.app.quit()

2.利用以上的代码我们将 HTML 结果储存到变量 result 中

url = 'http://pycoders.com/archive/'

# This does the magic.Loads everything

r = Render(url)

# Result is a QString.

result = r.frame.toHtml()

3.转换数据格式并解析

# QString should be converted to string before processed by lxml

formatted_result = str(result.toAscii())

# Next build lxml tree from formatted_result

tree = html.fromstring(formatted_result)

# Now using correct Xpath we are fetching URL of archives

archive_links = tree.xpath('//div[@class="campaign"]/a/@href')

print archive_links

总结

1.动态网站爬取核心步骤是渲染js

2.python+selenium+webdriver方式是模拟出真实环境解决的,既可以解决渲染,又可以附带很多人的操作(输入、点击、最大化等),功能强大但是纯采集的话效率略低

3.python+Web kit方式直接把渲染的核心部件拿出来进行解决,这种方式简单直接,作为纯采集来说是首选,但是受限于需要登录验证的网站

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/504239.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

css3宽度变大动画_动画演示流量计的工作原理

​流量计(Flowmeter)是工业生产的眼睛,与国民经济、国防建设、科学研究有着密切的关系,在国民经济中占据重要地位与作用,可用于气体、液体、蒸汽等介质流量的测量。为了更好的展示流量计测量原理,小编采用动画演示的方法来给大家介…

python导出csv有引号_python – csv中的双引号元素不能用pandas读取

我有一个输入文件,其中每个值都存储为一个字符串.它位于一个csv文件中,每个条目都在双引号内.示例文件:"column1","column2", "column3", "column4", "column5", "column6""AM", "07&q…

cfiledialog 保存 扩展名_儿童美术:油画棒 插画一组超萌的大饼脸小孩 保存了跟小朋友一起画吧...

儿童美术:油画棒 插画一组超萌的大饼脸小孩 保存了跟小朋友一起画吧今天继续带来Hannah Sun的“大饼脸”系列。画者使用的作画工具为油画棒,因其效果厚重的特点,与人物的笨拙特征相得益彰,从而让人过目不忘。01020304050607这些作…

【LeetCode笔记】253. 会议室 II(Java、偏数学)

文章目录题目描述思路 && 代码计划里 hot 100 剑指Offer 的题目中唯一一道会员题,同时也是最后一道没写的题,刚好今天 leetcode 发了一天会员可以写上…简直命运石之门的选择,感动! 题目描述 转化成上下车问题&#xff…

先学python还是ros_ROS入门学习

ROS学习笔记ROS主要包含包括功能包、节点、话题、消息类型和服务;ROS功能包/软件包(Packages)ROS软件包是一组用于实现特定功能的相关文件的集合,包括可执行文件和其他支持文件。所有的 ROS 软件都是一个软件包或其他软件包的一部分。每个程序包由一个清单文件(文件…

【学习笔记】第二章——管程(解决生产者消费者问题、封装、Java 体现)

填坑系列!立个这几天补完的 Flag 因为这个视频的笔记,很多人都已经写得很好了,所以接下来的博客,只会记录一些 【常考】【和 Java 相关】【感觉很有必要记录】的内容 文章目录一. 概念二. 用于解决生产者、消费者问题Java 里的管程…

手机浏览器网址_打开URL(在其他应用中访问网址)app下载-打开URL(在其他应用中访问网址)v2.6安卓版下载...

打开URL让你能够在其它的软件当中打开你所需要的页面,下面就由微侠网小编给您介绍这款软件,相对来说就是在你手机当中的任何一个软件当中加入内置的浏览器,让你将各种网址在你所需要的地点当中打开,这对于用户能够能够起到一定的帮助的作用&a…

基于fpga的dds函数信号发生器的设计_超声信号功率放大器驱动压电陶瓷测试

压电陶瓷片是一种电子发音元件,以锆钛酸铅压电陶瓷材料制成。基于压电效应原理,当在两片电极上面接通交流音频信号时,压电片会根据信号的大小频率发生震动而产生相应的声音来。压电陶瓷驱动电源的性能直接关系着高精度微位移的实现&#xff0…

【学习笔记】第三章——内存 I(交换技术、进程七状态模型、动态分区分配、动态分区算法)

文章目录一. 交换状态、进程七状态模型二. 内存的分配方式三. 动态分配算法一. 交换状态、进程七状态模型 交换技术:内存空间紧张,把某些进程暂时换出外存。(进程在内存与磁盘间动态调度)进程七状态:相对于五状态&…

ktv管理系统_KTV经营管理的几个原则

KTV的竞争已经到了拼综合实力的阶段,向管理要效益、建立完善的KTV企业管理体系的重要性已经不言而喻了,建立全面的管理体系,可以促进KTV整体管理工作同步化、协调化,全面提升管理绩效,是KTV企业立足市场,基…

python二级模拟选择题集错网_计算机二级python真题:第1套选择题A

1.变量命名规则:字母、数字、下划线、汉字、首字不能是数字,长度无限制,区分大小写,不能使用保留字。2.缩进:一般代码不需要缩进,顶行编写且不留空白,在if,while,for,def,class之后通过冒号进行…

【学习笔记】第三章——内存 II(分页存储、快表与局部性原理、两级页表)

文章目录一. 分页存储概念二. 地址转换1)为什么页面大小为2的次幂?三. 页表1)页表项长度、页号"隐含"四. 局部性原理与快表五. 二级页表1)单级页表存在的问题2)两级页表3)如何解决单级页表的问题一. 分页存…

xcode动态改变窗口大小_详细的理论要点+3个经典案例,帮助你深入理解动态面板...

什么是动态面板动态面板是Axure的高级交互元件,由不同的状态面板组成,是我们制作交互过程中运用频率最高的元件,很多交互效果需要依赖动态面板实现。动态面板的状态面板就像是一个容器,我们可以在里面放置任何东西,自由…

python考试搜题-大学mooc用Python玩转数据章节考试答案

随着安防行业的发展,摄像管摄像机将逐步被()。A.发展B.淘汰C.应用D.重视 下列不是多发性骨髓瘤肾损害临床表现的是A、蛋白尿型B、肾小管功能不全型C、单纯血尿型D、肾病综合征 企业自有资金的筹资方式有()。A. 银行借款B. 发行股票C. 发行债券…

【学习笔记】第三章——内存 III(分段存储、段页式存储、分段和分页对比)

文章目录一. 分段存储1) 概念2)段表二. 分段 VS 分页1)对比2)优缺点分析三. 段页式存储1)定义2)逻辑地址结构一. 分段存储 1) 概念 离散,每段从0开始编址,每个段都有段名段占内存中连续空间&a…

【学习笔记】第三章——内存 IV(虚拟内存、请求分页、页面置换、缺页中断、抖动现象)

文章目录一. 虚拟内存1)传统存储管理方式的特征、缺点2)虚拟内存的定义和特征3)如何实现虚拟内存 —— 请求分页存储管理二. 缺页中断1)缺页中断机构2)请求分页的地址变换机构三. 页面置换四. 页面分配、置换策略一. 虚…

python混合asp_asp后段如何调用python

在ASP中使用Python脚本:1.首先安装好Active Python,它自带了win32扩展,省得自己装了;2.按照Active的附带文档说明,在%Python_home%/lib/site_packages/win32comext/axscript/client/目录中找到pyscript.py,…

响应文件是不是标书_标书的编制

标书应该怎么样编制?有没有全面的针对标书的,有针对性的全方位的解决方案,并且对电子标书的形象异动以及精辟突出进行全方位的展示,充分展示公司的实力形象案例以及各种资质,分明有针对性的对招标文件进行针对性的响应…

【学习笔记】第四章——文件 I(文件管理、逻辑结构、目录与文件分配方式)

文章目录一. 初识文件管理1)文件的属性2)向上提供的功能二. 逻辑结构与目录1)顺序文件2) 目录三. 文件分配方式连续分配链式分配索引分配一. 初识文件管理 1)文件的属性 文件名:同一目录下不允许有重名文件标识符&am…

python暂停和恢复游戏_pygame游戏之旅 添加游戏暂停功能

pygame游戏之旅 添加游戏暂停功能来源:中文源码网 浏览: 次 日期:2019年11月5日【下载文档: pygame游戏之旅 添加游戏暂停功能.txt 】(友情提示:右键点上行txt文档名->目标另存为)pygame游戏之旅 添加游戏暂停功能本文为大家分享了…