scrapy爬取动态网页_scrapy_splash 设置随机请求头

本文为

霾大:scrapy_splash 爬取 js 加载网页初体验​zhuanlan.zhihu.com

的补充

在上面的文章中我们仅仅是初步完成了 scrapy_splash 的简单使用

接下来我们将介绍如何是使得 splash 在 render.html (默认)访问网页时也能动态调整其请求头等(代理等同理)

往常来说,我们设置 scrapy 的随机请求头是在中间件处,沿着这个思路,同理我们亦可以沿着这个思路设置,使得爬虫解析与反爬手段分离。

步骤

  1. 首先在 settings 文件放入一批 UA
USER_AGENTS = ['Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50','Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50','Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0','Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)','Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36','Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11','Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36','Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko'
]

2. 修改 middlewares 文件

import random
from scrapy_test.settings import USER_AGENTSclass RandomUA(object):def process_request(self, request, spider):ua = random.choice(USER_AGENTS)request.headers.setdefault('User-Agent', ua)

3. 在 settings 文件启用我们刚定义的中间件

DOWNLOADER_MIDDLEWARES = {# 'scrapy_test.middlewares.ScrapyTestDownloaderMiddleware': 543,'scrapy_test.middlewares.RandomUA': 543,
}

运行结果及解析

cd443bf9c7f702c184a5d3b5b95ab748.png
确认当前的 request 类型为 SplashRequest

7df8c4bdd891205ec0161e69f905230f.png
匹配到目标数据,配置 headers 成功

推荐阅读

  1. 霾大:scrapy_splash 爬取 js 加载网页初体验

代码传送门

LZC6244/scrapy_splash_test​github.com
b95b4cd1be535cea981141e6a3129090.png

原创文章,转载请保留或注明出处!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/288713.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器学习模型开发必读:开源数据库最全盘点

开发 AI 和机器学习系统从来没有像现在这样方便。类似于 TensorFlow、Torch 和 Spark 这样的开源工具,在 AI 开发者群体中已是无处不在。再加上亚马逊 AWS、Google Cloud 等云服务带来的海量计算能力,将来使用笔记本电脑来训练 ML 模型或许不再难以想象。…

离散数学4

离散数学4:析取范式与合取范式 命题公式的两种规范表示方法,能表达真值表所能提供的一切信息。 命题变项及其否定统称作文字。仅由有限个文字构成的析取式叫简单析取式,仅由有限个文字构成的合取式叫简单合取式。 (析取式就是由∨…

linux c之遍历字符串数组

1 问题 比如我们要遍历字符串数组&#xff0c;我们的思路一般是先求字符串数组的长度&#xff0c;然后再用for循环便利&#xff0c;其实没必要这样&#xff0c;我们直接在 字符串数组后面加上个NULL就行再去遍历 2 代码实现 #include <stdio.h>int main() {static con…

php之clone 复制对象以及__clone魔术方法

如果错误和不足请给予指出&#xff0c;谢谢~ (⊙&#xff3f;⊙) 在开始使用clone之前我们下先看以下一个小例子&#xff1a; <?php //首先定义一个test一个类 class Testclass {//成员变量是$value1public $value1; } //随后new一个obj1 $obj1 new Testclass(); //复…

java语言中的浮点型数据分为,Java语言中的浮点型数据根据数据存储长度和数值精度的不同,进一步分为float型和double型,其中dou...

Java语言中的浮点型数据根据数据存储长度和数值精度的不同&#xff0c;进一步分为float型和double型&#xff0c;其中dou更多相关问题【单选题】下列因素中不是经济中内在稳定器的是【单选题】外在时滞是以下哪两者之间的时间&#xff1a;【单选题】当经济中存在失业时&#xf…

python查看图片的源代码_python实现图片筛选程序

今天因工作需要写了个小程序&#xff0c;用于在图片集中自动抽取需要的照片。该程序只是实现了基本功能&#xff0c;还有很多需要完善的地方&#xff0c;展示出来算是给自己鼓鼓气吧。该程序应用有一定特殊条件&#xff0c;因我选择的图片集是工业生产过程中自动拍摄生成的&…

C#中使用WeiFenLuo.WinFormsUI.Docking.dll实现窗口停靠效果

很酷的效果&#xff0c;很值得好好去学习的哈。 重置工具箱&#xff1a; 新建一个WinForm程序,项目名称为TestDockPanelControl。选中Form1窗体后选择工具箱--->>新建个添加选项卡命名为WeiFenLuo--->>右键--->>选择项--->>浏览--- >>weiFenLuo.…

使用aspnetcore前后端分离开发,你一定要知道这个。

前言用过Vue单页面应用开发的&#xff0c;一定都知道Vue-router这个路由组件&#xff0c;它支持hash和history两种模式。HTML5 History 模式vue-router 默认 hash 模式 —— 使用 URL 的 hash 来模拟一个完整的 URL&#xff0c;于是当 URL 改变时&#xff0c;页面不会重新加载。…

Atitit. 木马病毒的外部class自动加载机制------加载class的方法总结

Atitit. 木马病毒的外部class自动加载机制------加载class的方法总结 Atitit.java load class methods 1. 动态加载jar文件和class文件。 1 2. 使用Class静态方法 Class.forName 1 2.1. 使用ClassLoader 1 2.2. 3. 直接new 2 3. Ref 2 1. 动态加载jar文件和class文件。 完成…

剑指offer之找到链表里面包含环的入口节点

1 问题 剑指offer之找到链表里面包含环的入口节点&#xff0c;比如 // node7<-node6 <-node5// | |//head->node1->node2->node3->node4 环的入口节点是node2 2 代码实现 #include <stdio.h> #include <s…

Visual Studio 2015专业版创建Win32控制台应用程序,C,C++源文件

原配的Visual Studio 2015专业版不像之前的版本,在新建项目里面是找不到Win32模板的,那么怎么才能新建Win32项目和Win32控制台应用程序呢?今天我就带大家做一简单介绍。 先看如下图所示: 解决: 1、添加的办法是点击上图所示的新建项目界面的Visual C++下面的Windows,再…

php 序列化对象

习惯性借用手册里面的介绍&#xff1a; 所有php里面的值都可以使用函数serialize()来返回一个包含字节流的字符串来表示。unserialize()函数能够重新把字符串变回php原来的值。序列化一个对象将会保存对象的所有变量&#xff0c;但是不会保存对象的方法&#xff0c;只会保存类…

php html标签自定义属性,详解H5的自定义属性data-*

HTML5 增加了一项新功能是 自定义数据属性 &#xff0c;也就是 data-* 自定义属性。在HTML5中我们可以使用以 data- 为前缀来设置我们需要的自定义属性&#xff0c;来进行一些数据的存放当然高级浏览器下可通过脚本进行定义和数据存取。在项目实践中非常有用。例如&#xff1a;…

cdoj 1131 男神的礼物 区间dp

男神的礼物 Time Limit: 20 Sec Memory Limit: 256 MB 题目连接 http://acm.uestc.edu.cn/#/problem/show/1131 Description Lweb学长是集训队里公认的男神。有一天他要给美美的学姐姐准备礼物。Lweb学长可是会魔法的哟。为了准备一份礼物&#xff0c;男神要加工n份材料。每一次…

如何为同一 DTO 属性指定 2 个名称

前言我们在《实现DDD领域驱动设计》中谈到过输出 DTO 的最佳实践&#xff0c;其中一条是&#xff1a;保持输出 DTO 数量最少&#xff0c;尽可能重用。但是&#xff0c;对于 2 个不同接口输出的同一 DTO 属性&#xff0c;客户端可能需要对应不同的名称&#xff0c;比如&#xff…

HDU 4777 Rabbit Kingdom 树状数组

分析&#xff1a;找到每一个点的左边离他最近的不互质数&#xff0c;记录下标(L数组)&#xff0c;右边一样如此&#xff08;R数组&#xff09;&#xff0c;预处理 这个过程需要分解质因数O&#xff08;n*sqrt(n)) 然后离线&#xff0c;按照区间右端点排序 然后扫一遍&#xff0…

按一行一行的方法将一个文本文件复制到另一个文件中_命令行技巧:分割文件内容...

(给Linux爱好者加星标&#xff0c;提升Linux技能)英文&#xff1a;Stephen Snow&#xff0c;翻译&#xff1a;Linux中国/MjSevenlinux.cn/article-10809-1.htmlFedora 发行版是一个功能齐全的操作系统&#xff0c;有出色的图形化桌面环境。用户可以很容易地通过单击动作来完成任…

java:遍历

import java.util.ArrayList;import java.util.Iterator;import java.util.List;/*** 遍历数组四种方法*/class Test {/*** 注&#xff1a;Iterator 迭代器*/public static void main(String[] args) {Test1 t new Test1();Test1 t1 new Test1();List list new ArrayList();…

谷歌浏览器之如何调试页面js

1 问题 谷歌浏览器如果调试页面js 2 举例子 比如我们需要调试www.baidu.com这个页面&#xff0c;我们需要先按下F12&#xff0c;然后再去点击Source,然后在找到相应的js文件&#xff0c;在左边进行打上断点&#xff0c;然后我们再刷新页面&#xff0c;然后我们在右边可以看到…

Matlab 2016b+TimeSat 3.1中文经典安装及使用教程(附下载地址)

本教程为博主刘一哥GIS原创,坚决打击侵权行为,严禁抄袭!!! 目录 一、Matlab2016b下载及安装 二、TimeSat 3.1软件安装 三、TimeSat 3.1软件的使用和说明详解