NO.2_python_scrapy_反爬虫(随机请求头IP代理)取消链接去重

1.随机请求头

# -*- coding: utf-8 -*-
"""
所有请求头的USER_AGENTS网址
http://www.useragentstring.com/pages/useragentstring.php?name=All
"""
import json
import random
import requestsUSER_AGENTS = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36','Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/44.0.2403.155 Safari/537.36','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.1 Safari/537.36 Chrome 41.0.2227.0','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36','Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2226.0 Safari/537.36','Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2225.0 Safari/537.36',
]#从列表中随机选择一个
**User_Agent = random.choice(USER_AGENTS)**headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language': 'en','User-Agent': User_Agent
}def testUserAgent():resp = requests.get("http://httpbin.org/user-agent", headers=headers)user_agent = json.loads(resp.text)['user-agent']#将返回的字符串loads为字典print(user_agent)def testProxy():proxies = {"https": "223.199.25.183:9999"}resp = requests.get("http://httpbin.org/ip", proxies=proxies)origin = json.loads(resp.text)['origin']print(origin)# https://www.xicidaili.com/nn/ 西刺代理
if __name__ == "__main__":testUserAgent()testProxy()

在middleware.py文件进行修改,

#将多个请求头放在一个列表中
User_Agent = ['请求头1''请求头2''请求头3'...]
#需要使用的时候从列表中随机抽取一个请求头,代码如下
```python
class user_agentdownloadmiddleware(Object):def process_request(self,request,spider):User_Agent = random.chioce(self.User_Agent)request.headers['User_Agent'] = User_Agent

在setting.py中进行修改

将配置文件中的downloadmiddleware取消注销即可

取消链接去重

def parse():...#此处的dont_filter即为去重的函数,将其设置为True则表示不要去重复的链接进行去重,即可以对同一个链接进行反复地请求并且获得数据yield scrapy.Request(self.start_urls[0],dont_filter = True)...

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/257141.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Cobub无码埋点关键技术的实现

随着大数据时代的到来,数据采集也已经变的越来越重要。前端埋点作为一个比较成熟的数据接入手段被广泛应用着。目前埋点分为两种方式,有码与无码埋点。有码埋点比较容易理解,即调用SDK的API,在代码中插入埋点的相关代码&#xff0…

Dedesql数据库类详解(二次开发必备教程)(转)

http://www.dedecms.com/help/development/2009/1028/1076.html 织梦DedeCMS的二次开发不仅仅是会写写织梦的标签,会制作织梦的模板。很多时候,我们需要对织梦DedeCMS的数据库进行查询、插入、删除等等之类的操作,进行这一类的操作之前&#…

装系统换固态硬盘方法

1、将买回的固态硬盘直接换上电脑的原先机械硬盘 2、或者将自己的光驱拆卸,将固态硬盘装上去 3、电脑进入boss 界面,找到boot(引导)栏,找到自己的u盘,进入后先分区,然后再重启, 然后再进入BOSS进入U盘里&…

学习笔记(02):Python网络编程并发编程-assert断言的用途

立即学习:https://edu.csdn.net/course/play/24458/296228?utm_sourceblogtoedu 异常处理 1.异常的捕捉 try:正常需要运行的代码except 可能出现的错误 as e:出现这种错误需要运行的代码...except Exception as e:捕捉未知的错误,并且将需要运行的代码放于此处el…

ionic tab显示到顶部去了

添加配置调整显示位置 .config(function($stateProvider, $urlRouterProvider,$ionicConfigProvider) {$ionicConfigProvider.platform.ios.tabs.style(standard);$ionicConfigProvider.platform.ios.tabs.position(bottom);$ionicConfigProvider.platform.android.tabs.style(…

EasyUI加载外部页面需要使用html片段

最后总结&#xff0c;如果使用easyui中加载外部界面的组件&#xff0c;例如&#xff1a;panel,window&#xff0c;dailog,tabs等。请确保引入的界面是一个html片段。html片段正确的写法再次提醒不要出现<html><head><body>三个标签。 http://www.cnblogs.com…

留言板

本软件是作为部门内员工之间留言及发送消息使用。 系统必须通过口令验证&#xff0c;登录进入。方法是从数据库内取出用户姓名和口令的数据进行校验。 系统包含四部分功能 1 登录&#xff1a;验证用户名与口令&#xff0c;保存会话信息&#xff0c;进入主界面。 界面显示代码 &…

c++的32位和64位类型符的位数

看一下结果&#xff1a;WIN32下&#xff1a;sizeof(char):1sizeof(short):2sizeof(int):4sizeof(long):4sizeof(long long):8sizeof(unsigned int):4sizeof(float):4sizeof(double):8sizeof(pointer):4请按任意键继续. . .x64下&#xff1a;sizeof(char):1sizeof(short):2sizeo…

ORA-00980与PL/SQL程序编译出错

今天碰到一个有意思的问题。为了降低统计分析数据库的计算和磁盘空间压力。我们使用了将远程数据库中数据通过DBLINK和SYNONYM的形式来缓解当前统计数据库所面临的问题。工作实施的比较顺利。但是统计人员发现有几个执行统计的PL/SQL过程和包&#xff08;PACKAGE&#xff09;失…

学习笔记(03):Python实战编程-sys模块

立即学习:https://edu.csdn.net/course/play/19711/255505?utm_sourceblogtoedu sys是一个系统的环境交互模块&#xff0c;是唯一一个可以与操作系统有关的模块 #codingutf-8 import sysprint(sys.modules) print(sys.)

spring+mybatis实现读写分离

springmore-core springibatis实现读写分离 特点 无缝结合springibatis&#xff0c;对于程序员来说&#xff0c;是透明的 除了修改配置信息之外&#xff0c;程序的代码不需要修改任何东西 支持spring的容器事务规则:基于spring配置的容器事务读写事务到主库只读事务到从库如果没…

DEV C++如何不需要通过建项目可以调试程序

1点击文件 2、开始写一段类的程序 #include<iostream>using namespace std;class Point //点类定义 { int x,y; //点的x和y坐标public: void lnitPoint(int,int); //设置坐标 int GetX(){ return x;} //取x坐标 int GetY() {return y;} //取y坐标 void …

创建数据库

先创建数据库&#xff1a; CREATE DATABASE SCUTCS; 接着&#xff0c;创建表&#xff1a; CREATE TABLE STUDENT ( SNO CHAR(7) NOT NULL, SNAME VARCHAR(8) NOT NULL, SEX CHAR(2) NOT NULL, BDATE DATE NOT NULL, HEIGHT DEC(5,2) DEFAULT 000.00, PRIMARY KEY(SNO) ); 然后插…

2017-2018-1 20155301 《信息安全系统设计基础》第7周学习总结

2017-2018-1 20155301 《信息安全系统设计基础》第7周学习总结 教材学习内容总结 作为我们处理器实现的运行实例&#xff0c;因为受x86-64指令集的启发&#xff0c;它被俗称为“x86”&#xff0c;所以我们称我们的指令集为“Y86-64”&#xff0c;与“x86-64”相比&#xff0c;Y…

[学习笔记]面向对象VS面向过程

1.编程范式 为了实现同一个任务不同的编程方式类别称为编程范式 2.面向过程编程 面向过程从上到下运行&#xff0c;将一个大问题分解成小问题&#xff0c;再将小问题继续分解成足够简单在一定范围内可以解答的小问题为止&#xff01;3.面向对象编程 面向对象简称为OOP&#x…

批处理系统和分时系统各具有什么特点?为什么分时系统的响应比较快?

批处理系统的特点如下 优点&#xff1a;系统的吞吐率较高。 &#xff08;作业的调度由系统控制&#xff0c;并允许几道程序同时投入运行&#xff0c;只要合理的搭配作业&#xff08;例如把计算量大的作业和I/O量大的作业搭配&#xff09;就可以充分利用系统的资源&#xff09; …

怎么解决word敲空格删掉后面的字的问题

将word左下角的改写改为插入&#xff0c;或者笔记本的按下insert的按钮

Dubbo原理解析-监控

Dubbo发布代码中&#xff0c;自带了一个简易的监控中心实现。对于一般的小业务这个监控中心应该能够满足需求&#xff0c;对于那些大业务量的大公司一般都会有自己的监控中心&#xff0c;更加丰富的功能如常用的报警短信通知等等。这章讲解分析使得读者能够了解一般的监控中心实…

学习笔记(04):Python网络编程并发编程-什么是socket

立即学习:https://edu.csdn.net/course/play/24458/296233?utm_sourceblogtoedu 1.什么是网络编程&#xff1f; 答&#xff1a;网络编程也叫做socket编程即套接字编程&#xff0c;基于遵循socket套接字的规定进行的编程 2.什么是socket&#xff1f; 答&#xff1a;socket就是…

mysql 获取自增主键

MyBatis 3.2.6插入时候获取自增主键方法有二以MySQL5.5为例&#xff1a;方法1&#xff1a;<insert id"insert" parameterType"Person" useGeneratedKeys"true" keyProperty"id">insert into person(name,pswd) values(#{name},#…