NO.2_python_scrapy_反爬虫（随机请求头IP代理）取消链接去重

1.随机请求头

# -*- coding: utf-8 -*-
"""
所有请求头的USER_AGENTS网址
http://www.useragentstring.com/pages/useragentstring.php?name=All
"""
import json
import random
import requestsUSER_AGENTS = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36','Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/44.0.2403.155 Safari/537.36','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.1 Safari/537.36 Chrome 41.0.2227.0','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36','Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2226.0 Safari/537.36','Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2225.0 Safari/537.36',
]#从列表中随机选择一个
**User_Agent = random.choice(USER_AGENTS)**headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language': 'en','User-Agent': User_Agent
}def testUserAgent():resp = requests.get("http://httpbin.org/user-agent", headers=headers)user_agent = json.loads(resp.text)['user-agent']#将返回的字符串loads为字典print(user_agent)def testProxy():proxies = {"https": "223.199.25.183:9999"}resp = requests.get("http://httpbin.org/ip", proxies=proxies)origin = json.loads(resp.text)['origin']print(origin)# https://www.xicidaili.com/nn/ 西刺代理
if __name__ == "__main__":testUserAgent()testProxy()

在middleware.py文件进行修改，

#将多个请求头放在一个列表中
User_Agent = ['请求头1'，'请求头2'，'请求头3'，...]
#需要使用的时候从列表中随机抽取一个请求头，代码如下
```python
class user_agentdownloadmiddleware(Object):def process_request(self,request,spider):User_Agent = random.chioce(self.User_Agent)request.headers['User_Agent'] = User_Agent

在setting.py中进行修改

将配置文件中的downloadmiddleware取消注销即可

取消链接去重

def parse():...#此处的dont_filter即为去重的函数，将其设置为True则表示不要去重复的链接进行去重，即可以对同一个链接进行反复地请求并且获得数据yield scrapy.Request(self.start_urls[0],dont_filter = True)...

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/257141.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

NO.2_python_scrapy_反爬虫（随机请求头IP代理）取消链接去重

1.随机请求头

在middleware.py文件进行修改，

在setting.py中进行修改

取消链接去重

相关文章

Cobub无码埋点关键技术的实现

Dedesql数据库类详解(二次开发必备教程)(转)

装系统换固态硬盘方法

学习笔记(02):Python网络编程并发编程-assert断言的用途

ionic tab显示到顶部去了

EasyUI加载外部页面需要使用html片段

留言板

c++的32位和64位类型符的位数

ORA-00980与PL/SQL程序编译出错

学习笔记(03):Python实战编程-sys模块

spring+mybatis实现读写分离

DEV C++如何不需要通过建项目可以调试程序

创建数据库

2017-2018-1 20155301 《信息安全系统设计基础》第7周学习总结

[学习笔记]面向对象VS面向过程

批处理系统和分时系统各具有什么特点？为什么分时系统的响应比较快？

怎么解决word敲空格删掉后面的字的问题

Dubbo原理解析-监控

学习笔记(04):Python网络编程并发编程-什么是socket

mysql 获取自增主键