python爬虫脚本ie=utf-8_Python反爬虫伪装浏览器进行爬虫

对于爬虫中部分网站设置了请求次数过多后会封杀ip,现在模拟浏览器进行爬虫,也就是说让服务器认识到访问他的是真正的浏览器而不是机器操作

简单的直接添加请求头,将浏览器的信息在请求数据时传入:

打开浏览器--打开开发者模式--请求任意网站

如下图:找到请求的的名字,打开后查看headers栏,找到User-Agent,复制。然后添加到请求头中

202002281321461.jpg

代码如下:

import requests

url = 'https://www.baidu.com'

headers ={

'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) '

'Chrome/65.0.3325.181 Safari/537.36'

}

rq = requests.get(url=url, headers=headers)

print(rq.text)

更深的伪装浏览器,添加多个浏览器信息,每次请求的时候随机发送浏览器信息,让服务器了解不是一个浏览器一直在访问,(可以百度查找user-agent)

代码如下:

import requests

import random

url = 'https://www.baidu.com'

headers_lists =(

'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) '

'Chrome/65.0.3325.181 Safari/537.36',

'Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;Maxthon2.0',

'Opera/9.80(Android2.3.4;Linux;Operamobi/adr-1107051709;U;zh-cn)Presto/2.8.149Version/11.10',

'Mozilla/5.0(WindowsNT6.1;rv:2.0.1)Gecko/20100101Firefox/4.0.1',

'Mozilla/5.0(Android;Linuxarmv7l;rv:5.0)Gecko/Firefox/5.0fennec/5.0',)

rq = requests.get(url=url,headers={'User-Agent':random.choice(headers_lists)})

print(rq.text)

完整的请求体解释:

以下是笔者访问百度的请求体。

202002281321462.jpg

Accept:浏览器端可以接受的媒体类型

Accept-Encoding:浏览器申明自己接收的编码方法

Accept-Language:浏览器申明自己接收的语言

Connection:keep-alive 客户端和服务器之间还在连接中,如果关闭就是close

Host:请求报头域主要用于指定被请求资源的Internet主机和端口号

User-Agent:使用的操作系统和浏览器的名称和版本

Cookie:是用来存储一些用户信息以便让服务器辨别用户身份的

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/427269.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

centos7加入第二块网卡无法识别

本来是做DHCP服务加一块网卡的,然后识别不出来,没得玩 centos7加入第二块网卡无法识别 1发现只有一块网卡 2使用nmcli con show命令,查看网卡的UUID信息,记下UUID值 3启动networkManager’ 4识别 5使用ip addr命令查看网卡信息…

hbase 导入mysql_HBase导入SQL Server数据库数据

在先前的几篇随笔中已经介绍了Hadoop、Zookeeper、Hbase的分布式框架搭建方案,目前已经搭建完成了一个包含11个节点的分布式集群。而对于HBase数据库的使用仅限于测试性质的增删改查指令,为了进一步熟悉分布式框架的使用,本文介绍将已有的数据…

googlenet网络结构_CNN网络结构的发展

 CNN基本部件介绍,1. 局部感受野在图像中局部像素之间的联系较为紧密,而距离较远的像素联系相对较弱。因此,其实每个神经元没必要对图像全局进行感知,只需要感知局部信息,然后在更高层局部信息综合起来即可得到全局信…

linux数据库mysql的安装

1数据库文件放到opt下面 2赋予权限775 3运行脚本 4运行成功 5数据库操作 密码修改并刷新 权限修改,允许外部设备访问 6工具连接 7附录 1、显示当前数据库服务器中的数据库列表:   mysql> SHOW DATABASES;   2、建立数据库:   …

智能优化算法应用:基于侏儒猫鼬算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于侏儒猫鼬算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于侏儒猫鼬算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.侏儒猫鼬算法4.实验参数设定5.算法结果6.…

Centos7中Memcached安装使用说明

安装编译libevent tar -zxvf libevent-2.0.21-stable.tar.gz cd libevent-2.0.21-stable ./configure --prefix/usr 配置报错,不着急,安装gcc试试 可以了 make make install 测试libevent是否安装成功 ls -al /usr/lib|grep libevent 安装成功 2.编译…

mysql-plus多数据库_Springboot+mybatisplus+mysql配置多数据源(注解版)

1、添加依赖,最关键的两个依赖是后面两个"druid依赖"和"配置动态数据源"(已标红),其他"非主要"依赖可按自身实际开发环境进行选择。org.springframework.bootspring-boot-starter-jdbcorg.springframework.bootspring-boo…

python用cmd运行失败_解决python在cmd运行时导入包失败,出现错误信息 ModuleNotFoundError: No module named ***...

1.下图为我的自动化测试工程结构图我通过运行run.bat批处理文件,调用cmd控制台运行start_run.py来开始我的自动化测试,但是出现如下错误:大家可能知道我们的工程在IDE(Pycharm)中运行和我们在cmd中运行的路径是不一样的&#xff0…

Centos7jdk安装

2.1查看现有JDK #rpm -qa|grep jdk (如果有其他版本的JDK建议卸载) 卸载其他版本的JDK命令 #yum –y remove java-1.6.0 #yum –y remov java* 重新安装(安装需要的JDK版本) #chmod 755 jdk-6u45-linux-x64-rpm.bin ./jdk-6u45-linux-x64-rpm.bin安装…

mysql分库一致性_分库分表带来的完整性和一致性问题

如果你对项目管理、系统架构有兴趣,请加微信订阅号“softjg”,加入这个PM、架构师的大家庭在最近做的一个项目中,由于每天核算的数据量过于庞大,需要把数据库进行分库保存。当数据分散到各个库之后,带来的数据更新操作…

同名字的数值求和插入行_EXCEL条件求和的6种技术,你会的超过3种吗?

今天我们来谈谈EXCEL中的条件求和。我们将利用不同的技术实现,而不是使用函数的6种方法直接开始吧!数据源结果1、数据透视表-难度系统★☆☆☆☆插入-透视表,行字段-销售员,值-金额2、 函数公式法-难度系数:★★☆☆☆…

Centos7构建NFS服务器和连接

准备两台centos7虚拟机 192.168.30.133 192.168.30.129 2.192.168.30.1(服务端), 3查看rpc服务是否启动 4测试安装是否成功 5修改配置文件vi/etc/exports /data 192.168.1.0/24(rw,async) 6启动服务 systemctl start nfs rpcinfo -p查看 …

maven pc配置要求_《使命召唤:黑色行动5》公开测试PC配置要求:推荐GTX970+i7

动视官方公开了《使命召唤:黑色行动5》的公开测试PC系统要求,从官方给出的信息来看,PC平台最低需求为GTX 670显卡i5 2500k处理器。 以下为官方公布的系统要求:PC公开测试最低配置需求操作系统:Windows 7 64-Bit (SP1) …

linux下源码安装nginx

LNMP模式 后续继续更新,先搭建nginx 安装环境gcc gcc-c 2 下载源码包解压 配置第一个报错 安装openssl openssl-devel yum -y install openssl openssl-devel Make报错 解决 tar -zxvf pcre-8.37.tar.gz cd pcre-8.34 ./configure make make install tar -zxvf …

jdk安装失败_windows配置安装单个Tomcat

1.前期准备1).将tomcat安装文件复制到服务器2) 安装jdk,将jdk对应的版本安装到服务器,安装好后cmd命令java -version可以看到对应的版本2.配置环境变量1)jdk安装好后配置jdk环境变量变量名:JAVA_HOME 变量值…

centos源码安装PHP

上篇博客说了nginx了,这篇说PHP,下一篇开始开始 bind相关知识 2开始解压 3 ./configure -help|grep mysql 帮助我们查找可以关于mysql的节点 4配置./configure --enable-fpm --with-mysql --with-mysqli --with-pdo-mysql 安装 5报错 6解决 7继续配…

word2vec训练词向量 python_使用Gensim word2vector训练词向量

注意事项Skip-Gram models:输入为单个词,输出目标为多个上下文单词;CBOW models:输入为多个上下文单词,输出目标为一个单词;选择的训练word2vec的语料要和要使用词向量的任务相似,并且越大越好&…

bind安装和主要配置

1 yum -y install bind bind-chroot 2rpm -qa|grep bind,查看安装状态 3service named start服务启动 4主配置文件name.conf Option{} 整个bind的全局选项 Logging{}日志输出选项 Zong 根域 这节比较简单,随便看看即可,持续更新bind相关知识…

为什么火狐浏览器中点击按钮失效_各种浏览器审查、监听http头工具介绍

一、谷歌内置的审查工具(v17.0)。右键点击审查(CtrlShirtAlt)浏览器下方会出现审查框,刷新网页就会出现下图所示,先后点击“netword”-->在下方选中资源(如下图的1.php)-->点击headers二、httpwatch。ShirtF2打开httpwatch点击Record按钮&#xff…

java 对象流_java 对象流的简单使用

对象的输入输出流的作用: 用于写入对象 的信息和读取对象的信息。 使得对象持久化。ObjectInputStream : 对象输入流ObjectOutPutStream :对象输出流简单的实例1 importjava.io.File;2 importjava.io.FileInputStream;3 importjava.io.FileOutputStre…