爬虫python能做游戏吗_一入爬虫深似海,从此游戏是路人!总结我的python爬虫学习笔记!...

1、基本抓取网页

get方法

post方法

2、使用代理IP

在开发爬虫过程中经常会遇到IP被封掉的情况,这时就需要用到代理IP;

在urllib2包中有ProxyHandler类,通过此类可以设置代理访问网页,如下代码片段:

3、Cookies处理

cookies是某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密),python提供了cookielib模块用于处理cookies,cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源。

代码片段:

关键在于CookieJar(),它用于管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中,对CookieJar实例进行垃圾回收后cookie也将丢失,所有过程都不需要单独去操作。

手动添加cookie:

4、伪装成浏览器

某些网站反感爬虫的到访,于是对爬虫一律拒绝请求。所以用urllib2直接访问网站经常会出现HTTP Error 403: Forbidden的情况。

对有些 header 要特别留意,Server 端会针对这些 header 做检查:

1.User-Agent 有些 Server 或 Proxy 会检查该值,用来判断是否是浏览器发起的 Request。

2.Content-Type 在使用 REST 接口时,Server 会检查该值,用来确定 HTTP Body 中的内容该怎样解析。

这时可以通过修改http包中的header来实现,代码片段如下:

5、验证码的处理

对于一些简单的验证码,可以进行简单的识别。我们只进行过一些简单的验证码识别,但是有些反人类的验证码,比如12306,可以通过打码平台进行人工打码,当然这是要付费的。

6、gzip压缩

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/556099.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

三大运营商实现本机号码一键登录原理与应用

很多APP的目前都支持“本机号码一键登录”功能。本机号码一键登录是基于运营商独有网关认证能力推出的账号认证产品。用户只需一键授权,即可实现以本机号码注册/登录,相比先前的短信验证码流程体验更优。 目前市面上有很多厂商提供三网验证的服务&#…

php 数据类型

七种数据类型: String / Integer / Float / Boolean / Array / Object / null 检测变量的数据类型和值 var_dump() 一、字符串 $x abc; var_dump($x); echo $x; // string abc二、整形 $x 1234; var_dump($x); echo $x; // int 1234三、浮点型 $x 1.1; var_d…

部署到gcp_剖析大数据公司为什么选择 GCP?

文章来源:加米谷大数据假如L 是一家大数据公司。下面我们的文章将围绕L展开分析。很多公司拥有大数据。每天早餐之前,健壮的日志框架就已经生成了 PB 级别的日志,并以防万一将这些数据长期保存在了亚马逊的 S3 上。还有一些公司会使用他们自己…

Redis缓存那点破事 , 绝杀面试官 25 问

转载:https://blog.csdn.net/itomge/article/details/122118060 精彩文章汇总 GitHub https://github.com/aalansehaiyang/technology-talk ,Star 12K ,汇总java生态圈常用技术框架、开源中间件,系统架构、数据库、大公司架构案例…

css 动画 - 这次不会忘记了

css 动画基本用法 div {animation-name: rainbow; /*动画名称*/animation-duration: 1s; /*这段动画开始到结束总共需要花费多长时间*/animation-fill-mode: forwards; /*动画在结束时元素的样式*/animation-iteration-count: infinite; /*动画运行几次?*/animatio…

Mysql的select in会自动过滤重复的数据

Mysql的select in会自动过滤重复的数据 默认使用 SELECT 语句; 当加上in范围后,结果如下图: in范围内的数据,如果有重复的,只会选择第一个数据。 所以如果不是直接使用SQL语句来查询,而是在代码中来查询…

vue初始

一、引入 Vue 文件 <script src"https://cdn.jsdelivr.net/npm/vue2.6.14/dist/vue.js"></script>二、定义一个容器 <!--root 容器里的代码称为 Vue模板;VueProject 实例和容器是一一对应的&#xff1b;真实开发中只有一个 Vue 实例&#xff0c;并且…

小眼睛适合大框还是小框眼镜_【图】小眼睛适合什么眼镜框 这个禁忌千万不要犯_小眼睛_伊秀服饰网|yxlady.com...

很多天生眼睛偏小的人&#xff0c;都会想尽办法来让自己的眼睛看起来更大&#xff0c;而佩戴眼镜就是其中比较常见的方式。但佩戴眼镜也是需要讲究诀窍的&#xff0c;那么&#xff0c;小眼睛的人应该如何挑选眼镜呢&#xff1f;对于现代的年轻男女来说&#xff0c;很多时候佩戴…

java.sql.SQLIntegrityConstraintViolationException: Cannot add or update a child row: a foreign key c

错误原图&#xff1a; 错误分析&#xff1a;外键约束失败导致插入数据有误 解决问题&#xff1a;检查被关联的外键字段值&#xff0c;在原表中是否有对应的值&#xff0c;添加时外键的值在原表&#xff08;外键关联的表&#xff09;中一定要有该值&#xff0c;没有的值添加报错…

android 开源 高斯模糊_Android图像处理 - 高斯模糊的原理及实现

欢迎大家前往由前言高斯模糊是图像处理中几乎每个程序员都或多或少听过的名词&#xff0c;但是对其原理大家可能并不了解&#xff0c;只知道通过高斯模糊能实现图像毛玻璃效果。本文首先介绍图像处理中最基本的概念&#xff1a;卷积&#xff1b;随后介绍高斯模糊的核心内容&…

Vue数据绑定v-bind

一、单向数据绑定 <div id"root"><!-- 仅仅只是绑定一个属性在标签上 只有 data 变化&#xff0c;输入框才会变化 -->数据单向绑定&#xff1a;<input type"text" name"" id"" :value"name"> </div&g…

MySql 清空、删除、截断表时1701错误

项目已经进行一段时间&#xff0c;整体的开发工作已经完成。接下来要进入综合测试阶段&#xff0c;所以想要将数据清理一下&#xff0c;然后报了1701错误&#xff0c;由错误提示得知是外键约束的问题 解决办法&#xff1a;关闭外键约束->清空表、截断表->启动外键约束。…

mysql cascade|restrict|no action|set null__mysql 外键的几种约束

mysql cascade|restrict|no action|set null MySQL有两种常用的引擎类型&#xff1a;MyISAM和InnoDB。目前只有InnoDB引擎类型支持外键约束。InnoDB中外键约束定义的语法如下&#xff1a; [CONSTRAINT [symbol]] FOREIGN KEY[index_name] (index_col_name, ...)REFERENCES tb…

编辑流程图_流程图不会绘制?一分钟手把手教你学会,超简单

我们每天的日常工作非常繁忙&#xff0c;经常被日常的事务性工作淹没&#xff0c;而忽略掉我们工作的流程是否正确&#xff0c;我们的方向是否正确。如果流程、方向错了&#xff0c;再努力都是没有用的。要确保努力与付出是有价值的&#xff0c;就必须确保前进方向是正确的&…

MVVM 模型

MVVM 模型 在实际代码中 <!--MVVM 模型&#xff1a;1. M: 模型(Model) : data 中的数据2. V: 视图(View) : 模板代码3. VM: 视图模型(ViewModel) : Vue 实例观察发现&#xff1a;1. data 中所有的属性&#xff0c;最后都出现在了 vm 身上2. vm 身上所有的属性 以及 Vue 原…

MySQL外键命名规范

数据库 外键命名规范 外键字段&#xff1a;与主表主键字段完全一样 主键&#xff1a;pk_表名 例如&#xff1a;pk_main 外键&#xff1a;fk_从表名_主表名 例如&#xff1a;fk_sub_main

收音机磁棒天线4根接法_有关收音机磁性天线和电路的小知识

有关收音机磁性天线和电路的小知识&#xff0c;一起来了解一下吧&#xff01;一、收音机的磁性天线有什么作用&#xff1f;用磁性天线可以代替超外差收音机的天线线圈。由于磁性天线中磁棒的导磁率大&#xff0c;因而绕在磁棒上面的线圈可以获得比较多的电磁波能量&#xff0c;…

data 的数据代理

一、Object.defineProperty() 控制对象的属性值 let num 18; let person {name: mary,age: num; };Object.defineProperty(person, age, {writable: true, // 控制属性是否可以修改. 默认值是 falseenumerable: true, // 控制属性是否可以枚举&#xff0c;默认值是 falsecon…

MySQL百万级/千万级数据存储解决方案

MySQL 百万级/千万级数据存储解决方案 百万级、千万级数据处理&#xff0c;个人认为核心关键在于数据存储方案设计&#xff0c;存储方案设计的是否合理&#xff0c;直接影响到数据CRUD操作。总体设计可以考虑一下三个方面进行设计考虑&#xff1a; 数据存储结构设计索引设计数…

vue 加载太慢_Vue首页加载过慢 解决方案

一、什么导致了首页初步加载过慢&#xff1a;app.js文件体积过大二、解决方法&#xff1a;1、Vue-router懒加载vue-router懒加载可以解决首次加载资源过多导致的速度缓慢问题&#xff1a;vue-router支持WebPack内置的异步模块加载系统。所以&#xff0c;那些使用较少的路由组件…