python网络爬虫(三)——爬虫攻防

  爬虫是模拟人的浏览访问行为,进行数据的批量抓取,当抓取的数据量逐渐增大时,会给被访问的服务器造成很大的压力,甚至有可能崩溃。换句话说就是,服务器是不喜欢有人抓取自己的数据的,那么,网站方面就会这队这些爬虫者采取一些反爬策略。
  服务器识别爬虫的一种方式是通过检查连接的User-Agent来识别到底是浏览器访问还是代码访问的。如果是代码访问的,当访问量增大时,服务器其就会直接封掉来访IP。
  在进行访问时,我们在开发者环境下不仅可以找到URL、Form Data,还可以在Request Headers中构造浏览器的请求头,封装自己。服务器识别浏览器访问的方法就是判断ketwor是否为Request是否为Request Headers下的User-Agent。因此,我们只需要构造这个请求头的参数,创建请求头部信息。
  至此,很多读者会认为修改User-Agent很简单,但是正常人1秒钟看一张图,而爬虫1秒钟可以抓取好多张图,比如1秒钟抓取上百张图,那么服务器的牙利必然会增大。也就是说,在一个IP下批量访问、下载图片,这种行为不符合正常人类的行为,肯定要被封掉IPP。其原理也很简单,就是统计每个IP的访问频率,该频率超过阈值就会返回一个验证码,如果真的是用户在进行访问,用户就会填写验证码,然后继续访问,如果是代码在进行访问,就会被封掉IP。
  解决以上问题有两种方法,第一种方法就是常用的增设延时,每3秒钟抓取一次,但是,我们写爬虫的目的是为了高效批量抓取数据,这里设置3秒钟抓取一次,效率未免太低。其实,还有一种更重要的解决方法,那就是本质上解决问题。
  不管如何访问,服务器的目的就是查出那些为代码访问,然后封掉IP,为了避免被封掉IP,在数据采集时经常使用代理,当然,requests也有相应的proxies属性。
  首先护肩自己的代理IP池,将其以字典的形式赋值给proxies,然后传输给requests。
  数据存储一般发生在获取到网页的HTML或数据之后,未经过清洗和组织的数据是必须要保存的资料。保存好这些资料后,再写清洗和组织数据的脚本,将数据提取出来重新存入数据库或数据表中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/52786.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SAP LE学习笔记07 - MM与WM跨模块收货到仓库的流程中 如何实现 先上架再入库

上一章讲了LE中收货的一些特殊情况: 1,MM模块收货时,特别移动指标来标识的物料直接产生TO 2,MM中直接收货到仓库的固定Storage Bin(棚番)上 SAP LE学习笔记06 - MM与WM跨模块收货到仓库的流程中 带特别移动指标的物料也可以直接…

常用Numpy操作(笔记整理)

目录 一、常用(自查) 1. 创建数组(array) 2. 数组形状(shape) 3. 数组维度(ndim) 4. 数组⼤⼩(size) 5. 数组数据类型(dtype) …

etcd备份恢复操作

etcd集群每个节点上的数据都是相同的,在任意一个正常的节点上备份都能得到8s集群完整的数据 Kubernetes 集群备份主要是备份 ETCD 集群,而恢复时,主要考虑恢复整个顺序: 1,停止所有 Master 上 kube-apiserver 服务 2&…

nuxt3模拟手机验证码

文章目录 前言前端后端前面代码会出现的问题约束button的小插件连接mongodb来写登陆项目开源链接前言 真实应该要连接短信验证码服务,但是众所周知所有的服务和IT都是靠服务来挣钱的,所以我们目前只能模拟手机验证码登陆 考虑到账号的唯一值就想到了手机和验证码(基本上的网站…

Netflix Feign:微服务HTTP调用如何简化?

Netflix Feign:微服务HTTP调用如何简化? 1、什么是Netflix Feign?2、Feign的优点3、示例4、总结 💖The Begin💖点点关注,收藏不迷路💖 1、什么是Netflix Feign? Feign是一个声明式的…

备考AMC10美国数学竞赛2024:吃透1250道真题和知识点(持续)

有什么含金量比较高的初中生数学竞赛吗?美国数学竞赛AMC10是个不错的选择。那么,如何备考AMC10美国数学竞赛呢?做真题,吃透真题和背后的知识点是备考AMC8、AMC10有效的方法之一。 通过做真题,可以帮助孩子找到真实竞赛…

新安装的mariadb 对应的my.cnf 对应的配置

最近在安装openstack,在启动mariadb的时候出现了问题,一直无法启动 看了一个博客说各种原因,尝试了也没有用 看来只有重新安装了, 原来的都删除了,把my.cnf 删除了 后来重新安装的话,执行: …

【智能排班系统】Hibernate Validator 参数校验

🎯导读:本文档介绍了参数校验的重要性及其在软件开发中的作用,强调了数据完整性、安全性、用户体验、系统稳定性及开发效率等方面的关键价值。文档详细阐述了Hibernate Validator这一流行的Java验证框架的使用方法,展示了如何利用…

异业联盟的巅峰之作!某店生活 两年百亿销售额!

大家好 我是一家软件开发公司的产品经理 吴军 最近有个爆火的商业模式 带动了三方消费 平台能赚到钱 消费者能省钱 商家也能获取到客源甚至还能赚钱 他究竟是怎么样做到三方都赚到钱的? 在当前经济形势下,许多消费者变得谨慎,减少了不必…

【K8s】专题十二(4):Kubernetes 存储之 StorageClass

本文内容均来自个人笔记并重新梳理,如有错误欢迎指正! 如果对您有帮助,烦请点赞、关注、转发、订阅专栏! 专栏订阅入口 Linux 专栏 | Docker 专栏 | Kubernetes 专栏 往期精彩文章 【Docker】(全网首发)Kyl…

Git之2.5版本重要特性及用法实例(五十七)

简介: CSDN博客专家、《Android系统多媒体进阶实战》一书作者. 新书发布:《Android系统多媒体进阶实战》🚀 优质专栏: Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏: 多媒体系统工程师系列…

Debezium日常分享系列之:Debezium 3.0.0.Beta发布

Debezium日常分享系列之:Debezium 3.0.0.Beta发布 一、重大变更Debezium Server Kafka SinkDebezium Server RabbitMQ Sink 二、新功能和改进每个表的详细指标PostgreSQL复制插槽创建超时对于PostgreSQL的PgVector数据类型的支持Oracle Ehcache 事务缓冲实现解码Pos…

滑动窗口元素的平均值 ← STL : deque

【题目描述】 给定一个序列,使用 deque 维护一个大小为 k 的窗口,计算每个窗口中所有元素的平均值。【算法分析】 ● STL deque:https://cplusplus.com/reference/deque/● 在 C 标准模板库(STL)中,deque&a…

VSCode+debugpy远程调试

某一天突然发现VSCode没法远程调试了,原因竟是新版本的VSCode Python调试不再支持ptvsd插件了,所以只能改换门庭接入debugpy。 首先launch.json并无差异,还是和之前用ptvsd时候一样。 {"version": "0.2.0","config…

【架构设计】安全架构设计

安全架构概述 在当今以计算机、网络和软件为载体的数字化服务几乎成为人类社会赖以生存的手段,与之而来的计算机犯罪呈现指数上升趋势,因此,信息的可用性、完整性、机密性、可控性和不可抵赖性等安全保障有位重要,为满足这些诉求&…

【测试】——开发模型与测试模型

📖 前言:在软件开发过程中,理解和应用合适的开发模型与测试模型至关重要。本文将详细介绍几种常见的开发模型,如瀑布模型、螺旋模型、增量模型和敏捷过程,以及测试模型如V模型和W模型。 目录 🕒 1. 开发模型…

Java—可变参数、不可变集合

目录 可变参数 不可变集合 可变参数 Java5 中提供了可变参数,可变参数是一种特殊形参,定义在方法、构造器的形参列表中。 可变参数格式:属性类型...参数名称可变参数示例:int...args 可变参数传参特点 1. 可以不传参数&#…

Nginx: 使用KeepAlived配置实现虚IP在多服务器节点漂移及Nginx高可用原理

使用KeepAlived配置实现虚IP在多服务器节点漂移 1 )环境准备 2台 linux , 一主一备 节点1:192.168.184.30 CentOS 7 Master节点2:192.168.184.40 CentOS 7 BackupVIP 192.168.184.50 安装 KeepAlived, $ yum install keepalived 注意&#x…

时空图卷积网络:用于交通流量预测的深度学习框架-1

摘要 准确的交通预测对于城市交通控制和引导至关重要。由于交通流的高度非线性和复杂性,传统方法无法满足中长期预测任务的需求,且往往忽略了空间和时间的依赖关系。本文提出一种新的深度学习框架——时空图卷积网络(STGCN)来解决交通领域的时间序列预测…

云同步的使用

云同步技术是一种在多个设备或系统之间保持数据一致性的技术,它通常依赖于云存储服务来实现。在Java中,实现云同步功能通常需要与云服务提供商的API进行交互,如Amazon S3、Google Cloud Storage、Microsoft Azure Blob Storage等。 以下是一个…