解决防爬虫机制方法(一)

最近为了完成学校的大数据的作业,老师要我们爬一个的网站,里面有还算不错的防爬机制,忙活了几天,总结出一些常见的防爬机制的应对方法,方法均来自个人实战总结,非专业爬虫角度分析

1.响应时间过快

1.1网速不太行

一般有小伙伴不习惯设置time.sleep()这个方法,但是这个方法能解决很多问题,第一就是你网速不太行,网页还没解析完就跑到下面提取里面了,所以有时候因为进程问题,代码运行稍微快点有时候就会提取那里出现提取为空这样的情况,主要可能还是网速跟不上,建议无论好不好都在解析那部分下面加上一个缓冲时间。

1.2有频率监控

我们爬的那个网站应该有游客点击频率监控,有时候在网站上点击速度稍微快一点,就要你登录要你真人验证,模拟登录那块我试了,但没成功,有需要的小伙伴可以参考其他教程

爬虫中关于登录以及登录验证码的简单处理方法_爬虫 发送code 登录 0b1ondga16zh8f0xiuha1haagp3ondgt-CSDN博客

对于我本次作业来说,同样还是设置了sleep来解决这问题,但是可能设置的时间比较长,大概30多秒爬一个子网站,虽然有点慢,但是还算比较稳定,没怎么被抓到

2.伪装不够好 

2.1设置ip代理池

一般要设置ip代理池这样不断用新的ip访问这样被抓的概率低一点,获取ip代理池的方法我也发过

免费搭建ip代理池的保姆级方法(最详细最有效)-CSDN博客

主要是通过一些免费网站获取后再调用接口来给自己使用

2.2伪装池设置 

伪装池设置这方面相对来说就可能简单一点,如果有登录的网站最好先登录再从控制台提取到自己的cookies,有些网站的游客cookies的存活时间比较短,最好提取之后就挂着网页不要关了,这样至少你用的cookies不会被网址删除,而且建立headers主要还是里面的cooies不同,建议叫人帮忙登录拿多几个cookies之后random着来用,这样被追踪到的概率会低一点,相对于上面的操作来说这个简单一些

这些方法还是比较适用于一些比较简单的爬取,如果是大佬级别或者是长时间爬取的仅供参考

希望这篇博客对你有帮助!!!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/618958.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

十分钟教你在 k8s 中部署一个前后端应用

好多开发人员,尤其是没接触过 k8s 的人员对如何在k8s中部署一个 前后端应用很模糊,不知如何下手,所以本篇讲一下如何快速在 k8s 部署一个前后端应用,让大家对k8s有个快速认识 前置依赖 k8s集群,如果没有安装&#xff0…

什么是RoPE-旋转位置编码?

RoPE位置编码是大模型中最常见的位置编码之一。像是谷歌的PaLM和meta的LLaMA等开源大模型都是RoPE位置编码,那么RoPE有什么特点呢? 本文将介绍如下内容: RoPE旋转位置编码概要什么是位置编码?RoPE及其特点总结 一、RoPE旋转位置…

refs传值

父组件和子组件同时展示 父组件&#xff1a; <div><el-button click"showdialog">点击</el-button><div><UploadFile ref"child"></UploadFile></div></div>created () {this.init(); }, methods:{init …

stm32学习笔记:DMA

每个DMA通道硬件触发源是不一样的&#xff0c;要使用某个外设的硬件触发源&#xff0c;就必须使用它连接的那个通道 12个独立可配置的通道&#xff1a;DMA1(7个通道)&#xff0c;DMA2(5个通道) 每个通道都支持软件触发和特定的硬件触发 C8T6 DMA资源&#xff1a;DMA1 &#xff…

Python自动化我选DrissionPage,弃用Selenium

DrissionPage 是一个基于 python 的网页自动化工具。 它既能控制浏览器&#xff0c;也能收发数据包&#xff0c;还能把两者合而为一。 可兼顾浏览器自动化的便利性和 requests 的高效率。 它功能强大&#xff0c;内置无数人性化设计和便捷功能。 它的语法简洁而优雅&#x…

数据库和表的操作

文章目录 前言一、库的操作创建数据库字符集和校验规则操纵数据库查看数据库显示创建语句修改数据库删除数据库备份和恢复数据库还原查看连接情况 二、表的操作创建表查看表结构修改表修改表名添加一列修改某一列属性删除某一列 删除表 前言 一、库的操作 创建数据库 语法&am…

【Python机器学习】分类器的不确定估计——决策函数

scikit-learn接口的分类器能够给出预测的不确定度估计&#xff0c;一般来说&#xff0c;分类器会预测一个测试点属于哪个类别&#xff0c;还包括它对这个预测的置信程度。 scikit-learn中有两个函数可以用于获取分类器的不确定度估计&#xff1a;decidion_function和predict_pr…

day06

1.八大基本数据类型整型: byte short int long 浮点: double float字符: char布尔: boolean2.声明变量的语法格式数据类型 变量名字 初始化的值; 3.使用for循环打印等腰三角形for (int i 1; i < 4; i) {for (int j 1; j < 4 - i; j) {System.out.print(" &qu…

快速获取商品条码查询API接口python代码

商品条码查询API实现了对商品条码信息的快速获取和准确识别。这个接口在电子商务、分销溯源、商超服务等领域具有应用市场&#xff0c;通过此接口获取商品所包含的详细信息。 首先&#xff0c;使用数据平台该API接口需要先注册后申请此API接口。申请成功后使用个人中心的API秘…

计算机毕业设计----SSH电子相册管理系统

项目介绍 本项目分为普通用户与管理员两个角色&#xff1b; 管理员角色包含以下功能&#xff1a; 管理员登陆,用户信息管理,登陆密码修改等功能。 用户角色包含以下功能&#xff1a; 用户登陆,个人信息管理,相册管理,上传照片等功能。 环境需要 1.运行环境&#xff1a;最好…

高效办公:在文件夹名称左边插入关键字,提高文件管理效率

在繁忙的工作环境中&#xff0c;经常要处理大量的文件和文件夹。有效的文件管理是一个挑战&#xff0c;大量的文件和文件夹难以找到所需的资料。下面一起来看云炫文件管理器如何在文件夹名称左边批量插入关键字。 文件夹名称左边添加关键字前后对比图。 文件夹名称左边批量插…

P1379 八数码难题

题目描述 在 33 的棋盘上&#xff0c;摆有八个棋子&#xff0c;每个棋子上标有 1 至 8 的某一数字。棋盘中留有一个空格&#xff0c;空格用 0 来表示。空格周围的棋子可以移到空格中。要求解的问题是&#xff1a;给出一种初始布局&#xff08;初始状态&#xff09;和目标布局&…

linux服务器ftp部署

1、ftp服务安装 # 检查是否安装 1、查询安装列表 sudo systemctl list-unit-files --typeservice | grep ftp 2、查询ftp服务状态 sudo service vsftpd status 或者 sudo systemctl status vsftpd # yum安装&#xff0c;一般yum仓库都有ftp安装包 sudo yum install vsftpd # 启…

哪里能找到好用的PPT模板?12个免费模板网站让你畅快办公!

你是否有过这样的经历&#xff0c;在准备重要会议或者演讲的时候&#xff0c;为找不到合适的PPT模板而困扰&#xff1f;或是在网上漫无目的地搜寻&#xff0c;结果收获的是设计平淡无奇的PPT模板&#xff1f; 如果你有同样的疑问&#xff0c;那么你来对地方了&#xff01;在这…

电脑扩容升级硬盘选1T还是2T

SSD固态有必要升级2TB吗&#xff1f;----------吴中函 某大二学生用的一台笔记本电脑&#xff0c;512GB的硬盘空间已经严重不够用了&#xff0c;想给笔记本扩容升级一下硬盘&#xff1b; 这位学生是学设计专业的、平时也喜欢摄影、电脑里面也装了一些游戏&#xff0c;经常整理、…

Linux技术,winSCP连接服务器超时故障解决方案

知识改变命运&#xff0c;技术就是要分享&#xff0c;有问题随时联系&#xff0c;免费答疑&#xff0c;欢迎联系&#xff01; 故障现象 使用 sftp 协议连接主机时, 明显感觉缓慢且卡顿,并且时常出现如下报错: 点击重新连接后,又有概率重新连接上; 总之在"连接上"和&…

What is `WebMvcConfigurer` does?

WebMvcConfigurer 用于自定义和扩展SpringMVC的功能配置。 比如&#xff1a;可以配置如视图解析器、静态资源处理、消息转换器、拦截器等MVC相关的组件。 实现 WebMvcConfigurer 接口&#xff0c;并使用 Configuration 注解标记&#xff0c;使其成为一个配置类 Configuration …

awk获取filebeat注册表offset的值

grep /home/test.log * |tail -1 | awk -F[:,] {for(i1;i<NF;i){if($i~/offset/){print $(i1)}}} //这个命令将按照“:”和“,”作为字段分隔符&#xff0c;然后遍历各个字段&#xff0c;找到包含"offset"的字段&#xff0c;并打印出它的值。 test.log内容为&…

Python 装饰器基础

目录 一、基本原理二、核心作用三、Demo示例示例1&#xff1a;基本装饰器示例2&#xff1a;带参数的装饰器示例3&#xff1a;多个装饰器 四、正确使用装饰器五、pyparamvalidate 装饰器项目 装饰器&#xff08;Decorators&#xff09;是 Python 中一种强大而灵活的功能&#xf…

排序算法-冒泡排序

一、算法介绍 冒泡排序是一种简单的排序算法&#xff0c;其核心思想是重复地遍历待排序列表&#xff0c;比较并交换相邻元素&#xff0c;使得较大的元素逐渐“冒泡”到列表的末尾&#xff0c;而较小的元素则逐渐上浮至列表的前端。该算法的名字源于类比元素的移动过程&#xff…