反爬机制

一.通过headers反爬虫:

 

  • Basic Auth

 

这是一种古老的、不安全的用户验证方式,一般会有用户授权的限制,会在headers的Autheration字段里要求加入用户名密码(明文),如果验证失败则请求就会失败,现在这种认证方式正在被淘汰。

 

  • Referer

 

  链接的来源,通常在访问链接时,都要带上Referer字段,服务器会进行来源验证,后台通常会用此字段作为防盗链的依据。

 

 

  User-Agent: U-A校验,浏览器在发请求时,会附带用户设备类型、系统以及浏览器的型号版本。服务器会通过判断U-A的值来区分不同的浏览器。

  如果服务器仅仅通过判断请求的U-A来区分不同浏览器。因此:可模拟U-A,即是我们手动指定我们发出去的请求的User-Agent的值。

  (一般情况下,使用编程语言提供的第三方网络库来发送HTTP请求会有一个默认的U-A,比如requests库的默认U-A为"python-requests/2.8.1"(后面的版本号可能不同)

 

  • Cookie

  一般在用户登录或者某些操作后,服务端会在返回包中包含Cookie信息要求浏览器设置Cookie,没有Cookie会很容易被辨别出来是伪造请求;

  也有本地通过JS,根据服务端返回的某个信息进行处理生成的加密信息,设置在Cookie里面;

  • 自定义字段

  因为http的headers可以自定义地段,所以第三方可能会加入了一些自定义的字段名称或者字段值,这也是需要注意的。

  

 

  header表现形式:key-value.

  User-Agent标示了一个浏览器的型号

  

二.通过用户行为

真人通过浏览器访问网站的速度(相对程序来讲)是很慢的。在较短时间内,发了较多的请求,服务器会认为你是一个 爬虫。

我们可以:用代理IP,转发我们的请求。

不少网站提供或罗列了一大批代理IP,我们可以抓取下来之后存储起来,以备不时之需。不过,很多代理IP的寿命都比较短,所以最好有一套完整的机制来校验已有代理IP的有效性。

三.通过验证码限制

  这样的方式与上面的方式相比更加难处理的是,不管你的访问频次怎么样,你都需要输入验证码才行

 

四.基于动态页面的反爬虫

  跟踪服务器发送的ajax请求,模拟ajax请求

 

五.通过账号限制

  账号的作用更多是网站处于功能考虑的,反爬虫只不过是顺便完成的功能。

转载于:https://www.cnblogs.com/zhaochangbo/p/7652444.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/251721.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

knockout + easyui = koeasyui

在做后台管理系统的同学们,是否有用easyui的经历。虽然现在都是vue、ng、react的时代。但easyui(也就是jquery为基础)还是占有一席之地的。因为他对后端开发者太友好了,太熟悉不过了。要让一个后端开发者来理解vue或者是react的VN…

轻量社交APP系统ThinkSNS 简 权威发布 限时惠购

2019独角兽企业重金招聘Python工程师标准>>> 伴随国内外创业风潮、AI、区块链等互联网软件科技领域的高速发展,2019年,ThinkSNS软件品牌迎来十周年后的新纪元。作为下一个阶段的产品元年,官方于2019年5月正式发售轻量核心社交APP系…

linux下安装oracle sqlplus以及imp、exp工具

一、下载oracle 11g sqlplus软件 linux 64位操作系统,oracle安装包地址 http://www.oracle.com/technetwork/topics/linuxx86-64soft-092277.html oracle-instantclient11.2-sqlplus-11.2.0.3.0-1.x86_64.rpm  oracle-instantclient11.2-basic-11.2.0.4.0-1.x86_6…

在operator =中要处理“自我赋值”

防止自我赋值很有必要 Widget w; w w; a[i] a[j]; //a[i]和a[j]实际上指向同一个元素 *pi *pj; //pi和pj实际上指向同一个元素 自我赋值的危害: Widget { private:Test *p; }; Widget &Widget::operator(const Widget &w) {delete p;p new int (*w.p);r…

新添加磁盘分区后,找不到新分区

问题:在Vcent中扩容磁盘容量,登录虚拟机fdisk /dev/sda分区后,找不到新分区。 lsblk或者 df -TH fdisk /dev/sda p 尝试解决办法: cd /sys/class/scsi_host/ ls echo "- - -" > /sys/class/scsi_host/host0/scan (中…

Linux一些指令

备忘。。 ~/.bashrc 环境变量文件 xshell5 与本机文件传输 rz接受 sz filename 传输 watch -n 2 nvidia-smi 监视gpu 状态wget 下载单个文件wget http://images.cocodataset.org/zips/train2014.zip给.sh文件添加x执行权限 比如以hello.sh文件为例,chmod ux hello…

C# 通过反射获取方法/类上的自定义特性

1.所有自定义属性都必须继承System.Attribute 2.自定义属性的类名称必须为 XXXXAttribute 即是已Attribute结尾 自定义属性QuickWebApi [AttributeUsage(AttributeTargets.Method, Inherited false, AllowMultiple true)]public class QuickWebApiAttribute: Attribute{publ…

Spring Cloud Zuul网关(快速搭建)

zuul 是netflix开源的一个API Gateway 服务器, 本质上是一个web servlet应用。 在云平台上提供动态路由,监控,弹性,安全等边缘服务的框架。相当于是设备和 Netflix 流应用的 Web 网站后端所有请求的前门。主要功能是路由转发和过滤器。 Zuul可…

10.13 上午 考试

T1 直接二分就好了 #include <cstdio> #include <cstring> #include <iostream> #include <cmath> #include <cstdlib> #include <algorithm> #define ll long long #define mem(a,b) memset(a,b,sizeof(a)) using namespace std;ll n; in…

前端安全之token

前端可以通过cookie以js的方式存取token&#xff0c;并且实现用户的登录登出以及token的超时操作&#xff0c;但这样做并不安全&#xff0c;无法避免跨站脚本的攻击&#xff0c;如果对项目的安全性要求比较高&#xff0c;应该在服务端开启http only为true&#xff0c;通过服务端…

gbk 转 UTF-8

iconv命令 gbk 转 UTF-8 -----linux gbk 转 UTF-8-------- iconv 用法 iconv -f "gbk" -t "utf-8" < infile > outfile 或者 piconv -f "gbk" -t "utf-8" < infile > outfile iconv -f utf-8 -t GBK 123456.txt 对传文件…

Mybatis中输入输出映射和动态Sql

一、输入映射我们通过配置parameterType的值来指定输入参数的类型&#xff0c;这些类型可以是简单数据类型、POJO、HashMap等数据类型1、简单类型2、POJO包装类型①这是单表查询的时候传入的POJO包装类型&#xff0c;即可以直接传入实体类&#xff0c;但是当多表查询的时候&…

css纯字母或者字母换行显示

white-space:normal; word-break:break-all;转载于:https://www.cnblogs.com/mmykdbc/p/7661009.html

javascript使用btoa和atob来进行Base64转码和解码

javascript中如何使用Base64转码 let str javascript;let btoaStr window.btoa(str); //转码结果 amF2YXNjcmlwdAconsole.log(btoaStr);console.log(window.atob(btoaStr)); //解码结果 javascriptBase64转码的对象只能是字符串, var str "China&#xff0c;中国"…

珠宝条码打印扫描解决方案

随着人们生活水平的逐步提高&#xff0c;珠宝消费日益增长&#xff0c;据统计&#xff0c;我国珠宝首饰零售规模超过7000亿&#xff0c;过去5年复合增长为15%&#xff0c;是规模增长最为迅速的可选消费品类之一。面对千亿级的消费市场&#xff0c;珠宝行业竞争激烈&#xff0c;…

课程作业1

1使用组合数公式利用n!来计算 a.设计思想 定义n和k&#xff0c;用递归函数表示出N!的阶乘结果&#xff0c;c(n,k)n!/(k!(n-k)!);调用函数求出c(n,k)的结果 b.源代码 package kecheng1; import java.util.Scanner; public class Test {public static void main(String[] args) {…

新手学Python推荐的四本书籍+2个资源网站

2019独角兽企业重金招聘Python工程师标准>>> 很多伙伴初学Python&#xff0c;会问到&#xff1a;有没有好的学习书籍推荐&#xff1f;有没有好的学习网站推荐&#xff1f; 针对这类伙伴的问题&#xff0c;小优给大家整理了学习Python的四本书籍2个资源网站&#xff…

【转】Linux系统编程---dup和dup2详解

正常的文件描述符&#xff1a; 在linux下&#xff0c;通过open打开以文件后&#xff0c;会返回一个文件描述符&#xff0c;文件描述符会指向一个文件表&#xff0c;文件表中的节点指针会指向节点表。看下图&#xff1a; 打开文件的内核数据结构 dup和dup2两个函数都可以用来复制…

Android Activity标签属性

Android Activity标签属性 Activity 是 Android 系统四大应用组件之一&#xff0c;用户可与 Activity 提供的屏幕进行交互&#xff0c;以执行拨打电话、拍摄照片、发送电子邮件等操作开发者必须在清单文件中声明要使用的 Activity&#xff0c;这样系统才能访问它。声明方式是在…

Java -----JVM运行时数据区

一、JVM体系结构 想要了解运行时数据区&#xff0c;先关注一下JVM的体系结构&#xff0c;知道数据区在JVM的整体位置和作用。 二、JVM运行时数据区 1.程序计数器 一块较小的内存空间&#xff0c;它是当前线程所执行的字节码的行号指示器&#xff0c;字节码解释器工作时通过改变…