爬虫笔记(十二)——浏览器伪装技术

为什么要进行浏览器伪装技术?

  有一些网站为了避免爬虫的恶意访问,会设置一些反爬虫机制,对方服务器会对爬虫进行屏蔽。常见的饭爬虫机制主要有下面几个:

1.  通过分析用户请求的Headers信息进行反爬虫

2.  通过检测用户行为进行反爬虫,比如通过判断同一个IP在短时间内是否频繁访问对应网站等进行分析

3.  通过动态页面增加爬虫的爬取难度,达到反爬虫的目的

    第一种反爬虫机制在目前网站中应用的最多,大部分反爬虫网站会对用户请求的Headers信息的“User-Agent”字段进行检测来判断身份,有时,这类反爬虫的网站还会对“Referer”字段进行检测。我们可以在爬虫中构造这些用户请求的Headers信息,以此将爬虫伪装成浏览器,简单的伪装只需设置好“User-Agent”字段的信息即可,如果要进行高相似度的路蓝旗伪装,则需要将用户请求的Headers信息中常见的字段都在爬虫中设置好
 第二种反爬虫机制的网站,可以通过之前学习的使用代理服务器并经常切换代理服务器的方式,一般就能够攻克限制
 第三种反爬虫机制的网站,可以利用一些工具软件,比如selenium+phantomJS,就可以攻克限制

浏览器伪装准备工作

  在学习高相似度的浏览器伪装技术之前,我们首先要对Headers信息要有一定的了解。我们先打开火狐浏览器,打开淘宝的网站www.taobao.com,利用Fiddler获取头部信息。

字段的格式,基本格式为:“字段名”:”字段值”,字段名和对应的值之间通过”:”隔开。

字段1: Accept: text/html, application/xhtml+xml, application/xmlq=0.9,*/*;q=08

  • Accept字段主要用来表示浏览器能够支持的内容类型有哪些。
  • text html表示HTML文档。
  • application/ xhtml+xml表示XHTML文档。
  • q代表权重系数,值介于0和1之间。

这一行字段信息表示浏览器可以支持 text/html,application/xml、/等内容类型,支持的优先顺序从左到右依次排列。

字段2: accept-encoding:gzip, deflate

  • accept-encoding字段主要用来表示浏览器支持的压缩编码有哪些。
  • gzip是压缩编码的一种。
  • deflate是一种无损数据压缩算法

这一行字段信息表示浏览器可以支持gzp、 deflate等压缩编码。

字段3: Accept- Language:en-US,en;q=0.5

  • Accept-language主要用来表示浏览器所支持的语言类型。
  • en-Us表示英语(美国)语言
  • en表示英语语言

所以之一行字段表示浏览器可以支持en-US、cn等语言。除此之外,有些还支持zh-CN(表示简体中文语言。zh表示中文,CN表示简体)。

字段4:User- Agent: Mozilla/5.0( X11;Ubuntu;Linux x86_64 ;rv:61.0) Gecko20100101Firefox/61.0

  • user-agent字段主要表示用户代理,服务器可以通过该字段识别出客户端的浏览器类客户端的操作系统及版本号型、浏览器版本号主要以伪造该字段进行网页排版引擎等客户端信息。所以之前要模拟浏览器登录,主要以伪造该字段进行。
  • Mozilla/5.0表示浏览器名和版本号。
  • X11;Ubuntu;Linux x86_64 ;rv:61.0表示客户端操作系统对应信息。
  • Gecko表示网页排版引擎对应信息。
  • Firefox/61.0表示火狐浏览器。

所以这一行字段表示信息为对应的用户代理信息。

字段5: Connection:keep-alve

  • Connection表示客户端与服务器的连接类型,对应的字段值主要有两种。
  • keep-alive表示持久性连接。
  • close表示单方面关闭连接,让连接断开。

所以此时,这一行字段表示客户端与服务器的连接是持久性连接。

 

字段6:Host: ocsp2.globalsign.com

  • Host字段表示请求的服务器网址是什么,此时这一行字段表示请求的服务器网址是ocsp2.globalsign.com。

字段7: Referer:网址

  • Referer字段主要表示来源网址地址,比如我们从htp:/ www,youku.conm网址中访问了该网址下的子页http/tvyouku.com?spm=0.0.topnav.5-1-3!2-A.Onqoef,那么此时来源网址为htp:/ www,youku,con,即此时 Referer字段的值为http:/ww
    youku. com

python代码实战

使用代理服务器

import urllib.request
import urllib.parse
import http.cookiejar
url = "http://bbs.chinaunix.net/member.php?mod=logging&action=login&loginsubmit=yes&loginhash=LfgTz"
postdata = urllib.parse.urlencode({  #  此处登录可用自己在网站上注册的用户名和密码"username": "weisuen","password": "aA123456"
}).encode("utf-8")
req = urllib.request.Request(url, postdata)
req.add_header("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36")# 使用http.cookiejar.CookieJar()创建CookieJar对象
cjar = http.cookiejar.CookieJar()# 使用HTTPCookieProcessor创建cookie处理器,并以其参数构建opener对象
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cjar))
# 将opener安装为全局urllib.request.install_opener(opener)
file = opener.open(req)
data = file.read()
file = open('/home/wk/csdn.html','wb')
file.write(data)
file.close()url2 = "http://bbs.chinaunix.net/"  # 设置要爬取的该网站下其他网页地址
data2 = urllib.request.urlopen(url2).read()
fhandle = open('/home/wk/csdn1.html','wb')
fhandle.write(data2)
fhandle.close()

 

 

 

 

 

 

 

 

转载于:https://www.cnblogs.com/longwhite/p/10397756.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/390056.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

650. 只有两个键的键盘

650. 只有两个键的键盘 最初记事本上只有一个字符 ‘A’ 。你每次可以对这个记事本进行两种操作: Copy All(复制全部):复制这个记事本中的所有字符(不允许仅复制部分字符)。Paste(粘贴&#x…

Codeforces 626F Group Projects (DP)

题目链接 8VC Venture Cup 2016 - Elimination Round 题意 把$n$个物品分成若干组,每个组的代价为组内价值的极差,求所有组的代价之和不超过$k$的方案数。 考虑DP,$f[i][j][k]$表示考虑到第$i$个物品的时候,还有$j$组尚未分配完…

《活出生命的意义》:人生有何意义?

在你一生的阅读体验中,如果能够有一本书,它的某个章节、某种思想、或者某句话能够触动你的内心,解决你的困惑,甚至能改变你的命运,那这样的一本书你一定要视如珍宝,经常翻阅,维克多弗兰克尔的《…

右键添加git-bash

主要: 右键如果没有git-bash,如何给右键手动添加 前面对右键存在git-bash但使用出现问题的解决,也想到如果右键都没有,该如何给右键添加了,于是接着记录下如何添加的过程: 情形: 手动给右键添加…

Weblogic的缓存

2019独角兽企业重金招聘Python工程师标准>>> 最近遇到一个关于weblogic缓存的问题。再把war包放入到weblogic指定目录启动以后,访问页面信息没有更新。最后发现是\weblogic\user_projects\domains\base_domain\servers\AdminServer下的文件没有清除&…

725. 分隔链表

725. 分隔链表 给你一个头结点为 head 的单链表和一个整数 k ,请你设计一个算法将链表分隔为 k 个连续的部分。 每部分的长度应该尽可能的相等:任意两部分的长度差距不能超过 1 。这可能会导致有些部分为 null 。 这 k 个部分应该按照在链表中出现的顺…

LAMP介绍-MySQL安装

2019独角兽企业重金招聘Python工程师标准>>> LAMP: linux-apache-mysql-php (安装方式有:rpm,源码,二进制免编译) linux-操作系统 apache-web服务软件(httpd) mysql-存储数据库 php…

总结verilog产生随机数的$random和seed

$random(seed)是verilog中最简单的产生随机数的系统函数。 在调用系统函数$random(seed)时,可以写成三种样式:1)$random,2)$random(),3)$random(seed)。下面分别说明: 1)…

326. 3的幂

326. 3的幂 给定一个整数,写一个函数来判断它是否是 3 的幂次方。如果是,返回 true ;否则,返回 false 。 整数 n 是 3 的幂次方需满足:存在整数 x 使得 n 3x 示例 1:输入:n 27 输出&#x…

Lottie 站在巨人的肩膀上实现 Android 酷炫动画效果

说到动画效果,一般都会感到很高端,感觉很酷炫;而小菜技术有限,稍复杂的动画效果也需要很多时间处理,但是遇到时间紧任务重的情况该怎么办呢?那就尝试一下 Lottie 吧,酷炫的动画集成却相当简单&a…

正则表达式(读书过程所记未整理)

\d 表示一位数字字符 \d{3} 表示3个数字字符 匹配电话比如400-400-1118 import re phone_number re.compile(r\d{3}-\d{3}-\d{4}) mo phone_number.search(rfor a number is 400-400-4000) print(mo.group()) ************************************************************…

java1

不知道为啥粘贴的图片是一堆编码。。。。 如何插入图片 博客后后台MarkDown编辑器上只有一个按钮,就是用来上传图片并自动插入MarkDown标记的,超级好用 (一)学习总结 1.在java中通过Scanner类完成控制台的输入,查阅JDK…

430. 扁平化多级双向链表

430. 扁平化多级双向链表 多级双向链表中,除了指向下一个节点和前一个节点指针之外,它还有一个子链表指针,可能指向单独的双向链表。这些子列表也可能会有一个或多个自己的子项,依此类推,生成多级数据结构&#xff0c…

PHPstudy搭建本地环境的网页加载速度慢的解决方案

PHP5.3以上,如果数据库链接地址是localhost,会自动检测最终的地址是IPV4还是IPV6,所以会比较慢。解决办法:修改数据库的链接地址,将localhost改为127.0.0.1即可。 原文链接:https://chasjd.com/posts/fb433…

标记偏见_分析师的偏见

标记偏见“Beware of the HiPPO in the room” — The risks and dangers of top-down, intuition-based decision making are well known in the business world. Experimentation and data-based decision making become widely acknowledged as the right way to steer a bu…

scott登录查询常用语句

一、简单查询 1.简单查询select * from emp;--查询表emp中的所有数据select empno as id,ename as name from emp;--查询表emp中的empno显示为id,ename显示为name 2.去除重复select distinct job from emp;--将表emp中的job去重select distinct job,deptno from emp…

CSS结构的基础认知

css的属性值与html的属性值用法不相上下&#xff0c;但是css主要分为内联样式表和外联样式表。 内联样式表用法&#xff1a;在html文件中的《head》头文件中添加<style></style>标签&#xff0c;在标签内添加所需的属性值&#xff0c;例如&#xff1a;<!DOCTYPE…

BZOJ1453: [Wc]Dface双面棋盘

Time Limit: 10 Sec Memory Limit: 64 MB Submit: 784 Solved: 422 [Submit][Status][Discuss] Description 佳佳有一个 nnn 行 nnn 列的黑白棋盘&#xff0c;每个格子都有两面&#xff0c;一面白色&#xff0c;一面黑色。佳佳把棋盘平放在桌子上&#xff0c;因此每个格子恰好一…

用户体验数据分析 书单_如何使用数据改善用户体验设计

用户体验数据分析 书单In the current age of technology, if an entrepreneur comes up with a grand idea, chances are they’ll need a pretty sweet website to go along with it. And if they want their idea to really sell, they will also need a website that reall…

推荐11个实用的JavaScript库

2019独角兽企业重金招聘Python工程师标准>>> JavaScript 仍然是 2018 年最受欢迎和使用最为广泛的编程语言&#xff0c;因此 JavaScript 生态系统也会继续发展壮大。 然而&#xff0c;JavaScript 的标准库仍然继续保持“短小精悍”的身材。为了填补标准库功能方面的…