python爬虫反爬机制_Python Scrapy突破反爬虫机制(项目实践)

对于 BOSS 直聘这种网站,当程序请求网页后,服务器响应内容包含了整个页面的 HTML 源代码,这样就可以使用爬虫来爬取数据。但有些网站做了一些“反爬虫”处理,其网页内容不是静态的,而是使用 JavaScript 动态加载的,此时的爬虫程序也需要做相应的改进。

使用 shell 调试工具分析目标站点

本项目爬取的目标站点是 https://unsplash.com/,该网站包含了大量高清、优美的图片。本项目的目标是爬虫程序能自动识别并下载该网站上的所有图片。

在开发该项目之前,依然先使用 Firefox 浏览该网站,然后查看该网站的源代码,将会看到页面的

元素几乎是空的,并没有包含任何图片。

现在使用 Scrapy 的 shell 调试工具来看看该页面的内容。在控制台输入如下命令,启动 shell 调试:

scrapy shell https://unsplash.com/

执行上面命令,可以看到 Scrapy 成功下载了服务器响应数据。接下来,通过如下命令来尝试获取所有图片的 src 属性(图片都是 img 元素,src 属性指定了图片的 URL):

response.xpath('//img/@src').extract()

执行上面命令,将会看到返回一系列图片的URL,但它们都不是高清图片的 URL。

还是通过"Ctrl+Shift+I"快捷键打开 Firefox 的调试控制台,再次向 https://unsplash.com/ 网站发送请求,接下来可以在 Firefox 的调试控制台中看到如图 1 所示的请求。

2-1Z31215534GA.gif

图 1 动态获取图片的请求

可见,该网页动态请求图片的 URL 如下:

https://unsplash.com/napi/photos?page=4&per_page=12

上面 URL 中的 page 代表第几页,per_page 代表每页加载的图片数。使用 Scrapy 的 shell 调试工具来调试该网址,输入如下命令:

scrapy shell https://unsplash.com/napi/photos?page=1&per_page=10

上面命令代表请求第 1 页,每页显示 10 张图片的响应数据。执行上面命令,服务器响应内容是一段 JSON 数据,接下来在 shell 调试工具中输入如下命令:

>>> import json

>>> len(json.loads(response.text))

10

从上面的调试结果可以看到,服务器响应内容是一个 JSON 数组(转换之后对应于 Python 的 list 列表),且该数组中包含 10 个元素。

使用 Firefox 直接请求 https://unsplash.com/napi/photos?page=1&per_page=12 地址(如果希望使用更专业的工具,则可选择 Postman),可以看到服务器响应内容如图 2 所示。

2-1Z3121554429B.gif

图 2 服务器响应的JSON 数据

在图 2 所示为所有图片的 JSON 数据,每张图片数据都包含 id、created_at(创建时间)、updated_at(更新时间)、width(图片宽度)、height(图片高度)等基本信息和一个 links 属性,该属性值是一个对象(转换之后对应于 Python 的 dict),它包含了 self、html、download、download_location 属性,其中 self 代表浏览网页时的图片的 URL;而 download 才是要下载的高清图片的 URL。

网络爬虫毕竟是针对别人的网站“爬取” 数据的,而目标网站的结构随时可能发生改变,读者应该学习这种分析方法,而不是“生搬硬套”照抄本节的分析结果。

尝试在 shell 调试工具中查看第一张图片的下载 URL,应该在 shell 调试工具中输入如下命令:

>>> json.loads(response.text)[0]['links']['download']

'https://unsplash.com/photos/-RMY4j97SsM/download'

与图 2 中 JSON 数据对比不难看出,shell 调试工具输出的第一张图片的下载 URL 与图 2 所显示的第一张图片的下载 URL 完全相同。

由此得到一个结论,该网页加载时会自动向 https://unsplash.com/napi/photos?age=N&per_page=N 发送请求,然后根据服务器响应的 JSON 数据来动态加载图片。

由于该网页是“瀑布流”设计(所谓“瀑布流”设计,就是网页没有传统的分页按钮,而是让用户通过滚动条来实现分页,当用户向下拖动滚动条时,程序会动态载入新的分页),

当我们在 Firefox 中拖动滚动条时,可以在 Firefox 的调试控制台中看到再次向 https://unsplash.com/napi/photos?page=N&per_page=N 发送了请求,

只是 page 参数发生了改变。可见,为了不断地加载新的图片,程序只要不断地向该 URL 发送请求,并改变 page 参数即可。

经过以上分析,下面我们开始正式使用 Scrapy 来实现爬取高清图片。

使用Scrapy 爬取高清图片

按照惯例,使用如下命令来创建一个 Scrapy 项目:

scrapy startproject UnsplashimageSpider

然后在命令行窗口中进入 UnsplashlmageSpider 所在的目录下(不要进入 UnsplashImageSpider\UnsplashImageSpider目录下),执行如下命令来生成 Spider 类:

scrapy genspider unsplash_image 'unsplash.com

上面两个命令执行完成之后,一个简单的 Scrapy 项目就创建好了。

接下来需要修改 UnsplashImageSpider\items.py、UnsplashImageSpider\pipelines.py、UnsplashImageSpider\spiders\unsplash_image.py、UnsplashImageSpider\settings.py 文件,将它们全部改为使用 UTF-8 字符集来保存。

现在按照如下步骤来开发该爬虫项目:

定义 Item 类。由于本项目的目标是爬取高清图片,因此其所使用的 Item 类比较简单,只要保存图片 id 和图片下载地址即可。

下面是该项目的 Item 类的代码:

import scrapy

class ImageItem(scrapy.Item):

# 保存图片id

image_id = scrapy.Field()

# 保存图片下载地址

download = scrapy.Field()

上面程序为 Item 类定义了两个变量,分别用于保存图片 id 和图片下载地址。

开发 Spider。开发 Spider 就是指定 Scrapy 发送请求的 URL,并实现 parse(self, response) 方法来解析服务器响应数据。

下面是该项目的 Spider 程序:

import scrapy, json

from UnsplashImageSpider.items import ImageItem

class UnsplashImageSpider(scrapy.Spider):

# 定义Spider的名称

name = 'unsplash_image'

allowed_domains = ['unsplash.com']

# 定义起始页面

start_urls = ['https://unsplash.com/napi/photos?page=1&per_page=12']

def __init__ (self):

self.page_index = 1

def parse(self, response):

# 解析服务器响应的JSON字符串

photo_list = json.loads(response.text) # ①

# 遍历每张图片

for photo in photo_list:

item = ImageItem()

item['image_id'] = photo['id']

item['download'] = photo['links']['download']

yield item

self.page_index += 1

# 获取下一页的链接

next_link = 'https://unsplash.com/napi/photos?page='\

+ str(self.page_index) + '&per_page=12'

# 继续获取下一页的图片

yield scrapy.Request(next_link, callback=self.parse)

上面程序中第 9 行代码指定的 URL 是本项目爬取的第一个页面,由于该页面的响应是一个 JSON 数据,因此程序无须使用 XPath 或 CSS 选择器来“提取”数据,而是直接使用 json 模块的 loads() 函数来加载该响应数据即可。

在获取 JSON 响应数据之后,程序同样将 JSON 数据封装成 Item 对象后返回给 Scrapy 引擎。

Spider 到底应该使用 XPath 或 CSS 选择器来提取响应数据,还是使用 JSON,完全取决于目标网站的响应内容,怎么方便怎么来!总之,提取到数据之后,将数据封装成 Item 对象后返回给 Scrapy 引擎就对了。

上面程序中倒数第 2 行代码定义了加载下一页数据的 URL,接下来使用 scrapy.Request 向该 URL 发送请求,并指定使用 self.parse 方法来处理服务器响应内容,这样程序就可以不断地请求下一页的图片数据。

开发 Pipeline。Pipeline 负责保存 Spider 返回的 Item 对象(封装了爬取到的数据)。本项目爬取的目标是图片,因此程序得到图片的 URL 之后,既可将这些 URL 地址导入专门的下载工具中批量下载,也可在 Python 程序中直接下载。

本项目的 Pipeline 将使用 urllib.request 包直接下载。下面是该项目的 Pipeline 程序:

from urllib.request import *

class UnsplashimagespiderPipeline(object):

def process_item(self, item, spider):

# 每个item代表一个要下载的图片

print('----------' + item['image_id'])

real_url = item['download'] + "?force=true"

try:

pass

# 打开URL对应的资源

with urlopen(real_url) as result:

# 读取图片数据

data = result.read()

# 打开图片文件

with open("images/" + item['image_id'] + '.jpg', 'wb+') as f:

# 写入读取的数据

f.write(data)

except:

print('下载图片出现错误' % item['image_id'])

上面程序中第 7 行代码用于拼接下载图片的完整地址。可能有读者会问,为何要在图片下载地址的后面追加“?force=true”?这并不是本项目所能决定的,读者可以把鼠标指针移动到 https://unsplash.com 网站中各图片右下角的下载按钮上,即可看到各图片的下载地址都会在 download 后追加“?force=true”,此处只是模拟这种行为而已。

程序中第 11 行代码使用 urlopen() 函数获取目标 URL 的数据,接下来即可读取图片数据,并将图片数据写入下载的目标文件中。

经过上面 3 步,基于 Scrapy 开发的高清图片爬取程序基本完成。接下来依然需要对 settings.py 文件进行修改,即增加一些自定义请求头(用于模拟浏览器),设置启用指定的 Pipeline。下面是本项目修改后的 settings.py 文件:

BOT_NAME = 'UnsplashImageSpider'

SPIDER_MODULES = ['UnsplashImageSpider.spiders']

NEWSPIDER_MODULE = 'UnsplashImageSpider.spiders'

ROBOTSTXT_OBEY = True

# 配置默认的请求头

DEFAULT_REQUEST_HEADERS = {

"User-Agent" : "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0",

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'

}

# 配置使用Pipeline

ITEM_PIPELINES = {

'UnsplashImageSpider.pipelines.UnsplashimagespiderPipeline': 300,

}

至此,这个可以爬取高清图片的爬虫项目开发完成,读者可以在 UnsplashlmageSpider 目录下执行如下命令来启动爬虫。

scrapy crawl unsplash_image

#或者

scrapy runspider unsplash_image

区别:

命令

说明

是否需要项目

示例

runspider

未创建项目的情况下,运行一个编写在Python文件中的spider

no

$ scrapy runspider myspider.py

crawl

使用spider进行爬取

yes

$ scrapy crawl myspider

运行该爬虫程序之后,可以看到在项目的 images 目录下不断地增加新的高清图片(对图片的爬取速度在很大程度上取决于网络下载速度),这些高清图片正是 https://unsplash.com 网站中所展示的图片。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/374288.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

树的算法 已知二叉树的前序序列和中序序列求解树

题目: 已知二叉树的前序序列和中序序列求解树 比如 6 4    8 3  5   7 前序序列为6,4,3,5,8,7 中序序列为3,4,5,6,7,8 思路: 前序遍历序列的第一个元素必为根节点 则中序遍历序列中,该节点之前的为左子树,该节点之后的为右子树,若该节…

使用Spring配置LogBack日志记录

LogBack是由Log4j的同一作者创建的用于记录日志的API(较新的实现,它类似于新版本),在本文中,我将展示如何在Spring项目中对其进行集成和使用。 在本教程中,我假设您正在使用一个简单的Spring ROO项目&…

自定义URL Scheme完全指南

iPhone / iOS SDK 最酷的特性之一就是应用将其自身”绑定”到一个自定义 URL scheme 上,该 scheme 用于从浏览器或其他应用中启动本应用。 注册自定义 URL Scheme 注册自定义 URL Scheme 的第一步是创建 URL Scheme — 在 Xcode Project Navigator 中找到并点击工程…

C学习杂记(五)形参实参笔试题

大意失荆州 不要以为简单就轻视&#xff0c;谨慎&#xff0c;细节&#xff0c;基础。 一、有以下程序 #include <stdio.h>typedef struct {int b, p;} A;void f(A c) {c.b 1; c.p 2; }void main(void) {A a {1, 2};f(a);printf("%d, %d\n", a.b, a.p); } …

avframe转byte数组_C# amp; VB6.0 图像与二维数组 互转

背景最近在研究C#进行图像处理&#xff0c;在图像处理中算法中&#xff0c;往往都是针对的是矩阵运算的。矩阵其实就是一个二维的数组。为了图像处理的速度&#xff0c;我们都需要放在内存中处理。但网络上收集的代码&#xff0c;往往都是以一维数组的样子提供结果&#xff0c;…

C学习杂记(六)%2.0f打印输出宽度

%m.nf&#xff0c;m表示整个浮点数的输出宽度&#xff0c;n表示小数输出宽度。 1、printf("%f\n", 12.34); 输出为12.340000。 2、printf("%2.0f\n", 12.34); 输出为12。 3、printf("%2.1f\n", 12.34); 输出为12.3。 4、printf(&qu…

P6 音频格式—— AAC

目录 前言 01 AAC是什么&#xff1f; 02 为什么需要进行AAC进行音频压缩处理&#xff1f; 03 AAC的特点以及优势 04 AAC格式详解&#xff1a; 4.1. ADIF的数据结构&#xff1a; 4.1.1 ADIF Header具体的表格: 4.2. ADTS的结构&#xff08;重点&#xff09;&#xff1a; …

Android开发笔记——ListView模块、缓存及性能

ListView是Android开发中最常用的组件之一。本文将重点说明如何正确使用ListView&#xff0c;以及使用过程中可能遇到的问题。 ListView开发模块图片缓存可能遇到的问题一、ListView开发模块 从项目实践的角度来看&#xff0c;ListView适合“自底向上”的开发模式&#xff0c;即…

python实现excel筛选功能并输出_python如何实现excel按颜色筛选功能

离岛 2020-07-09 09:37 已采纳 不太了解具体需求&#xff0c;提供一些示例代码和思路供你参考&#xff1a; 整体思路&#xff1a;首先已知excel中的颜色值&#xff0c;根据编码实现颜色筛选的功能 示例&#xff1a; 1、首先安装pip install openpyxl 2、示例代码可以获取Excel中…

什么是CDI,它与@EJB和Spring有什么关系?

简要概述了Java EE中的依赖项注入&#xff0c; Resource / EJB和Inject之间的区别以及它们与Spring的关系-主要是链接形式。 上下文依赖注入&#xff08;CDI&#xff0c; JSR 299 &#xff09;是Java EE 6 Web Profile的一部分&#xff0c;它本身基于Java依赖注入&#xff08;…

C学习杂记(七)extern声明可省略变量类型

工作三年&#xff0c;看C的书也不少。第一次知道extern可以省略变量类型。 b.c有一个全局变量unsigned int data_length&#xff0c;a.c想要调用它&#xff0c;通常使用: extern unsigned int data_length&#xff1b; 在声明时可以把外部变量类型去掉&#xff1a;extern da…

KMP模板

1 ///KMP模板2 ///生成next数组3 void get_next()4 {5 int i0,j-1;6 next[0]-1;7 while (s1[i])8 {9 if (j-1||s1[i]s1[j]) 10 { 11 i; 12 j; 13 next[i]j; 14 } 15 else jnext[j]; 16 …

使用Apache CXF进行Web服务学习

在我的最后几个项目中&#xff0c;我使用了Web服务&#xff0c;在某些地方创建它们并在其他地方使用它们。 我觉得创建客户端&#xff0c;创建Web服务等标准任务非常简单&#xff0c;如果遇到问题&#xff0c;有足够的资源。 但是对于Web服务&#xff0c;这是一项琐碎的任务&am…

python的easygui_Python的easygui学习

1.调用方法 &#xff08;1&#xff09;import easygui easygui.msgbox(…) &#xff08;2&#xff09;from easygui import msgbox(…) 2.函数方法 import easygui a easygui.msgbox(’…’, title‘title’) # show a:返回ok,none b easygui.enterbox( ‘plaese give a solu…

c#递归

一种算法&#xff0c;通过简洁的语句定义无限集合、函数或者子程序在运行时直接或间接调用自身产生重入的现象。 特点&#xff1a;递归算法分递推&#xff08;简单到复杂的推理过程&#xff09;和回归&#xff08;获得简单解后逐级返回得到复杂的解&#xff09;2个阶段。 可理解…

HDU5724

题意&#xff1a; 一个 n * 20 的棋盘&#xff0c;棋盘上有若干棋子&#xff0c;Alice 和 Bob 轮流走&#xff0c;每人每次可以选择任一行的一颗棋子向右移动到最近的一个空格 &#xff1b;也就是说如果右边与它相邻的格子里没有棋子&#xff0c;就移到右边与他相邻的格子去&am…

C语言代码规范(九)运算符优先级使用括号提高阅读性

举简单例子 a b | c << d 2; 对于大牛没有问题&#xff0c;对于我这样的码农需要思考一下运算优先级 对于这种情况华某有规范使用括号来表示运算顺序&#xff0c;从而提高代码可阅读性 a b | ( c << (d 2) ); 这样一目了然&#xff0c;大家好才是真的好。…

linux 内存取证_【取证流程】电子数据证据远程勘验

原创&#xff1a;弘连网络电子数据证据远程勘验在日常的取证工作中必不可少&#xff0c;但由于存在信息安全差、数据可能被篡改的问题。取证过程中&#xff0c;有明确的取证要求来确保取证过程的规范显得至关重要&#xff0c;今天我们就一起来回顾下遇到远程勘验的取证场景&…

OSGi –带有服务的简单Hello World

在本文中&#xff0c;我们将使用OSGi开发一个简单的Hello World应用程序。 我们将使用Felix作为OSGi容器 。 在下一篇文章中&#xff0c;我们将继续使用该应用程序&#xff0c;并使用Spring Dynamic Modules对其进行改进。 为了使开发有趣&#xff0c;我们将创建两个捆绑包&…

Shell - 特殊变量

$0 表示所执行程序的路径名。 [hueyhuey-K42JE ~]$ ll ~/bin total 4 -rwxrwxr-x 1 huey huey 21 Oct 24 14:39 hello [hueyhuey-K42JE ~]$ cat ~/bin/hello #!/bin/bashecho $0: $0 [hueyhuey-K42JE ~]$ hello /home/huey/bin/hello [hueyhuey-K42JE ~]$ $n 表示传递给脚本…