实现增量式爬取

不难发现，其实增量爬取的核心是去重，至于去重的操作在哪个步骤起作用，只能说各有利弊，就像我说的，everything is tradeoff。

在我看来，前两种思路需要根据实际情况取一个（也可能都用）。第一种思路适合不断有新页面出现的网站，比如说小说的新章节，每天的最新新闻等等；第二种思路则适合页面内容会更新的网站。第三个思路是相当于是最后的一道防线。这样做可以最大程度上达到去重的目的。

去重的方法

最简单的去重方式自然是将所有访问过的URL和其对应的内容保存下来，然后过一段时间重新爬取一次并进行比较，然后决定是否需要覆盖。这显然是不实际的，因为会消耗很多资源。目前比较实际的做法就是给URL或者其内容（取决于这个网站采用哪种更新方式）上一个标识，这个标识有个比较好听的名字，叫数据指纹。

这里很容易想到的一种数据指纹就是哈希值，根据哈希函数的特性，我们可以为任意内容生成一个独一无二的定长字符串，之后只要比较这个哈希值就行了。哈希值是一个很伟大的发明，几乎在任何地方都有它的影子，它利用数学特性，计算机只要经过简单的计算就可以得到唯一的特征值，这个计算过程的开销基本可以忽略不计，当然这是题外话了。

不过即使用了哈希值，你仍需要一个地方存储所有的哈希值，并且要能做到方便的取用。如果你的存储介质是数据库，一般的数据库系统都能提供索引，如果把哈希值作为唯一索引呢，这应该是可行的。有些数据库也提供查询后再插入的操作，不过本质上应该也是索引。和哈希值类似的还有MD5校验码，殊途同归。

除了自建指纹，其实在发送请求时还有一些技巧，比如说304状态码，Last-modified字段，文件大小和MD5签名。具体参考[8]，很好理解，就不细说了。

综上所述，在数据量不大的时候，几百个或者就几千个的时候，简单自己写个小函数或者利用集合的特性去重就行了。如果数据量够大，数据指纹的价值就体现出来了，它可以节省可观的空间，同时可以引入BloomFilter作为去重的手段。另外，如果要对数据做持久化（简单说就是去重操作不会被事故影响，比如说断电），就需要用到Redis数据库。

Redis

Python的Redis客户端库也是开源的，地址是：redis-py。不过在开始之前，你首先需要一个有Redis数据库运行的主机(搭建一个很简单)。

关于Redis数据库还有几个关键词：key-value，高性能，数据持久化，数据备份，原子操作以及跟这里相关的一个特性：支持集合数据类型。这才是为什么做增量爬取时我们要用到Redis数据库：我们可以通过将URL或者页面内容的指纹作为key存入Redis数据库中的集合里，利用集合的不重复性达到去重的目的，每次爬虫要处理URL或者页面时会先去Redis数据库里检查一下是否已经存在，因为Redis数据库着力于key-value形式的存储，所以这一步的速度将会很可观；其次Redis可以将内存中的内容持久化到磁盘，并且其每一次操作都是原子操作，这就保证了爬虫的可靠性，即爬虫不会应为意外停止而损失数据。

但应该如何将这一特性融入到爬虫中呢？如果是自己写的爬虫代码，添加上述代码即可；如果使用的是scrapy框架，我们可以在middleware上下功夫，在spider模块收到要处理的URL时，写一个Spider中间件用来判断这条URL的指纹是否在Redis数据库中存在，如果存在的话，就直接舍弃这条URL；如果是要判断页面的内容是否更新，可以在Download中间件中添加代码来校验，原理一样。当然，数据库的操作可以用类似write()和query()的方法进行封装，此处不表。

参考:

(1).https://www.cnblogs.com/zbllly/p/10283943.html

(2).https://blog.csdn.net/yubei2155/article/details/79343893 = Python爬虫定时增量更新数据

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/273870.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！