【爬虫】多线程爬取图片

多线程爬虫

  • 多线程爬虫概述
    • 1.1 多线程的优势
    • 1.2 多线程的挑战
  • 设计多线程爬虫
    • 1.1 项目设计
    • 1.2 项目流程
    • 1.3注意事项
  • 总结

多线程爬虫概述

  在当今信息爆炸的时代,网络爬虫(Web Scraper)已成为获取和分析网络数据的重要工具。而多线程爬虫,作为一种提高数据采集效率的技术,更是在处理大规模数据时显得尤为重要。本文将介绍多线程爬虫的基本概念、设计原则以及如何应用于图片爬取任务。
  多线程爬虫是一种利用多线程技术来提高爬虫效率的网络爬虫。与传统的单线程爬虫相比,多线程爬虫可以同时执行多个任务,显著提高数据采集的速度。

1.1 多线程的优势

①多线程允许同时执行多个HTTP请求,减少了等待时间。
②更充分地利用服务器和网络资源。
③某个线程的失败不会影响其他线程的执行。

1.2 多线程的挑战

① 需要合理管理线程间的共享资源。
② 确保代码在多线程环境下依然能够正确执行。
③ 过多的线程可能导致资源竞争和上下文切换开销增大。

设计多线程爬虫

1.1 项目设计

① 设计合理的并发级别,保证合理运用网站资源,但又不会出发反爬虫机制。
② 使用线程池进行线程管理,提高资源的利用率。
③ 使用任务队列来存储待爬取的URL,线程从队列中获取任务进行处理。
④ 确保对网络请求和数据处理过程中可能出现的异常进行捕获和处理。
⑤ 生产者和消费者模式分离。

  生产者

class Procuder(threading.Thread):"""生产者爬取页面,获取图片地址加入到图片队列中"""def __init__(self, name, page_queue, img_queue, *args, **kwargs):super(Procuder, self).__init__(*args, **kwargs)self.name = nameself.page_queue = page_queueself.img_queue = img_queuedef run(self):while True:if self.page_queue.empty():print(self.name + '任务完成~')break# 1.获取每一页的urlpage_url = self.page_queue.get()# 2.爬取页面的数据self.spider_page(page_url)# 3.休眠0.5秒time.sleep(0.5)def spider_page(self, url):"""爬取每一页:param url: 每一页的地址:return:"""response = requests.get(url, headers=HEADERS)text_raw = response.text# 1.使用etreehtml_raw = etree.HTML(text_raw)# 2.使用xpath解析数据# 注意:过滤掉gif标签图片imgs = html_raw.xpath('//div[@class="page-content text-center"]//img[@class!="gif"]')# 3.获取图片的实际连接并下载到本地for img in imgs:# 3.1 图片的实际地址img_url = img.get('data-original')# 3.2 图片名称替换特殊符号alt = re.sub(r'[\??\.,。!!\*]', '', img.get('alt'))# 3.3 提取图片的后缀,组装成文件的名字img_name = alt + os.path.splitext(img_url)[-1]# 3.4 把爬取到【图片地址+图片名称】以【元组】的形式加入到队列图片队列中self.img_queue.put((img_url, img_name))

  消费者

class Consumer(threading.Thread):"""消费者获取图片的地址下载到本地"""def __init__(self, name, page_queue, img_queue, *args, **kwargs):super(Consumer, self).__init__(*args, **kwargs)self.name = nameself.page_queue = page_queueself.img_queue = img_queuedef run(self):while True:if self.img_queue.empty() and self.page_queue.empty():print(self.name + '任务完成~')break# 1.解包,获取图片的地址 + 图片的名称img_url, img_name = self.img_queue.get()# 2.使用urlretrieve()函数下载图片到本地request.urlretrieve(img_url, './imgs/%s' % img_name)print(img_name + "下载完成")

1.2 项目流程

  多线程技术可以显著提高爬虫的效率,特别是在网络IO密集型任务中,如图片下载。当一个线程等待网络响应时,其他线程可以继续执行,这样可以充分利用网络资源和CPU资源,提高爬取速度。

  1. 初始化队列。
	# 1.页面的队列page_queue = Queue(100)# 2.表情图片的队列img_queue = Queue(1000)
  1. 爬取页面地址
	# 3.爬取页面的地址for x in range(1, 10):url = 'http://www.doutula.com/photo/list/?page=%d' % x#  存入到页面地址队列中page_queue.put(url)
  1. 生产者和消费者模式分离,多线程爬取图片
	for x in range(5):t = Procuder(name='生产线程-%d' % x, page_queue=page_queue, img_queue=img_queue)t.start()for x in range(5):t = Consumer(name='消费线程-%d' % x, page_queue=page_queue, img_queue=img_queue)t.start()

1.3注意事项

① 在进行网络爬虫操作时,必须遵守相关法律法规,尊重目标网站的robots.txt文件。
② 设置合理的用户代理,模拟正常用户访问。
③ 合理设置请求频率,避免给服务器带来过大压力。

总结

  多线程爬虫通过提高并发度,可以大幅提升数据采集的效率,尤其适用于图片等静态资源的爬取。然而,设计和实现多线程爬虫需要考虑线程安全、资源管理和异常处理等多个方面。在实践中,开发者应注重效率与规范的平衡,确保爬虫的合法合规运行。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/924.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

贪吃蛇游戏源码(VS编译环境)

贪吃蛇游戏源码(VS编译环境) 🥕个人主页:开敲🍉 🔥所属专栏:C语言🍓 🌼文章目录🌼 1. Snake.h 头文件 2. Snake.c 源文件 3. Test.c 头文件 1. Snake.h 头…

Dubbo元数据中心

元数据中心为 Dubbo 中的两类元数据提供了存取能力:地址发现元数据、服务运维元数据。 一、地址发现元数据 Dubbo3 中引入了应用级服务发现机制用来解决异构微服务体系互通与大规模集群实践的性能问题,应用级服务发现将全面取代 2.x 时代的接口级服务发…

C/C++易错知识点(4):static修饰变量和函数

static是C/C中一个非常容易混淆的语法,在不同的地方针对不同的对象有不同的效果。 它在大型项目中有至关重要的作用,需要我们详细研究。 1.变量 所有static修饰的变量的生命周期都是自调用它起到程序结束,期间这些变量都只会初始化一次 ①…

七牛云配置,图片上传、查看的使用(备忘)

修改配置文档 修改新创建的空间的地区名 访问设置为 公开,不然会有访问时间限制 检查 上传和查看的链接是否正确。

STL容器搜索:当直接访问STL容器时,如何执行有效和正确的搜索?

掌握STL容器搜索技巧:在C中实现高效和准确的数据访问 一、简介二、std::vector, std::deque, std::list三、std::map, std::multimap, std::set, std::multiset四、std::string六、总结 一、简介 本文主要了解如何在直接访问c容器时高效地进行搜索。在STL容器中搜索&#xff0…

5_vscode+valgrind+gdb调试程序

需求 项目程序, 读取串口数据, 出现程序崩溃问题valgrind 可以调试定位内存问题: 内存泄漏,非法地址访问,越界访问等内存问题vscode gdb 可视化调试效果, 比命令行简单快捷很多期望使用vscode valgrind gdb 调试程序内存异常, 崩溃退出的问题 环境准备 sudo apt install v…

【个人博客搭建】(5)Sqlsugar实体创建数据库数据

1、在appsettings.json文件中配置SqlServer数据库连接字符串信息。(后续考虑添加MySQL数据库等类型) "DBS": [/*对应下边的 DBTypeMySql 0,SqlServer 1,*/{"ConnId": "plateau.poetize.2024","DBType": 1,&qu…

14.基础乐理-音级、基本音级、变化音级

音级: 乐音体系中的每一个音,都叫 音级。 基本音级: 基本音级是 CDEFGAB 它们七个,在钢琴上使用白键展示的,没有任何升降号、没有任何重升重降号的。 变化音级: 除了 CDEFGAB 这七个音,都叫变化…

vue 下载文件 处理后台返回的文件流

1. 下载文件很常见,下载成各种格式的也很常见,本质就是后台返回一个文件流,我们前端去处理一下就行,但是如果因为某些条件,没有返回文件流,返回告诉你,文件出现错误了,那我们就需要把…

使用 Flask 和 Flask-Login 构建用户认证的 Web 应用程序

在本篇技术博客中,我们将学习如何使用 Flask 框架和 Flask-Login 扩展构建一个具有用户认证功能的简单 Web 应用程序。我们将从创建 Flask 应用实例开始,然后逐步添加用户认证功能。 1. 安装依赖库 首先,确保您已经安装了 Flask、Flask-PyM…

面试Spring框架

什么是Spring框架? Spring框架是一个开源的Java应用程序框架,提供了综合的基础设施支持,用于开发Java企业应用程序。它涵盖了从基本的核心容器到全面的企业服务,可以用于构建任何规模的应用程序。 Spring框架的核心特性是什么&am…

JavaSE高阶篇-反射

第一部分、Junit单元测试 1)介绍 1.概述:Junit是一个单元测试框架,在一定程度上可以代替main方法,可以单独去执行一个方法,测试该方法是否能跑通,但是Junit是第三方工具,所以使用之前需要导入jar包 2)Junit的基本使用(重点啊) 1.…

C++中的运算符

一、算数运算符 1.1 加减乘除取模 #include <iostream> using namespace std;int main() {//加减乘除int a1 10;int b1 5;cout << "a1 b1 " << a1 b1 << endl;cout << "a1 - b1 " << a1 - b1 << endl;co…

周期规律的应用(上)——双因子定价模型的应用:择时与配置

周期规律的应用&#xff08;上&#xff09;——双因子定价模型的应用&#xff1a;择时与配置 原创 林晓明&#xff0c;源洁莹 华泰证券金融工程 2024-04-20 09:50 广东 本次推送是华泰金工团队《周期论道&#xff1a;洞察经济金融系统的节奏与脉动》会议论坛的纪要&#xff0c…

IP代理池纯净度有什么重要性?

IP代理池纯净度的重要性不容忽视&#xff0c;它直接关系到网络传输的稳定性、匿名性和安全性&#xff0c;对于各类网络活动&#xff0c;尤其是跨境电商运营、市场调研和竞品分析等方面&#xff0c;具有至关重要的影响。 第一点&#xff0c;纯净的IP代理池能够保障用户隐私&…

跟着Carl大佬学leetcode之844 比较含退格的字符串

来点强调&#xff0c;刷题是按照代码随想录的顺序进行的&#xff0c;链接如下https://www.programmercarl.com/本系列是记录一些刷题心得和学习过程&#xff0c;就看到题目自己先上手试试&#xff0c;然后看程序员Carl大佬的解释&#xff0c;自己再敲一遍修修补补&#xff0c;练…

Python获取上市公司报告,AI分析助力投资决策

折腾了几天&#xff0c;通过从巨潮信息网上获取上市公司的报告&#xff0c;然后实现调用大语言模型的API去分析报告内容&#xff0c;下面把相应的代码和过程分享给对这个感兴趣的兄弟姐妹们&#xff0c;希望能帮到大家。 1&#xff0c;首先去巨潮信息网首页&#xff0c;右上角…

上位机图像处理和嵌入式模块部署(树莓派4b实现xmlrpc通信)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 前面&#xff0c;我们也用纯API实现过上位机和开发板之间的通信。当时使用的方法&#xff0c;就是用windows自带的网络sdk和linux自带的api函数来完…

redis面试题——项目中怎么用的

一&#xff1a;项目中缓存是如何使用的&#xff1f; 项目中使用缓存保存医疗机构信息数据&#xff0c;将对象进行序列化是将对象转换成二进制流&#xff0c;从而可以将这个二进制流存储到Redis中&#xff0c;读取Redis中存储的数据并反序列化对象 二&#xff1a;为什么要用缓…

协程的意义(二)

1.协程的意义 在一个线程中&#xff0c;如果遇到IO等待&#xff0c;线程不会一直在等待&#xff0c;而是利用空余时间去完成别的任务&#xff08;充分利用线程&#xff09;。 示例&#xff1a;下载图片 ①普通的方式下载图片&#xff08;同步方式&#xff09; ②使用协程的方…