使用多线程或异步技术提高图片抓取效率

亿牛云代理.jpg

导语

图片抓取是爬虫技术中常见的需求,但是图片抓取的效率受到很多因素的影响,比如网速、网站反爬机制、图片数量和大小等。本文将介绍如何使用多线程或异步技术来提高图片抓取的效率,以及如何使用爬虫代理IP来避免被网站封禁。

概述

多线程和异步技术都是利用计算机的并发能力来提高程序的执行速度。多线程是指在一个进程中创建多个线程,每个线程可以独立地执行一部分任务,从而实现任务的并行处理。异步技术是指在一个线程中使用非阻塞的方式来执行任务,当遇到耗时的操作时,不会等待其完成,而是继续执行其他任务,从而实现任务的并发处理。使用多线程或异步技术可以有效地减少图片抓取的等待时间,提高图片抓取的效率。爬虫代理IP是指通过第三方服务器来访问目标网站,从而隐藏自己的真实IP地址。使用爬虫代理IP可以有效地防止被目标网站识别和封禁,提高图片抓取的成功率。

正文

本文将以Python语言为例,介绍如何使用多线程或异步技术来实现图片抓取,并使用亿牛云爬虫代理来提供代理IP服务。首先,需要导入一些必要的模块,如requests、threading、asyncio、aiohttp等:

# 导入模块
import requests
import threading
import asyncio
import aiohttp

然后,需要定义一个函数来获取图片的URL列表,这里假设目标网站是https://unsplash.com/,一个提供免费高清图片的网站。可以使用requests模块来发送HTTP请求,并使用BeautifulSoup模块来解析HTML文档,提取图片的URL:

# 定义函数获取图片URL列表
def get_image_urls():# 目标网站URLurl = 'https://unsplash.com/'# 亿牛云 爬虫代理域名、端口、用户名、密码proxy_host = 'http://www.16yun.cn'proxy_port = '8080'proxy_user = '16YUN'proxy_pass = '16IP'# 构造代理URLproxy_url = f'{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}'# 构造代理字典proxies = {'http': proxy_url,'https': proxy_url}# 发送HTTP请求,获取响应内容response = requests.get(url, proxies=proxies)html = response.text# 解析HTML文档,提取图片URLfrom bs4 import BeautifulSoupsoup = BeautifulSoup(html, 'lxml')images = soup.find_all('img', class_='oCCRx')image_urls = [image['src'] for image in images]# 返回图片URL列表return image_urls

接下来,需要定义一个函数来下载并保存图片,这里假设将图片保存在当前目录下的images文件夹中。可以使用requests模块来下载图片,并使用os模块来创建文件夹和文件:

# 定义函数下载并保存图片
def download_and_save_image(image_url):# 亿牛云 爬虫代理域名、端口、用户名、密码proxy_host = 'http://www.16yun.cn'proxy_port = '8080'proxy_user = '16YUN'proxy_pass = '16IP'# 构造代理URLproxy_url = f'{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}'# 构造代理字典proxies = {'http': proxy_url,'https': proxy_url}# 下载图片,获取图片内容response = requests.get(image_url, proxies=proxies)image_data = response.content# 创建images文件夹,如果不存在import osif not os.path.exists('images'):os.mkdir('images')# 从图片URL中提取图片文件名image_name = image_url.split('/')[-1]# 拼接图片文件路径image_path = os.path.join('images', image_name)# 保存图片文件with open(image_path, 'wb') as f:f.write(image_data)

最后,需要定义一个主函数来调用上述两个函数,并使用多线程或异步技术来提高图片抓取的效率。这里分别介绍两种方法:

  • 使用多线程技术:可以使用threading模块来创建多个线程对象,并将下载并保存图片的函数作为线程的目标函数,将图片URL作为线程的参数,然后启动所有线程,并等待所有线程结束:
# 定义主函数使用多线程技术
def main_threading():# 获取图片URL列表image_urls = get_image_urls()# 创建空列表存储线程对象threads = []# 遍历图片URL列表,创建并启动线程对象for image_url in image_urls:# 创建线程对象,指定目标函数和参数thread = threading.Thread(target=download_and_save_image, args=(image_url,))# 将线程对象添加到列表中threads.append(thread)# 启动线程对象thread.start()# 遍历线程对象列表,等待所有线程结束for thread in threads:thread.join()
  • 使用异步技术:可以使用asyncio模块来创建一个事件循环对象,并将下载并保存图片的函数改写为一个异步函数,使用aiohttp模块来发送异步HTTP请求,并使用asyncio模块的gather函数来收集所有的异步任务,并在事件循环中执行:
# 定义主函数使用异步技术
def main_asyncio():# 获取图片URL列表image_urls = get_image_urls()# 创建事件循环对象loop = asyncio.get_event_loop()# 定义异步函数下载并保存图片async def download_and_save_image_async(image_url):# 亿牛云 爬虫代理域名、端口、用户名、密码proxy_host = 'http://www.16yun.cn'proxy_port = '8080'proxy_user = '16YUN'proxy_pass = '16IP'# 构造代理URLproxy_url = f'{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}'# 构造代理字典proxies = {'http': proxy_url,'https': proxy_url}# 使用aiohttp模块发送异步HTTP请求,获取图片内容async with aiohttp.ClientSession() as session:async with session.get(image_url, proxy=proxy_url) as response:image_data = await response.read()# 创建images文件夹,如果不存在import osif not os.path.exists('images'):os.mkdir('images')# 从图片URL中提取图片文件名image_name = image_url.split('/')[-1]# 拼接图片文件路径image_path = os.path.join('images', image_name)# 保存图片文件with open(image_path, 'wb') as f:f.write(image_data)# 创建空列表存储异步任务对象tasks = []# 遍历图片URL列表,创建并添加异步任务对象for image_url in image_urls:# 创建异步任务对象,指定异步函数和参数task = asyncio.ensure_future(download_and_save_image_async(image_url))# 将异步任务对象添加到列表中tasks.append(task)# 使用asyncio模块的gather函数收集所有的异步任务对象tasks = asyncio.gather(*tasks)# 在事件循环中执行所有的异步任务对象,并等待其完成loop.run_until_complete(tasks)

结语

本文介绍了如何使用多线程或异步技术来提高图片抓取的效率,以及如何使用代理IP来避免被网站封禁。通过使用多线程或异步技术,可以有效地减少图片抓取的等待时间,提高图片抓取的效率。通过使用代理IP,可以有效地防止被目标网站识别和封禁,提高图片抓取的成功率。本文以Python语言为例,给出了相应的代码实现,供读者参考。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/75566.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++多态案例-设计计算器类

1.前置知识点 多态是面向对象的三大特性之一 多态分为两类 静态多态:函数重载和运算符重载都属于静态多态,复用函数名动态多态:派生类和虚函数实现运行时多态 静态多态和动态多态的区别 静态多态的函数地址早绑定-----编译阶段确定函数地…

Ukey连接虚拟前置机,浦银安盛基金用USB Server解决

浦银安盛基金一直使用物理前置机来连接Ukey,物理前置机维护管理不便,严重影响金融交易效率。因此,浦银安盛基金想要推进企业虚拟化,通过在虚拟机中部署前置机程序的方式,将前置机部署到虚拟机中。但虚拟机中的前置机&a…

shell脚本指令:for循环、函数、数组、grep等指令的使用

1、实现一个对数组求和的函数,数组通过实参传递给函数 2、写一个函数,输出当前用户的uid和gid 并使用变量接收结果 #!/bin/bash echo "请输入一个数组" read -a arr function add_arr() {var1${#arr[*]}for i in ${arr[*]} do((sumi))doner…

微信小程序上拉触底事件

一、什么是上拉触底事件 上拉触底是移动端的专有名词,通过手指在屏幕上的上拉滑动操作,从而加载更多数据的行为。 二、监听上拉触底事件 在页面的.js文件中,通过onReachBottom()函数即可监听当前页面的上拉触底事件。 三、配置上拉触底距…

一生一芯10——verilator v5.008环境搭建

搜索 verilator 官网,得到网址如下: https://www.veripool.org/verilator/ 点击download 找到 git quick install 可以看到git快捷安装所需命令行 可以看到,需要预先安装下面的包文件,去掉前面的#注释符号进行安装 直接进行下面…

天津大数据培训学校 大数据可从事的行业

大数据行业近年来呈现出爆炸式的增长态势,各行各业都越来越依赖数据来指导业务决策和创新发展,因此,大数据专业人才的需求也随之增长。这种行业需求的增长为大数据就业提供了良好的机会,尤其是对于具备相关技能和知识的人来说。 …

【C#】关于Array.Copy 和 GC

关于Array.Copy 和 GC //一个简单的 数组copy 什么情况下会触发GC呢[ReliabilityContract(Consistency.MayCorruptInstance, Cer.MayFail)]public static void Copy(Array sourceArray,long sourceIndex,Array destinationArray,long destinationIndex,long length);当源和目…

173. 二叉搜索树迭代器

173. 二叉搜索树迭代器 题目-中等难度示例1. 列表解 题目-中等难度 实现一个二叉搜索树迭代器类BSTIterator ,表示一个按中序遍历二叉搜索树(BST)的迭代器: BSTIterator(TreeNode root) 初始化 BSTIterator 类的一个对象。BST 的…

js如何实现字符串反转?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ 使用 split() 和 reverse() 方法⭐ 使用循环⭐ 使用递归⭐ 写在最后 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 记得点击上方或者右侧链接订阅本专栏哦 几何带你启航前端之旅 欢迎来到前端入门之旅!这个专…

肖sir__设计测试用例方法之因果图07_(黑盒测试)

设计测试用例方法之因果图 一、定义:因果图提供了一个把规格转化为判定表的系统化方法,从该图中可以产生测试数据。其 中,原因是表示输入条件,结果是对输入执 行的一系列计算后得到的输出。 二、因果图方法最终生成的就是判定表。…

MySQL主从复制读写分离

读写分离 读写分离,基本的原理是让主数据库处理事务性增、改、删操作(INSERT、UPDATE、DELETE),而从数据库处理SELECT查询操作。数据库复制被用来把事务性操作导致的变更同步到集群中的从数据库 读写分离的好处 因为数据库的“写…

【Linux基础】权限管理

​👻内容专栏: Linux操作系统基础 🐨本文概括: 用户之间的切换、sudo提权、Linux权限管理、文件访问权限的相关方法、目录权限、粘滞位等 🐼本文作者: 阿四啊 🐸发布时间:2023.9.11 …

elasticsearch的DSL查询文档

DSL查询分类 查询所有:查询出所有数据,一般测试用。例如:match_all 全文检索(full text)查询:利用分词器对用户输入内容分词,然后去倒排索引库中匹配。例如: match_query multi_ma…

在Qt创建的UI中放一个显示点云的窗口(PCL+QT5)

1、首先在Qt Designer创建UI后,拖一个Widget窗口出来 2、在对象查看器中右击该Widget,选择提升窗口部件,如下操作: 3、把UI转出来放在VS项目中,其中你的UI代码头文件会自带QVTKOpenGLNativeWidget.h,当然你…

小谈设计模式(1)—总序

小谈设计模式(1)—总序 开始操作设计模式总论设计模式是什么组成要素模式名称问题描述解决方案效果描述 设计模式有什么作用提供可重用的解决方案提高代码的可读性和可维护性促进代码的可扩展性提高代码的灵活性和可重用性促进团队合作和沟通作用总结 为…

基于HBuilder X平台下的 驾校报名考试管理系统 uniapp 微信小程序3n9o5

本课题研究的是基于HBuilder X系统平台下的驾校管理系统,开发这款驾校管理系统主要是为了帮助学员可以不用约束时间与地点进行查看教练信息、考场信息等内容。本文详细讲述了驾校管理系统的界面设计及使用,主要包括界面的实现、控件的使用、界面的布局和…

【计算机网络】 TCP协议头相关知识点

文章目录 TCP协议头 TCP协议头 我们来看一下TCP协议头里都有什么东西,研究一下为什么TCP协议是可靠的呢 TCP协议可靠是因为在协议头里带着一些校验的数据 首先是源端口和目的端口,这两个是UDP中也有的,但是UDP中只有这两个,没有…

基于Linux的智能家居(工厂模式)

目录 1.项目概述 2.程序框架 3.函数准备 3.1需要函数知识点 3.2编码提醒 4.代码 5.注意事项 1.项目概述 控制端有两个,语音串口UART和Tcp通讯。 执行端有IO输出和IO输入。 2.程序框架 程序分为3部分-------------1.输入控制 2.输出设备 3.主函数-多线程…

文件上传漏洞案例

目录 1.案例一 1)案例源码 2)创建web.php文件 3)使用抓包软件 2.案例二 1)案例代码 2) 案例分析 3)copy命令生成图片马 4)上传图片马到服务器 5)解析 文件图片 3.案例三 …

计算机系统的基本概念

计算机系统的基本概念 本文主要以hello.c这个程序的整个生命周期来简单了解一下计算机系统结构的基本概念。 #include <stdio.h>int main() {printf("hello, world\n");return 0; }gcc hello.c -o hello ./hello hello, world此刻&#xff0c;hello.c源程序…