python图片批量下载多线程+超时重试

背景
    上篇python入门实战:爬取图片到本地介绍过如何将图片下载到本地,但是实际处理过程中会遇到性能问题:分页数过多下载时间过程、部分页面连接超时无法访问下载失败。本文从实战的角度解释一下如何处理这两个问题。
    下载时间过长问题,处理方式是使用多线程,首先回顾一下上篇文章文件下载处理过程,总结来说只有两个步骤:1.获取指定网页的所有图片地址,2.根据图片地址循环访问下载到本地。使用多线程处理任务最简单的办法就是一个线程处理一页的下载任务,就是获取一页的图片地址,下载该页面的所有图片。需要下载多少页就创建多少个线程。
    连接超时无法访问问题,这个问题处理方式就是请求重试,就是针对连接超时的请求重新发送指定次数的请求。关于重试,可以看下自定义请求重试方式和request中封装的请求重试方法。 Python基础入门3.6 request模块之请求重试两者的区别已经介绍的很清楚了。思路梳理完毕之后下面就是具体的实现。

代码实现

import threading  # 线程
import time
import requests
import bs4
import os
from requests.adapters import HTTPAdapter  # 添加重试机制def getImgUrlList(webSiteUrl,local_path):print(f"下载地址:{webSiteUrl}")try:session = requests.Session()session.mount('http://', HTTPAdapter(max_retries=3))session.mount('https://', HTTPAdapter(max_retries=3))response = session.get(webSiteUrl, timeout=5)except requests.exceptions.Timeout:print(f"{webSiteUrl}请求超时!")raise BaseException(f"{webSiteUrl}请求超时!")website_content = response.contentsoup = bs4.BeautifulSoup(website_content, "html.parser")img_url_list = soup.find_all("div", class_="pic")for imgUrl in img_url_list:style_info = imgUrl["style"]img = style_info[style_info.find("(") + 1:style_info.find(")")]down_load_img(img,local_path)
def down_load_img(img_url,local_path):img_name = os.path.basename(img_url[img_url.rfind("/")+1:len(img_url)])with open(f"{local_path}\{img_name}","wb") as imgFile:res = requests.get(img_url)if res.status_code == 200:resp = imgFile.write(res.content)if resp is not None:print(f"{img_name}下载成功!")else:print(f"{img_name}下载失败!")else:print(f"{img_name}请求失败,下载失败!")if __name__ == '__main__':# 下载本地地址local_path="D:\mvImg"# 下载4页,创建4个线程for i in range(4):thread = threading.Thread(target=getImgUrlList,args=(f'https://pic.netbian.top/index_{i+1}.html',local_path))thread.start()

说明
    如果还是出现某一页连接超时的情况可以调整重试次数以及超时连接时间.具体设置需要根据对应网页调试进行配置.本文设置的是重试次数3,超时连接为5秒.可根据实际情况进行调整.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/578512.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从git上拉取代码---步骤

1、先进入gitlab地址 2、git clone 地址.git 3、cd 路径 4、git checkout dev 5、git checkout -b 自己的分支 (创建自己的分支)

Visual Studio2022配置ReSharper C++ 常用设置

如需安装免费的可以在下面留言,看到即回复 文章目录 Visual Studio2022配置ReSharper C 常用设置配置Visual Studio2022,使其能够按回车进行补全配置ReSharper C 设置自动弹出配置ReSharper C 的快捷键ReSharper C 去掉注释拼写使用中文注释 如何关闭新版…

SpringBoot整合jwt(小白入门)

本文项目所用版本为: https://blog.csdn.net/weixin_39570751/article/details/133386557 代码仓库: https://gitee.com/skyblue0678/springboot-demo 目录 什么是JWT JWT依赖 写一个jwt工具类 测试一下jwt 优化:将过期时间配置在文件中 答疑&…

Unitree H1,国内第一台能跑的全尺寸通用人形机器人

原创 | 文 BFT机器人 随着科技的不断发展,机器人技术已经逐渐渗透到各个领域,为人类的生产和生活带来了极大的便利。2023年可以说是通用人形机器人的高光之年,国内外不少机器人和科技团队纷纷发布了人形机器人原型机或产品规划,甚…

Python爬虫---解析---BeautifulSoup

BeautifulSoup简称:bs4 作用:解析和提取数据 1. 安装:pip install bs4 或pip install bs4 -i https://pypi.douban.com/simple(使用国内镜像下载) 注意:需要安装在python解释器相同的位置,例如&#xf…

外贸中的很多跟想的不一样的事情

说说最近遇到的几个客户情况,以及对一些事情刷新的认知。 第一个客户姑且称为A吧,这个客户在询价的时候,产品的名称以及数量以还有走货的方式写的很清楚,客户A要的产品不是很多, 顶多算是个样品单。 一般情况下&…

23-二分-值域二分-制作 m 束花所需的最少天数

这是二分法的第23篇算法,力扣链接。 给你一个整数数组 bloomDay,以及两个整数 m 和 k 。 现需要制作 m 束花。制作花束时,需要使用花园中 相邻的 k 朵花 。 花园中有 n 朵花,第 i 朵花会在 bloomDay[i] 时盛开,恰好 可…

前端性能优化三十四:花裤衩模板引入打包分析工具

测量各个插件和loader所花费的时间 (1). install: yarn add speed-measure-webpack-plugin -D(2). Vue-cli 3.x设置: const SpeedMeasurePlugin require(speed-measure-webpack-plugin) const smp new SpeedMeasurePlugin({outputFormat: human }) // 包裹configureWebpac…

PostgreSQL 可观测性最佳实践

简介 软件简述 PostgreSQL 是一种开源的关系型数据库管理系统 (RDBMS),它提供了许多可观测性选项,以确保数据库的稳定性和可靠性。 可观测性 可观测性(Observability)是指对数据库状态和操作进行监控和记录,以便在…

Linux操作系统——进程(四)进程切换与命令行参数

进程切换 概念引入 下面我们先了解几个概念: 竞争性: 系统进程数目众多,而CPU资源只有少量,甚至1个,所以进程之间是具有竞争属性的。为了高效完成任务,更合理竞争相关资源,便具有了优先级 独立性: 多进程…

Java 基础面试

1 JDK 和 JRE 有什么区别? DK(Java Development Kit)是Java开发工具包的缩写,它包含了Java编译器(javac)、Java虚拟机(JVM)和其他开发工具。JDK提供了开发Java应用程序所需的所有…

[论文阅读笔记28] 对比学习在多目标跟踪中的应用

这次做一篇2D多目标跟踪中使用对比学习的一些方法. 对比学习通过以最大化正负样本特征距离, 最小化正样本特征距离的方式来实现半监督或无监督训练. 这可以给训练MOT的外观特征网络提供一些启示. 使用对比学习做MOT的鼻祖应该是QDTrack, 本篇博客对QDTrack及其后续工作做一个总…

Linux OpenEuler(欧拉系统)无公网ip实现SSH远程连接

🔥博客主页: 小羊失眠啦. 🎥系列专栏:《C语言》 《数据结构》 《Linux》《Cpolar》 ❤️感谢大家点赞👍收藏⭐评论✍️ 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,…

研究生可以直接当教师吗

在教育领域,教师岗位的竞争日益激烈。许多即将毕业的研究生,尤其是教育学专业的,都怀揣着一个共同的疑问:我能不能一出校门就直接当教师? 成为教师并不只是有个学历那么简单。它需要具备扎实的教育学基础、良好的教学技…

1.3 Python高级编程-生成器

摘要: 在Python编程中,生成器是一种特殊类型的迭代器,它允许你在需要时动态生成值。生成器使用关键字yield来返回一个值,这使得它们非常适合处理大量数据或执行计算密集型任务。在本教程中,我们将介绍生成器的基础知识…

Java 接口默认方法和静态方法

Java 8 引入的新特性 默认方法:Java 8(发布于2014年3月)开始,接口中可以定义带有实现的方法,称为默认方法(Default Methods)。静态方法:同样从Java 8开始,接口还可以定义…

Matlab:解非线性方程组

1、基于问题求解非线性方程组 例: xoptimvar(x,2); %将x定义为一个二元素优化变量 eq1exp(-exp(-(x(1)x(2))))x(2)*(1x(1)^2); %创建第一个方程作为优化等式表达式 eq2x(1)*cos(x(2))x(2)*sin(x(1))1/2; %创建第二个方程作为优化等式表达式 probe…

【数据结构和算法】找到最高海拔

其他系列文章导航 Java基础合集数据结构与算法合集 设计模式合集 多线程合集 分布式合集 ES合集 文章目录 其他系列文章导航 文章目录 前言 一、题目描述 二、题解 2.1 前缀和的解题模板 2.1.1 最长递增子序列长度 2.1.2 寻找数组中第 k 大的元素 2.1.3 最长公共子序列…

一台机器搭建Redis 主从复制

机器IP: 192.168.1.10主机配置: protected-mode no port 6379 pidfile /var/run/redis_6379.pid requirepass foobaredslave端配置 protected-mode no port 16379 pidfile /var/run/redis_16379.pid requirepass foobaredslaveof 192.168.1.10 6379 m…