【Python/crawl】如何使用Python爬虫将一系列网页上的同类图片下载到本地

【需求】

从网页https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html

开始,有十七页,每页都有大漂亮“小濑田麻由”的若干图片,想要将其下载到本地。

如果手工一张张右键另存为比较麻烦,想用程序自动下载下来。

【思路】

17张网页地址都是连续的,可以用基准网址+页码的形式拼出每个网页。

得到具体每页的网址后,可发起网络请求得到其html内容,再用BeautifulSoup去解析,把包含图片的img标签拿下来,从标签的src属性获取图片的真实地址。

有了图片的真实地址后,就可以发起网络请求获得相应,然后把相应内容存成二进制文件。

流程图

【代码】

#encoding=utf-8# 内置网络访问包
import requests# 内置的urllib.request模块
import urllib.request# 解析html的BeautifulSoup包,安装方法是pip install BeautifulSoup4
from bs4 import BeautifulSoup# 引入正则表达式包
import re# 把请求伪装成浏览器Mozilla
user_agent='Mozilla/4.0 (compatible;MEIE 5.5;windows NT)'
headers={'User-Agent':user_agent}# 以下两个变量需要手工修改
# 去除了页码的基准地址,这个地址需要自己拷贝粘贴过来
page_raw_url="https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/"
# 共有多少页,注意17不是死值,是需要自己看究竟有多少页然后修改的
page_count=17# 准备一个列表,用以放入文件名和地址组成的字典
jpglist=[]# 循环组合每页具体地址
for i in range(page_count):# 以粗地址和序号,重新组合每页的地址url=page_raw_url+str(i+1)# 发起请求获取其html内容html=requests.get(url,headers=headers)# 使用BeautifulSoup解析html文本soup= BeautifulSoup(html.text,'html.parser');jpg_count=0;# 查找html文本中img标签,指定其class是aligncenter,这个规律需要自己看网页源码探究出来!for img in soup.find_all('img',class_="aligncenter"):# 获取img的实际地址addr=img.get("src")# 使用正则表达式劈分文本parts = re.split(r'[/]', addr)# 最后一项即文件名filename=parts[-1]# 因为此法获取的文件名有两种:png和jpg,png是不需要的,故过滤掉if filename.endswith(".jpg"):# 准备字典,字典中包含地址和文件名两项dic={}dic['address']=addrdic['filename']=filename# 把字典放入列表jpglist.append(dic)jpg_count=jpg_count+1# 打印每页发现多少图片print("找到"+str(jpg_count)+"张靓照于网址:"+url)# 用len函数取得jpglist列表的总个数,打印出来
print("共找到"+str(len(jpglist))+"张靓照.")# 遍历列表,其中每一项是个字典
sn=0
for dic in jpglist:#print(dic['filename']+"_"+dic['address'])with urllib.request.urlopen(dic['address']) as response:data=response.read()filename=dic['filename']# write binary filesn=sn+1with open(filename,'wb') as f:f.write(data)print(str(sn)+"."+filename+" 已下载到本地.")print("全部靓照下载完成!")

【运行情况】

C:\hy\py>python 05-findallpic.py
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/1
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/2
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/3
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/4
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/5
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/6
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/7
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/8
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/9
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/10
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/11
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/12
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/13
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/14
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/15
找到6张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/16
找到4张靓照于网址:https://www.zhainq.com/%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f%e6%9c%ba%e6%9e%84/%e6%97%a5%e6%9c%ac%e7%be%8e%e5%a5%b3%e5%86%99%e7%9c%9f/109012.html/17
共找到100张靓照.
1.p1682-0628-89533.jpg 已下载到本地.
2.p1682-0628-89534.jpg 已下载到本地.
3.p1682-0628-89535.jpg 已下载到本地.
4.p1682-0629-89536.jpg 已下载到本地.
5.p1682-0629-89537.jpg 已下载到本地.
6.p1682-0629-89538.jpg 已下载到本地.
7.p1682-0629-89539.jpg 已下载到本地.
8.p1682-0630-89540.jpg 已下载到本地.
9.p1682-0630-89541.jpg 已下载到本地.
10.p1682-0631-89542.jpg 已下载到本地.
11.p1682-0631-89543.jpg 已下载到本地.
12.p1682-0631-89544.jpg 已下载到本地.
13.p1682-0631-89545.jpg 已下载到本地.
14.p1682-0631-89546.jpg 已下载到本地.
15.p1682-0631-89547.jpg 已下载到本地.
16.p1682-0632-89548.jpg 已下载到本地.
17.p1682-0632-89549.jpg 已下载到本地.
18.p1682-0632-89550.jpg 已下载到本地.
19.p1682-0632-89551.jpg 已下载到本地.
20.p1682-0632-89552.jpg 已下载到本地.
21.p1682-0633-89553.jpg 已下载到本地.
22.p1682-0633-89554.jpg 已下载到本地.
23.p1682-0633-89555.jpg 已下载到本地.
24.p1682-0633-89556.jpg 已下载到本地.
25.p1682-0633-89557.jpg 已下载到本地.
26.p1682-0633-89558.jpg 已下载到本地.
27.p1682-0634-89559.jpg 已下载到本地.
28.p1682-0634-89560.jpg 已下载到本地.
29.p1682-0634-89561.jpg 已下载到本地.
30.p1682-0634-89562.jpg 已下载到本地.
31.p1682-0634-89563.jpg 已下载到本地.
32.p1682-0634-89564.jpg 已下载到本地.
33.p1682-0635-89565.jpg 已下载到本地.
34.p1682-0635-89566.jpg 已下载到本地.
35.p1682-0635-89567.jpg 已下载到本地.
36.p1682-0635-89568.jpg 已下载到本地.
37.p1682-0636-89569.jpg 已下载到本地.
38.p1682-0636-89570.jpg 已下载到本地.
39.p1682-0636-89571.jpg 已下载到本地.
40.p1682-0636-89572.jpg 已下载到本地.
41.p1682-0636-89573.jpg 已下载到本地.
42.p1682-0636-89574.jpg 已下载到本地.
43.p1682-0636-89575.jpg 已下载到本地.
44.p1682-0637-89576.jpg 已下载到本地.
45.p1682-0637-89577.jpg 已下载到本地.
46.p1682-0637-89578.jpg 已下载到本地.
47.p1682-0637-89579.jpg 已下载到本地.
48.p1682-0637-89580.jpg 已下载到本地.
49.p1682-0638-89581.jpg 已下载到本地.
50.p1682-0638-89582.jpg 已下载到本地.
51.p1682-0638-89583.jpg 已下载到本地.
52.p1682-0638-89584.jpg 已下载到本地.
53.p1682-0639-89585.jpg 已下载到本地.
54.p1682-0639-89586.jpg 已下载到本地.
55.p1682-0639-89587.jpg 已下载到本地.
56.p1682-0639-89588.jpg 已下载到本地.
57.p1682-0639-89589.jpg 已下载到本地.
58.p1682-0639-89590.jpg 已下载到本地.
59.p1682-0640-89591.jpg 已下载到本地.
60.p1682-0640-89596.jpg 已下载到本地.
61.p1682-0640-89604.jpg 已下载到本地.
62.p1682-0640-89609.jpg 已下载到本地.
63.p1682-0641-89621.jpg 已下载到本地.
64.p1682-0641-89623.jpg 已下载到本地.
65.p1682-0641-89627.jpg 已下载到本地.
66.p1682-0642-89634.jpg 已下载到本地.
67.p1682-0642-89641.jpg 已下载到本地.
68.p1682-0642-89649.jpg 已下载到本地.
69.p1682-0643-89652.jpg 已下载到本地.
70.p1682-0643-89654.jpg 已下载到本地.
71.p1682-0643-89657.jpg 已下载到本地.
72.p1682-0643-89664.jpg 已下载到本地.
73.p1682-0643-89666.jpg 已下载到本地.
74.p1682-0643-89669.jpg 已下载到本地.
75.p1682-0644-89671.jpg 已下载到本地.
76.p1682-0644-89675.jpg 已下载到本地.
77.p1682-0644-89677.jpg 已下载到本地.
78.p1682-0644-89679.jpg 已下载到本地.
79.p1682-0645-89680.jpg 已下载到本地.
80.p1682-0645-89682.jpg 已下载到本地.
81.p1682-0645-89683.jpg 已下载到本地.
82.p1682-0645-89684.jpg 已下载到本地.
83.p1682-0645-89685.jpg 已下载到本地.
84.p1682-0645-89687.jpg 已下载到本地.
85.p1682-0646-89689.jpg 已下载到本地.
86.p1682-0646-89691.jpg 已下载到本地.
87.p1682-0646-89692.jpg 已下载到本地.
88.p1682-0646-89694.jpg 已下载到本地.
89.p1682-0646-89696.jpg 已下载到本地.
90.p1682-0646-89698.jpg 已下载到本地.
91.p1682-0647-89701.jpg 已下载到本地.
92.p1682-0647-89703.jpg 已下载到本地.
93.p1682-0647-89705.jpg 已下载到本地.
94.p1682-0647-89706.jpg 已下载到本地.
95.p1682-0648-89707.jpg 已下载到本地.
96.p1682-0648-89709.jpg 已下载到本地.
97.p1682-0648-89710.jpg 已下载到本地.
98.p1682-0648-89711.jpg 已下载到本地.
99.p1682-0648-89712.jpg 已下载到本地.
100.p1682-0649-89713.jpg 已下载到本地.
全部靓照下载完成!

【运行结果】

检查发现,所有图片确实如愿被下载到了本地。程序如果修改基准网址和页码范围,也能用到同网站的其它人的照片上。

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/743934.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Gitee的注册和代码提交(附有下载链接)

目录 一、Git的下载和安装二、安装图形化界面工具三、在Gitee上创建仓库四、如何把仓库开源五、Clone远程仓库到本地六、拷贝代码到本地的仓库七、Add-Commit-Push到远程仓库八、可能出现的问题8.1 建议在本地仓库直接创建项目8.2 第一次Push可能出现的问题8.3 怎么删除Gitee上…

Element-Plus: Select组件实现滚动分页加载

Element-Plus的select组件并没有自带滚动分页加载的功能,其虽然提供了自定义下拉菜单的底部的方式可以自定义上一页及下一页操作按钮的方式进行分页加载切换: 但如果不想通过点击分页按钮的方式,利用滚动触底进行下一页加载的话,…

2024年太原等保测评中心名单看这里!

开年来,不少太原小伙伴打算做等保了。大家都在问,目前太原等保测评中心有哪些?在哪里丫?这不我们小编就给大家整理一下,仅供参考哈! 2024年太原等保测评中心名单看这里! 序号:1 …

[C++]20.实现红黑树。

实现红黑树 一.基本概念:1.红黑树的概念:2.红黑树的性质: 二.实现红黑树:1.基本结构:2.插入节点的多种情况:1.叔叔存在且为红:2.叔叔不存在/存在且为黑(单旋变色)3.叔叔不存在/存在且为黑(多旋&…

C/C++中{}的用法总结(全)

C基础专栏:http://t.csdnimg.cn/UjhPR 目录 1.定义初始化列表(Initializer List) 2.类成员初始化列表 3.无默认构造函数的类的默认初始化(C11 及以后版本) 4.初始化器列表构造函数(C11 及以后版本&…

Docker学习之镜像管理(超详解析)

Docker镜像生命周期(可以把docker镜像理解为虚拟机镜像) 实验内容: 搜索官方仓库镜像 [rootlocalhost ~]# docker search busybox //以查找busybox为例 搜索说明:name镜像名称 description镜像说明 stars点赞数量 official…

四川宏博蓬达法律咨询有限公司:法律服务的行业翘楚

在当今社会,法律服务已经成为人们生活中不可或缺的一部分。随着法律意识的提高,选择一家专业、可靠的法律咨询公司显得尤为重要。四川宏博蓬达法律咨询有限公司,作为业内的佼佼者,以其卓越的服务质量和广泛的业务范围,…

Nacos 集群搭建

1 . 集群结构图 : 其中包括3个nacos结点,然后一个负载均衡器代理3个Nacos。这里负载均衡器可以使用nginx ; 我们计划的集群结构 : 三个nacos结点的地址 : 节点ipportnacos1192.168.150.18845nacos2192.168.150.18846nacos3192.168.150.18847 2 . 搭建集群 搭…

2024最新轻量应用服务器简介_轻量应用服务器购买指南

腾讯云轻量应用服务器开箱即用、运维简单的轻量级云服务器,CPU内存带宽配置高并且价格特别便宜,大带宽,但是限制月流量,轻量2核2G3M带宽61元一年、2核2G4M优惠价99元一年,540元三年、2核4G5M带宽165元一年,…

JAVA初阶数据结构(链表)练习(这些可以作为java包中的方法)

这里的每一个题大家都要仔细完成,这些题目每个我都至少思考了两个小时左右(沉重心,慢慢来) 1.反向链表的实现(对链表进行翻转)(力扣有) (1)图示 &#xff0…

2024考研国家线公布,各科分数线有哪些变化?考研国家线哪些涨了,哪些跌了?可视化分析告诉你

结论在文章结尾 2024考研国家线 一、近五年国家线趋势图-学术硕士 文学 管理学 工学照顾专业 体育学 交叉学科 军事学 历史学 理学 享受少数名族照顾政策的考生 中医类照顾专业 教育类 艺术类 医学 工学 哲学 法学 农学 经济学 二、近五年国家线趋势图-专业硕士 中医 应用心理 …

web项目的搭建

使用Webstorm并创建Next.js文件 1、配置nodejs环境、安装webstorm【配置node.js可以使用nvm去管理nodejs的版本】 2、需要破解webstorm,可能会导致原本的idea失效,注册码过期 3、taobao的npm过期,导致npm is sass执行不成功,需…

jvaweb 3-13

Element 后端开发 maven maven的作用 下载并配置环境变量 创建Maven项目 Maven坐标 依赖 Maven的依赖传递特性 以图表形式展示依赖 排除依赖 依赖范围 生命周期

普通小白现在做抖音小店还能赚到钱吗?千万不要忽视这几点

大家好,我是电商花花。 赚钱做生意的秘密, 很简单,就是积少成多,以小见大,然后和时间成为朋友。 而做抖音小店也是这样的一个道理,不管是新手小白还是老电商玩家,都是从一点一滴做起来的&…

如何使用vue定义组件之——父组件调用子组件

首先&#xff0c;我们需要创建两个组件模板template&#xff1a; <template id"father"><div><h3>我是父组件</h3><h3>访问自己的数据:</h3><h3>{{ msg }}</h3></div></template><template id"…

性能测试-数据库

一、数据库事务机制 ACID描述 1、原子性Atomicity&#xff1a;事务通常由多个语句组成。原子性保证将每个事务视为一个“单元”&#xff0c;该事务要么完全成功&#xff0c;要么完全失败 2、一致性Consistency&#xff1a;“一致”是指数据库中的数据是正确的&#xff0c;不存…

【2024-03-12】设计模式之模板模式的理解

实际应用场景&#xff1a;制作月饼 过程描述&#xff1a; 一开始&#xff0c;由人工制作月饼&#xff0c; 第一个&#xff1a;根据脑子里面月饼的形状&#xff0c;先涅出月饼的形状&#xff0c;然后放入面粉和馅料把开口合并起来。 第二个&#xff1a;根据脑子里面月饼的形状&…

BigDL-LLM 安装指南——在iGPU集成显卡下使用BigDL-LLM大模型库加速LLM

文章目录 iGPU是什么&#xff1f;一、环境准备1.1 Visual Studio 2022 Community 安装1.2 安装或更新最新版本的GPU驱动程序1.3 安装英特尔oneAPI工具包2024.0版本1.4 安装Anaconda 二、BigDL -LLM 安装2.1 创建虚拟环境2.2 激活虚拟环境2.3 安装bigdl-llm[xpu] 三、运行环境配…

iOS 17.4 Not Installed

iOS15以后&#xff0c;下载了xcode安装好后&#xff0c;并不会自动下载好模拟器&#xff0c;需要手动下载。 有两种下载方式 xcode下载 xcode -> Settings 打开面板 xcode下载虽然方便&#xff0c;但是有个问题是&#xff0c;这里下载如果断网了不会断点续传&#xff0c;…

MyBatis 框架之一:简介及环境搭建详细步骤

1. MyBatis 是什么&#xff1f; MyBatis 是一个流行的、轻量级的 Java 持久层框架&#xff0c;它简化了与数据库交互和 SQL 映射的过程。MyBatis 取代了 JDBC 原始 API 的大量繁琐工作&#xff0c;允许开发者将更多的精力放在业务逻辑上而不是处理数据访问细节。 mybatis 是一款…