爬虫小案例:基于Bing关键词批量下载图片(第二版)

一、需求:

基于Bing网站,输入关键词,批量下载图片保存到本地

二、代码展示:

import requests
from lxml import etree
import os
from multiprocessing.dummy import Pool
import json
from time import time# 作用:按关键字、图片数量爬取必应图片,存放到指定路径。
# 使用方法:只需运行一条命令 BingImagesSpider('美女壁纸', 200, 'E:\images').run()
class BingImagesSpider:thread_amount = 1000  # 线程池数量,线程池用于多IO请求,减少总的http请求时间per_page_images = 30  # 每页必应请求的图片数count = 0  # 图片计数success_count = 0# 忽略图片标签的一些字符ignore_chars = ['|', '.', ',', ',', '', '', '/', '@', ':', ':', ';', ';','[', ']', '+']# 允许的图片类型image_types = ['bmp', 'jpg', 'png', 'tif', 'gif', 'pcx', 'tga', 'exif','fpx', 'svg', 'psd', 'cdr', 'pcd', 'dxf', 'ufo', 'eps', 'ai','raw', 'WMF', 'webp']# 请求头headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36'}# 必应图片 urlbing_image_url_pattern = 'https://www.bing.com/images/async?q={}&first={}&count={}&mmasync=1'def __init__(self, keyword, amount, path='./'):# keyword: 需爬取的关键字# amount: 需爬取的数量# path: 图片存放路径self.keyword = keywordself.amount = amountself.path = pathself.thread_pool = Pool(self.thread_amount)def __del__(self):self.thread_pool.close()self.thread_pool.join()# 作用:从必应请求图片def request_homepage(self, url):# url: 必应图片页的 urlreturn requests.get(url, headers=self.headers)# 作用:解析必应网页,得到所有图片的信息,封装到列表中返回# 每个图片的信息以字典对象存储,字典的键包括 image_title, image_type, image_md5, image_urldef parse_homepage_response(self, response):# response: 必应网站的响应# 获取各图片信息所在的json格式字符串 mtree = etree.HTML(response.text)m_list = tree.xpath('//*[@class="imgpt"]/a/@m')# 对每个图片分别处理info_list = []for m in m_list:dic = json.loads(m)# 去除一些文件名中不允许的字符image_title = dic['t']for char in self.ignore_chars:image_title = image_title.replace(char, ' ')image_title = image_title.strip()# 有些图片的信息中不包含图片格式,该情况将图片设置为 jpg 格式image_type = dic['murl'].split('.')[-1]if image_type not in self.image_types:image_type = 'jpg'# 将每个图片的信息存为字典格式info = dict()info['image_title'] = image_titleinfo['image_type'] = image_typeinfo['image_md5'] = dic['md5']info['image_url'] = dic['murl']print(info)info_list.append(info)return info_list# 请求具体图片,保存到初始化时指定的路径def request_and_save_image(self, info):# info: 每个图片的信息,以字典对象存储。字典的键包括 image_title, image_type, image_md5, image_urlfilename = '{} {}.{}'.format(self.count, info['image_title'],info['image_type'])filepath = os.path.join(self.path, filename)try:# 请求图片response = requests.get(info['image_url'], headers=self.headers,timeout=1.5)# 保存图片try:with open(filepath, 'wb') as fp:fp.write(response.content)except:pass# 打印日志self.count += 1self.success_count += 1print('{}: saving {} done.'.format(self.count, filepath))except requests.exceptions.RequestException as e:self.count += 1print('{}: saving {}failed. url: {}'.format(self.count, filepath,info['image_url']))print('\t tip:', e)# 作用:图片信息的列表去重,去除重复的图片信息def deduplication(self, info_list):result = []# 用图片的 md5 做为唯一标识符md5_set = set()for info in info_list:if info['image_md5'] not in md5_set:result.append(info)md5_set.add(info['image_md5'])return result# 作用:运行爬虫,爬取图片def run(self):# 创建用于保存图片的目录if not os.path.exists(self.path):os.mkdir(self.path)# 根据关键词和需要的图片数量,生成将爬取的必应图片网页列表homepage_urls = []for i in range(int(self.amount / self.per_page_images * 1.5) + 1):  # 由于有些图片会重复,故先请求1.5倍图片,豁免url = self.bing_image_url_pattern.format(self.keyword,i * self.per_page_images,self.per_page_images)homepage_urls.append(url)print('homepage_urls len {}'.format(len(homepage_urls)))# 通过线程池请求所有必应图片网页homepage_responses = self.thread_pool.map(self.request_homepage,homepage_urls)# 从必应网页解析所有图片的信息,每个图片包括 image_title, image_type, image_md5, image_url 等信息。info_list = []for response in homepage_responses:result = self.parse_homepage_response(response)info_list += resultprint('info amount before deduplication', len(info_list))# 删除重复的图片,避免重复下载info_list = self.deduplication(info_list)print('info amount after deduplication', len(info_list))info_list = info_list[: self.amount]print('info amount after split', len(info_list))# 下载所有图片,并保存self.thread_pool.map(self.request_and_save_image, info_list)print('all done. {} successfully downloaded, {} failed.'.format(self.success_count, self.count - self.success_count))if __name__ == '__main__':# 关键词:美女壁纸# 需要的图片数量:100# 图片保存路径:'D:\images'start = time()BingImagesSpider('美女壁纸', 100, 'D:\images').run()print(time() - start)

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/473168.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 1723. 完成所有工作的最短时间(DFS+剪枝 / 状态压缩DP)

文章目录1. 题目2. 解题2.1 DFS2.2 状态压缩DP265 / 3871, 前6.85% 前3题题解: LeetCode 5649. 解码异或后的数组(位运算)LeetCode 5652. 交换链表中的节点(快慢指针)LeetCode 5650. 执行交换操作后的最小…

运维工程师打怪升级进阶之路 V2.0

很多读者伙伴们反应总结的很系统、很全面,无论是0基础初学者,还是有基础的入门者,或者是有经验的职场运维工程师们,都反馈此系列文章非常不错! 命名:《运维工程师打怪升级之路》 版本:V1.0版本…

win7优化设置_5项优化,至少提升20%!

Win7系统已经接近落幕的尾声了,不知大家是否早已做好准备了呢?很多朋友说win7不如win10好用,但马克思主义说到“新事物必将会取代旧事物”,也没必要一直坚守着win7的战线啦。自电脑升级了之后,便对win10系统进行了一些…

python实现两张图片横向和纵向拼接

本文实例为大家分享了python实现图片横向和纵向拼接的具体代码, 这里主要用Python扩展库pillow中Image对象的paste()方法把两张图片拼接起来供大家参考,具体内容如下: 一、代码: from PIL import Imagedef join(png1, png2, fl…

LeetCode 1203. 项目管理(两次拓扑排序)

文章目录1. 题目2. 解题1. 题目 公司共有 n 个项目和 m 个小组,每个项目要不无人接手,要不就由 m 个小组之一负责。 group[i] 表示第 i 个项目所属的小组,如果这个项目目前无人接手,那么 group[i] 就等于 -1。(项目和…

BZOJ K大数查询(分治)(Zjoi2013)

题目链接:http://www.lydsy.com/JudgeOnline/problem.php?id3110 Description 有N个位置,M个操作。操作有两种,每次操作如果是1 a b c的形式表示在第a个位置到第b个位置,每个位置加入一个数c如果是2 a b c形式,表示询…

为什么电脑不能打字_为什么不能用电脑验光仪测出来的度数直接配眼镜?

当今世界,科学技术爆炸式发展和进步,很多人问我:“电脑验光仪的准确度越来越高,会不会取代人工验光师?”我们这代人从小听着学着“科学技术是第一生产力”长大的,自然是技术崇拜者,自然的反应当…

前端DEMO:网络上流行的抖音罗盘

一、效果: 二、关于代码: CSS/demo.css代码: * {margin: 0;padding: 0; } html, body {width: 100%;height: 100%;background-color: black;overflow: hidden; } #clock {position: relative;width: 100%;height: 100%;background: black; }…

一个符合SEO优化标准的网站应具备哪些特征?

我们在进行网站建设时,都希望自己的网站能在搜索引擎中获得一个好的排名,都希望自己的网站能有很多的网页被百度等主流搜索引擎收录。要想获得搜索引擎的青睐,前提是要做好网站的SEO优化。那么,一个符合SEO优化标准的网站应该具备…

[Kaggle] Sentiment Analysis on Movie Reviews(BERT)

文章目录1. 预训练模型下载2. 数据集3. 加载预训练模型4. 提交结果练习地址:https://www.kaggle.com/c/sentiment-analysis-on-movie-reviews 相关博文: [Kaggle] Spam/Ham Email Classification 垃圾邮件分类(BERT) 本文使用 hu…

Qt利用avilib实现录屏功能_openlayers6结合geoserver利用WFS服务实现图层编辑功能(附源码下载)...

内容概览1.openlayers6结合geoserver利用WFS服务实现图层编辑功能2.源代码demo下载效果图如下:本篇主要是参照openlayers6结合geoserver利用WFS服务实现图层新增功能(附源码下载)基础上实现的,openlayers6通过调用geoserver发布的地图服务WFS来达到图层编…

Python 解决写入csv中间隔一行空行问题

一、问题描述:生成的csv文件每两行中间都有一行空白行 # 写入csv: with open(birth_weight_file,w) as f:writercsv.writer(f)writer.writerow(birth_header)writer.writerows(birth_data)f.close() 二、解决办法:写入后面加上newline wit…

LeetCode DD-2020006. 简单游戏(前缀和)

文章目录1. 题目2. 解题1. 题目 给出一个长度为 n 的数组 a&#xff0c;你需要在这个数组中找到一个长度至少为 m 的区间&#xff0c;使得这个区间内的数字的和尽可能小。 输入描述: 第一行包含一个正整数 n&#xff0c;m,表示数组的大小和所选区间的最小长度。(1<n<1…

【转载】OpenStack Swift学习笔记

免责声明&#xff1a; 本文转自网络文章&#xff0c;转载此文章仅为个人收藏&#xff0c;分享知识&#xff0c;如有侵权&#xff0c;请联系博主进行删除。 原文作者&#xff1a;崔炳华 原文地址&#xff1a;http://blog.csdn.net/i_chips/article/details/17787017 1 概…

Android Studio 选项菜单和动画结合_Android 应用与iOS 应用之间的设计差异对比!

同一个App&#xff0c;为什么iOS 和Android 的交互操作有那么大的区别&#xff1f;本文将用大量原生设计案例&#xff0c;为你一一说明它们为什么应该这样做&#xff0c;赶紧学起来&#xff01;了解并适当结合平台规范与优势&#xff0c;才能做到最佳的用户体验。为了创建最佳的…

图片操作案例:python 批量更改图像尺寸到统一大小的方法

一、需求&#xff1a; 批量修改该图片长与宽尺寸 二、素材&#xff1a; 三、代码&#xff1a; from PIL import Image import os.path import globdef convertjpg(jpgfile,outdir,width512,height512):imgImage.open(jpgfile)try:new_imgimg.resize((width,height),Image.BI…

LeetCode 753. 破解保险箱(DFS)

文章目录1. 题目2. 解题1. 题目 有一个需要密码才能打开的保险箱。 密码是 n 位数, 密码的每一位是 k 位序列 0, 1, …, k-1 中的一个 。 你可以随意输入密码&#xff0c;保险箱会自动记住最后 n 位输入&#xff0c;如果匹配&#xff0c;则能够打开保险箱。 举个例子&#x…

windows副本不是正版怎么解决_解决Windows沙盒怎么联网问题

windows 沙盒简单来讲就是一款沙盒虚拟化的Windows系统&#xff0c;而最近还蛮多小伙伴来问小编说&#xff0c;Windows沙盒能够联网吗&#xff1f;Windows沙盒怎么联网&#xff1f;针对这个问题&#xff0c;接下来小编就来和大家好好的说说关于windows沙盒的情况吧。1、首先我们…

textract安装使用

http://textract.readthedocs.org/en/latest/ import textracttext textract.process("rbm.pdf")转载于:https://www.cnblogs.com/huiwq1990/p/3915751.html

西瓜视频(头条)解析并利用IDM工具下载

一、西瓜视频网址解析完整代码&#xff1a; import requests import urllib3 urllib3.disable_warnings() import re import json import base64cookie你的cookie headers{"user-agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like…