python爬虫百度图片

直接给代码,可直接用,个人需要修改的地方有两处:

  • self.directory 这是本地存储地址,修改为自己电脑的地址,另外,**{}**不要删
  • spider.json_count = 10 这是下载的图像组数,一组有30张图像,10组就是三百张,根据需求下载
# -*- coding:utf8 -*-
import requests
import json
from urllib import parse
import os
import timeclass BaiduImageSpider(object):def __init__(self):self.json_count = 0  # 请求到的json文件数量(一个json文件包含30个图像文件)self.url = 'https://image.baidu.com/search/acjson?tn=resultjson_com&logid=5179920884740494226&ipn=rj&ct' \'=201326592&is=&fp=result&queryWord={' \'}&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&hd=&latest=&copyright=&word={' \'}&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&expermode=&nojc=&pn={' \'}&rn=30&gsm=1e&1635054081427= 'self.directory = r"D:\datasets\animal\兔子\{}"  # 存储目录  这里需要修改为自己希望保存的目录  {}不要丢self.header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ''Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.1020.30 '}# 创建存储文件夹def create_directory(self, name):self.directory = self.directory.format(name)# 如果目录不存在则创建if not os.path.exists(self.directory):os.makedirs(self.directory)self.directory += r'\{}'# 获取图像链接def get_image_link(self, url):list_image_link = []strhtml = requests.get(url, headers=self.header)  # Get方式获取网页数据# jsonInfo = json.loads(strhtml.text)# for index in range(30):#     list_image_link.append(jsonInfo['data'][index]['thumbURL'])# return list_image_linktry:jsonInfo = json.loads(strhtml.text)if 'data' in jsonInfo and isinstance(jsonInfo['data'], list):for item in jsonInfo['data']:if 'thumbURL' in item:list_image_link.append(item['thumbURL'])else:print(f"未找到有效数据,响应内容:{strhtml}")except json.JSONDecodeError as e:print(f"JSON解析错误: {e}, 响应内容:{strhtml}")except Exception as e:print(f"发生错误: {e}")return list_image_link# 下载图片def save_image(self, img_link, filename):res = requests.get(img_link, headers=self.header)if res.status_code == 404:print(f"图片{img_link}下载出错------->")with open(filename, "wb") as f:f.write(res.content)print("存储路径:" + filename)# 入口函数def run(self):searchName = input("查询内容:")searchName_parse = parse.quote(searchName)  # 编码self.create_directory(searchName)pic_number = 0  # 图像数量for index in range(self.json_count):pn = (index+1)*30request_url = self.url.format(searchName_parse, searchName_parse, str(pn))list_image_link = self.get_image_link(request_url)for link in list_image_link:pic_number += 1self.save_image(link, self.directory.format(str(pic_number)+'.jpg'))time.sleep(0.2)  # 休眠0.2秒,防止封ipprint(searchName+"----图像下载完成--------->")if __name__ == '__main__':spider = BaiduImageSpider()spider.json_count = 10   # 定义下载10组图像,也就是三百张spider.run()

学习自这位大佬,略有改动,目的是解决我遇到的 JSONDecodeError: Invalid \escape 错误,通常是由于 JSON 字符串中包含了无效的转义字符

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/57870.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微信小程序文字转语音播报案例

插件申请 在小程序官方申请同声传译插件,地址: mp.weixin.qq.com 引入插件 在app.json中加入 "plugins": {"WechatSI": {"version": "0.3.6","provider": "wx069ba97219f66d99"}},封装…

机器学习2

一、模型评估方法 1.1 K折交叉验证法(K-Fold Cross Validation) 1.1.1 定义 K折交叉验证法是一种用于评估模型性能的技术。它将数据集分为K个相等的子集,模型会轮流使用一个子集作为测试集,其余K-1个子集作为训练集。这个过程会…

Springboot 导出Excel文件方式对比与注意事项

Springboot 导出Excel文件方式对比与注意事项 Excel导出系列目录:为什么不导出.xls后缀的文件?EasyExcel导出xls后缀文件POI导出xls后缀文件 POI导出与EasyExcel导出相比哪种方式最优呢?POI导出与EasyExcel导出两种方式有没有需要注意的坑呢&…

南京林业大学生态学博士在1区top期刊揭示人工林发育促进土壤团聚体的形成与稳定:对土壤碳氮固存的启示

本文首发于“生态学者”微信公众号! 文章信息 第一作者:石珂 通讯作者:阮宏华教授 通讯单位:南京林业大学 原文链接:https://doi.org/10.1016/j.catena.2024.108363 亮点 •土壤团聚体的稳定性随着林分发育而增…

【BASH 常用脚本系列 4 -- 在 shell 脚本执行的时候打印出所调用命令所在的路径】

文章目录 概述使用 type使用 which使用 command -v示例解析概述 在 Shell 脚本执行时,如果你想打印出脚本所调用命令的完整路径,可以利用 type、which 或 command -v 等命令来实现。这些命令用于查找命令的路径或验证命令是否存在于系统中。下面是一些方法的详细介绍和示例:…

接口测试(五)jmeter——get请求

一、get请求——短信验证码(示例仅供参考) 1. get请求:传参数据直接拼接在地址后面,jmeter不需要设置请求头content-type 注:短信验证码接口,返回结果中不会返回短信验证码,是存在数据库表中&a…

java中常见集合,非常重要!!!

Java 集合框架提供了一组用于存储和操作对象的类和接口,主要包括 List、Set 和 Map。下面是对 Java 集合的主要类型和它们的特点的介绍。 集合的主要接口 Collection:集合的根接口,表示一组对象。 List:有序集合,允许…

【C++初阶】一文讲通C++内存管理

文章目录 1. C/C内存分布2. C语言中动态内存管理方式3. C内存管理方式3. 1 new/delete操作内置类型3. 2 new和delete操作自定义类型 4. new与delete的原理4. 1 operator new与operator delete函数4. 2 内置类型4. 3 自定义类型 5. 定位new表达式(placement-new)6. malloc/free和…

校园资讯平台|校园资讯平台系统|基于java和小程序的校园资讯平台设计与实现(源码+数据库+文档)

校园资讯平台 目录 基于java和小程序的校园资讯平台设计与实现 一、前言 二、系统设计 三、系统功能设计 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取: 博主介绍:✌️大厂码农|毕设布道师&#xff0c…

【mysql进阶】4-7. 通用表空间

通⽤表空间 - General Tablespace 1 通⽤表空间的作⽤和特性? ✅ 解答问题 通⽤表空间是使⽤ CREATE tablespace 语法创建的共享InnoDB表空间 通⽤表空间能够存储多个表的数据,与系统表空间类似也是共享表空间; 服务器运⾏时会把表空间元数…

【mysql进阶】4-6. InnoDB 磁盘文件

InnoDB 磁盘⽂件 1 InnoDB存储引擎包含哪些磁盘⽂件? 🔍 分析过程 ✅ 解答问题 InnoDB的磁盘⽂件主要是表空间⽂件和其他⽂件,表空间包括:系统表空间、独⽴表空间、通⽤表空间、临时表空间和撤销表空间;其他⽂件有重做…

vue3.0 + vite打包完成后,将dist下的资源包打包成zip的两种方法

vue3.0 vite打包完成之后,自动将dist下的资源包打包成zip 1、vite-plugin-zip-pack 插件 安装插件 npm i -D vite-plugin-zip-pack修改vite.config.ts,增加plugin // vite.config.ts import { defineConfig } from "vite"; import zipPack,…

springboot入门学习笔记

在我们创建了一个Springboot项目之后,我们会看到有很多文件夹和文件 Springboot程序中各类文件的意义 一.pom.xml 在 Spring Boot 项目中,pom.xml(Project Object Model)文件是 Maven 构建工具的核心配置文件。起到项目信息定义…

OpenCV中的图像通道合并

在计算机视觉和图像处理领域,OpenCV是一个强大的工具库,它提供了从基本操作到复杂算法的广泛功能。今天,我们将通过一个简单的示例来探索OpenCV中的图像通道处理,特别是如何操作和理解BGR与RGB颜色空间的差异。 Lena图像&#xf…

四,Linux基础环境搭建(CentOS7)- 安装Zookeeper

Linux基础环境搭建(CentOS7)-安装Zookeeper 大家注意以下的环境搭建版本号,如果版本不匹配有可能出现问题! 一、Zookeeper下载及安装 ZooKeeper是一个开源的分布式协调服务,由雅虎创建,是Google Chubby的…

51单片机记录

电平特性 (本课程中)定义单片机为TTL电平 高5V 低 0V RS232电平:计算机串口 高-12V 低12V ※掌握二进制转16进制 二进制数的逻辑运算 “与”运算是实现“必须都有,否则就没有”运算符“”—“&”有0则0 例:000;01100;111 规律…

解决 IntelliJ IDEA 中 Tomcat 日志乱码问题的详细指南

目录 前言1. 分析问题原因2. 解决方案2.1 修改 IntelliJ IDEA 的 JVM 选项2.2 配置 Tomcat 实例的 VM 选项2.2.1 设置 Tomcat 的 VM 选项2.2.2 添加环境变量 3. 进一步优化3.1 修改 Tomcat 的 logging.properties3.2 修改操作系统默认编码3.2.1 Windows 系统3.2.2 Linux 和 mac…

2024mathorcup大数据竞赛B题【电商品类货量预测及品类分仓规划】思路详解

问题 1:建立货量预测模型,对该仓储网络 350 个品类未来 3 个月(7-9月)每个月的库存量及销量进行预测,其中库存量根据历史每月数据预测月均库存量即可,填写表 1 的预测结果并放在正文中,并将完整…

强化学习数学原理学习(一)

前言 总之开始学! 正文 先从一些concept开始吧,有一个脉络比较好 state 首先是就是状态和状态空间,显而易见,不多说了 action 同理,动作和动作空间 state transition 状态转换,不多说 policy 策略,不多说 reward 奖励,不多说 MDP(马尔科夫) 这里需要注意到就是这个是无…

了解 - 微格式

微格式 微格式(microformat)是一种用于在 HTML 中嵌入语义和结构化数据的标准,它为社交网络应用程序、搜索引擎、聚合器和其他工具提供了一个 API。这些最小的 HTML 模式用于标记从基本到特定领域的信息实体,例如人物、组织、事件…