python 使用requests爬取百度图片并显示

爬取百度图片并显示

  • 引言
  • 一、图片显示
  • 二、代码详解
    • 2.1 得到网页内容
    • 2.2 提取图片url
    • 2.3 图片显示
  • 三、完整代码

引言

爬虫(Spider),又称网络爬虫(Web Crawler),是一种自动化程序,可以自动地浏览互联网上的网站,并从中抓取数据。它主要通过 HTTP / HTTPS 协议访问网页,并将访问到的网页内容进行解析和分析,从而提取有用的数据,例如新闻、评论、图片、视频等。爬虫在搜索引擎、大数据采集、信息监测和分析等领域都有广泛的应用。

Pyhon有很多库可以实现爬虫功能,如Python中的requests库是一个第三方HTTP客户端库,它提供了一种更简单、更人性化的方式来发送HTTP/1.1请求。它允许我们发送HTTP/1.1请求以及各种HTTP方法,如GET、POST、PUT、DELETE、PATCH等。使用requests库,我们可以轻松地向外部API发送HTTP请求,并获取请求的响应。requests库提供了很多高级功能,比如会话管理、SSL证书验证、HTTP代理支持、文件上传等等。

一、图片显示

在这里插入图片描述
本文旨在介绍使用Python中的requests库爬取百度图片并显示的操作方法。该操作较为简单,适合初学者入门。
使用pip可以很容易地安装requests库:pip install requests

二、代码详解

需要导入的库:

import requests
from PIL import Image
from io import BytesIO

requests库用于获取网络数据,PIL库用于处理图像数据,BytesIO用于将二进制数据转换为图像数据。

2.1 得到网页内容

主要步骤:

  1. 设定好headers,防止网页拒绝被访问
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400'}
  1. 在url中设定好queryWordword,即百度图片查询的关键词,本文以tupian为例 (亦可设置为汉子)
url = ('https://image.baidu.com/search/acjson?''tn=resultjson_com&logid=9047316633247341826&ipn=rj&ct=201326592&is=&fp=result&''queryWord=tupian&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&z=&ic=&hd=&latest=&copyright=&''word=tupian&s=&se=&tab=&width=&height=&face=&istype=&qc=&nc=1&fr=&expermode=&force=&''pn=30&rn=30&gsm=1e&1616935040863=')
  1. 使用requests或其它获取网页内容即可,这里使用requests库发送GET请求并传递请求头和参数,获取响应的网页数据。
import requests
response = requests.get(url=url, headers=headers)
response.encoding = 'utf-8'

2.2 提取图片url

根据网页图片链接格式,提取图片的链接,网页内容中的图片链接以"thumbURL"开始:
在这里插入图片描述

使用正则表达式提取 可参考正则表达式(详解)

import re
imgs =[]
reg = re.compile('"thumbURL":"(.+?\.jpg)"')
imgs.extend(reg.findall(response))
print(imgs)

2.3 图片显示

获取图片链接里的内容,并显示
获取到的img是二进制字符,先试用BytesIO读取后显示

img = requests.get(url=imgs[0], headers=headers).content
from PIL import Image
from io import BytesIO
bytes_stream = BytesIO(img)
img = Image.open(bytes_stream)
img.show()

至此,成功地使用requests库爬取了百度图片,并将其显示出来。需要注意的是,此处仅为简单的入门示例,对于复杂的网站爬取和数据解析,需要使用更为专业的工具和技术。

三、完整代码

# 1.得到网页内容
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400'}
url = ('https://image.baidu.com/search/acjson?''tn=resultjson_com&logid=9047316633247341826&ipn=rj&ct=201326592&is=&fp=result&''queryWord=tupian&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&z=&ic=&hd=&latest=&copyright=&''word=tupian&s=&se=&tab=&width=&height=&face=&istype=&qc=&nc=1&fr=&expermode=&force=&''pn=30&rn=30&gsm=1e&1616935040863=')
import requests
response = requests.get(url=url, headers=headers)
response.encoding = 'utf-8'
response = response.text
#print(response)# 2.提取图片url
import re
imgs =[]
reg = re.compile('"thumbURL":"(.+?\.jpg)"')
imgs.extend(reg.findall(response))
print(imgs)# 3.显示图片
img = requests.get(url=imgs[0], headers=headers).content
from PIL import Image
from io import BytesIO
bytes_stream = BytesIO(img)
img = Image.open(bytes_stream)
img.show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/81619.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【前端知识】Three 学习日志(四)—— 相机控件

Three 学习日志&#xff08;四&#xff09;—— 相机控件 一、引入相机控件 <!-- 引入相机控件 --> <script type"importmap">{"imports": {"three": "../build/three.module.js","three/addons/": "../…

C#,数值计算——Hashtable的计算方法与源程序

1 文本格式 using System; using System.Collections; using System.Collections.Generic; namespace Legalsoft.Truffer { public abstract class Hashtable<K> { private int nhash { get; set; } private int nmax { get; set; } pr…

Gof23设计模式之责任链模式

1.概述 责任链模式又名职责链模式&#xff0c;为了避免请求发送者与多个请求处理者耦合在一起&#xff0c;将所有请求的处理者通过前一对象记住其下一个对象的引用而连成一条链&#xff1b;当有请求发生时&#xff0c;可将请求沿着这条链传递&#xff0c;直到有对象处理它为止…

Vue3记录

Vue3快速上手 1.Vue3简介 2020年9月18日&#xff0c;Vue.js发布3.0版本&#xff0c;代号&#xff1a;One Piece&#xff08;海贼王&#xff09;耗时2年多、2600次提交、30个RFC、600次PR、99位贡献者github上的tags地址&#xff1a;https://github.com/vuejs/vue-next/releas…

Vue3搭配Element Plus 实现候选搜索框效果

直接上代码 <el-col :span"14" class"ipt-col"><el-input v-model"projectName" class"w-50 m-2" input"inputChange" focus"inputFocusFn" blur"inputBlurFn" placeholder"请输入项目名…

同样的UWB,为什么定位精度差很多?

纵观以UWB技术为核心的应用与电厂、化工厂等工业企业人员定位系统&#xff0c;在定位精度上都声称能够达到厘米级精准&#xff0c;然而实际应用上却总是差了些许意思。任何产品都有理论值与实际值&#xff0c;例如某些新能源汽车号称标准续航300公里&#xff0c;但实际上可能连…

用GoConvey编写单元测试的一些总结

一、尽量用Convey将所有测试用例的Convey汇总 用Convey嵌套的方法&#xff0c;将所有测试用例的Convey用一个大的Convey包裹起来&#xff0c;每个测试函数下只有一个大的Convey。比如下面的示例代码&#xff1a; import ("testing". "github.com/smartystreet…

Linux--线程(与进程区别)

Linux线程 1、线程与进程 进程可以看成只有一个控制线程&#xff1a;一个进程同时只做一件事情。有了多个控制线程后&#xff0c;可以把进程设计成在同一时刻做不止一件事&#xff0c;每个线程各自处理独立的任务。 进程是程序执行时的一个实例&#xff0c;是分配系统资源&am…

【面试题】智力题

文章目录 腾讯1000瓶毒药里面只有1瓶是有毒的&#xff0c;问需要多少只老鼠才能在24小时后试出那瓶有毒。有两根不规则的绳子&#xff0c;两根绳子从头烧到尾均需要一个小时&#xff0c;现在有一个45分钟的比赛&#xff0c;裁判员忘记带计时器&#xff0c;你能否通过烧绳子的方…

C++---异常处理

异常处理 异常处理try语句块和throw表达式异常的抛出和捕获异常的抛出和匹配原则 异常安全异常规范标准异常 异常处理 异常是指存在于运行时的反常行为&#xff0c;这些行为超出了函数正常功能的范围。当程序的某部分检测到一个他无法处理的问题时&#xff0c;需要用到异常处理…

transforms数据预处理【图像增强】 ->(个人学习记录笔记)

文章目录 1. 安装2. transforms——Crop 裁剪2.1 transforms.CenterCrop2.2 transforms.RandomCrop2.3 transforms.RandomResizedCrop2.4 transforms.FiveCrop2.5 transforms.TenCrop 3. transforms——Flip 翻转3.1 transforms.RandomHorizontalFlip3.2 transforms.RandomVert…

leetcode 817. 链表组件(java)

链表组件 题目描述HashSet 模拟 题目描述 给定链表头结点 head&#xff0c;该链表上的每个结点都有一个 唯一的整型值 。同时给定列表 nums&#xff0c;该列表是上述链表中整型值的一个子集。 返回列表 nums 中组件的个数&#xff0c;这里对组件的定义为&#xff1a;链表中一段…

【学习笔记】EC-Final 2022 K. Magic

最近的题都只会抄题解&#x1f605; 首先&#xff0c;操作顺序会影响答案&#xff0c;因此不能直接贪心。其次&#xff0c;因为是求贡献最大&#xff0c;所以可以考虑枚举最终哪些位置对答案产生了贡献&#xff0c;进而转化为全局贡献。 1.1 1.1 1.1 如果 [ l 1 , r 1 ) ⊆ [ …

zabbix学习1--zabbix6.x单机

文章目录 1. 环境2. MYSQL8.02.1 单节点2.2 配置主从 3. 依赖组件4. zabbix-server5. agent5.1 yum5.2 编译 附录my.cnfJDK默认端口号 1. 环境 进入官网查看所需部署环境配置以及应用版本要求https://www.zabbix.com/documentation/current/zh/manual/installation/requiremen…

MySQL 解决数据重复添加

1. sql语句: insert ignore into insert ignore into 表名 (xx1,xx2,xx3) VALUES (#{xx1},#{xx2},#{xx3}) 2. 复合索引

pytest(二)框架实现一些前后置(固件,夹具)的处理,常用三种

为什么需要这些功能&#xff1f; 比如&#xff1a;web自动化执行用例前是否需要打开浏览器&#xff1f;执行用例后需要关闭浏览器&#xff1f; 示例代码&#xff1a; import pytest class Testcase:#这是每条测试用例执行前的初始化函数def setup(self):print("\n我是每…

Android保存文件路径汇总

一、Android 中存储可以分为两大类&#xff1a;私有存储和共享存储 私有存储 (Private Storage) : 每个应用在内部存储种都拥有自己的私有目录 (/data/data/packageName)&#xff0c;其它应用看不到&#xff0c;彼此也无法访问到该目录共享存储 (Shared Storage) : 除了私有存…

7-38 掉入陷阱的数字

输入样例: 5 输出样例: 1:16 2:22 3:13 4:13 ACcode: #include <bits/stdc.h>using namespace std;int main(){int n;cin >> n;vector<int> ans;int limit 1;ans.push_back(n);for(int i0; i<limit; i){//各位数字的和int sum 0;int num ans[i];w…

C++:组播代码实现

以下为C&#xff1a;组播代码实现 multicast_recver.cpp // its a demo to receive multicast udp data with the one of multi net interfaces.... #include <sys/types.h> #include <sys/socket.h> #include <arpa/inet.h> #include <stdio.h> #inc…

【TA】OP-TEE demo学习

前言&#xff1a;工作原因接触Apple软件需要搭建TA环境&#xff0c;涉及到OP-TEE&#xff0c;学习一下 OP-TEE&#xff08;Open Portable Trusted Execution Environment&#xff09;是一个开放源代码的可信执行环境&#xff08;TEE&#xff09;软件框架。它提供了安全的执行环…