7篇Python爬虫实例,直接代码可运行,全网最全,注释超详细(适合收藏)——2、爬取图片信息。

7篇Python爬虫实例,可直接运行,适合收藏

python爬虫7篇实例,分七个文章进行发布;第二篇:爬取图片信息。

  • 爬取图片信息,并将每张图片都下载下来。

爬虫主要三部分:
1、获取数据
2、数据解析
3、调用函数

  • 先上完整代码: 代码后面进行一步步解析。
import requests
from bs4 import BeautifulSoup
import osindex = range(2,5)
urls = []
for i in index:urls.append(f'https://pic.netbian.com/4kdongman/index_{i}.html')# https://pic.netbian.com/tupian/34851.html# 传入单个网页,获取网页上所有得图片链接
def craw_single_url(url):re = requests.get(url)re.encoding = 'gbk'soup = BeautifulSoup(re.text,'html.parser')pics_links = soup.find_all('img')links = []for link in pics_links:if 'uploads' not in link['src']:continuelinks.append(f'https://pic.netbian.com{link['src']}')return links# 传入图片链接,将图片下载到文件夹中
def imgs_download(links):for link in links:re = requests.get(link)pic_name = os.path.basename(link)with open(f'图片/{pic_name}','wb') as f:   # w : 写入 b : 二进制写入f.write(re.content)# 循环爬取的网页链接,将所有网页的 links 放入元组中
links = []
for url in urls:for link in craw_single_url(url):links.append(link)# 将所有的 link 图片下载下来
imgs_download(links)

1、获取数据

  • 该函数是获取该 url 链接下所有图片的链接
  • 函数返回值是:所有图片的链接
def craw_single_url(url):re = requests.get(url)          # 请求 urlre.encoding = 'gbk'             # gbk格式soup = BeautifulSoup(re.text,'html.parser')     # 创建一个 BeautifulSoup 对象,之后对其解析pics_links = soup.find_all('img')                       # 在soup 中找到 img 的链接links = []for link in pics_links:                                 # 循环每个链接if 'uploads' not in link['src']:                    # 判断是否正确的链接continuelinks.append(f'https://pic.netbian.com{link['src']}')   # 构建真正的图片链接return links

2、数据解析

  • 对获取到的图片 urls 进行解析
  • 循环 urls 下载图片到指定文件中
def imgs_download(links):                       # 下载图片函数for link in links:                          # 对传入图片链接进行循环re = requests.get(link)                 # 请求单个链接pic_name = os.path.basename(link)       # 获得图片的名字with open(f'图片/{pic_name}','wb') as f: # 打开 图片 文件夹进行写入 w : 写入 b : 二进制写入f.write(re.content)                 # 将图片保存到 图片 文件夹

3、进行调用

# 循环爬取的网页链接,将所有网页的 links 放入元组中
links = []              
for url in urls:                        # 循环每个页面for link in craw_single_url(url):   # 将每个页面得到的图片urls,放入 links列表   links.append(link)              # 放入 links列表   # 将所有的 link 图片下载下来
imgs_download(links)                    # 再调用 imgs_download 函数,对每张图片进行下载

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/884901.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何在 uniapp 中实现图形验证码

全篇大概2000 字(含代码),建议阅读时间10分钟。 什么是图形验证码? 图形验证码(也称为图片验证码或验证码图像)通常用于防止机器人自动提交表单,确保用户是人工操作。 一、需求 我们希望在一个…

机器学习—例子:图像识别

在上篇文章中,在一个需求预测示例中看到了神经网络是如何工作的,那么如何将类似类型的想法应用于计算机视觉应用程序。 如果你正在开发人脸识别应用程序,让我们深入研究一下。假设一个神经网络将这样的图片作为输入,并输出图片中…

别再被多线程搞晕了!一篇文章轻松搞懂 Linux 多线程同步!

前言 大家有没有遇到过,代码跑着跑着,线程突然抢资源抢疯了?其实,这都是“多线程同步”在作怪。多线程同步是个老生常谈的话题,可每次真正要处理时还是让人头疼。这篇文章,带你从头到尾掌握 Linux 的多线程…

华为OD机试真题-推荐多样性

题目描述 推荐多样性需要从多个列表中选择元素,一次性要返回N屏数据(窗口数量),每屏展示K个元素(窗口大小),选择策略: 各个列表元素需要做穿插处理,即先从第一个列表中为…

HTML、CSS 和 JavaScript 在网页设计方面的介绍

关于 HTML、CSS 和 JavaScript 在网页设计方面的介绍: HTML(超文本标记语言 - HyperText Markup Language) 结构基础:HTML 是网页内容的骨架。它通过一系列的标签来定义网页中的各种元素,比如 <html> 标签是整个页面的根标签,<head> 标签用于包含页面的元信…

对于用户密码的加密

这篇文章也是在做项目的时候使用到的内容&#xff0c;来做成一篇博客 &#xff08;一&#xff09;加密是什么&#xff1f; 我们在https中也说到了加密&#xff0c;因为https就是http加密后的产物&#xff0c;当时又说到了运营商劫持&#xff0c;然后引出加密&#xff0c;然后加…

Hive数据库操作语法

数据类型 内部表和外部表 内部表 &#xff08;CREATE TABLE table_name ......&#xff09;未被external关键字修饰的即是内部表&#xff0c; 即普通表。 内部表又称管理表,内部表数据存储的位置由hive.metastore.warehouse.dir参数决定&#xff08;默认&#xff1a;/user/h…

车载通信架构 --- PNC、UB与信号的关系

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 所有人的看法和评价都是暂时的,只有自己的经历是伴随一生的,几乎所有的担忧和畏惧,都是来源于自己的想象,只有你真的去做了,才会发现有多快乐。…

CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection论文解读和实验复现

背景 医学图像数据集的增长&#xff1a;随着公开的医学图像数据集数量的增加&#xff0c;自动化器官分割和肿瘤检测技术得到了显著发展。数据集的局限性&#xff1a;尽管数据集数量增加&#xff0c;但每个数据集通常规模较小&#xff0c;且存在部分标注问题。这意味着不是所有…

如何使用Varjo直接观看Blender内容

最近&#xff0c;开源的3D建模程序Blender为Varjo提供了出色的OpenXR支持&#xff0c;包括四视图和凹进渲染扩展。但是在Blender中&#xff0c;默认不启用VR场景检查。要开始使用VR场景检查&#xff0c;只需遵循以下步骤&#xff1a; 1. 下载并安装Blender 2.启用Blender VR场景…

Go 语言之搭建通用 Web 项目开发脚手架

Go 语言之搭建通用 Web 项目开发脚手架 MVC 模式 MVC 模式代表 Model-View-Controller&#xff08;模型-视图-控制器&#xff09; 模式。这种模式用于应用程序的分层开发。 Model&#xff08;模型&#xff09; - 模型代表一个存取数据的对象或 JAVA POJO。它也可以带有逻辑&…

Python爬虫基础-正则表达式!

前言 正则表达式是对字符串的一种逻辑公式&#xff0c;用事先定义好的一些特定字符、及这些特定字符的组合&#xff0c;组成一个“规则的字符串”&#xff0c;此字符串用来表示对字符串的一种“过滤”逻辑。正在在很多开发语言中都存在&#xff0c;而非python独有。对其知识点…

AI之硬件对比:据传英伟达Nvidia2025年将推出RTX 5090-32GB/RTX 5080-24GB、华为2025年推出910C/910D

AI之硬件对比&#xff1a;据传英伟达Nvidia2025年将推出RTX 5090-32GB/RTX 5080-24GB、华为2025年推出910C/910D 目录 Nvidia的显卡 Nvidia的5090/5080/4090/4080&#xff1a;据传传英伟达Nvidia RTX 5090后续推出32GB版且RTX 5080后续或推出24GB版 RTX 5090相较于RTX 4090&…

SRS:构建实时免费视频服务器的全方位指南

SRS&#xff08;Simple Realtime Server&#xff09;是一个开源的、基于MIT协议的实时视频服务器&#xff0c;以其简单、高效而著称。它支持多种流媒体协议&#xff0c;包括RTMP、WebRTC、HLS、HTTP-FLV、SRT、MPEG-DASH和GB28181等&#xff0c;使其成为直播和WebRTC领域的理想…

Day95 Docker

Docker的使用 1、Docker是什么 docker是一个用来管理镜像的容器 容器(container)&#xff1a;可以装东西 镜像( image )&#xff1a;所谓的镜像&#xff0c;你可以认为就是一个虚拟机 虚拟机&#xff1a;用软件代理硬件来模拟整个计算机的这样一套软件就成为 虚拟机 镜像说白了…

Imperva 数据库与安全解决方案

Imperva是网络安全解决方案的专业提供商&#xff0c;能够在云端和本地对业务关键数据和应用程序提供保护。公司成立于 2002 年&#xff0c;拥有稳定的发展和成功历史并于 2014 年实现产值1.64亿美元&#xff0c;公司的3700多位客户及300个合作伙伴分布于全球各地的90多个国家。…

搜维尔科技:【煤矿虚拟仿真】煤矿企业、高校、科研单位-多语言支持、数字孪生、交互式学习体验

品牌&#xff1a;SouVR 发票&#xff1a;支持专票、普票 单位&#xff1a;套 版本号&#xff1a;1.0 包装清单&#xff1a;软件1套 软件形式&#xff1a;U盘、光盘 运行环境&#xff1a;windows 应用对象&#xff1a;煤矿企业、高校、科研单位 系统配置&#xff1a;…

[C++]——哈希(附源码)

目录 ​编辑 ​编辑 一、前言 二、正文 2.1 unorder系列关联式容器 2.1.1 unordered_map 2.1.1.1 unorderer_map的介绍 ①unordered_map的构造 ②unordered_map的容量 ③unordered_map的迭代器 ④unordered_map的元素访问 ⑤unordered_map的查询 ⑥unordered_map的修改操…

Linux:防火墙和selinux对服务的影响

1-1selinux 1-1 SELinux是对程序、文件等权限设置依据的一个内核模块。由于启动网络服务的也是程序&#xff0c;因此刚好也 是能够控制网络服务能否访问系统资源的一道关卡。 1-2 SELinux是通过MAC的方式来控制管理进程&#xff0c;它控制的主体是进程&#xff0c;而目标则是…

qt QProgressBar详解

1、概述 QProgressBar是Qt框架中的一个控件&#xff0c;专门用于显示任务的进度。它提供了一个可视化的进度条&#xff0c;让用户能够直观地了解任务的完成程度。QProgressBar支持水平和垂直两种显示方向&#xff0c;并且可以通过设置最小值和最大值来指定进度条的范围。此外&…