src获取同级目录中的图片_一个简单的Python爬虫实例:百度贴吧页面下载图片

本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片。

1. 概述

本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片。下载图片的步骤如下:

获取网页html文本内容;

分析html中图片的html标签特征,用正则解析出所有的图片url链接列表;

根据图片的url链接列表将图片下载到本地文件夹中。

2. urllib+re实现

#!/usr/bin/python
# coding:utf-8
# 实现一个简单的爬虫,爬取百度贴吧图片
import urllib
import re# 根据url获取网页html内容
def getHtmlContent(url):page = urllib.urlopen(url)return page.read()# 从html中解析出所有jpg图片的url
# 百度贴吧html中jpg图片的url格式为:<img ... src="XXX.jpg" width=...>
def getJPGs(html):# 解析jpg图片url的正则jpgReg = re.compile(r'<img.+?src="(.+?.jpg)" width')  # 注:这里最后加一个'width'是为了提高匹配精确度# 解析出jpg的url列表jpgs = re.findall(jpgReg,html)return jpgs# 用图片url下载图片并保存成制定文件名
def downloadJPG(imgUrl,fileName):urllib.urlretrieve(imgUrl,fileName)# 批量下载图片,默认保存到当前目录下
def batchDownloadJPGs(imgUrls,path = './'):# 用于给图片命名count = 1for url in imgUrls:downloadJPG(url,''.join([path,'{0}.jpg'.format(count)]))count = count + 1# 封装:从百度贴吧网页下载图片
def download(url):html = getHtmlContent(url)jpgs = getJPGs(html)batchDownloadJPGs(jpgs)def main():url = 'http://tieba.baidu.com/p/2256306796'download(url)if __name__ == '__main__':main()

运行上面脚本,过几秒种之后完成下载,可以在当前目录下看到图片已经下载好了:

8e6aebb9c53015a84da1ed266412afc2.png

3. requests + re实现

下面用requests库实现下载,把getHtmlContent和downloadJPG函数都用requests重新实现。

#!/usr/bin/python
# coding:utf-8
# 实现一个简单的爬虫,爬取百度贴吧图片
import requests
import re# 根据url获取网页html内容
def getHtmlContent(url):page = requests.get(url)return page.text# 从html中解析出所有jpg图片的url
# 百度贴吧html中jpg图片的url格式为:<img ... src="XXX.jpg" width=...>
def getJPGs(html):# 解析jpg图片url的正则jpgReg = re.compile(r'<img.+?src="(.+?.jpg)" width')  # 注:这里最后加一个'width'是为了提高匹配精确度# 解析出jpg的url列表jpgs = re.findall(jpgReg,html)return jpgs# 用图片url下载图片并保存成制定文件名
def downloadJPG(imgUrl,fileName):# 可自动关闭请求和响应的模块from contextlib import closingwith closing(requests.get(imgUrl,stream = True)) as resp:with open(fileName,'wb') as f:for chunk in resp.iter_content(128):f.write(chunk)# 批量下载图片,默认保存到当前目录下
def batchDownloadJPGs(imgUrls,path = './'):# 用于给图片命名count = 1for url in imgUrls:downloadJPG(url,''.join([path,'{0}.jpg'.format(count)]))print '下载完成第{0}张图片'.format(count)count = count + 1# 封装:从百度贴吧网页下载图片
def download(url):html = getHtmlContent(url)jpgs = getJPGs(html)batchDownloadJPGs(jpgs)def main():url = 'http://tieba.baidu.com/p/2256306796'download(url)if __name__ == '__main__':main()

成长离不开与优秀的同伴共同交流,如果你需要好的学习环境,好的学习资源,这里欢迎每一位热爱Python的小伙伴,Python学习圈

输出:和前面一样。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/311131.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

十问十答 Apache 许可证

Apache 许可证由 Apache Software Foundation&#xff08;ASF&#xff09;发行&#xff0c;是一个由强大社区支持的流行的被广泛部署的许可证。Apache 许可证允许你自由地使用、修改和分发任何 Apache 许可的产品&#xff0c;前提是遵循 Apache 许可的条款。01Apache 许可证的条…

(一)基于企业现金流预测的投资决策-项目介绍

项目背景 某企业想提高现金流的利用率,以便产生更大的投资收益。遇到的问题是:何如在保证更多的资金流向高收益投资的同时,不出现资金短缺的问题。 确定可用于投资的金额 Step1 预测未来的收入、支出和余额 潜在逻辑: 现金流 = 收入 - 支出当月余额(资金存量)= 上月余…

应用程序使用统计信息 – .NET CORE(C#) WPF界面设计

本文首发地址&#xff1a;https://dotnet9.com/10546.html关键功能点抽屉式菜单圆形进度条Demo演示&#xff1a;1. 新建项目使用 VS 2019 的 .NET Core 3.1 WPF 项目模板&#xff0c;创建名为 “MobileAppUsageDashboardCore” 的项目&#xff0c;NuGet 引入 MaterialDesign 的…

iso qemu 安装ubuntu_基于libvirt 和QEMU在macOS安装Ubuntu

在流行的虚拟架构体系中&#xff0c;最重要的技术当然要数libvirt和QEMU了。包括Linux虚拟化技术中KVM和xen都使用了QEMU。关于Xen和KVM进行虚拟化&#xff0c;以及在Window下使用Vmware&#xff0c;VirtualBox和hyper-v构建虚拟机&#xff0c;可能大家都有过很多的尝试。今天我…

在Ocelot中使用自定义的中间件(一)

Ocelot是ASP.NET Core下的API网关的一种实现&#xff0c;在微服务架构领域发挥了非常重要的作用。本文不会从整个微服务架构的角度来介绍Ocelot&#xff0c;而是介绍一下最近在学习过程中遇到的一个问题&#xff0c;以及如何使用中间件&#xff08;Middleware&#xff09;来解决…

多队列 部分队列没有包_记一次TCP全队列溢出问题排查过程

简介&#xff1a;记一次TCP全队列溢出问题排查过程1. 前言本文排查的问题是经典的TCP队列溢出问题&#xff0c;因TCP队列问题在操作系统层面没有明显的指标异常&#xff0c;容易被忽略&#xff0c;故把排查过程分享给大家。2. 问题描述A服务调用B服务接口超时&#xff0c;B服务…

[蓝桥杯2015决赛]完美正方形-dfs

题目描述 如果一些边长互不相同的正方形&#xff0c;可以恰好拼出一个更大的正方形&#xff0c;则称其为完美正方形。 历史上&#xff0c;人们花了很久才找到了若干完美正方形。 比如&#xff1a;如下边长的22个正方形 2 3 4 6 7 8 12 13 14 15 16 17 18 21 22 23 24 26 27 28 …

销量预测设计

目录一、算法计算逻辑举个直观的例子销量预测二、项目背景三、算法与业务的关系四、关于业务人员对未来外部变量“打标签”&#xff1a;五、关于预测颗粒度&#xff1a;六、关于预测准确率和影响准确率的因素&#xff1a;一、算法计算逻辑 销量预测算法建模要用到的数据&#…

.NET Core开发实战(第23课:静态文件中间件:前后端分离开发合并部署骚操作)--学习笔记(下)...

23 | 静态文件中间件&#xff1a;前后端分离开发合并部署骚操作这里还有一个比较特殊的用法一般情况下&#xff0c;我们前后端分离的架构&#xff0c;前端会编译成一个 index.html 文件和若干个 CSS 文件和 JavaScript 和图片文件CSS 文件和 JavaScript 和图片文件一般会部署在…

springboot 历史版本文档_乘风破浪,SpringBoot入门

SpringBoot入门篇前言在普通的java项目中&#xff0c;大量的xml文件配置起来相当繁琐&#xff0c;导致了开发效率非常低下&#xff0c;整合第三方框架的配置可能会存在冲突问题导致部署效率低&#xff0c;打包方式是将项目打成一个war包放入到tomactwebapps目录下执行。简单来说…

简洁直观解释精确率、召回率、F1 值、ROC、AUC

混淆矩阵 当我们在做二分类预测时&#xff0c;把预测情况与实际情况的所有结果两两混合&#xff0c;结果就会出现以下4种情况&#xff0c;就组成了混淆矩阵。 P&#xff08;Positive&#xff09;&#xff1a;代表正样本N&#xff08;Negative&#xff09;&#xff1a;代表负样…

基于Tensorflow搭建卷积神经网络CNN(水果识别)保姆及级教程

项目介绍 TensorFlow2.X 搭建卷积神经网络&#xff08;CNN&#xff09;&#xff0c;实现水果识别。搭建的卷积神经网络是类似VGG的结构(卷积层与池化层反复堆叠&#xff0c;然后经过全连接层&#xff0c;最后用softmax映射为每个类别的概率&#xff0c;概率最大的即为识别结果…

如何编写高性能的C#代码(四)字符串的另类骚操作

原文来自互联网&#xff0c;由长沙DotNET技术社区编译。如译文侵犯您的署名权或版权&#xff0c;请联系小编&#xff0c;小编将在24小时内删除。作者介绍&#xff1a;史蒂夫戈登&#xff08;Steve Gordon&#xff09;是Microsoft MVP&#xff0c;Pluralsight的作者&#xff0c;…

statusbar 尺寸 显示图标_移动端页面设计规范尺寸大起底 - 椰树飘香

移动端尺寸繁多&#xff0c;包括IOS和安卓&#xff0c;尺寸多达十余种&#xff0c;所以移动页面尺寸的适配一直是前端和设计的头疼。今天来总结一下当前市场上的一些移动端尺寸&#xff0c;方便设计师和前端去考虑适配。但是最好还是针对自己的产品做调查&#xff0c;根据数据去…

新建项目上传gitee(码云)教程

登录码云 新建一个仓库后&#xff0c;复制HTTPS地址&#xff1a; 本地项目操作 打开需要上传gitee的项目文件夹&#xff0c;并打开Git Bash窗口 本地仓库初始化&#xff1a; git init添加到暂存区 git add .提交到本地仓库 git commit -m "first commit"关联到…

OpenSilver: 通过WebAssembly 复活Silverlight

本月早些时候&#xff0c;Userware发布了第一个版本的OpenSilver&#xff0c;微软Silverlight 的开源重新实现。OpenSilver 通过WebAssembly 实现无需任何其他插件在 浏览器上运行。OpenSilver 的当前版本可作为"技术预览"版本提供&#xff0c;它涵盖了大约 60% 的原…

db2有主键时默认hash分区_MySQL分区表最佳实践

前言&#xff1a;分区是一种表的设计模式&#xff0c;通俗地讲表分区是将一大表&#xff0c;根据条件分割成若干个小表。但是对于应用程序来讲&#xff0c;分区的表和没有分区的表是一样的。换句话来讲&#xff0c;分区对于应用是透明的&#xff0c;只是数据库对于数据的重新整…

程序员过关斩将-- 喷一喷坑爹的面向UI编程

点击上方“蓝字”关注我们菜菜哥&#xff0c;求你个事呗&#xff1f;说来听听&#xff0c;假装你男朋友可不干不是哦&#xff0c;是正经事。前几天一个项目UI改了&#xff0c;好多人跟着加班修改&#xff0c;怎么样尽量避免这种情况呢&#xff1f;UI修改顶多和客户端开发人员关…

python二维散点分布图_深入理解皮尔逊相关系数amp;python代码

1.常见理解误区&#xff08;1&#xff09;计算出变量A和变量B的皮尔逊相关系数为0&#xff0c;不代表A和B之间没有相关性&#xff0c;只能说明A和B之间不存在线性相关关系。例&#xff1a;温度和冰淇淋销量之间的散点图像如下&#xff0c;可以发现大致成二次函数图像&#xff0…

hdu4911 Inversion-归并排序

解题思路&#xff1a; 如果原序列的逆序对数大于交换次数&#xff0c;那么最少的逆序对数量就是原序列逆序对-交换次数。 如果原序列的逆序对数小于等于交换次数&#xff0c;那么最少的逆序对数量为0&#xff0c;因为交换次数超过逆序对数&#xff0c;可以把这些逆序对全部消除…