【Python爬虫】下载微信公众号图片

大家用爬虫下载图片时肯定遇到过https://demo?wx_fmt=jpeg链接的图片,常见的就是微信公众号的图片。
遇到链接图片用普通的方式是无法爬取下来的,我们可以用urllib.request进行简单爬取,具体源码如下:

# 2018年10月07日 13点30分
# 作者:cacho_37967865
# 爬虫:抓取微信公众号图片
# 示例网址:https://mp.weixin.qq.com/s/2Bi__FPfSMSli0pw6GtSAQfrom re import findall
from urllib.request import urlopen
import osurl = 'https://mp.weixin.qq.com/s/2Bi__FPfSMSli0pw6GtSAQ'
image_path = './Wechatimg'
os.chdir(image_path)# bytes->str:decode 解码
with urlopen(url) as fp:content = fp.read().decode()   # 需要进行解码成字符串
print(content)                     # 得到的是默认的utf-8格式字符串pattern = 'data-type="jpeg" data-src="(.+?)"'
result = findall(pattern, content)
print(result)                      # 得到的是一个列表for index, item in enumerate(result,1):data = urlopen(str(item)).read()print('开始下载第' + str(index) +'张图片:'+ str(item))f = open(str(index) + '.jpg', "wb")f.write(data)f.close()

从源码中可以看到两个特殊的函数decode()和enumerate()
1. decode()方法使用编码注册的编解码器解码该字符串。它默认是使用系统默认的字符串编码。
str->bytes:encode 编码
bytes->str:decode 解码
bytes.decode(encoding="utf-8", errors="strict")
str.encode(encoding="utf-8", errors="strict")
编码就是将字符串转换成字节码,涉及到字符串的内部表示。
解码就是将字节码转换为字符串,将比特位显示成字符。

2. enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中。
用法
enumerate(sequence, [start=0])
参数
sequence -- 一个序列、迭代器或其他支持迭代对象。
start -- 下标起始位置,默认没有时以0开始

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/568620.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于Django中的数据库操作API之distinct去重的一个误传

django提供的数据库操作API中的distinct()函数,了解SQL语句的读者都应该知道,DISTINCT关键字可以在select操作时去重。django里的这个distinct()函数也是这个功能,通常的用法是我们要取出一张表中的某一列的所有值,并且只取出不重…

【工具】Jupyter Notebook介绍

在数据分析的道路上,你一定曾有过为新发现而激动不已的时刻,此时你急于将自己的发现告诉大家,却遇到了这样的问题:如何将我的分析过程清晰地表述出来呢? 为了能与同行们有效沟通,你需要重现整个分析过程&am…

Django模板之显示QuerySet内容,字典中内容

camera和idproject都为QuerySet,如下图为验证 camera内容显示方法为: 可以看出idproject中迭代为dict类型。HTML中读写形式为: 显示结果: 参考自 https://blog.csdn.net/gaoxiaoba/article/details/52469614

Python操作文件和目录

读写文件比较简单,有一点特别注意就好了 windows下Python默认打开的文件以gbk解码,而一般我们的文件是utf-8编码的,所以如果文本含有中文,就会出现异常或者乱码。此时手动添加encodingutf-8表示以utf-8的方式打开。 当然Python写…

Docker高效管理指南:一键清理、停止与删除所有容器和镜像

前言 在当今Java开发的日常工作中,Docker已经成为一项不可或缺的技术。它不仅提供了便捷的开发和部署方式,还为项目的可移植性和可伸缩性带来了新的可能性。我们熟悉了一些基本的Docker命令,如启动、关闭、删除容器以及删除镜像,…

【Python】提升Python程序性能的好习惯

掌握一些技巧,可尽量提高Python程序性能,也可以避免不必要的资源浪费。 追求性能极限是一个有趣的游戏, 而过度优化就会变成嘲弄了。虽然Python授予你与C接口无缝集成的能力, 你必须问自己你花数小时的艰辛优化工作用户是否买帐. 另一方面, 牺牲代码的可…

【Python】这些Python骚操作,你值得拥有

Python 我用的比较多一点,对一些小玩意有些许了解。我不大清楚骚操作怎么定义,只好说说我觉得 Python 和其它语言(比如 C 和 JAVA 等)设定比较奇特的地方。 看了后,说不定你马上就有玩一玩 Python 的冲动了。 0x00 世…

Python的os.walk()方法详细讲解

我们可以看到,返回的是一个元组,元祖每一个元素即上面一行的内容,所以用for去遍历它。 然后对应的将这行的第一列的内容给root 第二列 给dirs 第三列 给files 元组每一个元素就是遍历一棵树(包括子树) 根的孩子(注意 不…

【批处理】windows环境将文件隐藏到图片中

有时候有些敏感的文件不希望别人知道,我们有很多方法,今天我们介绍的方法是将文件隐藏到图片中去。方法如下: 1. 先将要隐藏的文件压缩到一个rar文件放在一个目录,比如:视频.rar 2. 在同一目录下放置一张图片IMG_4337.…

Python 解决 :NameError: name 'reload' is not defined 问题

Python 解决 &#xff1a;NameError: name reload is not defined 问题 解决&#xff1a;NameError: name reload is not defined 问题 对于 Python 2.X&#xff1a; import sys reload(sys) sys.setdefaultencoding("utf-8") 123对于 < Python 3.3&#xff1…

【批处理】windows环境将文件放置在虚拟盘

上一个文章我们说了如何将敏感文件隐藏到图片中&#xff0c;那个其实还是有点麻烦&#xff0c;要的时候需要改文件后缀名&#xff0c;而且通过文件的大小可以看出图片可疑。 上一文章链接&#xff1a;https://blog.csdn.net/sinat_37967865/article/details/83047245 今天我们…

No module named 'crispy_forms'等使用pycharm开发

我在最近的django开发过程中遇到一些问题&#xff0c;就是我在github上下载xadmin源码包之后&#xff0c;然后setings之中也进行了配置&#xff0c;出现了如下问题 但是我按照报错的信息觉得应该时这个模块没有安装&#xff0c;所以我使用pip进行安装然后又报错了&#xff0c;…

【Word】一些实用的小技巧

目录&#xff1a; 一、快速输入上下标文字 二、快速输入方框√ 三、竖向删除每行相同文字 一、【Word】快速输入上下标文字 有时候在用word处理文本时&#xff0c;不免要用一些上下标文字&#xff0c;比如算数用的平方立方&#xff0c;化学方程式 CH42O2 点燃 CO22H2O a2 b2…

python 安装echarts

python 安装echarts&#xff1a; python -m pip install pyecharts -i https://pypi.doubanio.com/simple

【Excel】设置自定义单元格格式

我们知道Excel中设置单元格格式时可以通过自定义方式设置格式&#xff0c;但是具体如何使用一般人都不是很清楚&#xff0c;其实自定义功能非常强大。本文主要介绍一下自定义单元格格式的小技巧&#xff0c;主要流程&#xff1a; 1.选中要设置单元格格式的单元格&#xff0c;通…

pycharm可视化数据库

注意&#xff1a;pycharm社区版本身没有database 网上教程都是直接打开右上角的database&#xff0c;但是我死活也没找到&#xff0c;后来发现应该是因为社区版的问题&#xff0c;需要自己安装&#xff0c;详细步骤如下图。 1.打开File—》Settings—-》Plugins搜索database&a…

【Python】logging内置模块基本使用

logging模块是Python内置的标准模块&#xff0c;主要用于输出运行日志&#xff0c;可以设置输出日志的等级、日志保存路径、日志文件回滚等。 print也可以输入日志&#xff0c;logging相对print来说更好控制输出在哪个地方&#xff0c;怎么输出及控制消息级别来过滤掉那些不需要…

Django实现省市县级联菜单

1、创建工程mymenu和项目menu。 2、改变mymenu中setting.py的DIRS&#xff0c;STATICFILES_DIRS DIRS: [BASE_DIR "/templates"], #后面若无数据&#xff0c;不可以加逗号 STATICFILES_DIRS (os.path.join(BASE_DIR,static), ) 3、在menu中建立views.py和mode…

【Python】字典dict类型转换为列表list类型

我们有时候用chrome浏览器获取Network中XHR的数据&#xff0c;得到的是Json类型&#xff0c;有时也可能是python中的字典类型&#xff0c;如果获取的数据比较复杂&#xff0c;通过简单的处理我们是无法拿到我们需要的数据的&#xff0c;这时我们就需要对数据进行转换处理&#…

【Python】xlwt和xlrd模块写入和读取.xls版本EXCEL

我们经常与EXCEL打交道&#xff0c;其实我们可以使用python的相应模块去处理EXCEL文件。2003以前的表格以.xls后缀&#xff0c;用xlwt来写表格&#xff0c;用xlrd来读取表格&#xff1b;搭配xlutils修改表格。2007的表格以.xlsx后缀&#xff0c;用openpyxl来读写表格。 以下是…