一、获取网页源码
二、数据解析,得到图片的地址、部分文字作为文件名
三、返回图片的二进制字节码
四、保存图片文件到本地
import requests
from lxml import etree
import os
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
}
if __name__ == "__main__":
# 获取页面源码
url = '网址url'
response = requests.get(url=url, headers=headers)
#手动设定响应数据的编码格式
response.encoding = 'utf-8'
page_text = response.text
# 数据解析
tree = etree.HTML(page_text)
#获取图片的地址
li_list = tree.xpath('//*[@id="UCAP-CONTENT"]/p[2]/img/@src')[0]
img_src = '网址url'+li_list
#取标题作为文件名
title = tree.xpath('//*[@id="UCAP-CONTENT"]/p[1]/span/span[1]/text()')[0]
#返回二进制数据
img_data = requests.get(url=img_src, headers=headers).content
#创建文件夹
if not os.path.exists('./piclibs'):
os.mkdir('./piclibs')
#保存的路径,含文件名
img_path = './piclibs/'+title+'.jpg'
#保存图片文件
with open(img_path, 'wb') as f:
f.write(img_data)
print('保存完毕')