一、相关网站
二、查看robots.txt
三、相关代码
import requests
from lxml import etree
import osheaders = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
}
#发送请求
list_url = 'https://yys.163.com/media/picture.html'
list_response = requests.get(url=list_url,headers=headers)
#获取所有壁纸的地址
result = etree.HTML(list_response.text)
# imags1 = result.xpath('//div[@class="tab-cont"]/div/div/img/@data-src')
#横版
imags1 =[url[:url.rindex('/')]+'/2732x2048.jpg' for url in result.xpath('//div[@class="tab-cont"][1]/div/div/img/@data-src')]
#竖版
# imags2 =[url[:url.rindex('/')]+'/2732x2048.jpg' for url in result.xpath('//div[@class="tab-cont"][2]/div/div/img/@data-src')]
# print(imags1)# url = 'https://yys.res.netease.com/pc/zt/20230421141009/data/picture/20240306/1/2732x2048.jpg'
# response = requests.get(url=url,headers=headers)# # print(response.content)
# with open('a.jpg','wb') as f:
# f.write(response.content)
if not os.path.exists('Diaphragm'):os.makedirs('Diaphragm')
if not os.path.exists('Vertical'):os.makedirs('Vertical')
for url1 in imags1:response = requests.get(url1,headers=headers)file_name = url1[url1.rindex('picture'):url1.rindex('/')].replace('/','_')+'.jpg'print('正在保存:'+ file_name +'壁纸')with open(f'Diaphragm/{file_name}','wb') as f:f.write(response.content)
# for url2 in imags2:
# response = requests.get(url2,headers=headers)
# file_name = url2[url2.rindex('picture'):url2.rindex('/')].replace('/','_')+'.jpg'
# print('正在保存:'+ file_name +'壁纸')
# with open(f'Vertical/{file_name}','wb') as f:
# f.write(response.content)
四、获取结果
版权声明和免责声明
本博客提供的所有爬虫代码和相关内容(以下简称“内容”)仅供参考和学习之用。任何使用或依赖这些内容的风险均由使用者自行承担。我(博客所有者)不对因使用这些内容而产生的任何直接或间接损失承担责任。
严禁将本博客提供的爬虫代码用于任何违法、不道德或侵犯第三方权益的活动。使用者应当遵守所有适用的法律法规,包括但不限于数据保护法、隐私权法和知识产权法。
如果您选择使用本博客的爬虫代码,您应当确保您的使用行为符合所有相关法律法规,并且不会损害任何人的合法权益。在任何情况下,我(博客所有者)均不对您的行为负责。
如果您对本声明有任何疑问,或者需要进一步的澄清,请通过我的联系方式与我联系。