标签:
使用python爬虫爬取网易云音乐
需要使用的模块
只需要requests模块和os模块即可
开始工作
先去网易云音乐网页版找一下你想要听的歌曲点击进去。按键盘F12打开网页调试工具,点击Network就可以查看网络请求的相关信息,选择XHR,然后可以看到一个.mp3结尾的请求:
直觉告诉我,这个.mp3就是这首歌曲,点击请求,可以看到在General栏下面有Request URL,这个url就是这个歌曲的原始套接字所在的地方了,可以打开这个URL看看。
可以看到,这个网页很明显就是一个播放器的样子,再按F12看看这个界面的Network(什么东西都没有的话按F5刷新一下),这个界面点击All才可以看到一个.mp3结尾的文件,对比一下它的General中的Request URL和这个网站的URL,其实是一样的:
那么,这就算是正是找到了这个歌曲的url,现在要做的就是将这个url原始套接字从服务器上下载下来,代码,起:
import requests
import os
headers={
"Accept": "*/*",
"Accept-Encoding": "identity;q=1, *;q=0",
"Accept-Language": "zh-CN,zh;q=0.9",
"Connection": "keep-alive",
"Host": "m10.music.126.net",
"Range": "bytes=0-",
"Referer": "https://m10.music.126.net/20181127170556/ff68375e7e70bb7dcda8fcc6a572951b/ymusic/c7bc/455e/612c/0d891c5408be6d0af16c7fa64945de75.mp3",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"
}
def download_musics(dir_,arcurl,filename):
os.mkdir(os.path.join(dir_,filename))
print("正在下载%s" %filename)
size=0
session=requests.Session()
response=session.get(arcurl,headers=headers,stream=True)
chunk_size=1025*400
content_size=int(response.headers['content-length'])
filepath=os.path.join(dir_,filename,filename+'.mp3')
print(content_size)
if response.status_code==206:
with open(filepath,'wb') as file:
for data in response.iter_content(chunk_size=chunk_size):
file.write(data)
size+=len(data)
file.flush()
print('下载进度:%.2f%%\n'%(float(size/content_size*100)))
if size/content_size==1:
print("complete download")
else:
print("连接异常")
if __name__=="__main__":
dir_="E:\python小爬虫\download_music"
#这个网址会不停的变化,旧网址会失效
arcurl="https://m10.music.126.net/20181127181327/8a4190b05a43e70fb543ad1b824a21a4/ymusic/c7bc/455e/612c/0d891c5408be6d0af16c7fa64945de75.mp3"
filename="popstar"
download_musics(dir_,arcurl,filename)
这里需要注意几点:
1、headers的值必须从后面打开的那个网页上的Network找,要么会导致请求的信息不完整。
2、每首歌曲的url是不同的,而且,随着时间的变化,同一首歌曲的url也会发生改变。所以在下载之前一定要再去看一次当前的url是什么。
运行结果
标签:
来源: https://blog.csdn.net/qq_41427568/article/details/84570302