网易云歌曲评论爬取
- 步骤
- 1.找到一首歌曲
- 2.按下F12键打开开发者模式,对其进行抓包
- 3.查找获得评论数据的接口
- 4.对获得评论数据接口进行分析
- 5.构建加密函数
- 方法一
- 方法二
- 运行结果
- 全部代码
- 使用Js文件
- 只使用python
- 新的代码
- 小结与展望
这次的任务是获取网易云音乐下面的评论,涉及的知识比上次更多,包括Js逆向的知识。
使用的python包:
execjs(运行Js文件,通过pip install PyExecJS安装)
requests(发起请求)
json(json数据转换)
步骤
https://music.163.com/#
1.找到一首歌曲
https://music.163.com/#/song?id=404465743
2.按下F12键打开开发者模式,对其进行抓包
刷新网页进行抓包,结果如下:
3.查找获得评论数据的接口
方法一
点击这些接口,然后点击预览,预览里面是接口的返回数据,我们看下是否有评论数据。
方法二
在搜索栏搜索评论信息,找到接口,这个比上面一个一个接口分析要快。但注意如果页面加密了就不行了。
由此我们得到网易云评论数据的接口是:
https://music.163.com/weapi/comment/resource/comments/get?csrf_token=
这里csrf_token是登录后才会有信息的。
4.对获得评论数据接口进行分析
(1)点击负载,可以看到接口的参数是进行了加密的,那我们需要找到它是如何进行加密的。
(2)为了找到加密过程,我们点击发起程序部分。
这是一个调用堆栈,它的执行顺序是从下往上执行。
(3)我们点击第一个程序,也是最后才执行的,出现如下结果:
这里的send函数是发送信息给服务器的作用,我们需要的加密数据也通过这个函数发送,我们对它进行进一步分析。
(4)给send函数位置打一个断点,找到目标接口调用这个函数的位置。
https://music.163.com/weapi/comment/resource/comments/get?csrf_token=
如下图所示,我们需要的是url应该是get?csrf_token=,而不是下图所示的内容。
继续进行debug,直到看到我们需要的接口。
(5)对目标接口位置进行分析。
通过该函数后参数被加密了,我们需要找到它没加密前是在哪个位置。
第(4)步调试结束的位置,下面有一个调用堆栈,就是该接口调用的一些文件,也是从下往上依次执行,我们对其进行分析,找到没有加密的数据最后存在的地方。
我们从上往下依次寻找,最后找到这个位置,点击该堆栈:
因此数据的形式为:
{"rid": "R_SO_4_404465743","threadId": "R_SO_4_404465743","pageNo": "1","pageSize": "20","cursor": "-1","offset": "0","orderType": "1","csrf_token": ""
}
(6)找到数据后,分析它是如何进行加密的。
打开第(5)步找到的文件并打上断点,如图所示:
然后刷新界面进行调试,注意接口需要是get才行:
然后继续运行后面的语句,发现数据加密了。
由此我们基本可以得到加密的语句为:
var bKL0x = window.asrsea(JSON.stringify(i1x), bvj1x([“流泪”, “强”]), bvj1x(Rj3x.md), bvj1x([“爱心”, “女孩”, “惊恐”, “大笑”]));
那我们之后需要做的就是实现跟这个函数类似的功能。
5.构建加密函数
找到第4步的window.asrsea函数,通过在文件里面按下Ctrl+F键,然后进行搜索。
由此可以得到加密函数的整体框架
!function() {function a(a) {var d, e, b = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789", c = "";for (d = 0; a > d; d += 1)e = Math.random() * b.length,e = Math.floor(e),c += b.charAt(e);return c}function b(a, b) {var c = CryptoJS.enc.Utf8.parse(b), d = CryptoJS.enc.Utf8.parse("0102030405060708"), e = CryptoJS.enc.Utf8.parse(a), f = CryptoJS.AES.encrypt(e, c, {iv: d,mode: CryptoJS.mode.CBC});return f.toString()}function c(a, b, c) {var d, e;return setMaxDigits(131),d = new RSAKeyPair(b,"",c),e = encryptedString(d, a)}function d(d, e, f, g) {var h = {}, i = a(16);return h.encText = b(d, g),h.encText = b(h.encText, i),h.encSecKey = c(i, e, f),h}function e(a, b, d, e) {var f = {};return f.encText = c(a + e, b, d),f}window.asrsea = d,window.ecnonasr = e
}();
对于上述加密函数的实现,有两种方式:
使用js实现,通过该文件中的函数实现加密功能,遇到缺少的函数继续在该文件中查找。补齐后通过python的库函数调用js文件实现加密功能。
使用python实现,通过分析加密函数的逻辑,实现相同的功能。
在说明下面内容之前,先看下d函数ÿ