搜狗微信文章数据爬取可视化
- 一、爬取流程
- 1.1 寻找数据接口
- 1.2 发送请求获取数据
- 1.3 xpath表达式解析数据
- 1.4 保存数据
- 二、数据可视化
- 三、完整代码
一、爬取流程
搜狗微信的主页:https://weixin.sogou.com/,主页截图如下,在搜索框中输入要查询的内容,以“百合花”为例:
观察页面,我们需要的数据有文章标题、发布人、发布时间和简要内容四项。
1.1 寻找数据接口
按下F12召唤出浏览器开发者工具,刷新页面抓包,在network选项卡下找到第一个html文档类型的包,查看该数据包的Response,发现所需数据都在这个包中,请求头信息在Headers中。
1.2 发送请求获取数据
找到数据接口之后,使用requests库发送请求,携带请求头,请求头中的参数包括User-Agent,Referer,最好带上cookie。向目标网址发送get请求,此例中的url为:https://weixin.sogou.com/weixin?query=%E7%99%BE%E5%90%88%E8%8A%B1&sug_type=&s_from=input&sug=y&type=2&page=2&ie=utf8。注意,如果页面停留在第一页的话,抓到的数据包url会和本人提供的不一样,要将页面放到第二页之后抓包。翻页观察,只有page参数发生了变化,找到规律之后我们便可以更改page