python数据分析,爬取某东商城商品评论数据并做词云展示。
一、明确爬取的网页及结构
找到要爬取的网页地址,发现有一个获取json格式评论数据的接口:
url = "https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=21738292624&score=0&sortType=5&page={pno}&pageSize=10&isShadowSku=0&rid=0&fold=1"
分析其中的结构,可以知道,其中的productId就是商品的ID,如果要爬取某个商品的评论数据,只需要更换这个值即可。可以直接把这个url复制到浏览器中访问,可以看到确实有数据:
其中的page就是页码,如果评论有多页,就需要改变这个值从而实现多页的爬取。
二、明确获取到的数据结构
我们看到返回的数据是json格式的,所以直接解析json即可,前提就是需要解读json中的每一项代表的意义,这样才知道评论人、评论的内容分别在json中的哪个位置。直接返回的json格式不太直观,可以搜索一些在线解析json的网站,把返回的json复制进去,这些网