首先查看当当网好评书单页面,找到翻页的URL参数
直接用requests请求页面
resp = requests.get(url)
找到想要的信息,使用正则表达式把这些信息提取出来
pattern=re.compile('list_num.*?(\d+).<.*?<img src="(.*?)".*?title="(.*?)".*?tuijian">(.*?)</span>.*?title="(.*?)".*?<span>(\d{4}-\d{2}-\d{2}).*?(\d+)次.*?price_n">¥(.*?)</span>.*?price_r">¥(.*?)</span>',re.S)
items = re.findall(pattern,html)
打印出来看看是否提取到
把信息保存下来就可以了
完整代码如下