爬虫项目(四)---采集从01月22日以来全国各省疫情数据

采集从03月02日以来全国各省疫情数据

当然，数据来源仍然是丁香园新型冠状病毒肺炎疫情实时动态首页
url：https://ncov.dxy.cn/ncovh5/view/pneumonia

分析

确定01月22日以来全国各省疫情数据的URL
由项目(三)可以获取全国各省疫情数据点击可下载：https://file1.dxycdn.com/2020/0223/331/3398299755968040033-135.json
在这里插入图片描述

思路

1，采集从01月23日以来全国各省疫情数据

加载最近一日全国疫情信息
遍历最近一日全国疫情信息，获取各省疫情URL
发送请求，获取各省疫情json字符串
解析各省疫情json字符串，并添加到列表中
以json格式保存疫情信息

2，代码重构

抽取重复的代码到新方法中，提高代码复用

import requests
import re
import json
from bs4 import BeautifulSoup
from tqdm import tqdm#进度条class CoronaSpider(object):def __init__(self):self.home_url = 'https://ncov.dxy.cn/ncovh5/view/pneumonia'def get_content_from_url(self,url):#根据URL获取响应内容的字符串数据#URL：请求的URL#返回：响应内容的字符串response = requests.get(url)return response.content.decode()def parse_home_page(self,home_page,tag_id): #解析首页内容，获取解析后的Python数据#home_page：首页内容#返回：解析后的Python类型数据#2，从疫情首页提取最近一日各国疫情数据soup = BeautifulSoup(home_page,'lxml')script = soup.find(id=tag_id)text = script.text#print(text)#3，从疫情数据中获取json格式的字符串json_str = re.findall(r'\[.+\]',text)[0]#由于中括号是个特殊的字符，需要在前面加个转义符；最后的结果会存在列表中，故使用[0]来获取完整json格式#print(json_str)#4，把json格式的字符串转换为Python类型data = json.loads(json_str)#print(last_day_nature_num)return datadef parse_corona_virus(self,last_day_corona_virus_of_china,desc):#定义列表，用于存储各国从1月23号以来的疫情数据corona_virus = []#2，遍历各国疫情数据，获取从01月22号以来的世界各国疫情的URLfor country in tqdm(last_day_corona_virus_of_china,desc):#发送请求，获取各省疫情json字符串statustics_data_url = country['statisticsData']statustics_data_json_str = self.get_content_from_url(statustics_data_url)#4，解析各省疫情json字符串，并添加到列表中statustics_data = json.loads(statustics_data_json_str)['data']#print(statustics_data)for one_day in statustics_data:#statustics_data这个数据里面没有国家的一些信息，需要补充上去one_day['provinceName'] = country['provinceName']if country.get('countryShortCode'):one_day['countryShortCode'] = country['countryShortCode']#print(statustics_data)corona_virus.extend(statustics_data)#把每个国家的疫情信息statustics_data，都添加到一个大的corona_virus列表里面#print(corona_virus)return corona_virusdef load(self,path):#根据路径加载数据with open(path) as fp:#'E:\Jupyter_workspace\study\python\爬虫\craw_last_day_corona_virus_of_china.json'data = json.load(fp)return datadef save(self,data,path):#5，以json格式保存最近一日各国疫情数据with open(path,'w') as fp:json.dump(data,fp)#,ensure_ascii=Falsec'''def save(self,data):#5，以json格式保存最近一日各国疫情数据with open('yy1.json','w') as fp:json.dump(data,fp)#,ensure_ascii=False'''def crawl_last_day_corona_virus(self):#采集最近一天各国疫情信息#1，发送请求，获取首页内容home_page = self.get_content_from_url(self.home_url)#2，解析首页内容，获取最近一天的各国疫情数据last_data_corona_virus = self.parse_home_page(home_page,tag_id='getListByCountryTypeService2true')#3，保存数据self.save(last_data_corona_virus,'E:\Jupyter_workspace\study\python\爬虫\last_day_nature_num111.json')def crawl_corona_virus(self):#采集从01月23号以来的世界各国疫情数据#1，加载最近一日各国疫情数据#with open('yy1.json') as fp:last_day_corona_virus = self.load('E:\Jupyter_workspace\study\python\爬虫\last_day_nature_num.json')#print(last_day_corona_virus)#定义列表，用于存储各国从1月23号以来的疫情数据corona_virus = self.parse_corona_virus(last_day_corona_virus,desc='获取从01月23号以来的世界各国疫情信息')'''corona_virus = []#2，遍历各国疫情数据，获取从01月23号以来的世界各国疫情的URLfor country in tqdm(last_day_corona_virus,''):statustics_data_url = country['statisticsData']#3，发送请求，获取从01月23号以来的世界各国疫情的json字符串statustics_data_json_str = self.get_content_from_url(statustics_data_url)#4，解析各个国家疫情的json字符串，转化为Python类型数据，添加到列表中statustics_data = json.loads(statustics_data_json_str)['data']#print(statustics_data)for one_day in statustics_data:#statustics_data这个数据里面没有国家的一些信息，需要补充上去one_day['provinceName'] = country['provinceName']one_day['countryShortCode'] = country['countryShortCode']#print(statustics_data)corona_virus.extend(statustics_data)#把每个国家的疫情信息statustics_data，都添加到一个大的corona_virus列表里面'''#5，将该列表以json格式保存从01月23号以来的世界各国疫情数据信息self.save(corona_virus,'E:\Jupyter_workspace\study\python\爬虫\corona_virus.json')def craw_last_day_corona_virus_of_china(self):#采集最近一日国内各省疫情数据#1，发送请求，获取疫情首页信息home_page = self.get_content_from_url(self.home_url)craw_last_day_corona_virus_of_china = self.parse_home_page(home_page,tag_id='getAreaStat')'''#2，解析疫情首页信息，获取最近一日各省疫情数据soup = BeautifulSoup(home_page,'lxml')script = soup.find(id='getAreaStat')text = script.text#print(text)#从疫情数据中获取json格式的字符串json_str = re.findall(r'\[.+\]',text)[0]#由于中括号是个特殊的字符，需要在前面加个转义符；最后的结果会存在列表中，故使用[0]来获取完整json格式#print(json_str)#把json格式的字符串转换为Python类型data = json.loads(json_str)#print(last_day_nature_num)'''#3，保存疫情数据self.save(craw_last_day_corona_virus_of_china,'E:\Jupyter_workspace\study\python\爬虫\craw_last_day_corona_virus_of_china.json')def crawl_corona_virus_of_china(self):#采集从01月22日以来的全国各省的疫情数据#加载最近一日全国疫情信息#with open('E:\Jupyter_workspace\study\python\爬虫\craw_last_day_corona_virus_of_china.json') as fp:last_day_corona_virus_of_china = self.load('E:\Jupyter_workspace\study\python\爬虫\craw_last_day_corona_virus_of_china.json')#遍历最近一日全国疫情信息，获取各省疫情URLcorona_virus = self.parse_corona_virus(last_day_corona_virus_of_china,'采集01月22号以来各省疫情信息')#以json格式保存疫情信息self.save(corona_virus,'E:\Jupyter_workspace\study\python\爬虫\last_day_corona_virus_of_china.json')def run(self):#self.crawl_last_day_corona_virus()self.crawl_corona_virus()#self.craw_last_day_corona_virus_of_china()self.crawl_corona_virus_of_china()if  __name__ == '__main__':spider = CoronaSpider()spider.run()

在这里插入图片描述

由前面的四个爬虫项目可以得出总结：
1，每个爬虫任务都是由发送请求，获取响应，解析数据，保存数据三部分组成
2，发送请求，获取响应的代码和保存数据的代码可以提取出来，提高代码的复用性和可维护性
3，如果访问的是相似的结构网页，解析数据代码也可以进行提取出来，提高代码的复用性和可维护性
4，每一个功能封装成一个方法，方便扩展和维护

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/378185.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！