基于Spark的气象数据处理与分析

文章目录

  • 一、实验环境
  • 二、实验数据介绍
  • 三、数据获取
    • 1.观察数据获取方式
    • 2.数据爬取
    • 3.数据存储
    • 4.数据读取
    • 5.数据结构
    • 6.爬虫过程截图
  • 四、数据分析
    • 1.计算各个城市过去24小时累积雨量
    • 2.计算各个城市当日平均气温
    • 3.计算各个城市当日平均湿度
    • 4.计算各个城市当日平均风速
  • 五、数据可视化
  • 六、数据以及源代码
    • 1.爬取的数据截图:
    • 2.爬虫代码
    • 3.Spark分析代码:

本实验采用Python语言,从网页爬取气象数据,并使用大数据处理框架Spark对气象数据进行处理分析,并对分析结果进行可视化。

一、实验环境

(1)Linux: Ubuntu 20.04
(2)Python: 3.6
(3)Spark: 3.2.0
(4)pycharm
安装完上述环境以后,为了支持Python可视化分析,还需要执行如下命令安装新的组件:

二、实验数据介绍

本次实验所采用的数据,从中央气象台官方网站(网址:http://www.nmc.cn/)爬取,主要是最近24小时各个城市的天气数据,包括时间点(整点)、整点气温、整点降水量、风力、整点气压、相对湿度等。正常情况下,每个城市会对应24条数据(每个整点一条)。数据规模达到2429个城市,58297条数据,有部分城市部分时间点数据存在缺失或异常。限于本次大作业时间有限,没有办法全面分析这些数据,大作业中主要计算分析了各个城市过去24小时的平均气温和降水量情况。
在这里插入图片描述
图 1 中央气象台官网
在这里插入图片描述
图 2 爬取的表格passed_weather_ALL.csv信息

三、数据获取

1.观察数据获取方式

打开中央气象台官方网站(网址:http://www.nmc.cn/),任意点击左侧栏“热点城市”中的一个城市。打开火狐(Firefox)浏览器或者谷歌(chrome)浏览器的Web控制台。通过切换“省份”和“城市”,我们可以发现,网页中的数据是以json字符串格式异步地从服务器传送。可以发现以下数据和请求URL的关系。
在这里插入图片描述

请求URL 传回数据
http://www.nmc.cn/f/rest/province 省份数据
在这里插入图片描述

http://www.nmc.cn/f/rest/province/+省份三位编码 某个省份的城市数据
在这里插入图片描述

http://www.nmc.cn/f/rest/passed/+城市编号 某个城市最近24小时整点天气数据
在这里插入图片描述

由于省份三位编码(如福建省编码为“ABJ”)需要从省份数据获得中获得,城市编号需要从城市数据获得(如福州市编号为“58847”),所以为了获得各个城市最近24小时整点天气数据,依次爬取省份数据、城市数据、最近24小时整点数据。

2.数据爬取

由于可以直接通过访问请求URL,传回的响应的数据部分即是json格式的数据,所以只需要调用python的urllib.request, urllib.error, urllib.parse库中相关函数,对上述URL进行请求即可。不需要像平常爬取HTML网页时还需要对网页源码进行解析,查找相关数据。唯一需要注意的是,有些城市可能不存在或者全部缺失最近24小时整点数据,需要进行过滤,以免出错。

3.数据存储

虽然上一步获取的json数据可以直接存储并可使用SparkSession直接读取,但是为了方便观察数据结构、辨识异常数据、对数据增加部分提示信息,爬取后的数据进行了一些处理之后,保存成了csv格式,包括省份数据(province.csv)、城市数据(city.csv)、各个城市最近24小时整点天气数据(passed_weather_ALL.csv)。由于所有城市过去24小时整点天气数据数量太多,为了避免内存不足,每爬取50个城市的数据后,就会进行一次保存。

4.数据读取

因为各个城市最近24小时整点天气数据体量较大,每次爬取需要半小时以上,为了提高实验效率,只会进行一次数据爬取。此后会直接读取第一次实验数据。如果需要重新爬取数据,需要手动删除已有数据,即删除input文件夹下province.csv、city.csv、passed_weather_ALL.csv。

5.数据结构

最后保存的各个城市最近24小时整点天气数据(passed_weather_ALL.csv)每条数据各字段含义如下所示,这里仅列出实验中使用部分。
字段 含义
province 城市所在省份(中文)
city_index 城市序号(计数)
city_name 城市名称(中文)
city_code 城市编号
time 时间点(整点)
temperature 气温
rain1h 过去1小时降雨量

6.爬虫过程截图

开始爬虫
在这里插入图片描述
运行中的截图:

在这里插入图片描述

爬取完毕:
在这里插入图片描述

四、数据分析

数据分析主要使用Spark SQL相关知识与技术,对各个城市过去24小时累积降雨量和当日平均气温进行了计算和排序。

1.计算各个城市过去24小时累积雨量

思路:按照城市对数据进行分组,对每个城市的rain1h字段进行分组求和。
特别说明:由于获取数据所需时间较长,天气数据的时间跨度可能略有不一致,这里为了简化操作没有筛选出具有相同时间跨度的数据再进行计算。
相关步骤如下:
(1)创建SparkSession对象spark;
(2)使用spark.read.csv(filename)读取passed_weather_ALL.csv数据生成Dateframe df;
(3)对df进行操作:使用Dateframe的select方法选择province,city_name,city_code,rain1h字段,并使用Column对象的cast(dateType)方法将rain1h转成数值型,再使用Dateframe的filter方法筛选出rain1h小于1000的记录(大于1000是异常数据),得到新的Dateframe df_rain;
(4)对df_rain进行操作:使用Dateframe的groupBy操作按照province,city_name,city_code的字段分组,使用agg方法对rain1h字段进行分组求和得到新的字段rain24h(过去24小时累积雨量),使用sort方法按照rain24h降序排列,经过上述操作得到新的Dateframe df_rain_sum
(5)对df_rain_sum调用cache()方法将此前的转换关系进行缓存,提高性能
(6)对df_rain_sum调用coalesce()将数据分区数目减为1,并使用write.csv(filename)方法将得到的数据持久化到本地文件。
(7)对df_rain_sum调用head()方法取前若干条数据(即24小时累积降水量Top-N的列表)供数据可视化使用。
本部分分析对应的具体代码如下:

def passed_rain_analyse(filename):  # 计算各个城市过去24小时累积雨量print("begin to analyse passed rain")spark = SparkSession.builder.master("local").appName("passed_rain_analyse").getOrCreate()df = spark.read.csv(filename, header=True)df_rain = df.select(df['province'], df['city_name'], df['city_code'], df['rain1h'].cast(DecimalType(scale=1))) \.filter(df['rain1h'] < 1000)  # 筛选数据,去除无效数据df_rain_sum = df_rain.groupBy("province", "city_name", "city_code") \.agg(F.sum("rain1h").alias("rain24h")) \.sort(F.desc("rain24h"))  # 分组、求和、排序df_rain_sum.cache()df_rain_sum.coalesce(1).write.csv("file:///home/hadoop/PythonCode/SparkAnalysis/passed_rain_analyse.csv")print("end analysing passed rain")return df_rain_sum.head(20)

2.计算各个城市当日平均气温

思路:根据国家标准(《地面气象服务观测规范》),日平均气温取四时次数据的平均值,四时次数据为:02时、08时、14时、20时。据此,应该先筛选出各个时次的气温数据,再按照城市对数据进行分组,对每个城市的tempeature字段进行分组求平均。
特别说明:为了能获取到上述一天的四个时次的天气数据,建议在当天的20时30分后再爬取数据。
相关步骤如下:
(1)创建SparkSession对象spark;
(2)使用spark.read.csv(filename)读取passed_weather_ALL.csv数据生成Dateframe df;
(3)对df进行操作:使用Dateframe的select方法选择province,city_name,city_code,temperature字段,并使用库pyspark.sql.functions中的date_format(col,pattern)方法和hour(col)将time字段转换成date(日期)字段和hour(小时)字段,(time字段的分秒信息无用),,得到新的Dateframe df_temperature;
(4)对df_temperature进行操作:使用Dateframe的filter操作过滤出hour字段在[2,8,14,20]中的记录,经过上述操作得到新的Dateframe df_4point_temperature
(5)对df_4point_temperature进行操作:使用Dateframe的groupBy操作按照province,city_name,city_code,date字段分组,使用agg方法对temperature字段进行分组计数和求和(求和字段命名为avg_temperature),使用filter方法过滤出分组计数为4的记录(确保有4个时次才能计算日平均温),使用sort方法按照avg_temperature降序排列,再筛选出需要保存的字段province,city_name,city_code,date,avg_temperature(顺便使用库pyspark.sql.functions中的format_number(col,precision)方法保留一位小数),经过上述操作得到新的Dateframe df_avg_temperature
(6)对df_avg_temperature调用cache()方法将此前的转换关系进行缓存,提高性能
(7)对df_avg_temperature调用coalesce()将数据分区数目减为1,并使用write.json(filename)方法将得到的数据持久化到本地文件。
(8)对df_rain_sum调用collect()方法取将Dateframe转换成list,方便后续进行数据可视化。
本部分分析对应的具体代码如下:

def passed_temperature_analyse(filename):print("begin to analyse passed temperature")spark = SparkSession.builder.master("local").appName("passed_temperature_analyse").getOrCreate()df = spark.read.csv(filename, header=True)df_temperature = df.select(  # 选择需要的列df['province'],df['city_name'],df['city_code'],df['temperature'].cast(DecimalType(scale=1)),F.date_format(df['time'], "yyyy-MM-dd").alias("date"),  # 得到日期数据F.hour(df['time']).alias("hour")  # 得到小时数据)# 筛选四点时次df_4point_temperature = df_temperature.filter(df_temperature['hour'].isin([2, 8, 12, 20]))# df_4point_temperature.printSchema()df_avg_temperature = df_4point_temperature.groupBy("province", "city_name", "city_code", "date") \.agg(F.count("temperature"), F.avg("temperature").alias("avg_temperature")) \.filter("count(temperature) = 4") \.sort(F.asc("avg_temperature")) \.select("province", "city_name", "city_code", "date",F.format_number('avg_temperature', 1).alias("avg_temperature"))df_avg_temperature.cache()avg_temperature_list = df_avg_temperature.collect()df_avg_temperature.coalesce(1).write.json("file:///home/hadoop/PythonCode/SparkAnalysis/passed_temperature_analyse.json")print("end analysing passed temperature")return avg_temperature_list[0:10]

3.计算各个城市当日平均湿度

具体步骤与计算计算各个城市当日平均气温类似;
代码:

def passed_humidity_analyse(filename):print("begin to analyse passed humidity")spark = SparkSession.builder.master("local").appName("passed_humidity_analyse").getOrCreate()df = spark.read.csv(filename, header=True)df_humidity = df.select(  # 选择需要的列df['province'],df['city_name'],df['city_code'],df['humidity'].cast(DecimalType(scale=1)),F.date_format(df['time'], "yyyy-MM-dd").alias("date"),  # 得到日期数据F.hour(df['time']).alias("hour")  # 得到小时数据)# 筛选四点时次df_4point_humidity = df_humidity.filter(df_humidity['hour'].isin([2, 8, 12, 20]))# df_4point_humidity.printSchema()df_avg_humidity = df_4point_humidity.groupBy("province", "city_name", "city_code", "date") \.agg(F.count("humidity"), F.avg("humidity").alias("avg_humidity")) \.filter("count(humidity) = 4") \.sort(F.asc("avg_humidity")) \.select("province", "city_name", "city_code", "date",F.format_number('avg_humidity', 1).alias("avg_humidity"))df_avg_humidity.cache()avg_humidity_list = df_avg_humidity.collect()df_avg_humidity.coalesce(1).write.json("file:///home/hadoop/PythonCode/SparkAnalysis/passed_humidity_analyse.json")print("end analysing passed analyse")return avg_humidity_list[0:10]

4.计算各个城市当日平均风速

具体步骤与计算计算各个城市当日平均气温类似;
代码:

def passed_windSpeed_analyse(filename):print("begin to analyse passed windSpeed")spark = SparkSession.builder.master("local").appName("passed_windSpeed_analyse").getOrCreate()df = spark.read.csv(filename, header=True)df_windSpeed = df.select(  # 选择需要的列df['province'],df['city_name'],df['city_code'],df['windSpeed'].cast(DecimalType(scale=1)),F.date_format(df['time'], "yyyy-MM-dd").alias("date"),  # 得到日期数据F.hour(df['time']).alias("hour")  # 得到小时数据)# 筛选四点时次df_4point_windSpeed = df_windSpeed.filter(df_windSpeed['hour'].isin([2, 8, 12, 20]))# df_4point_windSpeed.printSchema()df_avg_windSpeed = df_4point_windSpeed.groupBy("province", "city_name", "city_code", "date") \.agg(F.count("windSpeed"), F.avg("windSpeed").alias("avg_windSpeed")) \.filter("count(windSpeed) = 4") \.sort(F.asc("avg_windSpeed")) \.select("province", "city_name", "city_code", "date",F.format_number('avg_windSpeed', 1).alias("avg_windSpeed"))df_avg_windSpeed.cache()avg_windSpeed_list = df_avg_windSpeed.collect()df_avg_windSpeed.coalesce(1).write.json("file:///home/hadoop/PythonCode/SparkAnalysis/passed_windSpeed_analyse.json")print("end analysing passed windSpeed")return avg_windSpeed_list[0:10]

五、数据可视化

数据可视化使用python matplotlib库。可使用pip命令安装。也可以pycharm直接安装。
在这里插入图片描述

绘制过程大体如下:
第一步,应当设置字体,这里提供了黑体的字体文件simhei.tff。否则坐标轴等出现中文的地方是乱码。
第二步,设置数据(累积雨量或者日平均气温)和横轴坐标(城市名称),配置直方图。
第三步,配置横轴坐标位置,设置纵轴坐标范围
第四步,配置横纵坐标标签
第五步,配置每个条形图上方显示的数据
第六步,根据上述配置,画出直方图。
画图部分对应的运行截图如下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

保存的matplotlib作的图:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

六、数据以及源代码

1.爬取的数据截图:

city.csv
在这里插入图片描述

passed_weather_ALL.csv
在这里插入图片描述

province.csv
在这里插入图片描述

2.爬虫代码

# -*- coding: utf-8 -*-
import urllib.request, urllib.error, urllib.parse
import json
import csv
import os
import time
import random
import socketclass Crawler:def get_html(self, url):head = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36"}request = urllib.request.Request(url, headers=head)NET_STATUS = Falsewhile not NET_STATUS:try:# url = 'http://www.nmc.cn/f/rest/province'response = urllib.request.urlopen(request, timeout=5)html = response.read().decode("utf-8")return htmlexcept socket.timeout:print('NET_STATUS is not good')NET_STATUS = False# def get_html(self, url):  # 得到指定一个URL的网页内容#     head = {#         "User-Agent": "Mozilla/5.0(Windows NT 10.0;Win64;x64) AppleWebKit/537.36(KHTML, likeGecko) Chrome / 89.0.4389.90Safari / 537.36"#     }#     request = urllib.request.Request(url, headers=head)#     try:#         response = urllib.request.urlopen(request, timeout=5)#         html = response.read().decode("utf-8")#         # print(html)#     except urllib.error.URLError as e:#         if hasattr(e, "code"):#             print(e.code)#         if hasattr(e, "reason"):#             print(e.reason)#     return htmldef parse_json(self, url):obj = self.get_html(url)if obj:json_obj = json.loads(obj)else:json_obj = list()# print json_obj# for obj in json_obj:#     print obj# print chardet.detect(obj['name'])return json_obj# soup = BeautifulSoup(html_doc,"html.parser",from_encoding='utf-8')# links = soup.find_all('a')# print "all links"# for link in links:#     print link.name,link['href']def write_csv(self, file, data):if data:print("begin to write to " + file)with open(file, 'a+', newline='') as f:# f.write(codecs.BOM_UTF8)f_csv = csv.DictWriter(f, list(data[0].keys()))if not os.path.exists(file):f_csv.writeheader()f_csv.writerows(data)# writerows()将一个二维列表中的每一个列表写为一行。print("end to write to " + file)def write_header(self, file, data):if data:print("begin to write to " + file)with open(file, 'a+', newline='') as f:# f.write(codecs.BOM_UTF8)f_csv = csv.DictWriter(f, list(data[0].keys()))f_csv.writeheader()f_csv.writerows(data)print("end to write to " + file)def write_row(self, file, data):if data:print("begin to write to " + file)with open(file, 'a+', newline='') as f:# f.write(codecs.BOM_UTF8)f_csv = csv.DictWriter(f, list(data[0].keys()))# f_csv.writeheader()f_csv.writerows(data)print("end to write to " + file)def read_csv(self, file):print("begin to read " + file)with open(file, 'r') as f:data = csv.DictReader(f)print("end to read " + file)return list(data)def get_provinces(self):province_file = 'input/province.csv'if not os.path.exists(province_file):  # 如果没有省份文件,开始爬取城市信息print("begin crawl province")provinces = self.parse_json('http://www.nmc.cn/f/rest/province')print("end crawl province")self.write_csv(province_file, provinces)else:provinces = self.read_csv(province_file)return provincesdef get_cities(self):  # 获取城市city_file = 'input/city.csv'if not os.path.exists(city_file):  # 如果没有城市文件,开始爬取城市信息cities = list()print("begin crawl city")for province in self.get_provinces():  # 循环34个省份print(province['name'])url = province['url'].split('/')[-1].split('.')[0]cities.extend(self.parse_json('http://www.nmc.cn/f/rest/province/' + url))self.write_csv(city_file, cities)print("end crawl city")else:cities = self.read_csv(city_file)return citiesdef get_passed_weather(self, province):weather_passed_file = 'input/passed_weather_' + province + '.csv'if os.path.exists(weather_passed_file):returnpassed_weather = list()count = 0if province == 'ALL':print("begin crawl passed weather")  # 开始爬取历史天气for city in self.get_cities():print(city['province'] + ' ' + city['city'] + ' ' + city['code'])data = self.parse_json('http://www.nmc.cn/f/rest/passed/' + city['code'])if data:count = count + 1for item in data:item['city_code'] = city['code']item['province'] = city['province']item['city_name'] = city['city']item['city_index'] = str(count)passed_weather.extend(data)# time.sleep(random.random())time.sleep(0.8)if count % 50 == 0:if count == 50:self.write_header(weather_passed_file, passed_weather)else:self.write_row(weather_passed_file, passed_weather)passed_weather = list()if passed_weather:if count <= 50:self.write_header(weather_passed_file, passed_weather)else:self.write_row(weather_passed_file, passed_weather)print("end crawl passed weather")else:print("begin crawl passed weather")select_city = [x for x in self.get_cities() if x['province'] == province]for city in select_city:print(city['province'] + ' ' + city['city'] + ' ' + city['code'])data = self.parse_json('http://www.nmc.cn/f/rest/passed/' + city['code'])if data:count = count + 1for item in data:item['city_index'] = str(count)item['city_code'] = city['code']item['province'] = city['province']item['city_name'] = city['city']passed_weather.extend(data)# time.sleep(1)self.write_csv(weather_passed_file, passed_weather)print("end crawl passed weather")def run(self, range='ALL'):self.get_passed_weather(range)def main():crawler = Crawler()crawler.run("ALL")if __name__ == '__main__':main()

3.Spark分析代码:

# coding:utf-8
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.sql.types import DecimalType, TimestampType
import matplotlib as mpl
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
import os
import math
from Crawler import *def passed_rain_analyse(filename):  # 计算各个城市过去24小时累积雨量print("begin to analyse passed rain")spark = SparkSession.builder.master("local").appName("passed_rain_analyse").getOrCreate()df = spark.read.csv(filename, header=True)df_rain = df.select(df['province'], df['city_name'], df['city_code'], df['rain1h'].cast(DecimalType(scale=1))) \.filter(df['rain1h'] < 1000)  # 筛选数据,去除无效数据df_rain_sum = df_rain.groupBy("province", "city_name", "city_code") \.agg(F.sum("rain1h").alias("rain24h")) \.sort(F.desc("rain24h"))  # 分组、求和、排序df_rain_sum.cache()df_rain_sum.coalesce(1).write.csv("file:///home/hadoop/PythonCode/SparkAnalysis/passed_rain_analyse.csv")print("end analysing passed rain")return df_rain_sum.head(20)def passed_temperature_analyse(filename):print("begin to analyse passed temperature")spark = SparkSession.builder.master("local").appName("passed_temperature_analyse").getOrCreate()df = spark.read.csv(filename, header=True)df_temperature = df.select(  # 选择需要的列df['province'],df['city_name'],df['city_code'],df['temperature'].cast(DecimalType(scale=1)),F.date_format(df['time'], "yyyy-MM-dd").alias("date"),  # 得到日期数据F.hour(df['time']).alias("hour")  # 得到小时数据)# 筛选四点时次df_4point_temperature = df_temperature.filter(df_temperature['hour'].isin([2, 8, 12, 20]))# df_4point_temperature.printSchema()df_avg_temperature = df_4point_temperature.groupBy("province", "city_name", "city_code", "date") \.agg(F.count("temperature"), F.avg("temperature").alias("avg_temperature")) \.filter("count(temperature) = 4") \.sort(F.asc("avg_temperature")) \.select("province", "city_name", "city_code", "date",F.format_number('avg_temperature', 1).alias("avg_temperature"))df_avg_temperature.cache()avg_temperature_list = df_avg_temperature.collect()df_avg_temperature.coalesce(1).write.json("file:///home/hadoop/PythonCode/SparkAnalysis/passed_temperature_analyse.json")print("end analysing passed temperature")return avg_temperature_list[0:10]def passed_humidity_analyse(filename):print("begin to analyse passed humidity")spark = SparkSession.builder.master("local").appName("passed_humidity_analyse").getOrCreate()df = spark.read.csv(filename, header=True)df_humidity = df.select(  # 选择需要的列df['province'],df['city_name'],df['city_code'],df['humidity'].cast(DecimalType(scale=1)),F.date_format(df['time'], "yyyy-MM-dd").alias("date"),  # 得到日期数据F.hour(df['time']).alias("hour")  # 得到小时数据)# 筛选四点时次df_4point_humidity = df_humidity.filter(df_humidity['hour'].isin([2, 8, 12, 20]))# df_4point_humidity.printSchema()df_avg_humidity = df_4point_humidity.groupBy("province", "city_name", "city_code", "date") \.agg(F.count("humidity"), F.avg("humidity").alias("avg_humidity")) \.filter("count(humidity) = 4") \.sort(F.asc("avg_humidity")) \.select("province", "city_name", "city_code", "date",F.format_number('avg_humidity', 1).alias("avg_humidity"))df_avg_humidity.cache()avg_humidity_list = df_avg_humidity.collect()df_avg_humidity.coalesce(1).write.json("file:///home/hadoop/PythonCode/SparkAnalysis/passed_humidity_analyse.json")print("end analysing passed analyse")return avg_humidity_list[0:10]def passed_windSpeed_analyse(filename):print("begin to analyse passed windSpeed")spark = SparkSession.builder.master("local").appName("passed_windSpeed_analyse").getOrCreate()df = spark.read.csv(filename, header=True)df_windSpeed = df.select(  # 选择需要的列df['province'],df['city_name'],df['city_code'],df['windSpeed'].cast(DecimalType(scale=1)),F.date_format(df['time'], "yyyy-MM-dd").alias("date"),  # 得到日期数据F.hour(df['time']).alias("hour")  # 得到小时数据)# 筛选四点时次df_4point_windSpeed = df_windSpeed.filter(df_windSpeed['hour'].isin([2, 8, 12, 20]))# df_4point_windSpeed.printSchema()df_avg_windSpeed = df_4point_windSpeed.groupBy("province", "city_name", "city_code", "date") \.agg(F.count("windSpeed"), F.avg("windSpeed").alias("avg_windSpeed")) \.filter("count(windSpeed) = 4") \.sort(F.asc("avg_windSpeed")) \.select("province", "city_name", "city_code", "date",F.format_number('avg_windSpeed', 1).alias("avg_windSpeed"))df_avg_windSpeed.cache()avg_windSpeed_list = df_avg_windSpeed.collect()df_avg_windSpeed.coalesce(1).write.json("file:///home/hadoop/PythonCode/SparkAnalysis/passed_windSpeed_analyse.json")print("end analysing passed windSpeed")return avg_windSpeed_list[0:10]def draw_rain(rain_list):print("begin to draw the picture of passed rain")font = FontProperties(fname='ttf/simhei.ttf')  # 设置字体name_list = []num_list = []for item in rain_list:name_list.append(item.province[0:2] + '\n' + item.city_name)num_list.append(item.rain24h)index = [i + 0.25 for i in range(0, len(num_list))]rects = plt.bar(index, num_list, color=['r', 'g', 'b', 'y'], width=0.5)plt.xticks([i + 0.25 for i in index], name_list, fontproperties=font,fontsize=20)plt.yticks(fontsize=20)plt.ylim(ymax=(int(max(num_list)+10) / 100) * 100, ymin=0)plt.xlabel("城市", fontproperties=font,fontsize=20)plt.ylabel("雨量", fontproperties=font,fontsize=20)plt.title("过去24小时累计降雨量全国前20名", fontproperties=font,fontsize=20)for rect in rects:height = rect.get_height()plt.text(rect.get_x() + rect.get_width() / 2, height + 1, str(height), ha="center", va="bottom",fontsize=20)plt.show()print("ending drawing the picture of passed rain")def draw_temperature(temperature_list):print("begin to draw the picture of passed temperature")font = FontProperties(fname='ttf/simhei.ttf')name_list = []num_list = []date = temperature_list[0].datefor item in temperature_list:name_list.append(item.province[0:2] + '\n' + item.city_name)# item.avg_temperature = item.avg_temperature.replace(',', '')num_list.append(float(item.avg_temperature))# num_list.append([float(x) for x in item.avg_temperature])index = [i + 0.25 for i in range(0, len(num_list))]rects = plt.bar(index, num_list, color=['r', 'g', 'b', 'y'], width=0.5)plt.xticks([i + 0.25 for i in index], name_list, fontproperties=font,fontsize=20)plt.yticks(fontsize=20)plt.ylim(ymax=math.ceil(float(max(num_list)))-10, ymin=0)plt.xlabel("城市", fontproperties=font,fontsize=20)plt.ylabel("日平均气温", fontproperties=font,fontsize=20)plt.title(date + "全国日平均气温最低前10名", fontproperties=font,fontsize=20)for rect in rects:height = rect.get_height()plt.text(rect.get_x() + rect.get_width() / 2, height + 0.1, str(height), ha="center", va="bottom",fontsize=20)plt.show()print("ending drawing the picture of passed temperature")def draw_humidity(humidity_list):print("begin to draw the picture of passed humidity")font = FontProperties(fname='ttf/simhei.ttf')name_list = []num_list = []date = humidity_list[0].datefor item in humidity_list:name_list.append(item.province[0:2] + '\n' + item.city_name)num_list.append(float(item.avg_humidity))index = [i + 0.25 for i in range(0, len(num_list))]rects = plt.bar(index, num_list, color=['r', 'g', 'b', 'y'], width=0.5)plt.xticks([i + 0.25 for i in index], name_list, fontproperties=font,fontsize=20)plt.yticks(fontsize=20)plt.ylim(ymax=math.ceil(float(max(num_list))), ymin=0)plt.xlabel("城市", fontproperties=font,fontsize=20)plt.ylabel("日平均湿度", fontproperties=font,fontsize=20)plt.title(date + "全国日平均湿度最低前10名", fontproperties=font,fontsize=20)for rect in rects:height = rect.get_height()plt.text(rect.get_x() + rect.get_width() / 2, height + 0.1, str(height), ha="center", va="bottom", fontsize=20)plt.show()print("ending drawing the picture of passed humidity")def draw_windSpeed(windSpeed_list):print("begin to draw the picture of passed windSpeed")font = FontProperties(fname='ttf/simhei.ttf')name_list = []num_list = []date = windSpeed_list[0].datefor item in windSpeed_list:name_list.append(item.province[0:2] + '\n' + item.city_name)num_list.append(float(item.avg_windSpeed))index = [i + 0.25 for i in range(0, len(num_list))]rects = plt.bar(index, num_list, color=['r', 'g', 'b', 'y'], width=0.5)plt.xticks([i + 0.25 for i in index], name_list, fontproperties=font,fontsize=20)plt.yticks(fontsize=20)plt.ylim(ymax=math.ceil(float(max(num_list))), ymin=0)plt.xlabel("城市", fontproperties=font,fontsize=20)plt.ylabel("日平均风速", fontproperties=font,fontsize=20)plt.title(date + "全国日平均风速最低前10名", fontproperties=font, fontsize=20)for rect in rects:height = rect.get_height()plt.text(rect.get_x() + rect.get_width() / 2, height + 0.1, str(height), ha="center", va="bottom", fontsize=20)plt.show()print("ending drawing the picture of passed windSpeed")def main():sourcefile = "input/passed_weather_ALL.csv"if not os.path.exists(sourcefile):crawler = Crawler()crawler.run('ALL')# 过去24小时累计降雨量全国前20名rain_list = passed_rain_analyse('file:///home/hadoop/PythonCode/SparkAnalysis/' + sourcefile)draw_rain(rain_list)# 全国日平均气温最低前10名temperature_list = passed_temperature_analyse('file:///home/hadoop/PythonCode/SparkAnalysis/' + sourcefile)draw_temperature(temperature_list)# 全国日平均湿度最低前10名humidity_list = passed_humidity_analyse('file:///home/hadoop/PythonCode/SparkAnalysis/' + sourcefile)draw_humidity(humidity_list)# 全国日平均风速最低前10名windSpeed_list = passed_windSpeed_analyse('file:///home/hadoop/PythonCode/SparkAnalysis/' + sourcefile)draw_windSpeed(windSpeed_list)if __name__ == '__main__':main()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/752262.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

流媒体学习之路(WebRTC)——FEC逻辑分析(6)

流媒体学习之路(WebRTC)——FEC逻辑分析&#xff08;6&#xff09; —— 我正在的github给大家开发一个用于做实验的项目 —— github.com/qw225967/Bifrost目标&#xff1a;可以让大家熟悉各类Qos能力、带宽估计能力&#xff0c;提供每个环节关键参数调节接口并实现一个json全…

springboot/ssm冷链物流系统Java在线物流管理系统web物流平台

springboot/ssm冷链物流系统Java在线物流管理系统web物流平台 基于springboot(可改ssm)vue项目 开发语言&#xff1a;Java 框架&#xff1a;springboot/可改ssm vue JDK版本&#xff1a;JDK1.8&#xff08;或11&#xff09; 服务器&#xff1a;tomcat 数据库&#xff1a;…

ARM_基础之RAS

Reliability, Availability, and Serviceability (RAS), for A-profile architecture 源自 https://developer.arm.com/documentation/102105/latest/ 1 Introduction to RAS 1.1 Faults,Errors,and failures 三个概念的区分&#xff1a; • A failure is the event of devia…

保研|资讯|夏令营|3.31截止!香港城市大学市场营销学系首届学术暑期夏令营

香港城市大学市场营销学系首届学术暑期夏令营 1 项目简介 我们的博士项目致力为未来营销科学和工商管理学界培养一流学者和行业领袖。博士项目一般为期四到六年&#xff0c;允许本科生直接申请。课程包括实证分析模型&#xff0c;消费者行为研究&#xff0c;博弈微观模型&…

从零开始学习数据结构与算法:Python实现【第139篇—Python实现】

&#x1f47d;发现宝藏 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。 从零开始学习数据结构与算法&#xff1a;Python实现 数据结构与算法是计算机科学中至关重要…

Redis7学习记录(1)

Redis入门概述 Redis介绍 Redis&#xff1a;REmote Dictionary Server&#xff08;远程字典服务器&#xff09; 官网&#xff1a;Redis 中文官网&#xff1a;Redis中文网 Redis的功能及应用 redis是基于内存的KV键值对内存数据库。 redis是key-value数据库&#xff08;NO…

[VCTF2024纳新赛]-PWN:ezhp_code解析

查看保护 查看ida 简单来说就是创建堆块和删除堆块而已&#xff0c;创建堆块的函数附带有写入函数。 但这里要注意一个程序里面的特殊的地方 在我们创建堆块时&#xff0c;程序会先创建一个0xa0大小堆块&#xff0c;并且这个地方还有个特殊的check_handle函数&#xff0c;如果…

测试人员Bug书写规范

&#x1f4cb; 个人简介 作者简介&#xff1a;大家好&#xff0c;我是凝小飞&#xff0c;软件测试领域作者支持我&#xff1a;点赞&#x1f44d;收藏⭐️留言&#x1f4dd; 在测试人员日常工作中&#xff0c;关于bug的编写和定义是一个比较经常的工作&#xff0c;如果bug编写描…

使用Thymeleaf导出PDF,页眉插入图片与内容重叠?

CSS 打印分页功能 需求&#xff1a;打印 在第一页的内容被挤到第二页的时候&#xff0c;又想每一页页头都有相同的样式&#xff0c;使用页眉。 问题&#xff1a;第二页的内容与页眉重叠了&#xff1f; 查各路找出的原因&#xff1a;header 页眉不占空间 解决&#xff1a;不…

深度学习1650ti在win10安装pytorch复盘

深度学习1650ti在win10安装pytorch复盘 前言1. 安装anaconda2. 检查更新显卡驱动3. 根据pytorch选择CUDA版本4. 安装CUDA5. 安装cuDNN6. conda安装pytorch结语 前言 建议有条件的&#xff0c;可以在安装过程中&#xff0c;开启梯子。例如cuDNN安装时登录 or 注册&#xff0c;会…

Linux-grep命令

grep 是一个强大的文本搜索工具&#xff0c;可以在文件中搜索指定的字符串模式&#xff0c;并将包含匹配的行打印出来。下面是 grep 命令的详细用法&#xff1a; grep [选项] 模式 [文件...] 选项&#xff1a;grep 命令支持多种选项&#xff0c;用于控制搜索行为&#xff0c;常…

十 超级数据查看器   讲解稿    详情5  隐藏功能

十 超级数据查看器 讲解稿 详情5 隐藏功能 app下载地址 百度手机助手 下载地址4 ​ 讲解稿全文&#xff1a; 第5讲 界面的隐藏功能 设置这些功能是为了方便用户操作 首先是编辑栏。长按一可以在一栏和二栏之间做切换&#xff0c;这个一、二、左箭头、右箭头&#xf…

(官网安装) 基于CentOS 7安装MangoDB和MangoDB Shell

前言 查了很多资料都不靠谱&#xff0c;在安装过程中遇到很多的坑&#xff0c;mangoDB 服务重视起不来&#xff1b;出现了很多难以解决的报错&#xff0c;现在把安装过程中遇到的问题&#xff0c;和如何闭坑说一下&#xff0c;很多时候都是准备工作不足导致的&#xff1b;很多方…

【Unity入门】详解Unity中的射线与射线检测

目录 前言一、射线的创建方法二、射线检测1、Raycast()Raycast()不使用射线RayRaycast()使用射线Ray 2、RaycastAll()使用射线RayRaycastAll() 不使用射线Ray 3、射线的碰撞信息 三、示例四、具体使用场景射线的调试方法1、Debug.DrawLine()2、Debug.DrawRay利用Gizmos 前言 碰…

利用生成式人工智能进行功能管理测试

就 DevOps 而言&#xff0c;生成式 AI与功能管理测试的新兴集成标志着一次重大演变。我们将认真研究这项技术如何彻底改变我们创建测试环境的方式。 使用人工智能生成测试使我们能够模拟大量的用户场景和环境&#xff0c;这意味着我们可以开发和部署不仅好而且很棒的功能&…

React 的 diff 算法

React 的 diff 算法的演进。 在 React 16 之前&#xff0c;React 使用的是称为 Reconciliation 的 diff 算法。Reconciliation 算法通过递归地比较新旧虚拟 DOM 树的每个节点&#xff0c;找出节点的差异&#xff0c;并将这些差异应用到实际的 DOM 上。整个过程是递归的&#x…

蓝桥杯day2刷题日记

由浅入深 P8717 [蓝桥杯 2020 省 AB2] 成绩分析 #include <iostream> using namespace std; int num; double sum; int maxs,mins; int n;int main() {mins1e9;maxs-1e9;sum0;cin>>n;for(int i0;i<n;i){cin>>num;sumnum;maxsmax(maxs,num);minsmin(mins…

Ubuntu系统下C语言开发环境搭建与使用教程

&#x1f31f; 前言 欢迎来到我的技术小宇宙&#xff01;&#x1f30c; 这里不仅是我记录技术点滴的后花园&#xff0c;也是我分享学习心得和项目经验的乐园。&#x1f4da; 无论你是技术小白还是资深大牛&#xff0c;这里总有一些内容能触动你的好奇心。&#x1f50d; &#x…

graylog API 弱密码

graylog web 页面密码设置 输入密码&#xff1a;获取sha256加密后密码 echo -n "Enter Password: " && head -1 </dev/stdin | tr -d \n | sha256sum | cut -d" " -f1vi /etc/graylog/server/server.conf #修改以下配置 root_usernameroot ro…

C#,人工智能,机器学习,聚类算法,训练数据集生成算法、软件与源代码

摘要:本文简述了人工智能的重要分支——机器学习的核心算法之一——聚类算法,并用C#实现了一套完全交互式的、可由用户自由发挥的,适用于聚类算法的训练数据集生成软件——Clustering。用户使用鼠标左键(拖动)即可生成任意形状,任意维度,任意簇数及各种数据范围的训练数…