参考资料:活用pandas库
1、python的datetime对象
# 导入datetime对象
from datetime import datetime# 获取当前日期和时间
now=datetime.now()
print(now)# 手动创建datetime
t1=datetime.now()
t2=datetime(1970,1,1)
# 对datetime做数学运算
diff=t1-t2
print(diff)
# 查看运算结果的数据类型
print(type(diff))
2、转换为datetime
可以使用to_datetime函数把一个对象转换为datetime类型。
# 导入pandas库
import pandas as pd
# 读取数据集
ebola=pd.read_csv(r"...\data\country_timeseries.csv")
# 获取左上角数据
print(ebola.iloc[:5,:5])
# Date列包含日期信息,但info方法的结果显示仅为普通字符串类型
print(ebola.info())
# 使用pd.to_datetime擦混关键datetime类型数据列
# 方法1
ebola['dt']=pd.to_datetime(ebola['Date'])
# 方法2
ebola['dt2']=pd.to_datetime(ebola['Date'],format="%m/%d/%Y")
print(ebola.info())
对于文本的日期格式,可以使用python的strptime语法手动指定表示方法。常见表示方法如下:
符号 | 含义 | 示例 |
%a | 星期的英文缩写 | Sun, Mon,...,Sat |
%A | 星期的英文全称 | Sunday, Monday, ..., Saturday |
%w | 以数字表示星期,0为周日 | 0,1,2,3,4,5,6 |
%d | 一个月的每一天(两个数字) | 01,02,...,31 |
%b | 月份的英文缩写 | Jan, Feb, ..., Dec |
%B | 月份的英文全称 | January, Februray,..., December |
%m | 月份(两位数字) | 01, 02, ..., 12 |
%y | 年份(两位数字) | 00, 01,..., 99 |
%Y | 年份(四位数字) | 2023, 2024, ..., 9999 |
%H | 小时(两位数,24小时制) | 00, 01, ..., 23 |
%I | 小时(两位数,12小时制) | 01, 02, ..., 12 |
%p | AM或PM | AM, PM |
%M | 分钟(两位数) | 00, 01, ..., 59 |
%S | 秒(两位数) | 00, 01, ..., 59 |
%f | 微秒 | 000000,000001, ..., 999999 |
3、加载包含日期的数据
pd.read_csv函数有很多参数,如parse_dates、inher_datetime_format、keep_date_col、date_parser和dayfirst,可以处理日期数据。在使用read_csv加载数据集时,可以直接在parse_dates参数中指定想要解析为日期的列。
ebola=pd.read_csv(r"...\data\country_timeseries.csv",parse_dates=[0])
print(ebola.info())
4、提取日期的各个部分
# 将字符串转换为timestamp对象
d=pd.to_datetime('2024-5-27')
# 显示数据类型
print(type(d))
# 年
print(d.year)
# 月
print(d.month)
# 日
print(d.day)
# 对datetime类型数据进行整列操作
ebola['year']=ebola['Date'].dt.year
ebola['month']=ebola['Date'].dt.month
ebola['day']=ebola['Date'].dt.day
print(ebola[['Date','year','month','day']].head())
print(ebola[['Date','year','month','day']].info())
5、日期运算和Timedelta
# 对datetime数据进行减法运算,会得到一个timedelta对象
ebola['outbreak_d']=ebola['Date']-ebola['Date'].min()
print(ebola[['Date','Day','outbreak_d']].head())
print(ebola[['Date','Day','outbreak_d']].tail())
print(ebola[['Date','Day','outbreak_d']].info())
6、datetime方法
# 导入数据集
banks=pd.read_csv(r"...\data\banklist.csv",parse_dates=[5,6])
# 查看数据列信息
print(banks.info())
# 添加两列信息,分别表示银行破产的季度和年份
banks['closing_quarter']=banks['Closing Date'].dt.quarter
banks['closing_year']=banks['Closing Date'].dt.year
# 计算每年破产的银行数量
closing_year=banks.groupby(['closing_year'])['Bank Name'].count()
# 也可以计算每年每季度破产的银行数量
closing_year_q=banks.groupby(['closing_year','closing_quarter'])['Bank Name'].count()
# 绘制图形
import matplotlib.pyplot as plt
closing_year_q.plot()