Datawhale组队-Pandas(下)时序数据(打卡)

Pandas可以处理任何领域的时序数据(time series),使用Numpy的datetime64 和timedelta64 类型,Pandas整合了来自其他Python库的大量功能,如Scikits.TimeSeries,并为处理时间序列数据创建了大量新功能。

一、时序的创建

1.四类时间变量

名称

描述

元素类型

创建方式

Datetimes(时间点/时刻)

描述特定日期或时间点

Timestamp

to_datetime或date_range

Timespans(时间段/时期)

由时间点定义的一段时期

Period

Period或period_range

Dateoffsets(相对时间差)

一段时间的相对大小

(与夏/冬令时无关)

Dateoffset

DateOffset

Timedeltas(绝对时间差)

一段时间的绝对大小

(与夏/冬令时有关)

Timedelta

to_timedelta或

timedelta_range

对于时间序列数据,传统的做法是在Series或DataFrame索引中表示时间分量,这样就可以对时间元素执行操作。但是,Series和DataFrame也可以直接支持作为数据本身的时间组件。当传递到这些构造函数时,Series和DataFrame扩展了对日期时间、时间增量和期间数据的数据类型支持和功能。然而,DateOffset数据将作为对象数据存储。

#在index加入时间成分,dtype为int64
pd.Series(range(3), index=pd.date_range('2000', freq='D', periods=3))
#直接定义时间成分,dtype为datetime64[ns]
pd.Series(pd.date_range('2000', freq='D', periods=3))

2.时间点的创建

Timestamped是将值与时间点相关联的最基本的时间序列数据类型。对于pandas objects来说,这意味着使用时间点。

(a)to_datetime方法

Pandas在时间点建立的输入格式规定上给了很大的自由度,下面的语句都能正确建立同一时间点

print(pd.to_datetime('2020.1.1'))
print(pd.to_datetime('2020 1.1'))
print(pd.to_datetime('2020 1 1'))
print(pd.to_datetime('2020 1-1'))
print(pd.to_datetime('2020-1 1'))
print(pd.to_datetime('2020-1-1'))
print(pd.to_datetime('2020/1/1'))
print(pd.to_datetime('1.1.2020'))
print(pd.to_datetime('1.1 2020'))
print(pd.to_datetime('1 1 2020'))
print(pd.to_datetime('1 1-2020'))
print(pd.to_datetime('1-1 2020'))
print(pd.to_datetime('1-1-2020'))
print(pd.to_datetime('1/1/2020'))
print(pd.to_datetime('20200101'))
print(pd.to_datetime('2020.0101'))#pd.to_datetime('2020\\1\\1') #报错
#pd.to_datetime('2020`1`1') #报错
#pd.to_datetime('2020.1 1') #报错
#pd.to_datetime('1 1.2020') #报错

利用format参数强制匹配

print(pd.to_datetime('2020\\1\\1',format='%Y\\%m\\%d'))
print(pd.to_datetime('2020`1`1',format='%Y`%m`%d'))
print(pd.to_datetime('2020.1 1',format='%Y.%m %d'))
print(pd.to_datetime('1 1.2020',format='%d %m.%Y'))

也可使用列表将其转为时间点索引

pd.Series(range(2),index=pd.to_datetime(['2020/1/1','2020/1/2']))

查看类型

type(pd.to_datetime(['2020/1/1','2020/1/2']))

对于DataFrame,如果列已经按照时间顺序排好,则利用to_datetime可自动转换

df = pd.DataFrame({'year': [2020, 2020],'month': [1, 1], 'day': [1, 2]})
pd.to_datetime(df)

(b)时间精度与范围限制

Timestamp的精度远远不止day,可以最小到纳秒ns,同时它的范围为

pd.to_datetime('2020/1/1 00:00:00.123456789')#最小范围
print(pd.Timestamp.min)  #output:Timestamp('1677-09-21 00:12:43.145225')
#最大范围
print(pd.Timestamp.min)  #output:Timestamp('2262-04-11 23:47:16.854775807')

(c)date_range方法

start/end/periods(时间点个数)/freq(间隔方法)是该方法最重要的参数,给定了其中的3个,剩下的一个就会被却sing

freq参数如下:

符号

D/B

W

M/Q/Y

BM/BQ/BY

MS/QS/YS

BMS/BQS/BYS

H

T

S

描述

日/工作日

月末

月/季/年末日

月/季/年末工作日

月/季/年初日

分钟

3.Dateoffset对象

(a)DateOffset与Timedelta的区别

Timedelta绝对时间差的特点指无论是冬令时还是夏令时,增减1day都只计算24小时

DateOffset相对时间差指,无论一天是23/24/25小时,增减1day都与当天相同的时间保持一致

例如,英国当地时间 2020年03月29日,01:00:00 时钟向前调整 1 小时 变为 2020年03月29日,02:00:00,开始夏令时

ts = pd.Timestamp('2020-3-29 01:00:00', tz='Europe/Helsinki')
ts + pd.Timedelta(days=1)

ts = pd.Timestamp('2020-3-29 01:00:00', tz='Europe/Helsinki')
ts + pd.DateOffset(days=1)

可去除tz属性,就可使两者保持一致。

(b)增减一段时间

pd.Timestamp('2020-01-01') + pd.DateOffset(minutes=20) - pd.DateOffset(weeks=2)

(c)各类常用offset对象

pd.Timestamp('2020-01-01') + pd.offsets.Week(2)  #增加两星期
pd.Timestamp('2020-01-01') + pd.offsets.BQuarterBegin(1)  #营业季度开始

(d)序列的offset操作

利用apply函数

pd.Series(pd.offsets.BYearBegin(3).apply(i) for i in pd.date_range('20200101',periods=3,freq='Y'))

直接使用对象加减

pd.date_range('20200101',periods=3,freq='Y') + pd.offsets.BYearBegin(3)

定制offset,可以指定weekmask和holidays参数

pd.Series(pd.offsets.CDay(3,weekmask='Wed Fri',holidays='2020010').apply(i)for i in pd.date_range('20200105',periods=3,freq='D'))

二、时序的索引及属性

1.索引切片

rng = pd.date_range('2020','2021', freq='W')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts['2020-01-26':'20200726'].head() #日期从01-26,到07-26,字符自己转换成合理的

2.子集索引

#只取7月份数据
ts['2020-7'].head()
#支持混合形态索引
ts['2011-1':'20200726'].head()

3.时间点的属性

采用dt对象可以轻松获得关于时间的信息

#2020年有52个星期
pd.Series(ts.index).dt.week
#每星期是在几号
pd.Series(ts.index).dt.day

利用strftime修改时间格式

pd.Series(ts.index).dt.strftime('%Y-间隔1-%m-间隔2-%d').head()

对于datetime对象可以直接通过属性获取信息

#每个星期所在的月份
pd.date_range('2020','2021', freq='W').month
#每个星期所在的月份
pd.date_range('2020','2021', freq='W').weekday #The number of the day of the week with Monday=0, Sunday=6

三、重采样

重采样,就是指resample函数,它可以看做时序版本的groupby函数

1.resample对象的基本操作

采样频率一般设置为上面提到的offset字符

df_r = pd.DataFrame(np.random.randn(1000, 3),index=pd.date_range('1/1/2020', freq='S', periods=1000),columns=['A', 'B', 'C'])
r = df_r.resample('3min')
r.sum()

2.采样聚合

df_r = pd.DataFrame(np.random.randn(1000, 3),index=pd.date_range('1/1/2020', freq='S', periods=1000),columns=['A', 'B', 'C'])
r = df_r.resample('3T')#只求一个值
r['A'].mean()
#表示多个
r['A'].agg([np.sum, np.mean, np.std])
#使用lambda
r.agg({'A': np.sum,'B': lambda x: max(x)-min(x)})

3.采样组的迭代

采样组的迭代和groupby迭代完全类似,对于每一个组都可以分别做相应操作

small = pd.Series(range(6),index=pd.to_datetime(['2020-01-01 00:00:00', '2020-01-01 00:30:00', '2020-01-01 00:31:00','2020-01-01 01:00:00','2020-01-01 03:00:00','2020-01-01 03:05:00']))
resampled = small.resample('H')
for name, group in resampled:print("Group: ", name)print("-" * 27)print(group, end="\n\n")

四、窗口函数

1.Rolling

(a)常用聚合

s = pd.Series(np.random.randn(1000),index=pd.date_range('1/1/2020', periods=1000))
#
s.rolling(window=50)
#
s.rolling(window=50).mean()
#min_periods是指需要的非缺失数据点数量阈值
s.rolling(window=50,min_periods=3).mean()

此外,还有count/sum/mean/median/min/max/std/var/skew/kurt/quantile/cov/corr都是常用的聚合函数

(b)rolling的apply聚合

使用apply聚合时,只需记住传入的是window大小的Series,输出的必须是标量即可,

#计算变异系数
s.rolling(window=50,min_periods=3).apply(lambda x:x.std()/x.mean()).head()

(c)基于时间的Rolling

可选closed='right'(默认)\'left'\'both'\'neither'参数,决定端点的包含情况

s.rolling('15D').mean().head()
#添加closed
s.rolling('15D', closed='right').sum().head()

2.Expanding

(a)expanding函数

普通的expanding函数等价与rolling(window=len(s),min_periods=1),是对序列的累计计算,apply也适用

#rolling
s.rolling(window=len(s),min_periods=1).sum().head()
#expanding
s.expanding().sum().head()
#apply
s.expanding().apply(lambda x:sum(x)).head()

(b)几个特别的Expanding类型函数

cumsum/cumprod/cummax/cummin都是特殊expanding累计计算方法

shift/diff/pct_change都是涉及到了元素关系

①shift是指序列索引不变,但值向后移动

②diff是指前后元素的差,period参数表示间隔,默认为1,并且可以为负

③pct_change是值前后元素的变化百分比,period参数与diff类似

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/466792.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux C高级编程——文件操作之系统调用

Linux C高级编程文件操作之系统调用 宗旨:技术的学习是有限的,分享的精神是无限的! 库函数是一些完成特定功能的函数,一般由某个标准组织制作发布,并形成一定的标准。使用库函数编写的函数一般可以应用于不同的平台而…

解析一个C语言俄罗斯方块游戏,包你看了就会

最近在看俄罗斯方块的游戏,看到一个大神写的俄罗斯方块代码,非常非常优秀,拿出来解析给大家看看,也希望大家自己尝试运行试试,从中能得到一些启发。#先了解下俄罗斯方块的几个形状一共分成 7 形状,有的形状…

认识星座、八大行星的观察

1. 北斗七星 北斗七星属于大熊座,春夏可见;2. 八大行星 太阳系的八大行星基本位于同一轨道面,如以地球轨道面为基准,相互间轨道倾角的差距甚至不到5度(不包括水星)。太阳系各大行星公转平面与地球黄道平面的…

ERP项目需要持续的呵护

ERP项目需要持续的呵护<?xml:namespace prefix o ns "urn:schemas-microsoft-com:office:office" />众所周知&#xff0c;实施ERP是一持续优化的过程&#xff0c;而在这优化完善的过程中&#xff0c;单靠一次实施上线是不够的&#xff0c;尤其是在ERP上线后…

Datawha组队——Pandas(下)综合练习(打卡)

import pandas as pd import numpy as np import missingno as msno import matplotlib.pyplot as plt plt.rcParams[font.sans-serif][SimHei] #用来正常显示中文标签 plt.rcParams[axes.unicode_minus]False #用来正常显示负号#读取数据 df pd.read_csv(端午粽子数据.csv) d…

Linux C高级编程——文件操作之库函数

Linux C高级编程——文件操作之库函数 宗旨&#xff1a;技术的学习是有限的&#xff0c;分享的精神是无限的 ——为什么要设计标准I/O库&#xff1f; 直接使用API进行文件访问时&#xff0c;需要考虑许多细节问题 例如&#xff1a;read、write时&#xff0c;缓冲区的大小该如…

【转】spring之任务调度

由于现在大部分的系统都是采用了spring&#xff0c;所以所有的例子都结合spring来构建&#xff0c;目前主要的任务调度分为三种&#xff1a; Java自带的java.util.Timer类&#xff0c;这个类允许你调度一个java.util.TimerTask任务。使用这种方式可以让你的程序按照某一个频度执…

测试内存对齐对运行速度的影响

我们知道内存对齐是为了方便CPU工作&#xff0c;但是对齐和不对齐差异有多大呢&#xff1f;我自己也没有实际测试过&#xff0c;今天就运行个代码测试看看。1、1字节对齐的时候#include "stdio.h"#pragma pack(1) struct test { char x1; short x2; float x3; …

连接池的问题

看到关于连接池的问题&#xff0c;觉得很有用&#xff0c;摘录到自己博客上 NET 连接池救生员 防止可淹没应用程序的池溢出 William Vaughn 大多数 ADO.NET 数据提供程序使用连接池&#xff0c;以提高围绕 Microsoft 断开连接的 .NET 结构构建的应用程序的性能。应用程序首先打…

Datawhale-零基础入门NLP-新闻文本分类Task01

参考&#xff1a; https://www.jianshu.com/p/56061b8f463a 统计自然语言处理 宗成庆&#xff08;第二版&#xff09; 文本自动分类简称文本分类(text categorization),是模式识别与自然语言处理密切结合的研究课题.传统的文本分类是基于文本内容的,研究如何将文本自动划分为…

fprintf/fscanf函数分析

fprintf/fscanf函数分析 宗旨&#xff1a;技术的学习是有限的&#xff0c;分享的精神是无限的。 fprintf/fscanf函数与printf/scanf区别&#xff1a;printf/scanf专门针对标准输入输出流&#xff0c;fprintf/fscanf函数可用于任意流&#xff0c;包括输入输出流。 1、fprintf …

华为海选开发者状元?还送14件豪礼?

华为云全年最大 最大 最大开发者庆典活动来啦&#xff01;这次庆典没别的&#xff0c;就是&#xff1a;好玩&#xff01;刺激&#xff01;让你拿奖拿到怀疑人生&#xff01;贺岁就要有贺岁的样子~赶紧来看看华为云为开发者们准备了怎样的新年惊喜好玩的在这里&#xff01;上学的…

国际:如何识别真正的程序员

如何识别优秀的程序员&#xff1f;并不是像听起来那么容易。在这儿工作经验的作用是很有限的&#xff0c;因为伟大的程序员不一定要‘正式’的工作经历来证明他们的伟大。 1&#xff0c;激情。 我曾经遇到许多“职业程序员”&#xff0c;他们从事IT是因为觉得这是一种职业&…

Datawhale-零基础入门NLP-新闻文本分类Task02

Task01里边对赛题进行了分析,接下来进行数据读取与数据分析&#xff0c;通过使用Pandas库完成数据读取和分析操作。 1 数据读取 由赛题数据格式可知&#xff0c;可通过read_csv读取train_set.csv数据&#xff1a; import pandas as pd import numpy as np import matplotlib…

一步步分析-C语言如何面向对象编程

这是道哥的第009篇原创一、前言在嵌入式开发中&#xff0c;C/C语言是使用最普及的&#xff0c;在C11版本之前&#xff0c;它们的语法是比较相似的&#xff0c;只不过C提供了面向对象的编程方式。虽然C语言是从C语言发展而来的&#xff0c;但是今天的C已经不是当年的C语言的扩展…

Linux C高级编程——目录操作

Linux C目录操作 宗旨&#xff1a;技术的学习是有限的&#xff0c;分享的精神是无限的。 Linux思想“一切皆文件”&#xff0c;目录也是文件&#xff0c;只是存储的内容有别于普通文件。目录文件中存储的该目录下所有的文件及子目录文件的信息&#xff0c;inode节点。 一、打开…

利用open***建立桥接***[zt]

利用open***建立桥接***http://blog.chinaunix.net/u/7667/showart_30753.html本文介绍利用open***建立桥接***的一种简单方法&#xff0c;使用的服务器为debian GNU/Linux sarge,使用apt-get dist-upgrade更新到最新&#xff0c;内核2.4.27-1-686&#xff0c;未重新编译内核&a…

c复习过程随笔四

使用scanf函数输入数据&#xff1a;一般形式&#xff08;格式控制&#xff0c;地址表列&#xff09; 格式控制中可以包含普通字符 格式控制和printf函数所遵循的格式相似 使用scanf应注意的问题&#xff1a; &#xff08;1&#xff09;格式控制后面应该是变量地址&#xff0c;而…

Datawhale-零基础入门NLP-新闻文本分类Task03

文本是不定长度的&#xff0c;文本表示成计算的能够运算的数字或向量的方法称为词嵌入&#xff08;Word Embedding&#xff09;。词嵌入是将不定长的文本转换成定长的空间中。为了解决将原始文本转成固定长度的特征向量问题&#xff0c;scikit-learn提供了以下方法&#xff1a;…

Linus 在圣诞节想提前放假做了这些解释,哈哈哈

最近在 lkml.org 上看到Linus发布的一个信息&#xff0c;挺有意思的&#xff0c;我看了内容&#xff0c;然后根据自己的理解展示给大家看看&#xff0c;如果有不对的地方欢迎指正。好的&#xff0c;5.10内核发布了我真希望在圣诞节来的最后一个星期没有那么多破事&#xff0c;现…