一. 窗口数据(Window Functions)
Pandas提供了窗口函数(Window Functions)用于在数据上执行滑动窗口操作,可以对数据进行滚动计算、滑动统计等操作。需要注意的是,在使用窗口函数时,需要根据实际需求选择合适的窗口大小和窗口函数,并确保数据的顺序和窗口大小的一致性。本文主要介绍滚动计算函数,以下是一些常用操作和示例代码。
1)滚动计算函数简介
滚动计算(Rolling Calculation)是一种数据处理技术,它在时间序列数据或数据框中执行基于移动窗口的计算。为了提升数据的准确性,将某个点的取值扩大到包含这个点的一段区间,用区间来进行判断,这个区间就是窗口。移动窗口就是窗口向一端滑行,默认是从右往左,每次滑行并不是区间整块的滑行,而是一个单位一个单位的滑行。
滚动统计函数rolling()又叫移动窗口函数,此函数可以应用于一系列数据,指定参数window=n,并在其上调用适合的统计函数。在Pandas中,要使用rolling方法,首先需要创建一个rolling对象。rolling对象可以应用于数据框的列,它表示一个窗口,用于滚动计算。
rolling_obj = df['column_name'].rolling(window=window_size)
其中:
- df['column_name'] 是数据框列的选择,表示我们要在哪个列上执行滚动计算。
- window_size 是窗口的大小,用于定义滚动窗口的大小。
滑动统计函数表达方式为:
rolling(window, min_periods=None, center=False, win_type=None, on=None, axis=0, closed=None)
其中参数包括:
- window:可选参数,表示时间窗的大小,注意有两种形式(int或offset)。如果使用int,则数值表示计算统计量的观测值的数量即向前几个数据,如果是offset类型,表示时间窗的大小。
- min_periods:每个窗口最少包含的观测值数量,小于这个值的窗口结果为NaN,用于处理边界效应。值可以是int,默认None,offset情况下,默认为1。
- center:把窗口的标签设置为居中。布尔型,默认False,居右
- win_type:窗口的类型,如矩形窗口或指数加权窗口。截取窗的各种函数,字符串类型,默认为None.
- on:可选参数,对于dataframe而言,指定要计算滚动窗口的列,值为列名。
- axis:int、字符串,默认为0,即对列进行计算
- closed:定义区间的开闭,支持int类型的window。对于offset类型默认是左开右闭,默认为right,可以根据情况指定为left、both等。
2)滚动计算函数常用方法
滚动计算函数常用方法包括:
- rolling_count():计算各个窗口中非NA观测值的数量
- rolling_sum():计算各个移动窗口中的元素之和(按列计算)
- rolling_mean():计算各个移动窗口中元素的均值
- rolling_median():计算各个移动窗口中元素的中位数
- rolling_var():计算各个移动窗口中元素的方差
- rolling_std():计算各个移动窗口中元素的标准差
- rolling_min():计算各个移动窗口中元素的最小值
- rolling_max():计算各个移动窗口中元素的最大值
- rolling_corr():计算各个移动窗口中元素的相关系数
- rolling_corr_pairwise():计算各个移动窗口中配对数据的相关系数
- rolling_cov():计算各个移动窗口中元素的的协方差
- rolling_quantile():计算各个移动窗口中元素的分位数
- rolling_skew():计算样本值的偏度(三阶矩)
- rolling_kurt():计算样本值的峰度(四阶矩)
下面只详细介绍六个方法:
(a)移动平均值(Moving Average)
window=3表示窗口大小为3,即计算每3个数据的平均值。
(b)滚动求和(Rolling Sum)
window=5表示窗口大小为5,即计算每5个数据的和。
(c)滚动最大值(Rolling Maximum)
window=7表示窗口大小为7,即计算每7个数据的最大值。
(d)滚动最小值(Rolling Minimum)
window=7表示窗口大小为7,即计算每7个数据的最小值。
(e)滚动标准差(Rolling Standard Deviation)
window=5表示窗口大小为5,即计算每5个数据的标准差。
(f)自定义窗口函数:rolling().apply()方法
custom_function是自定义的窗口函数,data是窗口中的数据,result是窗口函数的计算结果。
二. 数据读写
Pandas提供了多种读取数据的方法,包括读取CSV、Ecel、SQL数据库等。