python graphics 清空 图_【手把手教你】使用Python玩转金融时间序列模型

01引言上一篇推文【Python量化基础】时间序列的自相关性与平稳性着重介绍了时间序列的一些基础概念,包括自相关性、偏自相关性、白噪声和平稳性,以及Python的简单实现。本文在此基础上,以沪深300指数收益率数据为例,探讨如何使用Python对平稳时间序列进行建模和预测分析。时间序列经典模型主要有自回归模型AR,移动回归模型MA,移动自回归模型ARMA,以及差分移动自回归模型ARIMA,今天主要介绍这四种模型的基本原理以及Python的实现步骤。02AR模型

AR模型全称为Autoregressive Models,即自回归模型,用于刻画因变量能由它的多个滞后项表示。p阶自回归模型可以写成:

320ec2082f41eaf97a34afece8f8e9b9.png10e12fcefe4a9eca8fd29484b61030aa.png

下面模拟一个AR(1)模型。

import pandas as pdimport numpy as npimport statsmodels.tsa.api as smt     #tsa为Time Series analysis缩写import statsmodels.api as smimport scipy.stats as scsfrom arch import arch_model#画图import matplotlib.pyplot as pltimport matplotlib as mpl
%matplotlib inline#正常显示画图时出现的中文和负号from pylab import mpl
mpl.rcParams['font.sans-serif']=['SimHei']
mpl.rcParams['axes.unicode_minus']=False

#先定义一个画图函数,后面都会用到

def ts_plot(data, lags=None,title=''):

    if not isinstance(data, pd.Series):   
        data = pd.Series(data)#matplotlib官方提供了五种不同的图形风格,#包括bmh、ggplot、dark_background、fivethirtyeight和grayscalewith plt.style.context('ggplot'):    
        fig = plt.figure(figsize=(10, 8))
        layout = (3, 2)
        ts_ax = plt.subplot2grid(layout, (0, 0), colspan=2)
        acf_ax = plt.subplot2grid(layout, (1, 0))
        pacf_ax = plt.subplot2grid(layout, (1, 1))
        qq_ax = plt.subplot2grid(layout, (2, 0))
        pp_ax = plt.subplot2grid(layout, (2, 1))
        data.plot(ax=ts_ax)
        ts_ax.set_title(title+'时序图')
        smt.graphics.plot_acf(data, lags=lags, ax=acf_ax, alpha=0.5)
        acf_ax.set_title('自相关系数')
        smt.graphics.plot_pacf(data, lags=lags, ax=pacf_ax, alpha=0.5)
        pacf_ax.set_title('偏自相关系数')
        sm.qqplot(data, line='s', ax=qq_ax)
        qq_ax.set_title('QQ 图')        
        scs.probplot(data, sparams=(data.mean(), 
                     data.std()), plot=pp_ax)
        pp_ax.set_title('PP 图') 
        plt.tight_layout()return

# 模拟AR(1) 过程 #设置随机种子(括号里数字无意义)
np.random.seed(1)#模拟次数
n=5000#AR模型的参数
a = 0.8#扰动项为正态分布
x = w = np.random.normal(size=n)for t in range(1,n):
    x[t] = a*x[t-1] + w[t]#画图
ts_plot(x, lags=30)

0e572bc6d4a05beeb3a210d76b81a7f4.png

9fd1e6c76e51b8dafa4fe25cd093c434.png模拟的AR(1)模型是正态的。自相关系数图(ACF)显示滞后值之间存在显著的序列相关性,偏自相关系数图(PACF)则显示在滞后1期时截尾(迅速降为0)。下面使用statsmodels构建AR(p)模型,先用AR模型拟合上述模拟的数据,并返回估计的系数参数),然后选择最佳滞后阶数,最后与原模型设置对比看是否选择了正确的滞后项。假如AR模型是正确的,那估计的系数参数将很接近真实的系数0.8,选择的阶数也会等于1。
#估计数据的AR模型参数和滞后阶数
def simu_ar(data,a,maxlag=30,true_order = 1):
    '''data:要拟合的数据;a为参数,可以为列表;maxlag:最大滞后阶数'''
    # 拟合AR(p)模型
    result = smt.AR(data).fit(maxlag=maxlag, ic='aic', trend='nc')
    #选择滞后阶数
    est_order = smt.AR(data).select_order(maxlag=maxlag,
                ic='aic', trend='nc')  
    #参数选择标准ic : 有四个选择 {‘aic’,’bic’,’hqic’,’t-stat’}
    #趋势项:trend:c是指包含常数项,nc为不含常数项
    #打印结果
    print(f'参数估计值:{result.params.round(2)},
            估计的滞后阶数:{est_order}')
    print(f'真实参数值:{a},真实滞后阶数 {true_order}')
simu_ar(x,a=0.8)
参数估计值:[0.8],估计的滞后阶数:1
真实参数值:0.8,真实滞后阶数 1

看下如何用AR(p)模型来拟合沪深300的对数收益

# Select best lag order for hs300 returns
import tushare as ts
token='输入token'
pro=ts.pro_api(token)
df=pro.index_daily(ts_code='000300.SH')
df.index=pd.to_datetime(df.trade_date)
del df.index.name
df=df.sort_index()
df['ret']=np.log(df.close/df.close.shift(1))
max_lag = 30
Y=df.ret.dropna()
ts_plot(Y,lags=max_lag,title='沪深300')
result = smt.AR(Y.values).fit(maxlag=max_lag, ic='aic', trend='nc')
est_order = smt.AR(Y.values).select_order(maxlag=max_lag, 
            ic='aic', trend='nc')
print(f'沪深300拟合AR模型的参数:{result.params.round(2)}')
print(f'沪深300拟合AR模型的最佳滞后阶数 {est_order}')
沪深300拟合AR模型的参数:[ 0.03 -0.03  ...]
沪深300拟合AR模型的最佳滞后阶数 15

9849cb354432a33608bc7200e758205c.png

9fd1e6c76e51b8dafa4fe25cd093c434.png最好的阶数选择是15或者说有15个参数!任何模型有这么多参数在实际中不可能有用。显然有比这个模型更好的模型可以解释沪深300收益率走势。03MA模型

MA(q)模型与AR(p)模型非常相似。不同之处在于,MA(q)模型是对过去的白噪声误差项的线性组合,而不是过去观测的线性组合。MA模型的动机是我们可以直接通过拟合误差项的模型来观察误差过程中的“冲击”。在一个AR(p)模型中,通过在一系列过去的观察中使用ACF间接观察到这些冲击。MA(q)模型的公式是:

095bba5cb9d55d07ba634e4a62fb041c.png

下面使用Python模拟MA(1) 过程。

#这里使用arma模型进行模拟,设定ar阶数为0,即得到ma模型
alphas = np.array([0.])
betas = np.array([0.6])
ar = np.r_[1, -alphas]
ma = np.r_[1, betas]
#模拟MA的样本数据
ma_sample = smt.arma_generate_sample(ar=ar, ma=ma, nsample=1000) 
ts_plot(ma_sample, lags=30,title='MA(1)模型')

a521b93fe99fc19c97614ad2206e6760.pngACF函数显示滞后1阶系数显著异于0,表明MA(1)模型适合拟合的数据。

# 对上述模拟数据进行ARMA模型拟合
max_lag = 30
result = smt.ARMA(ma1, order=(0, 1)).fit(maxlag=max_lag, 
             method='mle', trend='nc')
print(result.summary())

edd601675f3cad7af93d74aac853e0e0.png

9fd1e6c76e51b8dafa4fe25cd093c434.png

模型估计d 滞后系数为0.6277,与真实值0.6比较接近。注意到,95%置信区间确实包含该真实值。

下面尝试用MA(3)模型去拟合沪深300股价的对数收益,但这次并不知道真实的参数值。结果显示,拟合的残差自相关系数和偏自相关系数比较符合白噪声过程,但由于存在厚尾,MA模型并不是预测沪深300未来回报的最佳模型。

max_lag = 30
result=smt.ARMA(Y.values,order(0,3)).fit(maxlag=max_lag, 
         method='mle', trend='nc')
print(result.summary())
resid=pd.Series(result.resid,index=Y.index)
ts_plot(resid, lags=max_lag,title='沪深300指数MA拟合残差')

a3b636233bd1b3a8ead8b3457cebde07.png

04ARMA模型

ARMA模型全称为自回归移动平均模型Autoregressive Moving Average Models - ARMA(p, q),是AR(p)和MA(q)模型之间的结合,从金融的角度理解,AR和MA模型的理论意义在于:AR(p)模型试图捕捉(解释)交易市场中经常观察到的动量和均值回复效应。MA(q)模型尝试捕捉(解释)在白噪声条件下观察到的冲击效应。这些冲击效应可以被认为是影响观察过程的意外事件。ARMA模型的弱点在于忽视了大多数金融时间序列中的波动聚集效应。模型的公式可以表示为:

4ba29cfcb44dcc984129d29297d7d445.png

print(result.summary())

# 下面使用ARMA(2, 2) 模型进行模拟分析
max_lag = 30
n = 5000
burn = int(n/10) 
alphas = np.array([0.5, -0.25])
betas = np.array([0.5, -0.3])#注意ar模型1代表0阶(自身),然后在其他系数前加负号
ar = np.r_[1, -alphas]
ma = np.r_[1, betas]
arma22 = smt.arma_generate_sample(ar=ar, ma=ma, nsample=n, burnin=burn)
_ = ts_plot(arma22, lags=max_lag)
result = smt.ARMA(arma22, order=(2, 2)).fit(maxlag=max_lag, 
         method='mle', trend='nc', burnin=burn)

b7abf994e18a8bf5ae998e4f2f3d1a43.png

8571a75d590ffbea95b288a57c4f2cbc.png

9fd1e6c76e51b8dafa4fe25cd093c434.png结果显示模型估计的参数与真实参数基本上吻合。下面使用ARMA模型来拟合沪深300的收益数据。ACF和PACF没有显示出明显的自相关性。QQ和概率图显示残差大致为正态分布但厚尾。总体而言,这个模型的残差看起来不像白噪声,说明模型还是没有很好的拟合其波动性特性。

#不事先确定滞后阶数,而是通过信息准则选择最佳的滞后阶数#先将初始值设置为无穷大
best_aic = np.inf 
best_order = None
best_mdl = None
rng = range(5)for i in rng:for j in rng:try:
            tmp_mdl = smt.ARMA(Y.values, order=(i,j))
                      .fit(method='mle', trend='nc')
            tmp_aic = tmp_mdl.aicif tmp_aic                 best_aic = tmp_aic
                best_order = (i, j)
                best_mdl = tmp_mdlexcept: continue
print(f'最佳滞后阶数:{best_order}')
print(best_mdl.summary())
resid=pd.Series(best_mdl.resid,index=Y.index)
ts_plot(resid, lags=30,title='沪深300指数ARMA拟合残差')

最佳滞后阶数:(4, 4)

3ba69d74bcf8614e6391392953019756.png

05ARIMA模型

ARIMA模型全称是差分移动自回归模型(Autoregressive Integrated Moving Average Models),是ARMA模型的拓展。由于现实中很多时间序列不是平稳的,但可以通过差分来实现平稳,即通过一阶差分可以将非平稳机游走其转化为平稳的白噪声。由于前三个模型都有时间序列平稳的假设在,如果时间序列存在明显的上升或者下降趋势,模型预测的效果大大折扣。对于有明显下降或者上升趋势的数据集,可以使用差分的方式将其转化为平稳序列,然后使用ARMA模型进行拟合。假设模型经过d次差分通过了时间序列平稳的检验,ARMA的系数为p,q,ARIMA模型为ARIMA(p,d,q)。  

下面通过迭代(p,d,q)的不同组合,找到拟合沪深300收益率数据的最佳ARIMA模型。通过AIC信息准则来评估每个模型,最后选取AIC最小的。

#原理与拟合ARMA模型类似
best_aic = np.inf 
best_order = None
best_mdl = None#假定最多滞后4阶
pq_rng = range(5) #假定最多差分一次
d_rng = range(2) for i in pq_rng:for d in d_rng:for j in pq_rng:try:
             tmp_mdl = smt.ARIMA(Y.values, order=(i,d,j))
                          .fit(method='mle', trend='nc')
                tmp_aic = tmp_mdl.aicif tmp_aic                     best_aic = tmp_aic
                    best_order = (i, d, j)
                    best_mdl = tmp_mdlexcept: continue
print(f'ARIMA模型最佳阶数选择:{best_order}')# 对拟合残差进行可视化
print(best_mdl.summary())
resid=pd.Series(best_mdl.resid,index=Y.index)
_ = ts_plot(resid, lags=30,title='沪深300指数ARIMA残差')

ARIMA模型最佳阶数选择:(4, 0, 4)

da633d342e568deb4814d996e542f086.png

b812897f1b30c97f7a98a517490e9a17.png

9fd1e6c76e51b8dafa4fe25cd093c434.png

最好的模型是差分为0,因为我们使用的是收益率数据,相对于已经采用了第一次对数差分来计算股票收益率。模型残差图结果与上面使用的ARMA模型基本相同。显然,ARIMA模型同样无法解释时间序列中的条件波动性。到这一步,时间序列的基本模型和建模步骤基本上大家已经熟知,下面利用模型的forecast()方法进行预测。

# 对沪深300收益率未来20天进行预测
n_steps = 20#分别设置95%和99%的置信度
f, err95, ci95 = best_mdl.forecast(steps=n_steps) 
_, err99, ci99 = best_mdl.forecast(steps=n_steps, alpha=0.01) 
date=(df.index[-1]).strftime('%Y%m%d')
cal=pro.trade_cal(exchange='', start_date=date)
idx = cal[cal.is_open==1][:20]['cal_date'].values
fc_95 = pd.DataFrame(np.column_stack([f, ci95]), 
index=idx,columns=['forecast', 'lower_ci_95', 'upper_ci_95'])
fc_99 = pd.DataFrame(np.column_stack([ci99]), 
      index=idx, columns=['lower_ci_99', 'upper_ci_99'])
fc_all = fc_95.combine_first(fc_99)
#fc_all.head()

# 对预测的20日收益率数据进行可视化
plt.style.use('ggplot')
fig = plt.figure(figsize=(12,7))
ax = plt.gca()
ts = df['ret'][-500:].copy()
ts.plot(ax=ax, label='HS300收益率')# 样本内预测
pred=best_mdl.predict(np.arange(len(ts)) [0], np.arange(len(ts))[-1])
pf=pd.Series(pred,index=ts.index)
pf.plot(ax=ax, style='r-', label='样本内预测')
fc_all.index=pd.to_datetime(fc_all.index)
fc_all.plot(ax=ax)
plt.fill_between(fc_all.index, fc_all.lower_ci_95, 
     fc_all.upper_ci_95, color='gray', alpha=0.7)
plt.fill_between(fc_all.index, fc_all.lower_ci_99, 
     fc_all.upper_ci_99, color='gray', alpha=0.2)
plt.title('{} 天HS300收益率预测\nARIMA{}'.format(n_steps, 
     best_order))
plt.legend(loc='best', fontsize=10)
plt.show()

3d5d2d84557c0655704736a1a036affb.png

06结语本文主要以沪深300指数收益率数据为例,简要介绍了时间序列四大经典模型的基本原理和Python的简单应用,不难发现,这些模型在拟合和预测沪深300指数收益率上显得力不从心。实际上,这些模型有一个潜在假设是干扰项的方差是固定不变的,但是研究者发现金融经济数据(如股票收益率)大都存在异方差现象,因此传统的时间序列模型无法获得可靠的估计结果。为了解决金融资产收益率序列波动聚集的难题,学者们提出了ARCH、GARCH以及协整模型,后续推文将会对这一方面的应用进行详细介绍。

参考资料:

1. statsmodels官方文档

2. Time Series Analysis (TSA) in Python - Linear Models to GARCH

857f8f91f7f79012394a760105eb32f8.png关于Python金融量化857f8f91f7f79012394a760105eb32f8.png专注于分享Python在金融量化领域的应用。加入知识星球,可以免费获取量化投资视频资料、量化金融相关PDF资料、公众号文章Python完整源码、量化投资前沿分析框架,与博主直接交流、结识圈内朋友等。20ba3adc6b8ce829ba22c8016c5b30c6.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/499010.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

postman linux_Postman使用

postman简介官网https://learning.getpostman.com/用户在开发或者调试网络程序或者是网页B/S模式的程序的时候是需要一些方法来跟踪网页请求的,用户可以使用一些网络的监视工具比如著名的Firebug等网页调试工具。今天给大家介绍的这款网页调试工具不仅可以调试简单的…

java与MySQL做购物系统_java Swing mysql实现简单的购物系统项目源码附带指导视频教程...

大家好,今天给大家演示一下由Java swing实现的一款简单的购物程序,数据库采用的是mysql,该项目非常简单,实现了管理员对商品类型和商品的管理及用户注册登录后浏览商品、加入购物车、购买商品等功能,旨在学习Java 图形…

mysql pdm_mysql 生成pdm

1.条件1.1 工具powerDesigner16.51.2 mysql数据库地址或脚本1.3 mysql-connector-odbc-5.3.4-winx64.msi2.操作步骤2.1 database > change DBMS 选择Mysql5.02.2 打开powerDesigner16.5工具, file > reverse Engineer > database确定,则生成对应的pdm.3.图形列表中展示…

java 调用htm中js函数_从 node.js Web应用中调用 WASM 函数 | WebAssembly 入门教程

文中所有的代码都可以在 https://github.com/second-state/wasm-learning/tree/master/nodejs/hello 中找到在之前的教程中,我们讨论了如何从 Web 浏览器中的 JavaScript 应用程序访问 WebAssembly 函数。WebAssembly 快问快答从 Rust 开始入门 WebAssembly | WebAs…

vba cad 读取宏的路径_openpyxl 第三篇 lt;工作表的读取和写入gt;

1、打开表格文件from openpyxl import load_workbook wb load_workbook(r"文件路径工作簿文件全名")2. 查看有哪些sheet页sheet_names wb.sheetnames print(sheet_names)3. 读取指定的sheet页sheet1 wb[指定工作表的名字]4.单元格的使用#写 sheet1.cell(row3,colu…

mysql 一致性读_MySQL半一致性读原理解析-从源码角度解析

1、什么是半一致性读A type of read operation used for UPDATE statements, that is a combination of read committed and consistent read. When an UPDATE statement examines a row that is already locked, InnoDB returns the latest committed version to MySQL so tha…

飞秋发送文件对方无法接收_微信新功能,发送高清图片和视频终于不会被压缩了...

今天,扎比从微博中刷到了腾讯微信团队的最新微博,称微信支持发送高清图片视频不被压缩,而且给好友发送的文件容量上限也变得更大了。发送教程一般情况下,我们使用微信给好友发视频和图片时都会被压缩。而今天扎比分享的是一个不会…

张仰彪第二排序法_C++之排序

常见的各种排序算法复杂度快速排序1.原理假设我们现在对“6 1 2 7 9 3 4 5 10 8”这个10个数进行排序。首先在这个序列中随便找一个数作为基准数。为了方便,就让第一个数6作为基准数吧。接下来,需要将这个序列中所有比基准数大的数放在6的右边&am…

mysql1440秒未活动_phpMyAdmin登陆超时1440秒未活动请重新登录

本文章总结了关于phpMyAdmin登陆超时1440秒未活动请重新登录解决方法,有需要的朋友可参考本文章。问题现象:现象一:phpmyadmin在使用过程中经常出现“登陆超时(1440秒未活动),请重新登录”;现象二:phpmyadm…

python3读取jpg_python3读取图像并可视化的方法(PIL/Pillow、opencv/cv2)

原图:使用TensorFlow做图像处理的时候,会对图像进行一些可视化的操作。下面,就来列举一些我知道的图像读取并可视化的方法。 1. Pillow模块 1.1 Pillow模块的前生 Pillow就是python2中的 PIL 模块。PIL模块(Python Imaging Librar…

mysql一对多增删改查_SpringBoot+MySql+ElementUI实现一对多的数据库的设计以及增删改查的实现...

场景业务中经常会用到一对多的数据库的设计与数据的增删改查的实现。比如要实现一个对手机应用配置允许访问的权限的业务。app与权限就是一对多的关系。即一个app可以拥有多个权限。注:实现首先设计数据库。要有一个app表、一个权限表、一个app与权限关联表。首先设…

python设置时间到后结束程序_Python设置程序等待时间

写代码时,特别是涉及到其他外部可执行文件调用时,通常会出现调用程序还未生成结果,后面的程序就自动执行的情况。而通常情况下,前一步调用的生成结果是下一步程序的输入文件,因此出现找不到该文件或打不开该文件的情况…

c++心形代码_情人节,用代码比个心

今日份的情人节,在家闲出p的你,是不是比往日更加寂寞?这无情的雨,这冰冷的雪,这朴实无华且枯燥的生活,你是否想做点什么?没有朱一旦的劳力士,也没有朱一龙的神仙颜值,那么…

上下相机贴合对位计算公式_展商速递 | 汇驰新材热可塑性光学透明膜优化升级全贴合工艺...

2020/11/19-21广州汇驰新材料有限公司(东莞欧伏电子)展位号:1R10展会时间:11月19-21日地点:深圳会展中心(福田区老展馆)欢迎相关企业莅临商谈!关于汇驰新材广州汇驰新材料有限公司(东莞欧伏电子)(展位号:1R10)主要从事…

datagrip替换字_DataGrip使用进阶-导航及搜索(一)

1、关键字导航:当在datagrip的文本编辑区域编写sql时,按住键盘Ctrl键不放,同时鼠标移动到sql关键字上,比如表名、字段名称、或者是函数名上,鼠标会变成手型,关键字会变蓝,并加了下划线&#xff…

js map获取_感知 Node.js 异步I/O 的魅力!

JS 在浏览器的网页中执行,浏览器给 JS 提供的能力是操作文字、图片,或实现一些简单效果。术语叫 DOM 操作。JS 在 Node.js 环境中执行, Node 给 JS 提供了诸如 文件操作, 网络操作 等功能模块。基于这些模块,JS 一下就牛气冲天了。在 Node.j…

k8s pod restartcount 改0_通过实例快速掌握k8s(Kubernetes)核心概念

点击上方蓝色“Go语言中文网”关注我们,设个星标,每天学习 Go 语言本文作者:倚天码农,原创授权发布原文链接:https://segmentfault.com/a/1190000020595811容器技术是微服务技术的核心技术之一,并随着微服务…

div垂直居中的方法_【CSS】8种常见的垂直水平居中方法

1.比较传统的方式 absolutemargin负值偏移特点:父容器要设置宽高,需要知道子容器宽高,偏移量是子容器宽高的一半且是负值,兼容性好/* absolutemargin负值偏移布局 */.layout.absolute {position: relative;}.layout.absolute art…

websocket 导致大量apache进程_Swoole 服务端主动向websocket推送消息

在之前的博文中,我们已经学完了如果使用swoole搭建websocket长连接,也学会了swoole的多进程数据共享操作。但在一个完整的websocket长连接日常操作链中,服务端往往会主动给在线的用户单独推送消息,会群发一些消息。在Swoole-webso…

python因子分析法_python——因子分析

因子分析用Python做的一个典型例子 一、实验目的 采用合适的数据分析方法对下面的题进行解答二、实验要求 采用因子分析方法,根据48位应聘者的15项指标得分,选出6名最优秀的应聘者。 三、代码 importpandas aspd importnumpy asnp importmath asmath imp…