“GARCH-Informed Neural Networks for Volatility Prediction in Financial Markets”
论文地址:https://arxiv.org/pdf/2410.00288v1
摘要
波动性作为衡量风险的关键指标,广泛应用于金融投资的定价中。GARCH模型及其变体是用于股票波动性预测的传统工具。近年来,深度学习模型在这一领域的应用逐渐增多,展现了较高的预测精度。本文介绍了一种名为GARCH-Informed Neural Network (GINN)的新模型,它融合了GARCH与LSTM的优势,以提高市场波动性的预测精度。实验结果显示,GINN在外部样本的预测表现上超越了其他时间序列模型,其R²、均方误差(MSE)和平均绝对误差(MAE)等指标更为优越。
简介
市场趋势预测是金融领域的核心议题,许多数学模型通过分析历史数据来预估未来走势。股票价格时间序列由于其高度的噪声和波动性,使得直接预测价格变化较为困难,但对其波动性的预测则显示出一定的规律性。波动性预测对理解股票收益的离散程度至关重要,有助于投资决策。ARCH及其衍生模型(如GARCH)被广泛用于金融市场时间序列分析中,可以有效识别数据中的异方差特征。GARCH的进一步扩展,如EGARCH、GJRGARCH和TGARCH等,旨在更好地捕捉市场的杠杆效应。然而,在特定市场条件下,这些模型的表现可能不尽如人意,且在应对非线性市场特性方面存在局限。
近年来,机器学习模型因具备优越的预测能力和适应性而受到重视,部分观点认为它们比传统统计方法更胜一筹。人工神经网络(ANN)作为一种通用工具,在时间序列建模中展现出高准确性和广泛应用前景,尤其是在工程、经济和金融领域。长短期记忆(LSTM)网络作为波动性建模与时间序列预测的重要手段,以其出色的预测精度和灵活性脱颖而出。不过,ANN及LSTM面临的挑战之一是过拟合问题,这可能导致模型过度依赖训练数据,从而影响其在新数据上的表现。
本文介绍了一种名为GARCH-Informed Neural Network (GINN)的新型混合模型,它融合了机器学习与GARCH模型的优势,以捕捉市场模式。该模型通过将GARCH作为正则化组件嵌入到人工神经网络的损失函数中,以此减少过拟合风险。GINN不仅学习真实数据的特征,还借鉴了GARCH模型的知识,力求全面描绘市场趋势和细节。为了验证GINN的有效性,我们选择了四个基准模型(GARCH、GJRGARCH、TGARCH和未混合的LSTM)进行对比,并在七个全球主要股票市场指数上进行了实验,评估指标包括R²、均方误差(MSE)和平均绝对误差(MAE)。
01方法
波动过程建模
本文研究股票市场波动性,通过日常对数收益率的方差表示。
日常对数收益率公式为:
日常对数收益率时间序列模型为:
其中
包含正态分布噪声和基于过去信息的条件方差。
不同的GARCH模型,例如标准GARCH、GJR-GARCH和TGARCH,各自以独特的方式对波动过程进行建模。
无论是LSTM还是GINN模型,都将日常对数收益率假定为符合正态分布,并利用历史波动数据预测未来的波动性。
本研究的核心目标是使用有限的历史收益数据窗口,滚动式地预测每日的方差值。这意味着,我们将依赖过去一段时间内的收益情况,动态地估计接下来每一个交易日的波动性。
模型选择比较
为了评估新提出的GINN模型的效果,我们挑选了几种经典的GARCH模型作为对比基准,具体包括GARCH、GJR-GARCH和TGARCH模型。这些模型因其代表性、出色的性能以及广泛的认可度而被选中。所有涉及的GARCH模型计算均通过Python中的arch库,由Kevin Sheppard开发,来完成。此外,我们还选用了一个基础的LSTM模型作为现代机器学习模型的参考基准,利用PyTorch库进行该模型的部署、训练及测试工作。这样做的目的是全面比较GINN模型与其他模型之间的性能差异。
GARCH类模型建模
GARCH类型的模型依据AR模型来估算每日平均对数收益率µˆt,这一过程使用过去90天的日对数收益率r t来进行波动率预测。预测采用滚动方式更新,以计算每日方差σˆt²。其表达式为:
这里G代表所使用的特定GARCH模型。图1展示了GARCH模型在进行方差预测时的工作流程。简而言之,通过利用历史数据中的信息,GARCH模型能够滚动地预测未来每日的波动情况。
LSTM模型建模
LSTM模型的训练依赖于历史真实方差σ_t²,并需要借助其他模型预测的日均对数收益µ̂_t来进行。具体来说,通过AR模型利用过去90天的日对数收益率(从r_t-90到r_t-1)来预测日均对数收益µ̂_t。
真实方差的计算遵循特定公式:
LSTM模型基于过去90天的方差σ_t²预测日方差σ̂_t²。
该LSTM模型架构由三层构成,每层宽度为256个单元的LSTM层组成,其间穿插有Dropout层以防止过拟合,随后是两个线性层、一个BatchNorm层和一个ReLU激活层。模型使用AdamW优化器来最小化预测方差与实际方差间的均方误差(MSE),从而实现对方差的精准预测。这样设计的目的是为了提高模型在波动率预测方面的准确性和鲁棒性。
GINN模型建模
GINN模型融合了GARCH和LSTM模型的优点,整个过程分为初始预测和校准两个阶段。在初始预测阶段,GINN采用GARCH模型,根据过去90天的股票对数收益率来预测日均对数收益率和方差。
真实方差是通过特定公式计算得到的。
在校准阶段,GINN利用LSTM模型,基于过去90天的真实方差进行更精确的方差预测,并将GARCH模型的预测结果作为正则化项纳入考量。
LSTM部分的结构包括三层LSTM单元,结合Dropout层防止过拟合,以及线性层、BatchNorm层和ReLU激活层。该模型使用AdamW优化器进行训练。
GINN模型的损失函数定义为真实方差与LSTM预测方差及GARCH预测方差之间加权的均方误差。
整个模型的工作流程如图4所示。这种方法旨在结合两种模型的优势,以提高波动率预测的准确性。
GINN-0模型建模
GINN-0模型是GINN模型的一种特殊情况,其中的权重λ设置为0。这意味着GINN-0仅依赖于GARCH模型的波动率预测来进行损失计算。其损失计算公式为特定表达式:
GINN-0模型的目标是直接预测由GARCH模型得出的波动率结果,而不结合LSTM预测的方差进行调整。这种方式简化了模型,专注于利用GARCH模型的波动率预测能力。
实验方法
研究选用了7个具有代表性的全球股票市场指数进行模型的训练和评估,包括S&P 500、DJIA、NYSE、Russell 2000、恒生指数、日经225和FTSE。数据集涵盖了从1992年6月1日至2022年5月31日的大约7500天的每日收盘价,按时间顺序以2013年6月1日为界分为训练集(约占70%)和测试集(约占30%)。
实验中对六种模型进行了训练和测试:GARCH、GJR-GARCH、TGARCH、LSTM、GINN和GINN-0,并采用了90天滚动预测的方法。为了减少随机因素的影响,神经网络模型进行了多次训练。此外,还在人工生成的符合GARCH过程的时间序列上比较了GARCH模型与GINN模型的性能,预期GARCH模型应表现得更为出色。
模型的性能评估基于其预测方差与实际方差之间的差异,通过三种指标进行衡量:决定系数(R²)、均方误差(MSE)和平均绝对误差(MAE)。
- 决定系数(R²):用于评估模型预测误差相对于简单平均预测的表现,其值范围从 -∞ 到 1,值越高表示预测越准确;
- 均方误差(MSE):计算的是估计值与实际值之间平方误差的平均值,较低的MSE值表明模型拟合度更高;
- 平均绝对误差(MAE):则是估计值与实际值间绝对误差的平均值,同样地,较低的MAE值意味着更好的模型拟合效果,且相比MSE对异常值的敏感度更低。
综合使用R²、MSE和MAE这三项指标,可以全面评价各模型在波动率预测方面的准确性。
GINN模型的参数化研究
GINN模型的性能高度依赖于权重项λ的选择,因此进行了参数研究以优化这一参数,进而提升预测准确性。研究中测试了从0到1范围内的λ值,其中0到0.2之间每隔0.01取一个值,0.2到1之间每隔0.05取一个值。
为了避免过拟合并确保结果具有良好的泛化能力,参数研究使用了一个独立的数据集(NASDAQ Composite 1992-2022)。该数据集被划分为大约70%的训练集和30%的测试集,并采用90天的时间窗口进行模型训练。
评估模型性能的标准包括R²、均方误差(MSE)和平均绝对误差(MAE),目标是最大化R²的同时最小化MSE和MAE。为了减小随机因素对结果的影响,对于每个λ值下的神经网络模型都进行了多次训练,并优先考虑其平均性能指标。最终确定λ=0.01为最优值,能够实现最佳性能。
LSTM和GINN模型在经过300个epochs后达到了收敛状态,为了保证一致性,所有数据集上的模型训练都采用了相同的epoch数。这样做的目的是确保比较的公平性和结果的有效性。
02结果
模型表现方面,GINN和GINN-0在21个时间序列数据集与性能指标组合中的表现突出,分别赢得了16次第一、18次第二和4次第三,显著超越了GARCH、GJR-GARCH、TGARCH以及LSTM模型。
性能对比显示,GINN模型相较于GARCH、GJR-GARCH、TGARCH和LSTM模型,在多个测试中平均提升了5.81%、22.72%、18.79%和22.05%,GINN-0的表现也呈现出相似的趋势。
关于GARCH模型,它在多数测试中展现了良好的性能,特别是在捕捉市场波动性上超过了GJR-GARCH、TGARCH和LSTM模型。
可视化分析表明,对于S&P 500指数的预测,LSTM模型的结果显得较为随机,而GJR-GARCH和TGARCH模型虽然能够反映市场波动,但GARCH模型提供的预测曲线更加平滑且趋势更为准确。
模型对比来看,GINN和GINN-0的预测结果曲线既平滑又相近,而在市场高波动期间,GARCH模型更能精确地追踪市场变化。
R²值普遍较低,不过GINN模型在GSPC数据集上的表现最佳,达到了约0.33的R²值。
在模拟GARCH过程时,当持久性较高(π ≥ 0.9)的情况下,GARCH模型表现更优;而在持久性较低(π < 0.9)的情形下,GINN模型则显示出更大的优势。
03讨论
GINN混合模型在股市指数预测中显示了卓越的表现,特别是在样本外的预测方面超越了其他模型。然而,GINN和GINN-0模型在一些时间序列数据上的表现与GARCH模型相似,也存在不足之处。例如,在Nikkei 225和Hang Seng Index数据集上,尽管TGARCH和GJR-GARCH模型的准确率低于0.1,但它们仍然超过了GINN和GARCH模型。GARCH模型的低效表现直接影响了GINN及其变体模型的准确性,这揭示了GARCH在特定情况下预测能力的局限性。因此,未来的研究应该考虑将其他ARCH或GARCH变种纳入GINN类混合模型以提升其性能。
通常,GINN模型的表现略优于GINN-0,不过两者都显著优于GARCH模型。GINN模型的优势或许源于它能够同时学习真实波动性和GARCH模型提供的市场信息。值得注意的是,GINN-0在某些场景下也能超越GARCH模型,即使它没有直接在损失函数中使用真实波动性。GINN-0产生的平滑曲线可能暗示其LSTM组件提供了额外的正则化效果,从而实现了更稳定的预测结果。需要进一步探讨GINN-0为何能在这些情况下胜过GARCH模型。
研究指出,当前用于评估模型表现的指标(如R²、MSE、MAE)可能不足以全面衡量模型的有效性,尤其是在波动性预测方面。GINN模型由于其较为平滑的预测结果,虽然在上述指标上得分较高,但它可能未能完全捕捉到市场的动态特征。相反,GARCH模型虽能反映市场趋势但在这些指标上得分较低。GINN模型在非GARCH过程的数据中表现出色,表明它能够识别出GARCH模型遗漏的信息。此外,GINN模型对不同频率的波动特征有不同的敏感度,并且其权重λ的选择对性能有重要影响。
所有测试模型在预测准确性方面的表现都不尽人意,这可能是由于市场在样本内外时间段内发生了变化,包括参与者、法规和策略等因素的变化,使得模型原先学到的关系在新阶段不再适用。不可预测的因素如宏观经济新闻、投资者情绪和地缘政治事件等也加剧了市场波动的不确定性,使得基于历史价格变化的模型难以精确预测波动尖峰。尽管如此,GINN模型代表了向更加精准的股市建模和预测迈出的重要一步,但仍需持续改进。GINN和GINN-0通过结合传统统计模型与现代机器学习模型的优点,在股市时间序列预测中展现了良好的潜力,并通过引入GARCH组件增强了模型的泛化能力。
04总结
提出了一种新型混合模型——GARCH-Informed Neural Network (GINN),专门用于金融市场波动性的预测。GINN模型通过结合真实市场数据与GARCH模型的波动性预测结果来进行训练,从而不仅能够捕捉市场的整体趋势,还能细腻地反映市场的变化细节,有效提升股票市场波动性预测的准确性。相较于所有测试过的其他时间序列波动性模型,GINN展现出了更优的性能。这种新的混合模型架构为时间序列的建模和预测开辟了新的路径,提供了改进现有方法的可能性。