AAAI-24 | EarnHFT:针对高频交易的分层强化学习(RL)框架
原创 QuantML QuantML 2024-04-15 09:25 上海
EarnHFT
摘要(Abstract):高频交易(HFT)使用计算机算法在短时间内(例如秒级)做出交易决策,在加密货币市场(例如比特币)中被广泛使用。尽管在金融研究中的强化学习在许多量化交易任务上表现出色,但大多数方法集中在低频交易,如日级别,不能直接应用于HFT,因为存在两个挑战:一是RL在HFT中涉及处理极长轨迹(例如每月240万步),难以优化和评估;二是加密货币的剧烈价格波动和市场趋势变化使现有算法难以保持令人满意的性能。为了应对这些挑战,作者提出了EarnHFT,这是一个新颖的三阶段分层RL框架,用于HFT。
引言(Introduction):HFT占据了金融市场超过73%的交易量,通过复杂的计算机算法或数学模型在极短的时间内下单或取消订单。尽管强化学习算法在传统金融市场的低频交易中取得了杰出成果,但在HFT环境下,由于上述两个挑战,很少有算法能够保持稳健的性能。
相关工作(Related Works):介绍了在HFT中使用的传统的金融方法和用于量化交易的RL方法。讨论了在HFT中使用的高频技术指标,以及在量化交易中提出的各种深度强化学习方法。
问题表述(Problem Formulation):介绍了用于描述状态、奖励和行动的基本金融概念,并提出了HFT的分层马尔可夫决策过程(MDP)框架。
EarnHFT方法(EarnHFT):详细介绍了EarnHFT的三个阶段:
-
1. 第一阶段:高效的RL与Q-teacher
-
在这一阶段,EarnHFT计算一个Q-teacher,即基于动态规划和未来价格信息的最优动作价值。Q-teacher作为正则化器,用于训练RL代理,以便每秒提供目标位置,从而提高性能和训练效率。Q-teacher的引入可以加速代理的探索速度,并帮助代理更快地获得正奖励。
-
2. 第二阶段:构建多样化代理池
-
EarnHFT在这一阶段训练数百个二级RL代理,这些代理根据市场趋势偏好进行训练,其中买入持有(buy and hold)回报率被用作偏好指标。通过使用动态时间规整(DTW)对市场进行分类,并根据每个市场类别下的盈利性能来选择一小部分训练过的二级RL代理,构建出一个策略池。
-
3. 第三阶段:动态路由优化
-
在这一阶段,EarnHFT训练一个分钟级路由器,该路由器能够根据当前市场状况从策略池中动态选择一个二级代理。这种方法允许系统在不同市场条件下保持稳定的性能。路由器的训练使用DDQN算法,但由于代理池中的代理数量仍然很大,EarnHFT利用代理池的先验知识来细化交易中的选择。具体来说,在选择低级代理之前,系统会确保所选模型的初始位置与当前位置相同,从而将可能的低级代理数量减少到m个。
实验设置(Experiment Setup):描述了在四个加密货币上进行的测试,包括数据集、评估指标和训练设置。
结果与分析(Results and Analysis):展示了EarnHFT与六个基线算法的比较结果,并分析了分层框架和最优动作价值的有效性。
AAAI 2024 EarnHFT:高频交易的高效分层强化学习正式实施。
数据
数据预处理部分请参考data_preprocess/README.md。
我们从tardis下载数据。您可能需要购买 API 密钥才能充分利用我们的代码。
我们首先从 tardis 下载数据,然后进行一些预处理,以使用 dataframe 在算法部分构建相应的 RL 环境。
算法
算法部分请参考EarnHFT_Algorithm/README.md
我们首先训练低级代理,该代理在具有不同偏好参数的第二级上运行beta
。
然后,我们用有效数据评估低级别代理,将其分为不同类别,并挑选在市场的每个特定类别中表现出色的代理来构建策略池。
我们利用该池来训练在分钟级别上运行的高级代理。
我们在有效和测试数据集中评估高级代理。
AAAI 2024 EarnHFT:高频交易的高效分层强化学习正式实施。
数据
数据预处理部分请参考data_preprocess/README.md。
我们从tardis下载数据。您可能需要购买 API 密钥才能充分利用我们的代码。
我们首先从 tardis 下载数据,然后进行一些预处理,以使用 dataframe 在算法部分构建相应的 RL 环境。
算法
算法部分请参考EarnHFT_Algorithm/README.md
我们首先训练低级代理,该代理在具有不同偏好参数的第二级上运行beta
。
然后,我们用有效数据评估低级别代理,将其分为不同类别,并挑选在市场的每个特定类别中表现出色的代理来构建策略池。
我们利用该池来训练在分钟级别上运行的高级代理。
我们在有效和测试数据集中评估高级代理。