【高频】基于GBDT-FM模型的level-2高频数据实证研究(二)

【高频】基于GBDT-FM模型的level-2高频数据实证研究(二)

原创 Yud. 2AMquant 2024-04-04 11:30 广东

       

上一篇中初步提及了Level2数据中常见变量指标的构建方式,以及其带来的价格冲击。此篇将使用GBDT-LM模型对短程价格走势进行简单预测。

ps:此篇创作内容已于2020年10月9日发布在https://zhuanlan.zhihu.com/p/260959965

目录

  • 前言

  • 模型简介(GBDT-FM)

  • 样本选择

  • 实证研究

  • 结论

  • 参考文献

          

一、前言

订单簿揭示了资产交投的详细过程,在高频交易中,对股票进场和离场点的精确定位可以为长线交易者增厚收益,而越来越多的资管机构通过结合T0策略与alpha策略或者beta策略以增强收益。

图片

    

市场流动性图(Bervas,2006);图来源:High-Frequency Trading

Aspects of market liquidity(Bervas,2006);图来源:High-Frequency Trading

       短期价格走势的预测可以为高频交易者提供一个关于资产价格的粗略预期,可以对盘口未来的供需状况有一个初步的了解。上一篇研究中将定义了大量描述订单簿状态和盘口情况的指标,本文将根据这些指标对资产价格的短期走势进行预测。除了走势预测,一般进行高频交易中还会涉及走势持续的时长、概率(置信度)、信号强度等均是进行高频交易必须考虑的因素,在该系列中将持续从不同维度进行研究。

          

二、模型简介

机器学习模型在金融领域上最初的应用是预测。本文首先利用GBDT较强的学习能力对变量进行特征转换,随后再使用FM模型对资产的价格进行预测。价格走势的粗略预测是进行高频交易的不可缺少的一步。

图片

基于机器学习的Level-2数据研究流程

模型介绍

GBDT+LR是Facebook提出的CTR(click through rate)的预测模型,先使用GBDT进行特征转换(features transformation),随后再使用LR(Logistic Regression)训练模型。下文使用的GBDT-FM模型是2014年kaggle竞赛Display Advertising Challenge中第一名使用的机器学习算法;

          

图片

GBDT+LR混合模型结构

GBDT(Gradient Boosting Decision Tree,梯度提升决策树)    

GBDT梯度提升决策树是一种采用预剪枝的迭代型决策树算法,广泛应用于分类、排序和各种机器学习竞赛中,通过学习率learning rate控制纠正前一颗树的强度,一般学习率越高,模型越复杂。同类boosting算法中的Xboosting适用于大规模数据中,adaboost使用FSAM进行优化,而GBDT始终在业界是很经典的集成算法。

GBDT+LR广泛应用与CTR预测,并且具有良好的解释能力,在Kaggle中很受欢迎,因此本文依旧选择GBDT进行特征转换,再基于新特征训练模型,缓解过拟合的问题。

GBM的通用算法:

图片

GBM

FM(Factorization Machine,因子分解机)

图片

FM

其中x为特征,w为权重,v为表征向量

LR和FM可以处理离散数据,而FM适合处理交叉特征,DNN则可以处理更高阶和一些非线性的特征。有些研究报告使用SVM进行训练,SVM引入核函数的概念学习交叉项特征。SVM和FM的区别在于FM可以处理稀疏矩阵,而SVM泛化能力不足,在交叉项乘积为0时无法更新权重交叉项的权重。

量价之间的交互项影响了未来资产的买卖压力,因此本文使用LR而非LM。由于未进行特征选择会引入噪音,因此进行FM训练之前先进行特征选择。    

同样,GBDT-FM广泛用于在电商中CRM的广告推荐中。

          

三、样本选择

本文所使用数据样本的level-2数据,包括十档交易数据、下单数据和成交数据。特征变量有上一篇中定义的各种买卖失衡指标和各种订单簿形态的描述性变量:订单不平衡、深度不平衡、宽度不平衡、买卖压力指标,各类价差、2-4档加权价、5-10档加权价、2-10档加权价、中间价等加权价格等。

四、实证部分

          

特征工程(Features Engineering)

本文中的特征工程仅指特征的生成、清洗、选择和转换。一些特定因子机器学习的挖掘项目中的特征工程部分还包括一些因子标准化、中性化等特定的操作。

特征选择(Selector)

使用迭代特征消除(Recursive feature elimination,RFE)进行特征选择,结果如下;可以看出压力指标、和深度和宽度的不平衡指标、价差和成交量对预期价格走势有决定性作用。

              

图片

RFE;Recursive feature elimination

特征转换(Tranformer)

本文通过带交叉验证的网格搜索对GBDT进行调参,提升模型的泛化能力,根据所得参数后进行特征转换。为避免过拟合,本文定义模型的学习率为0.1。

图片

通过网格搜索和交叉检验,当梯度提升的迭代次数,即弱分类器的个数为100时,决策树最大深度为2时,GBDT模型的效果较好,因此使用learning_rate=0.1,n_estimators = 100,max_depth=2作为参数对特征变量进行转换。

构建模型

下图展示了样本外该只股票某一天的测试结果,囿于篇幅限制,仅展示以下一个tick为预测目标的结果。红色和绿色标记点分别为预测下一个tick涨跌大于0和小于0的时刻,准确率达87.6%。    

根据当前盘口的信息仅可以较好分析下一个tick的涨跌,但是当选择日内交易时,需要充分考虑当前订单簿中未成交订单中对未来价格产生影响的冲击与可能性。

图片

通过观察其他时间段的预测结果,部分预测结果显示,部分标记点密集的区域,价格却未给出明确的走势,在下一段时间出现震荡,意味着市场买卖双方存在博弈,一种解释是订单簿只显示了未成交订单的情况,而市价单对价格的走势更具有决定性作用,其次,通过阅读国外文献,本文认为冰山订单与探针类订单干扰了限价订单簿传递信息的作用,一些交易者为了试探“冰山订单”的存在或出于其他目的,会抛出大量订单然后撤回,这导致了订单簿上的信息并不能完全反应市场的真实需求,最后经分析发现当天的撤单量占总订单量的46%。

意味着在选择进场点和离场时需要结合其他分析指标。

五、结论

1.GBDT-FM对于预测下一个tick的价格走势有较好的预测能力,集成模型GBDT在特征工程中有较好效果

2.由于限价订单簿仅呈现了未成交订单,当选择日内交易时,需要充分考虑当前订单簿中未成交订单中对未来价格产生影响的冲击与可能性。

          

六、参考文献

1.限价订单市场价格发现动态过程研究

2.Modeling high frequency limit order book dynamics with support vector machines

3.Practical Lessons from Predicting Clicks on Ads at Facebook

4.Factorization Machines

5.Greedy function APPROXIMATION:A Gradient Boosting Machine

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/3335.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Nginx下载安装,什么是nginx,什么是反向代理,Windows下、linux下安装nginx(保姆级教程)

文章目录 一、Nginx简介为什么要使用NginxNginx的特点Nginx的相关概念正向代理反向代理动静分离负载均衡 二、Nginx安装1. Windows安装2. Linux安装 一、Nginx简介 Nginx 是一个高性能的 HTTP(静态资源服务器) 和 反向代理 Web 服务器。 为什么要使用N…

AI-数学-高中-44导数的运算法则

原作者视频:【导数】【一数辞典】3导数的运算法则(略难)_哔哩哔哩_bilibili 三种求导表达方式一样的,中间的比较常用: 链式法则:从外向内:

如何部署Tensorrtx

因为模型跑起来太慢了,所以想要运用tensorrtx进行加速。但是这个是有难度的,且网络上的教程大多写的不是很好。我将以一个新人的视角,从头开始部署基于yolov5的tensorrtx加速。 知识补充:TensorRT和TensorRTX的区别 tensorRT是英…

统一SQL 支持Oracle cast函数转换

统一SQL介绍 https://www.light-pg.com/docs/LTSQL/current/index.html 源和目标 源数据库:Oracle 目标数据库:Postgresql,TDSQL-MySQL,达梦8,LightDB-Oracle 操作目标 在Oracle中,cast函数允许将一种…

yolov8 区域声光报警+计数

yolov8 区域报警计数 1. 基础2. 报警功能2. 1声音报警代码2. 2画面显示报警代码 3. 完整代码4. 源码 1. 基础 本项目是在 yolov8 区域多类别计数 的基础上实现的,具体区域计数原理可见上边文章 2. 报警功能 设置一个区域region_points,当行人这一类别…

链栈的基本操作(c语言实现)

栈的概念 栈:一种特殊的线性表,其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作的一端称为栈顶,另一端称为栈底。栈中的数据元素遵守后进先出LIFO(Last In First Out)的原则。 栈的结构 定义栈…

JVM虚拟机监控及性能调优实战

目录 jvisualvm介绍 1. jvisualvm是JDK自带的可以远程监控内存,跟踪垃圾回收,执行时内存,CPU/线程分析,生成堆快照等的工具。 2. jvisualvm是从JDK1.6开始被继承到JDK中的。jvisualvm使用 jvisualvm监控远程服务器 开启远程监控…

智能家居—ESP32开发环境搭建

相关文章 毕业设计——基于ESP32的智能家居系统(语音识别、APP控制) 智能家居—ESP32开发环境搭建 一、下载安装二、验证三、资料获取 一、下载安装 下载安装 vscode 安装插件 创建工程 二、验证 写一个简单的函数来验证一下功能 void setup() {// put your setup c…

SpringMVC笔记——SpringMVC基础Tomcat环境配置

Tomcat安装配置 下载Apache Tomcat 进入官网https://tomcat.apache.org/,选择tomcat 9 这边使用idea开发,建议直接下载压缩包 无法访问下载的可以直接用我的下载链接:https://cloudreve.zxbdwy.online/s/6nSA 提取码:w1pwk3将压…

【Java并发知识总结 | 第七篇】Java并发相关概念总结(程序/进程/线程、并行/并发、同步/异步、死锁/避免、线程安全/三大特性)

文章目录 7.并发相关概念总结(程序/进程/线程、并行/并发、同步/异步、死锁/避免、线程安全/三大特性)7.1程序、进程与线程7.2并行和并发7.3同步和异步7.4什么是死锁?如何避免?7.5何为线程安全?以及三大特性 7.并发相关…

java多线程-并发和并行

进程 并发 进程中的线程是由CPU进行调度的,但是CPU能够处理的进程数量有限为了保证所有的线程都在运行,CPU会快速切换,给外界的感觉就是所有的线程都在运行,这就是并发。 并行

C语言入门课程学习记录4

C语言入门课程学习记录4 第18课 - signed 与 unsigned第19课 - 再论数据类型第20课 - 经典问题剖析第21课 - 程序中的辅助语句(上)第22课 - 程序中的辅助语句(下) 本文学习自狄泰软件学院 唐佐林老师的 C语言入门课程,…

pytest教程-30-测试数据管理插件-pytest-datadir

领取资料,咨询答疑,请➕wei: June__Go 上一小节我们学习了pytest重复执行用例插件pytest-repeat,本小节我们讲解一下测试数据管理插件-pytest-datadir。 在软件测试中,有效管理测试数据对于编写全面的测试用例至关重要。Pytest…

vue基础教程(7)——构建项目级首页

同学们可以私信我加入学习群! 正文开始 前言一、页面结构二、侧边栏三、主体部分总结 前言 前面我们学习了vue的路由和登录页搭建,本文将和大家共同学习首页的搭建。 首页示例如图: 很多项目经验比较少的同学,一般都是对某些语…

浅谈操作系统中的重要概念——进程

文章目录 一、什么是程序?二、什么是进程?三、进程与程序有什么区别?四、OS是如何管理进程的4.1、使用 结构体 进行描述进程4.2 、使用数据结构组织众多进程4.3、PCB4.3.1、PCB 里有哪些属性4.3.1.1 pid4.3.1.2 内存指针4.3.1.3 文件描述符表…

2024年如何保存微信小程序里的音频文件#下载高手

今年是2024年,仍然有很多人不知道如何下载,本文就带你们学会如何下载微信小程序里面的音频素材 这里要用到一个工具,下载高手 下载高手链接:https://pan.baidu.com/s/1JUWmNXozWSS3xgmvpdyf0g?pwd1234 提取码:1234…

后端程序员利用 AI 给网站制作专业 favicon

看看你的 Chrome 浏览器顶部的标签页,每个标签页前面有一个小小的图标,这个就是 favicon,如果你将网页保存到收藏夹,前面也会是这个小图标。这个图标有时候就是网站的 Logo,有时候也不太一样。 上面截图中&#xff0c…

PHP7 +nginx Docker 部署

一、php docker 1、创建php Docker, Dockerfile文件如下 FROM php:7.3.7-fpmRUN mkdir -p /php/myphp 2、启动脚本start.sh,其中会安装php mysql驱动 #!/bin/bash rm -rf myphp unzip myphp.zip cp .env.pro ./myphp cp .env ./myphpdocker rm -f m…

Apifox接口调试工具

1、Apifox简介 Apifox 是集 API 文档、API 调试、API Mock、API 自动化测试多项实用功能为一体的 API 管理平台,定位为 Postman Swagger Mock JMeter。旨在通过一套系统、一份数据,解决多个工具之间的数据同步问题。只需在 Apifox 中定义 API 文档&a…

leetcode-合并二叉树-90

题目要求 思路 1.如果两个结点都存在,就把对应的val加起来创建一个新的结点 2.如果有一个结点不存在,就用村在的那个结点 3.最后返回创建的头结点 代码实现 /*** struct TreeNode {* int val;* struct TreeNode *left;* struct TreeNode *right;* Tre…