机器学习用于金融市场预测难在哪?

摘要: 本文主要讲述了机器学习用于金融市场预测难在哪?——金融间序是典型的部分可见马尔科夫决策过程(POMDP)


· 数据分布

· 小样本

· 难以计算的数据

· 十分复杂

· 部分可见马尔科夫决策过程

· 推荐系统的相似性

· 结束思索


金融市场已经成为最早的采用机器学习(ML)市场之一。20世纪80年代以来,人们一直在使用ML以发现市场上的规律。尽管ML在预测市场结果方面取得了巨大成功,但最近的深度学习并没有对金融市场的预测有多大帮助。虽然深度学习和其他ML技术终于使Alexa,Google AssistantGoogle Photos成为可能,但在股票市场上没有取得多大进展。


但是, 我将机器学习应用于现实世界的金融预测问题。尽管有很多论文声称成功应用了深度学习模式,但我还是持怀疑态度来看待这些结果。有些模型确实有更好的精度。然而,差异的量级往往还不够大。


NLP的改进有助于提高依赖文档分析的定量策略的有效性。这是在金融市场中深度学习模型的一个不可多得的好处。

所有这一切证实了金融市场本质上是不可预测的事实。这里有很多原因让人难以预测。我想强调一些使它变得困难的主要原因:


数据分布:


数据分布问题至关重要——几乎所有的做金融预测的研究论文都忽略了这一点。


我们可以将金融数据集与图像分类数据集进行对比,以更好地理解这一点。让我们考虑CIFAR-10数据集.它包括了10个类。每个类的训练集中有5000个图像,每个类的测试集中有1000个图像。

 

我们期望在狗分类的训练集中,像素权重的分布与狗分类测试集中的分布相似。换而言之,狗的图像将包含在训练集以及测试集中的狗。这比较傻的说明了:狗的图像必须包含狗。


对于大多数金融数据集来说,这种明显的属性没有效。你将来可能看到的和你目前看到的数据完全不同。事实上,将机器学习应用于现实世界是一个比较常见的问题。除了确保测试和训练的数据集具有相似的分布以外,还必须确保只有当将来的数据遵循训练/验证的分布才在产品里使用训练过的模型。


虽然大多数研究者都注意不去把预测偏差纳入到他们的研究中,但几乎每个人都不承认涉及数据分布问题。


向前优化是解决这个问题的一种可能的选项。这在从事者中是已知的,但是研究人员常常忘记提到这一点。然而,即使是向前推进优化也不是解决潜在问题的灵丹妙药——它假设未来数据分布将是什么样的。这就是为什么向前优化的方法并不能真正给你带来高精度——它只是比较实用。


小样本大小(Small Sample Sizes

机器学习经常需要从小数据集做预测。一个例子是劳动力统计,例如失业率和非农收入。每个月得到一个数据点,没有足够的历史数据。一个极端的例子是金融危机—只有一个数据点供我们借鉴。


这使得应用自动化的学习方法变得非常困难。许多人最终采取的一种途径是将不太频繁的统计数据与相对频繁的数据结合起来。例如,你可以结合非农收入与每日股票收益率,并且把相结合的数据集提供给模型。然而,往往需要进行大量的监督,以消除对模型质量的怀疑。


难以计算的数据(Unquantifiable Data

有人可能会说,我们金融历史的时间表同人类历史本身一样。不幸的是,转换成量化的数据以让算法能理解的形式是比较困难的。例如,即使我们对1930年代大萧条期间发生的事情有一个全面的了解,也很难把它转化成一种可以用于自动化的学习过程的形式。


十分复杂(It’s Quite Complex


各种各样的因素在不同的规模驱动着价格:

· 高频交易和算法交易是短期内价格的主要驱动力(小于1天)

· 开盘价和收盘价都有自己的模式包括在股票和期货-我所使用的两个资产类;

· 当涉及到多日线时,新闻和谣言是驱动力。详细的公司新闻可以在任何时候不预先通知的情况下发生。然而,某些事件的时间表是事先知道的,比如公司的计划报表和经济数据一览;

· 价值投资经济周期在涉及多年内价格变化时最为重要。

专家群可以被用来组合不同规模的模型,但这也是一个难题。(请注意,专家群是把相同规模的模型进行组合的一个很常见的技术—几乎所有定量资产管理公司都采用。)


部分可见马尔科夫决策过程Partially Observable Markov Decision Process

我乐于考虑把价格的时间序列作为部分可见马尔科夫决策过程(POMDP).没有人在任何时间点都有完整的图片。不知道明天会发生什么—但你仍然要对交易做出决定。你得到的信息非常少。同时,数据的分布也在不断变化。


我已尝试将强化学习方法应用于金融问题。即使我把问题(即状态和行为空间)简化了,也学不到有用的东西。我花了几个星期对于为什么不工作而进行调试—结果是RL算法需要足够的可预测性。


推荐系统的相似性Similarities to Recommender Systems

ML可应用于非常广泛的领域。在所有这些中,我发现推荐系统是最贴近金融预测问题的。对比来说提出了潜在问题的难点。跟娱乐Recsys系统比较,分析提出了潜在问题的难点。

· 两者都有相对较低的精度.让我们考虑一下Netflix的例子。Netflix在主页上至少显示了20种电影选项。因此,对于每个建议,选择观看电影的用户的平均可能性小于1/20。有一个“小于”的标志,因为用户可能只是不看任何东西就离开了。同样地,金融时间序列中的大多数二进制分类问题的准确率已经徘徊在50%左右了。

· 两者的数据都有很多的杂音(noise.在这两种情况下,信噪比都很高。在金融时间序列离杂音较高,因为很多不同的因素影响着价格。Recsys数据集包含杂音(PDF),因为用户的浏览通常是受影响的-用户可以访问特定的亚马逊产品页面,完全无意从这类产品中买任何东西—这就结束添加杂音(noise)了。

· 两者的数据集都有季节性.假期间Amazon的购买模式(即产品销售分销)将与今年其它时间段不同。同样适用于其它的Recsys问题,如电影的兴趣和YouTube视频的选择还取决于在全年的时间。金融数据也是季节性的,最常见的季节性问题是经济周期。

· 两者都必须处理看不见的“事件/商品”.亚马逊在其目录中添加新商品,不断增加Netflix标题到商品列表,每一分钟新的视频都被上传到YouTube。推荐系统必须解决这个问题——如何推荐那些不是训练集一部分的商品。正如数据分布部分所提到的,金融数据可以包含与模型训练期间可用的完全不同的事件。

· 两者都必须结合不同类型的数据进行模型训练. YouTube上有一些独立的功能,比如“最后N个看过的视频列表”,它也有连续的功能,比如“最后一个视频的观看时长”。同样,金融数据集可以由较高的频率价格以及较低的频率经济数字组成。


结束思考:

如果因为一件事你要离开这个岗位,应该这样:金融时间序列是一个部分信息博弈(POMDP),甚至对于人类也是很难的,我们不应该期望的机器和算法突然超越人的能力。

这些算法擅长的是发现一个硬编码的模式并应用,这是一把双刃剑,但有时可以有时不行。它帮助绝大多数的简单模式来识别实例都已经被详细讨论了。通过无监督学习在金融时间序列中识别模式的下一阶段仍然是一个难以实现的梦想。


文章原标题《Why is machine learning in finance so hard? | Hardik Patel》

作者:Hardik Patel

译者:奥特曼,审校:袁虎。


原文链接

干货好文,请关注扫描以下二维码:




本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/522234.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

full join 和full outer join_多表关联:公式展开、join、过滤条件的顺序

这是在实现多表关联时想到的。我们现在这套体系,实现多表关联比较复杂。如果Superset能官方支持多表关联,不知道会是什么样的方案,复杂度如何。在公式这个层面,没有关联条件,只有两个列、或者多个列,相互之…

异构计算助力客户春节webp图片编码

摘要: 背景与挑战 技博客 GigaOM 曾报道:YouTube 的视频略缩图采用 WebP 格式后,网页加载速度提升了 10%;谷歌的 Chrome 网上应用商店采用 WebP 格式图片后,每天可以节省几 TB 的带宽,页面平均加载时间大约…

发动机压缩比怎么计算公式_怎么判断发动机有积碳,发动机积碳多的症状有哪些...

经过时间的积累,积碳作为发动机的通病几乎无处不有,很多车主也对此十分头疼。不过,很多车主小白并不了解车辆积碳是如何产生的,更不知道如何判断发动机是否有积碳,其实发动机积碳多的症状很容易让车主误以为车辆出现其…

Kubernetes之路 1 - Java应用资源限制的迷思

摘要: 随着容器技术的成熟,越来越多的企业客户在企业中选择Docker和Kubernetes作为应用平台的基础。然而在实践过程中,还会遇到很多具体问题。本文分析并解决了Java应用在容器使用过程中关于Heap大小设置的一个常见问题。随着容器技术的成熟&…

你家的饮水机,到底可以有多脏?

戳蓝字“CSDN云计算”关注我们哦!作者 | 胡巍巍出品 | CSDN(ID:CSDNnews)几年前,笔者在一所培训学校工作。因为学生多、学校大,老师也多,自然办公室也多。这种情况下,学校为了省事&a…

java http get_我是如何进入阿里巴巴的-面向春招应届生Java面试指南(九)

基础篇基本功面向对象的特征1.final, finally, finalize 的区别 final—修饰符(关键字)如果一个类被声明为final,意味着它不能再派生出新的子类,不能作为父类被继承。因此一个类不能既被声明为 abstract的,又被声明为f…

链表的快慢指针思想的解决

看接下来的一道题目 1、给定一个头结点为 head 的非空单链表,返回链表的中间结点。 如果有两个中间结点,则返回第二个中间结点。 例子:[1,2,3,4,5] 返回中间节点3 [1,2,3,4,5,6] 返回中间节点4 我们该如何做呢,首先这里用到了快慢…

使用Helm 在容器服务k8s集群一键部署wordpress

摘要: Helm 是啥? 微服务和容器化给复杂应用部署与管理带来了极大的挑战。Helm是目前Kubernetes服务编排领域的唯一开源子项目,做为Kubernetes应用的一个包管理工具,可理解为Kubernetes的apt-get / yum,由Deis 公司发起&#xff…

Jupyter Notebook数据科学高效技巧

摘要: 本文有一些关于Jupyter Notebook的干货,希望看完文章可以给你带来收获当我学习有关深度学习的优秀的fast.ai课程时,我学到了很多适用于通用软件工程的干货。我写这篇文章是为了总结这些技巧并与你分享。1.Jupyter Notebook拓展标准的Ju…

格罗方德起诉台积电侵犯16项专利、影响巨大;中兴通讯与印尼Smartfren展开合作;网传FB开发新通讯应用Threads……...

关注并标星星CSDN云计算极客头条:速递、最新、绝对有料。这里有企业新动、这里有业界要闻,打起十二分精神,紧跟fashion你可以的!每周三次,打卡即read更快、更全了解泛云圈精彩newsgo go go 索尼将于9月5日在IFA 2019上…

JS之前台参数提交到后台,双引号转义为解决办法

问题描述 var param $("#searchForm").serializeJson(); 前台封装好了键值对形式的字符串,使用了EasyUI的treeGrid控件,传到后台后,双引号转义为" 解决办法 apache工具包common-lang中有一个很有用的处理字符串的工具类&am…

MaxCompute理解数据、运算和用户的大脑:基于代价的优化器

摘要: 回顾大数据技术领域大事件,最早可追溯到06年Hadoop的正式启动,而环顾四下,围绕着数据库及数据处理引擎,业内充斥着各种各样的大数据技术。在云栖社区2017在线技术峰会大数据技术峰会上,阿里云大数据计…

MaxCompute与OSS非结构化数据读写互通(及图像处理实例)

摘要: MaxCompute作为阿里巴巴集团内部绝大多数大数据处理需求的核心计算组件,拥有强大的计算能力,随着集团内外大数据业务的不断扩展,新的数据使用场景也在不断产生。在这样的背景下,MaxCompute(ODPS&…

装mysql最后一步没响应_每天14点遭遇惊魂时刻,如何一步一步揪出真凶?

“ 笔者所在的公司有一款大 DAU(日活)的休闲游戏。这款游戏的后端架构很简单,可以简单理解为通讯-逻辑-存储三层结构。其中存储层大量使用了 Redis 和 MySQL。图片来自 Pexels随着存量用户的增加,Redis 就隔三差五的出现问题。所以笔者打算把遇到的一系列…

form表单提交,后台实体类接收转义问题

问题:前台表单用ajax提交,data为validateForm.serializeArray(),后台用实体类接收参数,&符号被转义为&但是从request中直接取值是没问题的,请问如何解决实体类接收到的参数的转义问题。 代码如下:…

AI落地谁最强?AI Top 30+案例评选等你来秀

人工智能历经百年发展,如今迎来发展的黄金时期。目前,AI 技术已涵盖自然语言处理、模式识别、图像识别、数据挖掘、机器学习等领域的研究,在汽车、金融、教育、医疗、安防、零售、家居、文娱、工业等行业获得了令人印象深刻的成果。在各行业宣…

NAT网关之SNAT进阶使用(二)构建ECS级别SNAT出网方式

摘要: NAT网关是云上VPC ECS访问Internet的出入口。阿里云NAT网关控制台创建SNAT条目默认只支持交换机粒度。如何设置ECS粒度的SNAT规则呢,本文将为您揭晓。 背景 NAT网关是云上VPC ECS访问Internet的出入口。阿里云NAT网关控制台创建SNAT条目默认只支持…

java下载json需要的包_jenkins 获取插件,下载插件提速,配置国内镜像

jenkins 是目前比较流行的自动化运维工具,由于 jenkins 的镜像源是国外的所以在下载插件的时候会非常慢,甚至会超时,所以本文就重点介绍如何解决这个问题。正确的做法自然是修改为国内的镜像源,本文使用的是清华大学的镜像源站 清华大学开源软…

使用NAT网关轻松为单台云服务器设置多个公网IP

摘要: 背景 在应用中,有时会遇到用户询问如何使单台云服务器具备多个公网IP的问题。 具体如何操作呢,有了NAT网关这个也不是难题。 配置单云主机多公网IP功能流程 1、为ECS实例配置多块网卡。 2、创建NAT网关。 背景 在应用中,有时…

如何把手变成手控_手把手教您如何在生产环境直接web级设计图形报表

相信很多从事数据分析的兄弟姐妹,对于数据报表的设计,图形化的设计等等,都是停留在后台进行模板设计,设计好模板后,再上传到前台,发布进行显示,这也是目前绝大多数工具的模式。也难怪&#xff0…