三问（why?what?how?）金融领域的机器学习

摘要： 都喜欢人生三问，那么金融领域的机器学习三问了解一下。

机器学习可能会很有魔力，即使它背后没有魔法。尽管如此，机器学习项目的成功更多地取决于构建高效的基础架构，收集合适的数据集以及应用正确的算法。

机器学习已经在金融服务行业中取得重大进展。让我们看看为什么金融公司可以通过AI和机器学习实现什么解决方案，以及他们如何应用这项技术。

定义

我们可以将机器学习定义为数据科学的一个子集，它使用统计模型来绘制洞察并进行预测。下图解释了人工智能，数据科学和机器学习之间的关系。为了简单起见，我们在这篇文章中专注于机器学习。

机器学习解决方案的神奇之处在于，他们可以从经验中学习而无需明确编程。简而言之，你需要选择模型并将数据提供给它们。然后，模型会自动调整其参数以改善结果。

数据科学家使用现有数据集训练机器学习模型，然后将训练有素的模型应用于现实生活中。

5035fb1871fcd7d5347cff875ff6dbd599c68b5f

模型作为后台进程运行，并根据其训练方式自动提供结果。数据科学家可以根据需要重新训练模型，以使其保持有效性。

通常，你提供的数据越多，结果就越准确。巧合的是，庞大的数据集在金融服务行业中非常普遍。关于交易、客户、账单、汇款等有PB级别的数据非常适合机器学习。

随着技术的发展和最佳算法的开源，很难想象没有机器学习的金融服务的未来。因为大多数金融服务公司都还没有准备好来用这一技术的真正价值，原因如下：

1. 企业往往对机器学习及其组织的价值抱有完全不切实际的期望。

2. 人工智能和机器学习研究和开发成本很高。

3. DS / ML工程师的短缺是另一个主要问题，下图显示了人工智能和机器学习技能需求的爆炸性增长。

4. 在更新数据基础架构方面，老牌金融企业不够灵活。

690fcdc25c07a51c1ea5c4b1fb54f3cc2da958fa

我们将在本文稍后讨论如何克服这些问题。首先，让我们看看为什么金融服务公司不能忽视机器学习。

为什么要考虑金融机器学习？

因为面临挑战，许多金融公司已经利用了这项技术。下图显示金融服务的高管非常重视机器学习，大多出于以下原因：

1. 由于过程自动化，降低了运营成本。

2. 通过提高生产力和增强用户体验，增加收入。

3. 更好地遵守和加强安全性。

aa387859892bddb292e575c29406ac34712e745c

有各种各样的开源机器学习算法和工具，可以很好地适应金融数据。此外，成熟的金融服务公司拥有大量现金，他们可以负担得起在最先进的计算硬件上花费。对于金融领域的定量性和大量的历史数据，机器学习有望提升金融生态系统。

这就是为什么如此多的金融公司在机器学习研发方面投入巨资。至于落后者，忽视AI和ML可能会被证明是代价高昂的。

什么是金融机器学习用例？

让我们来看看金融领域一些有前景的机器学习应用程序。

93d3335e87de6b2cb21c8d0ca8f69f6ebc5ad40f

过程自动化

过程自动化是机器学习在金融领域最常见的应用之一。该技术可以替代手动工作，自动执行重复性任务并提高生产率。

因此，机器学习使公司能够优化成本，改善客户体验并扩展服务。以下是金融机器学习的自动化用例：

1.聊天机器人；

2.呼叫中心自动化；

3.文本工作自动化等等；

以下是银行业务流程自动化的一些示例：

摩根大通：推出了一个智能合约（COiN）平台，该平台利用自然语言处理技术，它解决了从法律文件中提取重要数据。对12,000份年度商业信贷协议进行人工审查通常需要约360,000个工时。然而，机器学习允许在短短几个小时内审查相同数量的合同。

BNY Mello：将流程自动化集成到他们的银行生态系统中。这项创新每年可节省30万美元，并带来了极大的改善了运营情况。

Privatbank：一家乌克兰银行，通过其移动和网络平台实施聊天机器人助理。Chatbots加快了一般客户查询的解决速度，并减少人工助理的数量。

安全

随着交易、用户和第三方集成的数量不断增加，财务中的安全威胁也在不断增加。机器学习算法非常适合检测欺诈行为。

例如，银行可以使用该技术实时监控每个账户的数千个交易参数。该算法检查持卡人采取的每个动作，并评估尝试的活动是否是该特定用户的特征。这种模型具有高精度的欺诈行为。

如果系统识别可疑帐户行为，则它可以请求用户提供额外的标识以验证交易。如果至少有95％的可能性是欺诈行为，甚至可以完全阻止交易。机器学习算法只需几秒钟来评估交易，有助于实时防止欺诈，而不仅仅是在犯罪发生后发现它们。

财务监控是金融机器学习的另一个安全用例。数据科学家可以训练系统检测大量小额支付，并将这种洗钱技术标记为smurfing。

机器学习算法也可以显着增强网络安全性。数据科学家训练系统发现和隔离网络威胁，因为机器学习在分析数千个参数和实时是首屈一指的。这项技术有可能在最近的将来为最先进的网络安全网络提供支持。

Adyen、Payoneer、Paypal、Stripe和Skrill是一些值得注意的金融科技公司，他们在安全机器学习方面投入巨资。

4ee9bea5790ec4773851991e96e2c4819963dabf

承保和信用评分

机器学习算法完全适合金融和保险行业中常见的承保任务。

数据科学家在数千个客户档案中训练模型，为每个客户提供数百个数据条目。然后，训练有素的系统可以在现实环境中执行相同的承保和信用评分任务。这种评分引擎可以帮助人员更快，更准确地工作。

银行和保险公司拥有大量历史消费者数据，因此他们可以使用这些条目来训练机器学习模型。他们可以利用大型电信或公用事业公司生成的数据集。

例如，BBVA Bancomer正与另一个信用评分平台Destacame合作。该银行旨在为拉丁美洲信用记录薄的客户增加信贷准入，Destacame通过开放API访问公用事业公司的账单支付信息。使用账单支付行为，Destacame为客户生成信用评分并将结果发送给银行。

算法交易

在算法交易中，机器学习有助于做出更好的交易决策。数学模型实时监控新闻和交易结果，并检测可能迫使股价上涨或下跌的模式。然后，它可以根据其预测主动出售、持有或购买股票。

机器学习算法可以同时分析数千个数据源，这是人类无法实现的。机器学习算法可以帮助人类交易者在市场平均水平上占据一席之地。而且，鉴于大量的交易操作，这种小优势通常会转化为巨额利润。

ROBO-咨询

机器人顾问现在在金融领域司空见惯。目前，在咨询领域中有两种主要的机器学习应用。

投资组合管理：是一种在线财富管理服务，它使用算法和统计数据来分配，管理和优化客户的资产。用户输入他们目前的金融资产和目标，例如，在50岁时节省一百万美元。机器人顾问然后根据风险偏好和期望目标在投资机会中分配当前资产。

金融产品推荐：许多在线保险服务使用机器人顾问向特定用户推荐个性化保险计划。由于费用较低，客户选择机器人顾问而不是个人理财顾问，以及个性化和校准的推荐。

39ed333b9986174e951a3d828c2fcf842551bb63

如何利用金融机器学习？

尽管人工智能和机器学习具有所有优势，但即使是拥有雄厚财力的公司也很难从这项技术中获取真正的价值。金融服务公司希望利用机器学习的独特机会，但实际上，他们对数据科学如何运作以及如何使用它有一个模糊的概念。

他们遇到类似的挑战，例如缺乏业务KPI。反过来，这会导致不切实际的估计并导致预算耗尽。拥有合适的软件基础设施是不够的，它需要一个清晰的愿景，扎实的技术人才，以及提供有价值的机器学习开发项目的决心。

一旦你充分了解此技术将如何帮助实现业务目标，请继续进行构思验证。这是数据科学家的任务。他们调查这个想法，帮助你制定可行的KPI并做出切合实际的估算。

根据具体的使用案例和业务条件，金融公司可以采用不同的途径来采用机器学习。

放弃机器学习，转而专注于大数据工程

通常，金融公司开始他们的机器学习项目只是为了意识到他们只需要适当的数据工程。马克斯Nechepurenko的高级数据科学家为N-IX评论：

在开发数据科学解决方案时，我建议使用Occam的剃刀原理，这意味着不会过度复杂。大多数以机器学习为目标的公司实际上需要关注可靠的数据工程，将统计数据应用于聚合数据以及对数据进行可视化。

仅仅将统计模型应用于处理过的和结构良好的数据就足以让银行隔离其运营中的各种瓶颈和低效率。

这种瓶颈有哪些例子？这可能是特定分支的队列，可以消除的重复性任务，低效的人力资源活动，移动银行应用程序的缺陷等等。

更重要的是，任何数据科学项目中最重要的部分都归结为构建一个协调的平台生态系统，从数百个来源（如CRM、报告软件、电子表格等）收集孤立的数据。

在应用任何算法之前，你需要对数据进行适当的结构化和清理。只有这样，你才能进一步将这些数据转化为洞察力。事实上，ETL（提取，转换和加载）和进一步清理数据占机器学习项目时间的80％左右。

3d9b27b6f3b8f5c61738686c128a844e75fa8881

使用第三方机器学习解决方案

即使你的公司决定在即将开展的项目中使用机器学习，你也不一定需要开发新的算法和模型。

大多数机器学习项目都处理已经解决的问题。谷歌、微软和阿里巴巴等科技巨头将机器学习软件作为一种服务出售。

这些开箱即用的解决方案已经过训练，可以解决各种业务任务。如果你的项目涉及相同的用例，你是否认为你的团队可以通过庞大的研发中心超越这些技术巨头的算法？

机器学习工程师可以实施专注于你的特定数据和业务领域的系统。专家需要从不同来源提取数据，将其转换为适合此特定系统，接收结果并可视化结果。

权衡取舍是缺乏对第三方系统的控制和有限的解决方案灵活性。此外，机器学习算法并不适合每个用例。高级数据科学家IHAR Rubanau评论：

尚不存在通用机器学习算法，数据科学家需要在将算法应用于不同领域的不同业务案例之前对其进行调整和微调。

因此，如果Google的现有解决方案解决了你特定域中的特定任务，你应该使用它。如果没有，请致力于定制开发和集成。

创新与整合

从头开始开发机器学习解决方案是风险最大，成本最高且耗时的选择。尽管如此，这可能是将ML技术应用于某些商业案例的唯一方法。

机器学习研究和开发针对特定利基市场的独特需求，并要求进行深入调查。如果没有为解决这些特定问题而开发的现成解决方案，则第三方机器学习软件可能会产生不准确的结果。

1664311d5d71d637261d92c66dd5be44902c1bec

不过，你可能需要严重依赖Google的开源机器学习库。当前的机器学习项目主要是将现有的最先进的库应用于特定的域和用例。

在N-iX，我们确定了机器学习中成功的企业研发项目的七个共同特征：

1. 一个明确的目标：在收集数据之前，你至少需要对通过AI和机器学习实现的结果有一些大致的了解。在项目的早期阶段，数据科学家将帮助你将这一想法转化为实际的KPI。

2. 机器学习解决方案的强大架构设计：你需要经验丰富的软件架构师来执行此任务。

3. 适当的大数据工程生态系统（基于Apache Hadoop）是必不可少的：它允许从金融服务公司的众多孤立数据源中收集、集成、存储和处理大量数据。大数据架构师和大数据工程师负责构建生态系统。

4. 在新创建的生态系统上运行ETL过程（提取，转换和加载）：大数据架构师或机器学习工程师执行此任务。

5. 数据准备：除数据转换和技术清理外，数据科学家可能还需要进一步优化数据，使其适用于特定的业务案例。

6. 应用适当的算法：基于这些算法创建模型，微调模型以及使用新数据重新训练模型。数据科学家和机器学习工程师执行这些任务。

7. 清晰可见的洞察力：商业智能专家对此负责。此外，你可能需要前端开发人员创建具有易于使用的UI的仪表板。

小型项目可能需要更少的工作量和更小的团队。例如，一些研发项目涉及小型数据集，因此他们可能不需要复杂的大数据工程。在其他情况下，根本不需要复杂的仪表板或任何数据可视化。

关键要点：

· 金融老牌企业最常使用机器学习来实现流程自动化和安全性;

· 在收集数据之前，你需要清楚地了解数据科学所期望的结果;

在项目开始之前，需要设置可行的KPI并做出切合实际的估算;

· 许多金融服务公司需要数据工程、统计和数据可视化，而不是数据科学和机器学习;

· 训练数据集越大越清洁，机器学习解决方案产生的结果就越准确;

· 你可以根据需要随时重新训练模型，而无需停止机器学习算法;

· 没有通用的机器学习解决方案适用于不同的业务案例;

· 具有机器学习功能的财务软件的开发成本很高;

· 像谷歌这样的科技巨头创造了机器学习解决方案。如果你的项目涉及此类用例，那么你不能指望其优于Google，Amazon或IBM的算法。

原文链接

本文为云栖社区原创内容，未经允许不得转载。