预测分析是一种使用当前数据和历史数据来预测活动、行为和趋势的高级分析形式。它涉及将统计分析技术、数据查询和机器学习算法应用于数据集。预测分析还涉及创建预测模型,以对特定操作或事件发生的可能性设置数值或评分。
预测分析寻找数据模式并预测未来趋势,以帮助企业减少风险并抓住机会。
当然,要想实现“预测”的功能,我们需要使用一些算法来构建模型。模型可以帮助您了解理想客户、过程或结果的特征和交互作用。
根据收集的数据,模型可以预测潜在客户是否有可能成为客户,过程是否会产生预期结果或者可能产生什么结果。
在Minitab 21版本的“预测分析“模块中提供丰富的大数据建模算法。
预测建模-分类问题
Minitab中提供了多种机器学习的算法,我们今天主要解决的是监督学习(有Y)中的分类问题(Y是类别变量,可以是二分类也可以是多分类)。
什么是分类问题?举个例子,给你一张动物照片你能区分是猫还是狗吗?这就是一个简单的分类问题(二分类)。
我相信绝大多数朋友应该很容易就能区分图片中是猫还是狗,怎么做到这一点,其实是因为我们脑子里不自觉的就构建了一个区分猫和狗的模型。
当然,构建这个模型的关键是我们收集了足够多的动物特征数据。
看到这些数据,问题的经典解决方案很多朋友应该能想到-逻辑回归。
对于大数据建模,传统回归可以尝试,但需要面临很多的挑战。
有没有新办法呢?其实40 多年前,一群杰出的统计学家(数据科学家)努力解决这个问题,并成为CART、MARS、随机森林和TreeNet 等新型机器学习算法背后的原始架构师。
比如其中的CART方法,其思想简单来说就是:提出问题,分而治之!
然后通过算法计算(本文不涉及到计算公式)得到CART树(以下为其一个分支)。
这是区分猫和狗,同样的道理,在我们工作中是不是也可以通过类似的方案区分什么时候容易出现产品不良,什么时候设备容易出现故障等问题呢?下面我们就通过一个具体的案例来介绍一下分类问题的应用。
分类案例-预防机器故障
下面这个“大风扇“很多朋友应该见过,这家伙运送、组装都比较费劲(我猜的),那如果运转一段后出故障了又会如何呢?如果能找到一些导致故障频率高的异常模式,或者说能预测什么情况下出现故障的概率比较高,而在出现故障之前做一些预防性的措施是不是就能大大减少维护成本呢?
为了达到预测的目的,收集了一段时间内的数据(此数据做了简化处理)。4个预测变量:空气温度、过程温度、转速和扭矩;一个二分类的响应变量:0-正常,1-失败
Minitab操作
首先,我们可以先看一下生成的整棵CART树模型。
我们再来看看树的细节,来发现一些异常的模式。
CART树结论
为了提高模型精度,我们可以尝试把多棵放到一起来做决策,构建“随机森林”。
当就像前面所说,算法有很多,对于使用者如何去选择呢?
很简单,全部来一遍,比如说用Minitab预测分析模块中“自动化机器学习”。
执行了“自动化机器学习”后,其实我们看到“TreeNet”模型是最佳的。这个模型输出结果中有一个很好用的功能:探索非线性关系。比如说“扭矩”这个变量,从输出的“单变量部分依赖图”中大家有没有看到中间有一段平坦、底的区域,这个区域的前后两个拐点对于我们做决策非常有用。
小结
相比于传统统计工具,大数据建模功能有3个亮点功能。