摘要: 向机器学习专家学习如何理解机器学习开发生命周期,以及如何建立一个团队通过机器学习来解决他们的业务问题。
毫无疑问,任何企业都可以利用机器学习的优势将机器学习应用到他们的业务过程中。而机器学习的意义将取决于它是如何被应用的,以及你要用它来解决什么样的问题。最终的结果还取决于你的数据科学家和软件工程师的经验,以及技术的应用。
在这篇文章中,我们将了解机器学习开发生命周期的真正面貌,看看企业如何建立一个团队并利用机器学习来解决他们的业务问题。让我们从下面的图片开始:
正如你在上面看到的,机器学习过程是一个连续的过程,从各种来源提取数据,然后输入到生成模型的机器学习引擎中。这些模型被插入到业务流程中以产生结果,而模型的结果被输入到解决业务问题的过程中。这些模型可以独立地在边缘产生结果,这取决于它们的用法。
在这一点上,最关键的问题是要了解机器学习的开发生命周期。需要什么样的技术才可以成功?团队在构建和应用机器学习时需要做什么?
随着我们的进一步深入,我们将得到上述问题的答案。看看下面的机器学习开发生命周期图,得到以下范例:
1.从各种资源收集数据。
2.收集数据后,使机器学习就绪。
3.机器学习就绪,数据进入“构建机器学习”过程,数据科学团队从中获取结果。
从下图中可以看出,“构建机器学习”过程的最终结果是企业最终产品的模型。该模型可以根据需要生成结果。
这个模型可应用于各种消费者、企业和工业用例,以提供边缘级智能或过程智能,其中模型结果被输入到另一个过程中。有时,该模型被输入到另一个机器学习过程中,以产生进一步的结果。
另外,我们需要了解关键人员在端到端机器学习过程中的重要性,因此下一个问题是,关键人员在日常过程中做了什么?他们如何真正参与建立机器学习的过程?他们采用或创建什么样的工具和技术来解决企业的业务问题?
要理解数据科学家在构建机器学习时所做的工作,我们应该知道他们主要是在需要时应用机器学习引擎,并使用各种算法来解决特定的问题。有时候,他们创造了一些全新的解决方案,因为没有可用的方案,有时候,他们只需要改进可用的解决方案。
上面的图片将各种引擎的概念思想汇总在一起,可供数据科学家团队用来完成他们的任务。
软件工程师对整个机器学习至关重要。他们在应用数据科学家的软件工程方法的同时帮助加快和改进数据科学的过程,以更快地产生结果。
下图解释了软件工程师如何通过创建完全自动化的机器学习系统来加速数据科学家的工作,该系统以全自动方式执行数据科学家的重复任务。在这一点上,数据科学家可以利用这些来解决新问题,只需要关注自动化系统以确保其工作正常。
谷歌(CloudML)和H2O(AutoML)等各种组织已经创建了可供任何企业使用的自动化机器学习软件。也有开源软件包,即Auto-SKLearn 和 TPOT 。
任何企业都可以遵循上述细节,将机器学习应用到他们的工作中。
可参考的文章:
自动机器学习的现状
H2O在Python和Scala中进行自动化机器学习
以上为译文。
文章原标题《machine-learning-adoption-for-any-organization》,
译者:黄小凡,审校:袁虎。
原文链接
干货好文,请关注扫描以下二维码: