“AI工厂”本质：AI基础设施及怎样将AI转化为运营动力

来源：TechTalks

作者：Ben Dickson

编译：科技行者

持续关注人工智能新闻的朋友肯定已经发现，AI这个字眼已经被异化成了两个截然不同的定义。媒体和影视作品喜欢把AI描述成已然具备人类般的能力、会导致大量失业甚至会出动机械部队进行人类清剿的末日威胁。但在另一方面，学术研究则更多关注人工智能的具体发展，并承认目前的AI还非常弱小、无法实现人类思维体系中的大部分基本能力。

但至少可以肯定的是，如今的AI算法已经在医疗保健、金融、制造以及运输等领域成为重要的解决方案组件。正如哈佛商学院教授Marco Iansiti与Karim Lakhani在其著作《人工智能时代的竞争：算法与网络为主导的时代下的战略与领导力》一文中所提到，不久之后，“一切人类事务将再也离不开人工智能的辅助。”

事实上，就是目前的“弱”AI已然引领了谷歌、Amazon、微软乃至Facebook等科技巨头的发展与成功，并给全球数十亿民众的日常生活带来影响。Lakhani与Iansiti在自己的书中提到，“在实际应用中，我们需要的并不一定是完美的人工智能。不够完美的AI也足以对社交网络上的内容进行优先级排序、制作品质完美的卡布奇诺咖啡、分析客户行为、设定最佳价格甚至以完成不同的风格创造画作。事实上，这种不完美的弱AI足以改变企业的性质及其运营方式。”

而哪家企业能够真正将AI转化为运营动力，谁就能开拓出新的市场空间并颠覆传统行业。能够适应AI时代的老牌厂商将生存下来并继续蓬勃发展。而继续固守传统方法的公司则错失AI之力，要么不复存在、要么被彻底边缘化。

Iansiti与Lakhani在书中讨论了诸多主题，其中一大核心正是概念AI工厂，他们将其视为企业在AI时代竞争并发展的关键性前提。

问题是，“AI工厂”究竟是什么？

在当今业务体系中，最关键的AI技术在于机器学习算法。算法的实质属于统计引擎，负责从以往观察到的数据内收集模式，并据此预测新的结果。机器学习算法与其他关键组件（包括数据源、实验与软件等）融合起来就建立起AI工厂，代表一组能够相互连接、促进学习与发展的组件与流程。

这就是AI工厂的运作方式。从内部及外部来源获取高质量数据以训练机器学习算法，再使用算法对特定任务执行预测。在某些情况下，例如疾病诊断与治疗等，这类预测可以帮助人类专家做出准确的判断。而在其他领域（例如内容推荐）当中，机器学习算法可以在几乎无需任何人为干预的情况下自动完成所有任务。

AI工厂的算法与数据驱动模型，使得各类组织得以快速测试新的假设，进而推出变更以不断改善自身系统。具体措施可以是向现有产品中添加新的功能，也可以在公司的现有资产基础之上开发新的产品。这一切变化又反过来帮助企业掌握更多新数据、改进AI算法，并再次找到提高性能，创建新服务和产品，通过这样的良性循环保持发展并冲击种种新的市场区间。

Iansiti与Lakhani在《AI时代的竞争》中写道，“从本质上讲，AI工厂在用户参与、数据收集、算法设计、预测与改进等环节之间建立起一条完整的良性闭环。”

这种将构建、衡量、学习与改进环节串连起来的想法并不是什么新鲜事物。企业家与初创公司已经在这一领域拥有多年的理论与实践经验。但是，AI工厂凭借着强大的自然语言处理与计算机视觉技术，将这一循环提升到了新的高度，由此在最近几年中迈出了全面普及的重要一步。

《AI时代的竞争》中还列举了蚂蚁金服（现为蚂蚁集团）的案例。该公司成立于2014年，拥有9000名员工，目前为超过7亿用户提供广泛的金融服务。而这种前所未有的运营服务效率，依靠的正是高效的AI工厂与卓越领导。相比之下，美国银行成立于1924年，拥有209000名员工，而服务的对象仅为6700万用户、产品种类也更为有限。

Iansiti与Lakhani感叹道，“蚂蚁金服开辟出全新的金融服务概念。”

“AI工厂”的基础设施

众所周知，机器学习算法高度依赖于大规模数据。目前，关于数据的价值已经有很多耳熟能详的比喻，例如“数据就是新的石油”，这种陈词滥调多见于各类纸头报端。

但单凭大量数据绝不可能成就好的AI算法。实际上，很多企业都掌握着大量数据储备，但他们的数据与软件各自居于孤岛之内，存储形式不统一、模型与框架也互不兼容。

Iansiti与Lakhani写道，“即使客户将企业视为统一的实体，但事实上企业在各内部机构、部门以及跨职能区划间的系统与数据大多彼此分散，导致数据难以聚合，延迟了洞见的产生速度，最终导致人们无法充分动用分析与人工智能的力量。”

此外，在将数据馈送至AI算法之前，我们还需要进行数据预处理。例如，你可能希望使用客户往来聊天记录开发一个AI驱动型聊天机器人，由其自动为部分客户提供支持服务。在这类场景下，我们首先需要对文本数据进行合并、令牌化、去除多余的词汇及标点符号、辅以其他转换，而后才能将其用于训练机器学习模型。

即使面对销售记录等结构化数据时，其中同样可能存在空缺、信息丢失乃至其他需要处理的不确切之处。再有，如果数据来自多种来源，则需要以不致引起误差的方式加以聚合。如果未经预处理，大家只能使用低质量数据训练机器学习模型，最终导致AI系统性能不佳。

最后，内部数据源可能在体量上不足以支撑AI管道的开发。有时候，大家还需要借助外部来源进行信息补充，例如收集来自社交媒体、股市、新闻等来源的数据。以BlueDot为例，该公司使用机器学习预测传染病的传播情况。为了训练并运行其AI系统，BlueDot会自动从数百个来源处收集信息，包括来自卫生组织的声明、商业航班、牲畜健康报告、卫星气候数据以及新闻报道等等。该公司的大部分工作内容乃至软件方案都围绕数据的收集与聚合设计而生。

在《AI时代的竞争》中，两位作者介绍了“数据管道”的概念，通过一组组件与流程对来自多个内部及外部来源的数据进行合并、清洗以及集成，而后处理并存储结果以供不同AI系统使用。但更重要的是，数据管道必须以“系统化、可持续且可扩展的方式运作”，意味着应尽可能避免手动操作以消除AI工厂中的一切潜在瓶颈。

Iansiti与Lakhani还进一步探讨了AI工厂所面临的其他挑战，例如如何为监督机器学习算法建立正确的指标与特征，在人类专家洞见与AI预测结果之间找到正确的缺失环节，以及如何应对运行层面的挑战并验证结果。

作者们写道，“如果将数据视为向AI工厂提供动力的燃料，那么基础设施就是输送燃料的管道，而算法则是完成工作的机器。反过来，实验平台则是负责将燃料、管道与机器接入现有操作系统的阀门。”

转型为AI公司

从各个角度来看，建立一家成功的AI公司不仅需要克服工程技术层面的挑战，更需要解决产品管理领域的诸多难题。事实上，不少成功企业已经找到了以AI技术为基础建立长期文化与业务流程的实践方法，而不再单纯尝试将深度学习的最新成果强行融入难以与之匹配的传统基础设施。

这种方式对于初创企业及传统主流公司都同样适用。正如Iansiti与Lakhani在《AI时代的竞争》中所阐述，只有那些不断改变自身运营及商业模式的企业，才能在这样一个新时代下生存下来。

他们写道，“对于传统企业而言，要想转型为一家基于软件的AI驱动型公司，必须要采取完全不同的组织形式，并把转型视为一种新的常态。这并不是说单纯建立起新的部门、AI专项团队或者是偶发性的开发流程，而应建立起由敏捷组织支持的、以数据为中心的新型运营体系，这将从根本上扭转公司的运营核心。”

《AI时代的竞争》还提供丰富的相关案例研究。其中包括Peloton（彻底颠覆了传统家庭运动器材市场）与Ocado（利用AI技术实现低利润日用百货的数字化转型）等初创企业从零开始建立AI工厂的趣闻轶事。此外，知名科技企业也将以案例形式出现，包括通过多次成功转型在AI时代实现蓬勃发展的微软，以及动用数字化及人工智能技术克服自身固有缺陷的沃尔玛等等。

AI技术的兴起，也给“网络效应”带来了新的含义。事实上，这种现象自搜索引擎与社交网络诞生之初就成为科技企业的重要研究对象。《AI时代的竞争》讨论了网络领域的各个层面与类型，涵盖如何通过将AI算法集成至网络之内以促进增长、推动学习并改进产品。

正如行业专家们观察到的那样，AI技术的进步将给各类组织内的每一位技术人员乃至运营人员产生影响。Iansiti与Lakhani表示，“许多优秀的管理者需要重新接受培训并学习AI领域的基础知识，了解如何在组织业务及运营模型中有效部署这项技术。但需要强调的是，他们并不需要成为真正的数据科学家、统计学家、程序员或者AI工程师；正如每位MBA学员都需要掌握一定的财会及运营知识，但却不必成为专业会计一样，如今的企业管理员也需要以同样的方式对AI以及相关技术建立起初步的认知与理解。”

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）云脑研究计划，构建互联网（城市）云脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”