构建机器学习模型时,需要考虑几个关键要素:计算能力、算法和数据。公司往往会将大部分资源集中于开发正确的、无偏见的算法,并加大对计算能力的投入,而在运行模型前,数据通常靠边站或完全被抛诸脑后。 如果数据被遗忘,部署率则会降低,机器学习模型的成功率也会下降。部署机器学习模型前,必须使用被针对性优化过的良好数据训练模型。使用数据前,必须对数据进行获取、格式化、清理、采样和整合。如果没有高质量的标注数据,机器学习模型则无法部署。 获取数据集不是问题。问题在于获取符合您用例的高质量数据。幸运的是,创建高质量、准确标注的数据的效率越来越高,成本也越来越低。
正确地获取数据
成功部署机器学习的关键是,通过标注和高质量来源正确地获取数据。对于许多团队而言,这意味着数据标注过程需要在内部完成。然而,数据标注是一项重复乏味且耗时的任务。 数据科学家在数据标注和准备上花费的宝贵时间,可以用于完成其他项目。采用高质量的数据固然重要,但对大多数AI项目来说,由团队内部完成数据标注工作并不具成本效益。AI团队应专心做好AI模型构建、算法优化以及部署准备等工作,而创建所需的高质量数据集则交由他人完成。 虽然获取高质量数据的前期花费可能比较大,但这实则是一项节省成本的措施。如果将数据准备工作外包出去,团队便可以将本用于数据集创建和正确标注的时间节省下来。 在一开始使用正确的数据有利于高效部署机器学习模型。如果前期没有花时间精心准备数据,算法可能会出现问题,而这会导致昂贵的模型再训练。当贵公司已经在AI项目上投入了大量资金,并赖以解决全公司的问题时,您需要项目能够首战告捷。 很多现实示例表明,成本阻碍了AI项目的成功部署。Gartner估计,在所有AI项目中,只有一半项目能够实现部署,而且平均部署时间为9个月。一旦项目出现错误,修正成本非常昂贵。OpenAI在GPT-3中发现了一个错误,但训练成本太高,重新训练模型并不划算。
获取正确的数据
处理数据时,我们会自然而然地认为,数据多代表着数据好。但在训练机器学习算法时,最好遵循一句古话,即宁缺毋滥。 采用高质量的小数据集可以从整体上节省您的费用。您可以从计算预算中省出一小部分,并将其重新分配用于购买高质量的小数据集。通过采用高质量的小数据集,您可以降低在计算方面的成本,并且可以避免在使用整个组织数据集后再重新训练模型。您会发现,购买正确数据的资金用得其所。 超过75%的公司表示,他们的AI模型从未实现部署。因此,明智的商业选择是把钱花在获取正确数据上,让机器学习模型得以运行并实现部署。 为更成功地部署您的机器学习模型,请遵循以下步骤,以获取正确的数据。
寻找高质量的数据源
您的首要任务是找到一个可以出售高质量数据集的数据源。选择一个可靠的数据源,并能够从中获取符合用例的良好数据,这是成功部署机器学习模型的关键。 在寻找适合用例的数据集时,您有几个不同的选择。您可以聘请一家公司创建适合您的用例和公司的独特数据集,也可以自行构建数据集。另一个选择则是寻找现成数据集。现成数据集即已经过整合,并随时可用的数据集。您甚至可以找到一些开源数据集,但这些数据集通常质量比较低,规模也比较小,可能不足以支持您的项目。 对于低预算项目或那些没有足够人手创建数据集的团队来说,现成数据集是个不错的选择。市面上有多个不同的资源库可供选择,您可根据自己需求,从中找到合适的现成数据集。 MediaInterface是现成数据集如何解决业务问题的一个示例,这是一家主要在德国、奥地利和瑞士开展业务的语言技术公司。当MediaInterface想要开拓法国市场时,他们意识到,他们需要大量采用法语的新数据。对此,我们可以协助他们找到符合需求的高质量现成数据集。
寻找小而宽的数据
虽然使用大数据集训练机器学习模型似乎很直观,但从长远来看,使用小而广的数据集实际上可能更具成本效益和作用。此外,要明白一点,即小数据并不代表数据量小。小数据是指用于解决您的问题的正确数据。 用小而广的数据集训练机器学习模型,可以提供更强大的分析,减少对大数据的依赖,并交付更丰富、更精准的算法。要创建高质量的小数据集,您需要关注:
- 数据相关性
- 数据多样性与重复性
- 构建以数据为中心的模型
转向采用小而广的数据集,将使AI行业逐渐减少对数据的依赖。采用小数据可以减少计算和训练模型的时间,并返还有用的见解。
更有效地使用资源
通过采用高质量的小数据集,您可以更有效地利用公司的资源。训练机器学习模型是一项复杂的任务,需要时间、金钱和计算能力等不同的资源。通过高效利用资源,您可以更有效地部署AI模型。 NVIDIA TAO是构建企业级AI应用的重要资源,它代表的是训练(T,Train)、适应(A,Adapt)和优化(O,Optimize)。该应用是一个AI模型适应框架,可以帮助企业简化和加快AI模型的构建。从本质上说,您可以从他们的预制AI模型库中进行选择,然后根据您的独特用例进行定制。这有利于公司提高AI解决方案的部署速度和成本效益。 使用TAO这样的工具和购买价格适中的现成数据集,都可以提高公司的资源利用率。
AI项目落地的挑战
在部署机器学习模型和AI方面,存在诸多挑战和困难。这主要是因为受到范围、规模和数据选择等因素的影响,但行业发展仍然坚定、乐观。如今,大家更加关注以数据为中心的点解决方案和AI内部效率用例,这为他们的成功奠定了基础。 通过重新关注有效利用资源和寻找正确的数据,您可以避免其中一些实施和部署挑战。Alation的一份白皮书发现,87%的员工认为数据质量问题是公司未能采用AI技术的原因。 采用正确的数据资源,可以解决AI的数据质量问题。不要在内部完成数据标注工作,以免浪费公司资源。相反,直奔来源,购买小而广的数据集,其中包含适合您的机器学习模型的高质量、标注准确的数据。将公司资源集中于AI算法构建,而数据工作则交由专家来负责。
正确数据可以加快产品发布
始于优质数据,终于良好结果。如果组织在部署计划早期就关注数据,便可以更快进入生产阶段,并减少计算方面的资源浪费。 重视数据的同时,您也在为AI部署建立一个成功的长期战略。澳鹏坚信,如果拥有符合用例的、标准化的数据,并且将这些数据储存在不过时的系统中,您在未来可以更轻松地访问这些数据并将其用于更多项目。这是我们构建和创造负责任AI理念的部分内容,详见《真实世界的AI》一书。 当您从一开始就关注数据时,您就在构建数据生态系统的基础。
建立数据生态系统
数据生态系统是一个用于存储数据的零散系统和框架,同时也是一种分享数据的方式。在数据生态系统中,您需要有数据生产者、数据消费者和数据平台。 建立数据生态系统是建立公司数据基础的一种方式。在此过程中,建立数据信任是一个非常重要的步骤。您必须制定强有力的数据治理政策和流程,以确保所使用的所有数据都是高质量的。如果知道数据是好数据,您就会信任您的数据。当数据可信任时,您可以提高机器学习项目的部署速度,并信任所得到的结果。