AI项目落地成功因素:数据和机器学习模型的选择

构建机器学习模型时,需要考虑几个关键要素:计算能力、算法和数据。公司往往会将大部分资源集中于开发正确的、无偏见的算法,并加大对计算能力的投入,而在运行模型前,数据通常靠边站或完全被抛诸脑后。 如果数据被遗忘,部署率则会降低,机器学习模型的成功率也会下降。部署机器学习模型前,必须使用被针对性优化过的良好数据训练模型。使用数据前,必须对数据进行获取、格式化、清理、采样和整合。如果没有高质量的标注数据,机器学习模型则无法部署。 获取数据集不是问题。问题在于获取符合您用例的高质量数据。幸运的是,创建高质量、准确标注的数据的效率越来越高,成本也越来越低。  

正确地获取数据

成功部署机器学习的关键是,通过标注和高质量来源正确地获取数据。对于许多团队而言,这意味着数据标注过程需要在内部完成。然而,数据标注是一项重复乏味且耗时的任务。 数据科学家在数据标注和准备上花费的宝贵时间,可以用于完成其他项目。采用高质量的数据固然重要,但对大多数AI项目来说,由团队内部完成数据标注工作并不具成本效益。AI团队应专心做好AI模型构建、算法优化以及部署准备等工作,而创建所需的高质量数据集则交由他人完成。 虽然获取高质量数据的前期花费可能比较大,但这实则是一项节省成本的措施。如果将数据准备工作外包出去,团队便可以将本用于数据集创建和正确标注的时间节省下来。 在一开始使用正确的数据有利于高效部署机器学习模型。如果前期没有花时间精心准备数据,算法可能会出现问题,而这会导致昂贵的模型再训练。当贵公司已经在AI项目上投入了大量资金,并赖以解决全公司的问题时,您需要项目能够首战告捷。 很多现实示例表明,成本阻碍了AI项目的成功部署。Gartner估计,在所有AI项目中,只有一半项目能够实现部署,而且平均部署时间为9个月。一旦项目出现错误,修正成本非常昂贵。OpenAI在GPT-3中发现了一个错误,但训练成本太高,重新训练模型并不划算。  

获取正确的数据

处理数据时,我们会自然而然地认为,数据多代表着数据好。但在训练机器学习算法时,最好遵循一句古话,即宁缺毋滥。 采用高质量的小数据集可以从整体上节省您的费用。您可以从计算预算中省出一小部分,并将其重新分配用于购买高质量的小数据集。通过采用高质量的小数据集,您可以降低在计算方面的成本,并且可以避免在使用整个组织数据集后再重新训练模型。您会发现,购买正确数据的资金用得其所。 超过75%的公司表示,他们的AI模型从未实现部署。因此,明智的商业选择是把钱花在获取正确数据上,让机器学习模型得以运行并实现部署。 为更成功地部署您的机器学习模型,请遵循以下步骤,以获取正确的数据。

寻找高质量的数据源

您的首要任务是找到一个可以出售高质量数据集的数据源。选择一个可靠的数据源,并能够从中获取符合用例的良好数据,这是成功部署机器学习模型的关键。 在寻找适合用例的数据集时,您有几个不同的选择。您可以聘请一家公司创建适合您的用例和公司的独特数据集,也可以自行构建数据集。另一个选择则是寻找现成数据集。现成数据集即已经过整合,并随时可用的数据集。您甚至可以找到一些开源数据集,但这些数据集通常质量比较低,规模也比较小,可能不足以支持您的项目。 对于低预算项目或那些没有足够人手创建数据集的团队来说,现成数据集是个不错的选择。市面上有多个不同的资源库可供选择,您可根据自己需求,从中找到合适的现成数据集。 MediaInterface是现成数据集如何解决业务问题的一个示例,这是一家主要在德国、奥地利和瑞士开展业务的语言技术公司。当MediaInterface想要开拓法国市场时,他们意识到,他们需要大量采用法语的新数据。对此,我们可以协助他们找到符合需求的高质量现成数据集。

寻找小而宽的数据

虽然使用大数据集训练机器学习模型似乎很直观,但从长远来看,使用小而广的数据集实际上可能更具成本效益和作用。此外,要明白一点,即小数据并不代表数据量小。小数据是指用于解决您的问题的正确数据。 用小而广的数据集训练机器学习模型,可以提供更强大的分析,减少对大数据的依赖,并交付更丰富、更精准的算法。要创建高质量的小数据集,您需要关注:

  • 数据相关性
  • 数据多样性与重复性
  • 构建以数据为中心的模型

转向采用小而广的数据集,将使AI行业逐渐减少对数据的依赖。采用小数据可以减少计算和训练模型的时间,并返还有用的见解。

更有效地使用资源

通过采用高质量的小数据集,您可以更有效地利用公司的资源。训练机器学习模型是一项复杂的任务,需要时间、金钱和计算能力等不同的资源。通过高效利用资源,您可以更有效地部署AI模型。 NVIDIA TAO是构建企业级AI应用的重要资源,它代表的是训练(T,Train)、适应(A,Adapt)和优化(O,Optimize)。该应用是一个AI模型适应框架,可以帮助企业简化和加快AI模型的构建。从本质上说,您可以从他们的预制AI模型库中进行选择,然后根据您的独特用例进行定制。这有利于公司提高AI解决方案的部署速度和成本效益。 使用TAO这样的工具和购买价格适中的现成数据集,都可以提高公司的资源利用率。  

AI项目落地的挑战

在部署机器学习模型和AI方面,存在诸多挑战和困难。这主要是因为受到范围、规模和数据选择等因素的影响,但行业发展仍然坚定、乐观。如今,大家更加关注以数据为中心的点解决方案和AI内部效率用例,这为他们的成功奠定了基础。 通过重新关注有效利用资源和寻找正确的数据,您可以避免其中一些实施和部署挑战。Alation的一份白皮书发现,87%的员工认为数据质量问题是公司未能采用AI技术的原因。 采用正确的数据资源,可以解决AI的数据质量问题。不要在内部完成数据标注工作,以免浪费公司资源。相反,直奔来源,购买小而广的数据集,其中包含适合您的机器学习模型的高质量、标注准确的数据。将公司资源集中于AI算法构建,而数据工作则交由专家来负责。

正确数据可以加快产品发布

始于优质数据,终于良好结果。如果组织在部署计划早期就关注数据,便可以更快进入生产阶段,并减少计算方面的资源浪费。 重视数据的同时,您也在为AI部署建立一个成功的长期战略。澳鹏坚信,如果拥有符合用例的、标准化的数据,并且将这些数据储存在不过时的系统中,您在未来可以更轻松地访问这些数据并将其用于更多项目。这是我们构建和创造负责任AI理念的部分内容,详见《真实世界的AI》一书。 当您从一开始就关注数据时,您就在构建数据生态系统的基础。

建立数据生态系统

数据生态系统是一个用于存储数据的零散系统和框架,同时也是一种分享数据的方式。在数据生态系统中,您需要有数据生产者、数据消费者和数据平台。 建立数据生态系统是建立公司数据基础的一种方式。在此过程中,建立数据信任是一个非常重要的步骤。您必须制定强有力的数据治理政策和流程,以确保所使用的所有数据都是高质量的。如果知道数据是好数据,您就会信任您的数据。当数据可信任时,您可以提高机器学习项目的部署速度,并信任所得到的结果。  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/659681.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言——动态内存管理(经典例题)

题1、 为什么会崩溃呢&#xff1f;&#x1f914;&#x1f914;&#x1f914; #include <stdio.h> #include <stdlib.h> #include <string.h>void GetMemory(char** p) {*p (char*)malloc(100); } void Test(void) {char* str NULL;GetMemory(&str);str…

腾讯云幻兽帕鲁Palworld服务器价格表,2024年2月最新

腾讯云幻兽帕鲁服务器价格32元起&#xff0c;4核16G12M配置32元1个月、96元3个月、156元6个月、312元一年&#xff0c;支持4-8个玩家&#xff1b;8核32G22M幻兽帕鲁服务器115元1个月、345元3个月&#xff0c;支持10到20人在线开黑。腾讯云百科txybk.com分享更多4核8G12M、16核6…

力扣hot100 不同路径 多维DP 滚动数组 数论

Problem: 62. 不同路径 文章目录 思路解题方法复杂度朴素DP 思路 讲述看到这一题的思路 解题方法 &#x1f468;‍&#x1f3eb; 卡尔一题三解 复杂度 时间复杂度: &#xff1a; O ( n m ) O(nm) O(nm) 空间复杂度: O ( n m ) O(nm) O(nm) 朴素DP class Solution {p…

查看 npm的一些命令,以及npm config set registry x x x 不生效 解决方案

在 Mac 上查看自己的 npm 源&#xff0c;可以使用以下命令&#xff1a; 打开终端应用程序&#xff08;Terminal&#xff09;。 运行以下命令来查看当前的 npm 配置&#xff1a; npm config list这会显示 npm 的配置信息&#xff0c;包括当前使用的源&#xff08;registry&am…

操作系统基础:死锁

&#x1f308;个人主页&#xff1a;godspeed_lucip &#x1f525; 系列专栏&#xff1a;OS从基础到进阶 &#x1f426;1 死锁的概念&#x1f9a2;1.1 总览&#x1f9a2;1.2 什么是死锁&#x1f9a2;1.3 死锁、饥饿、死循环的区别&#x1f427;1.3.1 概念&#x1f427;1.3.2 区别…

快速排序|超详细讲解|入门深入学习排序算法

快速排序介绍 快速排序(Quick Sort)使用分治法策略。 它的基本思想是&#xff1a;选择一个基准数&#xff0c;通过一趟排序将要排序的数据分割成独立的两部分&#xff1b;其中一部分的所有数据都比另外一部分的所有数据都要小。然后&#xff0c;再按此方法对这两部分数据分别进…

vue3-深入组件-插槽

插槽 Slots 组件用来接收模板内容 插槽内容与出口 <slot> 元素是一个插槽出口 (slot outlet),&#xff0c;标示了父元素提供的插槽内容 (slot content) 将在哪里被渲染。 插槽内容可以是任意合法的模板内容&#xff0c;不局限于文本。例如我们可以传入多个元素&#xff0…

HTML+CSS:导航栏组件

效果演示 实现了一个导航栏的动画效果&#xff0c;当用户点击导航栏中的某个选项时&#xff0c;对应的选项卡会向左平移&#xff0c;同时一个小圆圈会出现在选项卡的中心&#xff0c;表示当前选项卡的位置。这个效果可以让用户更加清晰地了解当前页面的位置和内容。 Code <…

关于source批量处理sql命令建立数据库后发现中文乱码问题解决方案(Mysql)

今天在使用souce建表的时候发现自己表结构中的中文出现了乱码问题&#xff0c;那么具体的解决方案如下&#xff1a; 首先我们先使用命令行连接自己的数据库 mysql -u root -p 12345 然后使用show variables like "char%"; 如果说你的这个里面不是utf-8那么就是出现了…

第九篇【传奇开心果系列】Python的OpenCV技术点案例示例:目标跟踪

传奇开心果短博文系列 系列短博文目录Python的OpenCV技术点案例示例系列 短博文目录前言二、常用的目标跟踪功能、高级功能和增强跟踪技术介绍三、常用的目标跟踪功能示例代码四、OpenCV高级功能示例代码五、OpenCV跟踪目标增强技术示例代码六、归纳总结 系列短博文目录 Pytho…

maven--将jar包上传到maven中央仓库(公库)

原文网址&#xff1a;maven--将jar包上传到maven中央仓库(公库)-CSDN博客 简介 本文介绍怎样将jar包上传到maven中央仓库(公库)。 当自己有一些公共组件时&#xff0c;上传到maven公库是最好的&#xff0c;这样项目里直接引用即可&#xff0c;不需要在多处修改&#xff0c;而…

【Linux】基本指令(上)

&#x1f984;个人主页:修修修也 &#x1f38f;所属专栏:Linux ⚙️操作环境:Xshell (操作系统:CentOS 7.9 64位) 目录 Xshell快捷键 Linux基本指令 ls指令 pwd指令 cd指令 touch指令 mkdir指令 rmdir指令/rm指令 结语 Xshell快捷键 AltEnter 全屏/取消全屏 Tab 进…

-1- Python环境安装

1、Python安装 1.1、Windows安装Python 进入python官网&#xff1a;Welcome to Python.org点击 download——>all releases&#xff1b;建议选择3.7.2版本&#xff08;网页链接&#xff1a;Python Release Python 3.7.2 | Python.org&#xff09;&#xff1b;下拉&#xf…

理想架构的高回退Doherty功率放大器理论与ADS仿真-Multistage

理想架构的高回退Doherty功率放大器理论与仿真-Multistage 参考&#xff1a; 三路Doherty设计 01 射频基础知识–基础概念 Switchmode RF and Microwave Power Amplifiers、 理想架构的Doherty功率放大器&#xff08;等分经典款&#xff09;的理论与ADS电流源仿真参考&#x…

go语言socket编程

1.互联网分层模型 过程分析&#xff1a; 2.Socket图解 Socket是应用层与TCP/IP协议族通信的中间软件抽象层。在设计模式中&#xff0c;Socket其实就是一个门面模式&#xff0c;它把复杂的TCP/IP协议族隐藏在Socket后面&#xff0c;对用户来说只需要调用Socket规定的相关函数&a…

备战蓝桥杯---数据结构与STL应用(优先队列的小细节)

很显然&#xff0c;我们先二分求X,对于验证&#xff0c;一开始我先想的是直接求每个的不足电量再除充电量后向上取整&#xff0c;然后判断与k的大小关系。事实上&#xff0c;如果让k很大&#xff0c;若有两只手机在下一刻多没电&#xff0c;显然上述方法得出的结论是错误的&…

氢气泄漏检测仪使用方法:守护安全,从细节开始

随着科技的发展&#xff0c;我们的生活和工作环境中充满了各种潜在的危险。其中&#xff0c;氢气作为一种清洁能源&#xff0c;其使用日益广泛&#xff0c;但同时也带来了泄漏的风险。为了确保我们的安全&#xff0c;了解并正确使用氢气泄漏检测仪至关重要。下面将详细介绍氢气…

机器学习:梯度下降法(Python)

LinearRegression_GD.py import numpy as np import matplotlib.pyplot as pltclass LinearRegression_GradDesc:"""线性回归&#xff0c;梯度下降法求解模型系数1、数据的预处理&#xff1a;是否训练偏置项fit_intercept&#xff08;默认True&#xff09;&…

了解 Redis Channel:消息传递机制、发布与订阅,以及打造简易聊天室的实战应用。

文章目录 1. Redis Channel 是什么2. Redis-Cli 中演示使用3. 利用 Channel 打造一个简易的聊天室参考文献 1. Redis Channel 是什么 Redis Channel 是一种消息传递机制&#xff0c;允许发布者向特定频道发布消息&#xff0c;而订阅者则通过订阅频道实时接收消息。 Redis Cha…

BioTech - 小分子药物生成与从头设计 概述

欢迎关注我的CSDN&#xff1a;https://spike.blog.csdn.net/ 本文地址&#xff1a;https://spike.blog.csdn.net/article/details/135930139 小分子药物生成是一种利用计算方法自动探索化学空间&#xff0c;寻找具有理想生物活性和药物特性的分子结构的过程。从头设计是一种特殊…