想要AI优先?数据优先才行

戳蓝字“CSDN云计算”关注我们哦!

来源 | forbes

编译 | shawn

责编 | Carol

出品 | CSDN云计算(ID:CSDNcloud) 

                            

开展人工智能和机器学习项目的人很早就知道,机器学习项目不是应用程序开发项目。机器学习项目的大部分价值在于模型、训练数据和配置信息,这些信息指导模型如何应用于特定的机器学习问题。

应用程序代码主要用于在生产环境中实现机器学习算法和“操作化设计”机器学习模型,是一种实现方式。这并不是说应用程序代码是不必要的,毕竟,计算机需要某种方式来操作化设计机器学习模型。

但是,如果把机器学习项目的重点放在应用程序代码上,就舍本逐末了。如果你希望你的项目AI优先,那么你就先需要有一个数据优先的认识。

使用以数据为中心的方法

和以数据为中心的技术

如果遵循数据优先,就需要使用数据优先的方法。作为一种迭代成功的方式,敏捷方法论当然没有什么错,但敏捷方法本身还有很多不足之处,因为它专注于功能和应用程序逻辑的传达。

目前已经有了一些以数据为中心的方法,这些方法已经在许多现实场景中得到了验证。其中最流行的是数据挖掘的跨行业标准过程(Cross Industry Standard Process for Data Mining,CRISP-DM) ,它侧重于研究成功的数据项目所需的步骤。

在当今时代,我们将非敏捷的CRISP-DM与敏捷方法相融合,以获得更好的效果。尽管对于大多数开展人工智能项目的企业来说,这仍然是一个新领域,但我们看到,相比敏捷方法中,将人工智能项目的所有东西硬塞进现有的以应用程序为中心的特点,这种融合的方法论显然更成功。

如果你对AI有以数据为中心的认识,那么你就需要将以数据为中心的方法与以数据为中心的技术结合起来。也就是说,你选择的用于实现所有上文所述的构件的工具首先要以数据为中心。

应该使用数据笔记本时,不要使用以代码为中心的IDE;应该使用专注于模型开发和维护的工具时,不要使用企业集成中间件平台。

不要使用所谓的机器学习平台,这些平台实际上只是一堆基于云的技术或过度发展的大数据管理平台。你使用的工具应该支持你制定的机器学习目标,而这些目标又由你要完成的活动和你需要创建的构件支持。

某个 GPU厂商提供有一组工具,并不意味着用这组工具就是正确的。企业服务供应商或者云供应商提供有一个“堆栈”,并不意味着用这个所有是正确的。你应从可交付成果和机器学习目标开始,向后推进。

另一个重要的考虑因素是机器学习模型将在何处以及如何部署,或用人工智能的术语来说就是“操作化”。人工智能模型应用广泛,从与互联网断开连接的“边缘”设备到移动和桌面应用程序,从企业服务器到基于云计算的实例,以及各种各样的自动车辆和飞行器,处处可见其身影。这些应用都是人工智能模型和实现可以派上用场的地方。

模型操作化的大量异质性更加凸显了单一机器学习平台的荒谬。个平台如何同时在无人机、移动应用、企业服务实现和云实例中提供人工智能功能。即使从一家供应商那里获得所有这些技术,它也将是一系列不同工具的组合,而不是一个单一的、统一的、可互用且可用的平台。

培养以数据为中心的人才

所有这些方法和技术都不是现成的。如果你想在人工智能项目上取得成功,就需要成功地建立一个人工智能团队。如果以数据为中心的观点在AI领域是正确的,那么你的团队也需要以数据为中心。

开发应用程序或管理企业系统或数据的人才不同于开发人工智能模型、调整算法、处理培训数据集和操作机器学习模型的人才你的人工智能团队的主要核心成员应该是数据科学家,数据工程师,以及那些负责机器学习模型的人。虽然编码、开发和项目管理的人才是必需的,但发现和培养以数据为中心的人才是人工智能项目能否取得长期成功的关键。

培养数据人才的主要挑战是很难找到这些人才并帮助他们成长。这主要是因为数据不是代码。你需要知道如何处理大量数据源,将它们编译成干净的数据集,然后从海量数据中提取特定信息的人才。

此外,人工智能的语言是数学,而不是编程逻辑。因此,一个强大的数据团队还应该精通特定的数学知识,有了这些数学知识,才能懂得如何选择和实现人工智能算法,正确调整超参数,理解测试和验证结果。

简单地猜测和随机改变训练数据集和超参数并不是创造有价值的人工智能项目的好方法。因此,对机器学习数学和算法有基本理解,懂得如何处理大数据集的理解,这样的以数据为中心的人才才是人工智能项目成功的关键

准备好继续长期投资

现阶段,人工智能应用很大程度上以数据为中心,活动、组件、工具和团队都需要遵循以数据为中心的理念。最大的挑战在于很多生态系统仍在开发中,大多数企业没办法用上。人工智能专用的方法仍然在大规模的项目中进行测试。人工智能专用的工具和技术仍在开发、改进中,并且正在快速地进行演变。人工智能人才仍然紧缺,我们才刚刚开始看到对特定技能的投资有所增长。

因此,那些打算在人工智能领域取得成功的组织,即使有从以数据为中心的观念,也需要做好长期投资的准备。找到同行的团队,看看哪些方法适合他们,在这些方法的基础上继续迭代,直到找到适合你的方法。找到不断更新团队技能和开发方法的途径。告诫自己,你正处于人工智能技术的前沿,并准备定期对新技术进行再投资,或者在必要时发明自己的技术。

尽管人工智能的历史至少已有70年,但是我们仍然处于人工智能应用于大规模项目的早期阶段。这就像互联网、移动或大数据时代的早期阶段,那些早期的先驱者不得不艰难地学习,在找到“正确”的方法之前犯许多错误。但是一旦这些方法被发现,组织就会获得巨大的回报。

只要你秉持以数据为中心的理念,并准备继续长期投资,你在人工智能,机器学习和认知技术上花费努力终将为你带来成功。

 

福利扫描添加小编微信,备注“姓名+公司职位”,入驻【CSDN博客】,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!
推荐阅读:GitHub 标星 14000+,阿里开源的 SEATA 如何应用到极致?
Serverless 终结 Kubernetes?
享受梦幻技术盛宴,相约 Unite 2020
JavaScript 造就年薪超过 10 万美元的开发者们!
只需1分钟,这个网站用AI分离歌曲的人声、伴奏和乐器声
10 大趋势带你预见 DeFi 2020!
真香,朕在看了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/519307.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Cloud Toolkit 部署应用到阿里云轻量应用服务器

在之前的文章《在 Intellij IDEA 中部署 Java 应用到 阿里云 ECS》中讲解了如何将一个本地应用部署到阿里云 ECS 上去,有些读者反馈目前正在使用阿里云轻量应用服务器,咨询是否可以通过 Cloud Toolkit 插件将应用部署到这些服务器上去?最新版…

springboot 排除 默认的loggback 和slf4j的依赖

文章目录异常现象:解决方案:总结异常现象: SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/D:/Program%20Files/JavaEclipse/repo/ch/qos/logback/logback-classic/1.2.3/logback-classic-1.2.3.…

Node.js 应用故障排查手册 —— Node.js 性能平台使用指南

楔子 前一节中我们借助于 Chrome devtools 实现了对线上 Node.js 应用的 CPU/Memory 问题的排查定位,但是在实际生产实践中,大家会发现 Chrome devtools 更加偏向本地开发模式,因为显然 Chrome devtools 不会负责去生成分析问题所需要的 Dum…

懂编译真的可以为所欲为|不同前端框架下的代码转换

背景 整个前端领域在这几年迅速发展,前端框架也在不断变化,各团队选择的解决方案都不太一致,此外像小程序这种跨端场景和以往的研发方式也不太一样。在日常开发中往往会因为投放平台的不一样需要进行重新编码。前段时间我们需要在淘宝页面上…

面试稳了!网易资深工程师揭秘运维面经!

作者 | 阿文责编 | 伍杏玲出品 | 程序人生(ID:coder_life)受新型冠状病毒影响,很多企业都推迟了复工时间或集体开始远程办公,而一些企业本来计划春节过后开始春季招聘,但是受疫情影响已做出了调整&#xff…

java.lang.NumberFormatException: null

public static void main(String[] args) {String str null;try {int a Integer.parseInt(str);} catch (NumberFormatException e) {e.printStackTrace();}}

Pick!闲鱼亿级商品库中的秒级实时选品

一、业务背景 在电商运营工作中,营销活动是非常重要的部分,对用户增长和GMV都有很大帮助。对电商运营来说,如何从庞大的商品库中筛选出卖家优质商品并推送给有需要的买家购买是每时每刻都要思索的问题,而且这个过程需要尽可能快和…

一文看懂Microsoft Azure的十年变迁

来源 | forbes编译 | 火火酱责编 | Carol出品 | CSDN云计算(ID:CSDNcloud)当微软前首席软件架构师雷奥兹(Ray Ozzie)在2008年的PDC大会上发布Windows Azure时,没人能预估这个软件平台将会为该公司和整个行业…

74HC595

脚位图及说明 管脚说明: 14脚:DS(SER),串行数据输入引脚 13脚:OE,输出使能控制脚,它是低电才使能输出,所以接GND 12脚:RCK(STCP)&…

UI2Code智能生成Flutter代码——机器生成代码

背景 在《UI2CODE--整体设计》篇中,我们提到UI2Code工程的整体流程。前步图片分析之后,我们可以得到对应的DSL布局描述。利用DSL的资讯,结合IntelliJ Plugin介面工具,面向使用者提供生成对应Flutter代码。 本篇主要介绍我们如何…

初始化java工具失败,“初始化 Java 工具”期间发生了内部错误, java.lang.NullPointerException...

今天刚打开eclipse就报了这个错误,我怀疑是昨晚想关电脑的时候,关闭eclipse太快,没有等待工作空间保存就关了电脑的缘故错误如图:(图片来自下方链接博客,因为忘记截图了) 我百度后按照提示,删除了eclipse工…

Node.js 应用故障排查手册 —— 正确打开 Chrome devtools

楔子 前面的预备章节中我们大致了解了如何在服务器上的 Node.js 应用出现问题时,从常规的错误日志、系统/进程指标以及兜底的核心转储这些角度来排查问题。这样就引出了下一个问题:我们知道进程的 CPU/Memory 高,或者拿到了进程 Crash 后的核…

钉钉流量暴增百倍,阿里云抗住了!

2月12日,钉钉已连续在苹果应用商店霸榜7天。记者采访获悉,春节以来,在家办公及在家上课的强需求,使得钉钉后台系统峰值流量暴增百倍。钉钉通过阿里云连续扩容10万台云服务器,成功抗住这一巨大的流量冲击! 2…

PB 级数据处理挑战,Kubernetes如何助力基因分析?

引言 James Watson 和 Francis Crick 于 1953 年发现了 DNA 的双螺旋结构,从此揭开了物种进化和遗传的神秘面纱,开启了人类对数字化遗传的认知,但是人类基因奥秘却是一点点被读懂的。 1956 年,一则癌症和染色体相关性的发现令整…

Nginx 外的另一选择,轻量级开源 Web 服务器 Tengine 发布新版本

新版发布 近日,轻量级开源 Web 服务器 Tengine 发布了2.3.0版本,新增如下特性: ngx_http_proxy_connect_module [1] ,该模块让 Tengine 可以用于正向代理场景,支持对 CONNECT 方法请求的处理;HTTP2 Serve…

腾讯云数据库Redis助力百万企业远程办公

受疫情影响,多数企业员工目前无法回到写字楼办公,学生推迟开学,稳定高效的远程办公和直播授课成为2020年的开年刚需。腾讯从1月24日开始向全国免费开放可支持300人同时在线会议的“腾讯会议”,直至疫情结束。央视新闻联播对此也给…

打通前后端逻辑,客户端Flutter代码一天上线

一、前沿 ​ 随着闲鱼的业务快速增长,运营类的需求也越来越多,其中不乏有很多界面修改或运营坑位的需求。闲鱼的版本现在是每2周一个版本,如何快速迭代产品,跳过窗口期来满足这些需求?另外,闲鱼客户端的包…

迈向电商认知智能时代的基石:阿里电商认知图谱揭秘

阿里妹导读:电商平台最大的挑战是从日益增长的海量商品(数十亿)中挑选出的一个小的子集(几十或上百)展示给用户,以满足用户的个性化的购物需求。为了解决仍存在的重复推荐、缺少新意等问题,我们…

我是如何用6个月,从0编程经验变成数据科学家的?

来源 | medium编译 | 武明利责编 | Carol出品 | CSDN云计算(ID:CSDNcloud)我叫Kate,刚从长达 8 年的学习和艰苦的工作中走出来,没有任何预兆。你可能想问,为什么有人会这么做?不得不说&#xff…

Node.js 应用故障排查手册 —— 综合性 GC 问题和优化

楔子 本章前面两节生产案例分别侧重于单一的 CPU 高和单一的内存问题,我们也给大家详细展示了问题的定位排查过程,那么实际上还有一类相对更复杂的场景——它本质上是 V8 引擎的 GC 引发的问题。 简单的给大家介绍下什么是 GC,GC 实际上是语…