独家 | 揭秘出行巨头Uber的机器学习平台与团队

来源:本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

概要:一个好的机器学习平台,不光是个铁锹,它必须是个现代化大型自动化挖掘机。只有让大数据以更廉价的方式得到,才能让人工智能更好走向最高峰。


科技巨头加注人工智能仿佛是场竞赛。


前不久,Uber正式推出机器学习平台Michelangelo,希望通过这个平台全面处理工作流程,并推动AI普及化。恰巧就在当天,量子位在人工智能计算大会(AICC)上注1,遇到并专访了Uber机器学习负责人王鲁明。


对于这个机器学习平台的意义,Uber机器学习负责人王鲁明介绍说,Top级企业真正的核心竞争力就是数据和平台,如果我们把大数据看成一个金矿,那这个平台就是挖掘金矿的工具。


“一个好的机器学习平台,不光是个铁锹,它必须是个现代化大型自动化挖掘机。只有让大数据以更廉价的方式得到,才能让人工智能更好走向最高峰。”


关于Uber这个名为Michelangelo的机器学习平台,其负责人王鲁明还向量子位分享了更多幕后故事。


能做什么?



我们先从结果上来看,Michelangelo到底可以做些什么?


Uber方面的说法是,Michelangelo的主要作用是能够让内部团队可以无缝构建、部署和运作适合Uber量级的机器学习解决方案,可以覆盖端到端机器学习工作流,包含:管理数据、训练、评估和部署模型,以及监控预测。该系统还支持传统的机器学习模型、时间序列预测和深度学习。


在Uber内部,Michelangelo是Uber工程师和数据科学家实际使用的机器学习系统,有几十个团队使用它构建和部署模型。由于该系统部署在多个Uber数据中心上,还会影响到专门的硬件,以及对Uber最高加载量的在线服务提供预测。


归根结底,Michelangelo的出现,把Uber内部分散在各个业务团队中的机器学习开发需求集中起来,减少重复开发的资源浪费。



一开始走了弯路


王鲁明称,这个机器学习平台创建于2015年年底,当时最大的需求来自大量团队在实际工作中需要用到机器学习。


在这个平台推出前,Uber内部每个团队都“各自为政”——自己做自己的机器学习开发,所以中间必然有大量重复的工作,效率也比较低。


这直接促成了Michelangelo建立,不过也并不意味着一路顺利。


现在总结起来,最大的弯路在于对深度学习不够专注。而围绕非深度学习切换了不同的平台,比如H2O之类的,最后才决定使用Spark ML作为自己的机器学习平台。


“当时的出发点是尽可能使用开源资源,在开源的基础上有一些Uber的开发和创新,也尽可能把这些开源和创新回馈给整个社区。在Spark ML我们做了很多工作,比如加了很多新的算法,像我们前段时间加了Siri的算法,这个是原来Spark ML不支持的。”王鲁明透露说。


其后直到2016年7月,Uber机器学习平台才加入了对深度学习的支持。这才算真正让Michelangelo走上了正轨。


现在,有几十个来自Uber的内部用户通过Michelangelo来满足自己在机器学习方面的要求,并且让任务变得更富效率,几乎所有的测试工作,都可以在Michelangelo上完成。


“具体业务团队只需要专注他们所需的业务需求上,然后思考用什么样的算法去解决业务需求的问题。他们不需要考虑数据从哪里来、需要多少台机器、机器在何方?这些问题都由Michelangelo承担。”


王鲁明进一步明确说,Michelangelo实际上提供的就是一个端到端的解决方案,可以帮助Uber内部团队完成挑选数据、建立模型、训练模型、模型比较、管理,最后把最佳模型进行分析、计算和处理。


因为Uber的业务涉及全球成百上千个城市,而且每一个城市还可以按照区域往下建模型,因此一个“用户”可能就会有几千个模型,这就要求Michelangelo能够给这几千个模型同时支持、平衡和分析。


过去,涉及较大数据的模型,单机训练可能要将近1个月的时间,但现在整个效率已经大大提升,整个技术从定向到开发,时间周期大大缩短。


王鲁明举例说,内部一个项目此前花了4个月时间,但换到Michelangelo后,整个周期变成了1个月。


实际应用


对于Michelangelo的实际应用,王鲁明举了几个例子。


一是Uber的无人驾驶业务,之前围绕深度学习方面的工作都在其他平台或买一台4GPU的单机进行训练,但现在已经完全转到了Michelangelo上。


二是Uber的街景车业务,在获取了众多高精度相片中,需要对图像中的价值信息进行提取。一开始街景车团队在Caffe1.0上进行,不过只有单机版的Caffe1.0显然拖慢了效率。


20人规模的团队,需要在模型和机器之间的管理、共享和资源分配上浪费精力,甚至需要人工去修改机器是否在用,非常落后且低效。


而换到Michelangelo之后,“用户”不用再去记住模型和具体机器的对应关系,整个平台互联互通,就好似在一台机器上一样。


以上都是深度学习的案例,Uber还有一些非深度学习解决的问题。


比如有人叫车时,周围有十几个司机,选哪个司机来与乘客匹配?如果没有选好的话,司机和乘客都有可能取消,而取消就是对所有人都存在损失——即便没有经济上的,也有时间成本和用户体验上的。


所以这个模型核心要解决的问题是最大概率减少“取消”的操作,“取消率”越低,效果越好。


类似的模型也应用于Uber Eats上,其中关于食物的推荐、下订单后所需时长,其中都是机器学习的应用,而目前所有这些机器学习的应用,都在Michelangelo上实现。



深度学习非万能


王鲁明也解释了为什么Michelangelo平台并非全部使用深度学习的原因。


一方面跟深度学习目前存在的“瓶颈”有关,另一方面与Uber实际应用需要密不可分。

这位Uber机器学习负责人表示,深度学习的第一个问题是“不好解释”:为什么起作用、为什么不起作用,无据可查。


另一个问题是在具体应用中模型层数的问题,以自动驾驶举例,可能一千层在测试中效果很好,但真正实际应用中,40毫秒之类的时间内,如此深的计算来不及,即便配上最好的GPU,也迫使你需要把模型层级变得更窄,这就会造成限制。


目前,对于上述情况,Uber内部的解决方案主要通过降低计算量和提升计算力两大方面来展开。


 Uber机器学习负责人王鲁明


揭秘Uber机器学习团队


关于Uber机器学习团队,王鲁明也向量子位透露了规模、优势和招聘要求。


他表示,目前Uber机器学习团队维持着30人规模,最早的时候才有10人。现在随着客户数量的不断增加,团队规模也在不断扩充。


对于人才吸引,这位Michelangelo负责人并不担心。


他认为Uber对机器学习工程师吸引力明显。


首先,Uber的工作,是一个比特(数字世界)和原子(现实世界)结合的事业,可以通过算法去影响人在实际生活中的行为,这是很多互联网公司所缺乏的。


其次,同样因为核心业务的原因,Uber源源不断的数据相对更富价值,这也是Uber有信心在AI领域一展身手的原因。


王鲁明透露说,在对数据模型的并行处理方面,Uber目前甚至比Google还要出色。


不过,并不意味着机器学习方向的工程师都能进入Uber机器学习团队。


在解释Michelangelo所需人才的素质时,王鲁明希望找到那些熟悉具体应用领域,又对机器学习有较深理解的技术人才。


“我们团队不是真正在做应用,但需要对具体领域非常了解,这样才能知道用户痛点,才能给他提供最有效的支持。还需要较强的技术背景,比如在并行计算、性能优化等方面有技术能力。”



OMT:对其他公司的建议


最后,对于其他公司从无到有建立一个类似Michelangelo的机器学习平台,王鲁明也向量子位表达了建议:


一方面是向优秀公司或优秀平台学习,比如在Uber机器学习平台建设过程中,就从Facebook学习了很多经验;


另一方面是选择合适的开源架构,比如完全学习Google并不容易,但从Google开源平台TensorFlow中选择合适的开源技术,会让所有的事情事半功倍。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/498574.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux建立动态库链接,Linux动态链接库.so文件的创建与使用

资料出处:http://linux.chinaitlab.com/administer/803560.html编 写维护文件的目的,在于方便程序员维护程序,尤其是维护比较大的工程项目。一个素质良好的程序员应该学会熟练地编写维护文件makefile。定义了文件 间的依赖关系后,…

业界 | 德勤预测:机器学习走向移动端成大势所趋,或将再掀行业新浪潮

来源:AI科技评论概要:早在20世纪70、80年代,大部分企业计算都由办公大楼地下室里的大型主机和微型计算机完成,工作人员则在操作由没有机载处理能力的阴极射线管监视器(被称为“绿屏”)和键盘组成的“简易终…

linux常用架构,Linux常用到的一些命令-Go语言中文社区

1.poweroff 关闭系统(1)2.halt 关闭系统(2)3.reboot 重启系统4.pwd 查看当前所在目录的绝对路径5.mkdir 文件名 创建一个目录文件6.rm 文件名 删除文件(如果删除目录文件需要加上-r,如果强制删除需要加上-f)7.cat 文件名 查看文件内容(适合查看短小内容)8.date 查看…

2017年诺奖:百年现代物理学,今天做了个了断!

编者按:2017年诺贝尔物理学奖被授予美国三位科学家Rainer Weiss(雷纳韦斯)、Kip Thorne(基普索恩)、Barry Barish(巴里巴里什),以表彰他们在LIGO检测器和引力波观测的决定性贡献。中…

linux libasan.so,Address Sanitizer 用法

Address Sanitizer(ASan)是一个快速的内存错误检测工具。这里说明它的用法。参考资料1. 简介Address Sanitizer(ASan)是一个快速的内存错误检测工具。它非常快,只拖慢程序两倍左右(比起Valgrind快多了)。它包括一个编译器instrumentation模块和一个提供malloc()/fre…

用深度学习模型,解构并重构人类思维

来源:人机与认知实验室概要:人类的知识,往往由事实 fact 和规则 rule 组成,而且人类习惯于用简练的词汇,来表达事实和规则。所以,维特根斯坦认为,人类思维受制于语言结构,语言的界限…

Ios 12 linux,苹果发布iOS 12.4.1,以修补越狱漏洞

Apple今天发布了针对iPhone和iPad设备的最新iOS 12.4移动操作系统,Apple TV设备的tvOS 12.4以及Apple Watch设备的watchOS 5.3的第一个小Bug和安全更新。iOS 12.4.1是iOS 12.4发布多月后的一项重大更新,引入了新的iPhone迁移功能,允许用户将数…

谷歌AI智商达苹果Siri两倍 但不及6岁儿童

来源:IT之家概要:3名中国研究员近期发表的论文指出,谷歌人工智能技术相对于苹果Siri“智商”明显更高。3名中国研究员近期发表的论文指出,谷歌人工智能技术相对于苹果Siri“智商”明显更高。这篇论文比较了多个人工智能系统。论文…

linux传输文件到linux速度慢,linux中往nand(jffs2)中拷贝文件时速度慢的问题

最近在调试nand和jffs2时,发现将一个文件从SD卡拷贝到jffs2的NAND分区时,速度非常慢,和从NAND中拷出(例如拷贝到SD卡)相比,慢了近5倍。一开始以为是驱动写NAND和读NAND的差异,后来用mtd-utile的nand write测试了一下&a…

Deepmind 预测地图论文背后:神经科学或将助力AI迎来新突破

来源:AI科技评论概要:这篇论文中,Deepmind通过对主管人类长期记忆行为的“海马体”(hippocampus)神经元活动的研究,进一步提出了可以转化为神经网络架构的“预测图”理论。对人类神经网络的理解越来越在左右…

c语言更改编译时字体,c习题编译时出现空的字符常量,怎么修改?

题目要求&#xff1a;统计各个数字&#xff0c;空白符以及所有其他字符出现的次数。[CODE]#include main(){int c, i, nwhite, nother;int ndigit[10];nwhite nother 0;for (i 0; i < 10; i)ndigit[i] 0;while ((c getchar()) ! EOF)if (c > ’0′ && c <…

你所未知的人工智能应用领域

来源&#xff1a;199IT互联网数据中心 概要&#xff1a;一组专家为我们详细描述了随着我们所使用的机器变得越来越智能&#xff0c;我们周围的世界正在如何发生变化的图景。 对有些人来说&#xff0c;人工智能和机器人技术的普及对我们的隐私、工作甚至人身安全构成了威胁&…

c语言高亮字符,C语言必背18个程序+190例--语法高亮

《C语言必背18个程序190例--语法高亮》由会员分享&#xff0c;可在线阅读&#xff0c;更多相关《C语言必背18个程序190例--语法高亮(111页珍藏版)》请在人人文库网上搜索。1、C语言必背18个经典程序输入什么显示什么main()int c&#xff1b;cgetchar()&#xff1b;同时(c&#…

原来你是这样子的OpenAI!来看看它背后那些有趣的人和事

来源&#xff1a;AI科技大本营 概要&#xff1a;它的目标非常明确&#xff0c;就是要确保人类安全&#xff0c;确保人类的权益不受未来机器人的影响&#xff0c;确保人类可以长久地与智能机器人共存。 提到OpenAI&#xff0c;业内可谓无人不知&#xff0c;无人不晓。 这可是人气…

C语言for循环的嵌套例题,c语言 for循环的嵌套(含答案)

c语言 for循环的嵌套(含答案)第 33、34 课时 for 循环的嵌套实验题一&#xff1a;1、下面程序的功能是计算:至 50 中是 7 的倍数的数值之和,请选择填空。D#include main() int i,sum 0; for(i1;i Bmain() int a,b,c,i; ac0; for(i0;imain() int i; #imain() int x,i; for(i1;im…

c语言bellman算法,求 最短路径中BELLMAN FORD算法实现的C程序

匿名用户1级2010-06-01 回答//这个是邻接表typedef struct oo{int len,num;struct oo *next;} link;typedef struct{int num;link *next;} graph;/*node[]图的邻接表n节点总数s源点dis[]到源点的最短路径长度pre[]最短路径上的前驱结点算法返回true&#xff0c;当且仅当途中不包…

Gartner十大IT预测:七大数字巨头,有五家将心甘情愿“自我颠覆”

来源&#xff1a;凤凰科技 概要&#xff1a;Gartner的预测&#xff0c;以及支持这些预测的假设&#xff0c;表明企业首席信息官必须首先是业务战略师&#xff0c;然后才是技术专家。 Gartner的预测&#xff0c;以及支持这些预测的假设&#xff0c;表明企业首席信息官必须首先是…

谷歌花4亿英镑下注AI开始有回报 DeepMind创收了

来源&#xff1a;腾讯科技 概要&#xff1a;DeepMind虽然还保持独立运营&#xff0c;但其对于谷歌产品的贡献恰逢其时。该公司2016年对于Alphabet其他公司的产品和服务所作出的贡献价值4000万英镑&#xff0c;这也是该公司首次创收。 外媒指出&#xff0c;Alphabet子公司谷歌周…

2016全球教育机器人发展白皮书

来源&#xff1a;199IT互联网数据中心 概要&#xff1a;白皮书梳理了全球教育机器人发展现状与趋势。从教育机器人的全球重要研究机构、市场产品评测、需求调研、产业链分析及未来市场发展预测&#xff0c;进行阐述。 白皮书梳理了全球教育机器人发展现状与趋势。从教育机器人的…

android上的java编译器,Android Studio:需要一个java编译器

我在尝试运行android应用程序时遇到错误。我在Windows 8 64位上运行android studio 0.3.2。Android Studio&#xff1a;需要一个java编译器这里的错误java: System Java Compiler was not found in classpath:java.lang.ClassNotFoundException: com.sun.tools.javac.api.Javac…