OpenAI雄心勃勃的机器人计划失败了:强化学习没法用?

来源:机器之心

曾经训练出单手解魔方机器人的 OpenAI,眼下已经解散了机器人团队。这家执着于实现通用人工智能(AGI)的公司现在放弃了机器人研究,理由是「数据不够丰富」。

近期,OpenAI 公司联合创始人 Wojciech Zaremba 在一档播客节目中透露了这个消息。当主持人问到「你们为什么选择了机器人领域」的时候,Wojciech Zaremba 却表示,OpenAI 已将重点转移到其他领域,因为在那些领域中数据更容易获得。

视频地址:https://youtu.be/429QC4Yl-mA

Wojciech Zaremba:我们曾在机器人技术上研究了几年,直到最近我们改变了 OpenAI 的关注点,实际上,我解散了机器人团队。

主持人:你为什么这样做?

Wojciech Zaremba:事实证明,只要能够访问数据,以及借助机器学习、无监督和强化学习,我们就可以取得巨大的进步…… 实际上有很多领域的数据非常丰富。而数据问题阻碍了我们在机器人技术方面的发展。

「解散机器人团队这个决定对我来说很难,但前段时间我意识到,从公司的角度来看,实际上这样是最好的」,Wojciech Zaremba 说道。

一份 OpenAI 方面发送给 VentureBeat 的声明表示:「在通过我们的魔方机器人项目和其他项目推进强化学习的最新技术之后,去年 10 月,我们决定不再继续进一步的机器人研究,而是将团队力量整合到其他项目中。由于人工智能及其能力的快速进步,我们发现其他方法,例如根据人类反馈进行强化学习,可以使我们的研究取得更快的进展。」

2019 年,OpenAI 展示了单手解魔方机器人的研究成果,一度引发科技圈的讨论热潮。单手玩魔方,对于一般人类来说都很困难,而那台 13000 年经验训练出来的五指机械手,还原魔方的几率达到了 20-60%,即使受到戴橡胶手套、绑住食指和中指、蒙上一块布等干扰,也不会影响其工作效率。

这是 OpenAI 此前两年多工作的研究成果。2017 年 5 月,OpenAI 发布了 Roboschool,这是一个用于在模拟环境中控制机器人的开源软件。同年,该公司表示已经创建了一个完全在模拟中训练并部署在一个物理机器人上的系统,只需要完成一次学习就能学会新任务。2018 年,OpenAI 提供了模拟机器人环境和 Hindsight Experience Replay 的 baseline 实现,这是一种可以从失败中学习的强化学习算法。

如果我们是一家机器人公司,或者公司的使命与现在有所不同,我认为我们会继续下去。事实上,我非常相信机器人所采取的方法和方向,但是从我们想要实现的目标——也就是构建 AGI 来看,目前还有所欠缺。当创造机器人时,我们以为可以凭借自主生成数据和强化学习走得很远。

这让人们想起了昨天 AI 圈内讨论的一个话题:

图源:https://www.zhihu.com/question/449478247/answer/2001407526

当然,在回答的更新部分中,俞扬表示:说没法用只是吐个槽,要想发论文,就只能沿着所谓的 SOTA 来改进,即使是看起来没有希望的方向。俞扬进一步说道:

好多留言说明了「没法用」反映出大家的心声。实际上强化学习这个古老的研究领域 2016 前在国内一直比较冷的根源就是没法用。研究领域大家也都清楚强化学习算法样本利用率低,然后做出了很多改进,但是要改进到什么程度才能有用呢,其实根据我们的经验有一个标准:

零试错:一次试错不能有,上线即能发挥效果,还要明显优于基线。

offline RL 是个正确的方向,但是目前的主流研究也有很多明显的弯路,可能发论文与做落地本身就是不同的事,大家的关心点不可能完全一致吧。

另外就是我们的落地越来越多,不再想着去说服别人 RL 可以用了。

对 AGI 的执着

一直以来,OpenAI 都认为巨大的算力是通向 AGI 或让 AI 学习任何人类学习任务之路的必要步骤。虽然 Yoshua Bengio、Yann LeCun 等大佬都认为 AGI 不可能存在,但 OpenAI 的联合创始人及其观点支持者始终相信强大的计算机与强化学习、预训练和其他技术相结合,可让 AI 实现跨越式进步,这几位联合创始人包括 Greg Brockman、首席科学家 Ilya Sutskever、Elon Musk、Reid Hoffman 和 Y Combinator 前总裁 Sam Altman。

这条路线上的代表成果就是 DALL-E,这是一个 120 亿参数的文本 - 图像引擎,本质上是一个视觉创意生成器,称为「图像版 GPT-3」。DALL-E 能够结合不同的想法来合成物体,其中一些物体在现实世界中不太可能存在——比如蜗牛和竖琴的混合体。

输入「牛油果形状的椅子」,就可以获得绿油油、形态各异的牛油果椅子图像。

Brockman 和 Altman 十分相信 AGI 将能够掌握比任何人都多的领域知识,特别是识别人类专家无法掌握的复杂的、跨学科的联系。此外他们预测,社会科学等相关领域的研究者如果与部署的 AGI「密切合作」,有助于解决气候变化、医疗保健和教育方面的长期挑战。

Zaremba 断言,预训练是创建大型复杂 AI 系统的一种特别强大的技术。预训练有助于模型学习可在目标任务上重用的通用特征,以提高其准确性。GitHub 最近推出了代码生成工具 Copilot,在 OpenAI 开发其支撑模型 Codex 的过程中,预训练起到了重要作用。GitHub Copilot 提供代码建议的服务适用于 Microsoft Visual Studio 等开发环境中的整行代码。Codex 是 OpenAI GPT-3 的微调版本。

一连几条推特,Zaremba 都在为 Copilot 宣传:「如果个人电脑是工程师心中的自行车,那么 Copilot 就是自动驾驶的特斯拉。」

「我相信预训练能够让模型在提升相同智能能力的情况下,成本仅用原方法的 1/100。」Zaremba 说道。

说点儿现实的因素

深入思考,OpenAI 放弃机器人技术可能反映了该公司面临的经济现实。随着研发成本的增加, DeepMind 近年来也经历了类似的转变 ,从有声望的项目转向商业应用——例如蛋白质结构预测。

众所周知,机器人技术是一个成本高昂的领域。由于经济原因进行大规模变动的机器人公司并不是个例:

比如工业机器人公司 Rethink Robotics 在试图寻找收购方失败后数月关门大吉;本田 Asimo 机器人在 2018 年宣布终止开发;就连业内领先的波士顿动力公司近年来也是多次易主,在韩国现代汽车集团以 11 亿美元收购控股权之前,2014 年曾被谷歌以 30 亿美元的价格收购,2017 年又被软银收购。

一年前,微软宣布向 OpenAI 投资 10 亿美元共同开发微软 Azure 云平台的新技术。作为交换,OpenAI 同意将其部分知识产权许可给微软,并且在开发下一代计算硬件时用 Azure 训练和运行 AI 模型。

之后的几个月里,OpenAI 发布了一个 Microsoft Azure 驱动的 API,允许开发人员探索 GPT-3 的功能。GPT-3 现在已被众多业内开发者在 300 多个不同的应用程序中使用,平均每天产生 45 亿个单词。2020 年底,微软宣布将独家许可 GPT-3 为客户开发和交付 AI 解决方案,以及创建利用自然语言生成能力的新产品。最近,微软又宣布 GPT-3 将与 Power Apps「深度」集成。

而 DALL-E、Jukebox 等项目也具有明显的商用价值,OpenAI 预测 DALL-E 有一天甚至可以强大到取代 3D 渲染引擎。

在这些商业动向的背后,是机器人商业化场景落地难的实际现状。在 AI 产业落地面临复杂场景挑战的今天,对于 OpenAI 来说,放弃成本高昂且研发成果匮乏的机器人研究团队,也许是一个长远的明智选择。

参考链接:

https://venturebeat.com/2021/07/16/openai-disbands-its-robotics-research-team/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/484294.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Unity-游戏小地图实战(前述知识点回顾与运用)

阶段知识回顾与运用---游戏中小地图实战 对于多个摄像机,每个摄像机都带有音频监听器,会出现错误,因为我们只需要一个音频监听器,为了消除错误,需要移除其他摄像机的音频监听器,只保留主摄像机的音频监听器…

NTT高级科学家:光子是深度学习的未来!光子有望替代电子计算机加速神经网络计算...

来源:AI科技评论作者:Ryan Hamerly编译:陈彩娴近日,来自日本 NTT 研究所的高级科学家 Ryan Hamerly 在 IEEE Spectrum 上发表了一篇文章(“The Future of Deep Learning Is Photonic”),谈论了光…

Unity3D-InstantOC遮挡剔除

InstantOC(插件) 渲染管线 图形数据在GPU上经过运算处理,最后输出到屏幕的过程。对于显示出来的图形,CPU与GPU的分工 CPU判断需要显示的图形图像调用图形API;绘制调用(Draw Call):每…

WCF系列(一)BasicHttpBinding 和 WsHttpBinding 的不同点

aaaaaaaaaaaaaaaaaa WCF系列(一)【翻译】BasicHttpBinding 和 WsHttpBinding 的不同点 2010-02-21 12:23 by Virus-BeautyCode, 20206 阅读, 7 评论, 收藏, 编辑 原文地址:Difference between BasicHttpBinding and WsHttpBinding 1、简介 WC…

Unity3D-光照系统

光照系统 1. Global Illumination(全局光照) GI,能够计算直接光,间接光,环境光以及反射光的光照系统。通过GI算法,渲染出光照效果更为真实的场景。 2. 直接光 从光源直接放出的光,通过Light组件实现。 …

Tomaso A.Poggio教授丨人工智能的下一个突破点在何处?

来源:图灵人工智能AI的成功故事在过去的25年中,尤其是在刚刚过去的十年中,AI,特别是机器学习,已经拥有了十足可观的进展。两个主要的成功故事第一个是AlphaGo。在虚拟的游戏世界中,AI绝对已经战胜了人类。A…

Unity3D-声音系统

声音 1.Unity3D支持的音频文件 mp3、ogg、wav、aif、mod、it、s3m、xm。 2.声音分为2D,3D两种 3D声音:有空间感,近大远小;2D声音:适合做背景音乐。 3.在场景中产生声音,主要有两个总要的组件: Audio …

当可解释人工智能遇上知识图谱

来源:知乎—机器学习小谈地址:https://zhuanlan.zhihu.com/p/386458680本文按照以下章节进行组织:1. 背景意义2. 基于路径的方法3. 基于嵌入的方法4. 总结与展望01背景意义1.1 什么是可解释性?首先,什么是可解释性。由…

Unity3D-C#脚本介绍

Unity3D脚本介绍 脚本就是附加在游戏物体上用于定义游戏对象行为的指令代码。Unity支持C#高级编程语言。 1.语法结构 using 命名空间; public class 类名:Monobehaviour {void 方法名(){Debug.Log("调试信息.");print("调用…

JConsole连接远程linux服务器配置

1.在远程机的tomcat的catalina.sh中加入配置 (catalina.sh路径在tomcat/bin下面 如/usr/local/tomcat/bin) 1 if [ "$1" "start" ];then 2 JAVA_OPTS"$JAVA_OPTS -Djava.rmi.server.hostname192.168.10.98 -Dcom.sun.management.jmxremote"…

缺缺缺!IoT行业的“芯”选择是什么?

来源:北京物联网智能技术应用协会“最初,没有人在意这场灾难,直到这场灾难和每个人息息相关。”这是电影《流浪地球》的开头,预示着一场即将来临的危机。如今,这句话正在现实中应验,不过,这次遭…

Unity3D-相关函数功能

函数功能 1.每隔固定时间执行一次,时间间隔固定(0.02s),时间间隔可以修改。 适用性:适合对物体作移动,旋转等物理操作。 函数执行不受渲染影响。 private void FixedUpdate() {Debug.Log(Time.time); }设置更新频率&…

JMeter4.0以上 分布式测试报错 server failed start Listen failed on port

使用JMeter4.0做分布式测试的是否,我的电脑作为肉鸡(执行机),双击jmeter-server.bat后显示失败 Found ApacheJMeter_core.jarUsing local port: 1888Server failed to start: java.rmi.server.ExportException: Listen failed on …

Unity-基本函数用法

1.常用组件 组件作用Transform存储个处理游戏对象的位置、旋转和缩放Mesh Filter显示网格Rigidbody刚体,使物体能在物理控制下运动Collider碰撞器,和刚体一起来是游戏对象发生碰撞Renderer渲染器,使物体在屏幕上显示出来Audio Source音频源&…

AI芯片的未来之战:“霸主”英伟达真就无人能挡了吗?

来源: AI前线作者:NICOLE KOBIE译者:王强英伟达,AI 芯片市场的统治者业内有一个传说,讲的是英伟达怎样从游戏和图形硬件转向了 AI 芯片市场的统治者 — 这个故事中有猫的身影。早在 2010 年,现任英伟达首席科学家 Bill Dally 有一天正与斯坦福…

计算机网络(一)-概述(补充)

一.概述 1.新型网络 1.1 基本特点: 网络用语计算机之间的数据传送;网络能够连接不同类型的计算机;所有的网络结点都重要,大大提高了网络的生存性;计算机在进行通信时,必须有冗余的路由;网络结…

费米悖论的三十种解释 | 观点

© David B. Mattingly来源:公众号利维坦(ID:liweitan2014)文:Ella Alderson译:Rachel校对:Yord原文:medium.com/predict/30-solutions-to-the-fermi-paradox-aaabfce56280我常常在思索,我们大多数人选择相信其他星球上存在生…

计算机网络(一)-概述

一.计算机网络 (一)计算机网络概述 1. 概述 1.1 计算机网络是一个将分散的、具有独立功能的计算机系统,通过通信设备与线路连接起来,由功能完善的软件实现资源共享和信息传递的系统。 1.2 互联互通,自治的计算机集…

json数组格式问题

---恢复内容开始--- 使用jsonserver来模拟后台数据接口时犯了一个很低级的错误 找了很久没有发现有什么不对劲的地方,后来仔细发现原来是一个很细微的语法问题:}] 中间不能有逗号!! ---恢复内容结束---转载于:https://www.cnblog…

图灵奖得主Judea Pearl谈机器学习:不能只靠数据

来源:选自Journal of Causal Inference作者:Judea Pearl编译:机器之心编辑:Panda在当前的人工智能研究社区,以数据为中心的方法占据了绝对的主导地位,并且这类方法也确实成就非凡,为语音识别、计…