游戏中应用强化学习技术,目的就是要打败人类玩家?

来源:AI前线

作者:凌敏

采访嘉宾:黄鸿波

2016 年,DeepMind 公司开发的 AlphaGo 4:1 大胜韩国著名棋手李世石,成为第一个战胜围棋世界冠军的人工智能机器人,一时风头无两。AlphaGo 的巨大成功开启了“人工智能元年”,也让强化学习渐为大众熟悉。

5 年后,强化学习技术发展如何?最大的瓶颈是没法用?理想的强化学习策略是什么样?……带着这些疑问,InfoQ 采访到了西山居人工智能领域专家黄鸿波,和他聊了聊强化学习技术在西山居的应用与实践经验。

“依靠经验可以解决的问题

理论上强化学习都能解决”

强化学习(Reinforcement learning,RL)是人工智能算法的一个特殊分支,由环境、代理、奖励、动作、状态五大关键要素组成。

维基百科对强化学习的定义为:强化学习强调如何基于环境而行动,以取得最大化的预期利益。与机器学习下的另外两种训练方法监督学习和无监督学习不同,强化学习不需要大量的“数据喂养”,而是通过不断尝试使自己获得最大奖励。

DeepMind 研究人员在一篇名为《奖励就够了》的论文中提到,奖励最大化和试错经验足以培养出可表现与智力相关能力的行为。由此他们得出结论,强化学习这一基于奖励最大化理念的人工智能分支,可以引领通用人工智能的发展。

而在此之前,“强化学习教父”Richard Sutton 更是直言:“我相信,从某种意义上讲,强化学习是人工智能的未来。”

强化学习到底能解决什么问题?它是否真的无所不能?

在黄鸿波看来,依靠人类经验可以解决的问题,理论上,强化学习都能解决。“强化学习利用的是经验,而不仅仅是数据。在游戏领域,如果我可以通过经验告诉你怎么在游戏中走位会更好,那么强化学习也能够做到。在交通领域,依靠人类经验可以知道哪个时间段哪里车多,哪里车少,通过强化学习技术也可以做到这一点。”

虽然强化学习很强大,但在当前还难以实现通用人工智能。“如果你想用一个强化学习模型去解决所有的问题,我认为至少在现阶段是不太现实的。强化学习技术非常依赖算力,它对 CPU 的核数、集群的数量、GPU 的数量要求比较高。目前,强化学习技术所面临的最大一个问题就是算力。也许在未来,随着算力越来越强,算力成本越来越低,那么强化学习能解决的问题也会越来越多。”

事实上,关于强化学习发展困境的讨论一直存在。今年 7 月,知乎上一个题为“强化学习领域目前遇到的瓶颈是什么?”的话题讨论热度颇高,南大人工智能学院教授俞扬给出了“没法用”的答案,并随后作出进一步解释说明:

实际上强化学习这个古老的研究领域 2016 前在国内一直比较冷的根源就是没法用。研究领域大家也都清楚强化学习算法样本利用率低,然后做出了很多改进,但是要改进到什么程度才能有用呢,其实根据我们的经验有一个标准:

零试错:一次试错不能有,上线即能发挥效果,还要明显优于基线。

offline RL 是个正确的方向,但是目前的主流研究也有很多明显的弯路,可能发论文与做落地本身就是不同的事,大家的关心点不可能完全一致吧。说没法用只是吐个槽,要想发论文,就只能沿着所谓的 SOTA 来改进,即使是看起来没有希望的方向。

另外就是我们的落地越来越多,不再想着去说服别人 RL 可以用了。

黄鸿波认为,之所以在一些领域存在强化学习没法用的情况,原因在于当前无法保证强化学习模型所产生的结论是百分百正确的。

“很多领域都要求百分百精准,比如医疗领域、精密仪器制造领域等等。如果达不到完全精准,那我们就不能相信 AI,最后可能还需要人工进行复审。这意味着,AI 只是起到了一个辅助性的作用,并不能起到决定性作用,因此确实没法用。但在另外一些领域,比如游戏,即便 AI 出现了一点小的失误也没有关系。所以说,强化学习能不能落地,怎么落地,具体还是要看领域。目前来看,游戏无疑是强化学习技术最成功的一个落地场景。”

强化学习技术的落地秘笈

在过去,游戏 AI 一般倾向于采用行为树作为决策结构,通过引入逻辑节点减少转换条件,迅速地组织较复杂的行为决策,此外它的重用性很高,可以通过重组不同的节点来实现不同的行为树。但与此同时,行为树的缺点也显而易见,比如它会让游戏内置的机器人看起来非常死板,灵活性不强。

而强化学习技术恰巧能弥补这个缺点,让机器人更加拟人、智能,提高游戏的可玩性,同时也能提高游戏的制作效率。

2020 年,西山居开始在游戏中应用强化学习技术,并组建了强化学习团队。目前经过一年多的积累,西山居已经建立了强化学习集群,并搭建了强化学习开发平台和开发体系。在算法设计思路上,西山居在成熟的算法模型基础上,加入游戏特定的 Trick,让游戏整体在效果呈现上更加智能。“接下来,我们有一款对战类型的游戏即将上线,游戏中的 AI 就是利用强化学习技术来做的。”

在实践的过程中,黄鸿波发现游戏领域的强化学习和其他领域有本质上的区别。“目前市面上的算法、模型、框架基本都不是单独针对游戏领域的,而是一个通用的强化学习框架,它们的特点是运行环境要与框架进行强结合,并整体打包在一起进行模型训练。

但在游戏领域却是完全相反的,尤其现在大多数游戏都是网络游戏,有战斗系统或房间匹配系统,可能战斗系统单独跑在一个服务器上,训练系统跑在另一个服务器上。也就是说,训练环境和战斗环境实际上是一个分离的状态。这种情况下,就需要开发一个中转的平台来进行交互,需要考虑的问题包括怎么获取环境信息、状态信息,这个过程中还涉及到传输效率的问题。”

在黄鸿波看来,强化学习技术的落地秘笈并不在于要把算法改得多牛,而是要将强化学习技术与深度学习、游戏策划相结合,形成一套完备的解决方案,并将其实现。

“很多人认为我们用强化学习技术就是要把游戏变成非常强,其实并不是。通过强化学习技术去打败人类玩家其实是一件非常简单的事情,并且早已得到实现。但这是在研究阶段做的事情,真正落地的时候,AI 的目的并不是要打败玩家,而是要陪玩家玩游戏。这也是我们游戏制作的一个核心思想。”

至于理想的强化学习策略是什么样,黄鸿波认为在游戏领域中,要让用户有更加丰富的游戏体验,而在其他领域如工业制造等,要足够智能、灵活。“理想的强化学习能够让玩家在玩游戏的过程中更加开心。在非游戏领域,理想的强化学习能够做出更加精准的决策。”

人工智能跨过“人工智障

只是时间问题

谈到对人工智能的理解,黄鸿波认为人工智能首先是人工战胜智能,让计算机学到人类已有的知识或经验,然后再辅助人类去完成繁杂或是需要脑力计算的工作。

近几年,人工智能发展迅速,并逐步从学术研究过渡到产业落地。Appen Limited 发布的第七份《人工智能与机器学习现状年度报告》显示,各企业 AI 预算金额较去年大幅增长 55%;同时,企业更加关注 AI 项目的实际实施。

但与此同时,关于人工智能的质疑声也此起彼伏,有观点认为当前的人工智能远没达到智能,甚至有些是“人工智障”。

对于这些质疑,黄鸿波认为背后主要有两方面原因:一方面,要想把人工智能做得更智能,需要有一个非常庞大的数据云来做训练;另一方面,需要有强大的算力来做支撑。比如一些智能客服、陪聊 AI 很容易出现答非所问的情况,原因就在于训练过程中并没有给它们喂入足够大的语料,归根结底,还是模型数据和算力有限。

“人工智能跨过人工智障,我认为只是一个时间的问题。随着时间的推移,模型逐渐强大,算力足够廉价,数据足够多。这三个问题解决之后,人工智能就会逐渐成为人们理想中的样子。”黄鸿波说道。

最后,对于想在人工智能领域发展的年轻人,黄鸿波也分享了一点成长建议。

在他看来,无论是做人工智能方向的研究还是方案策划,一定要关注它的应用价值,关注如何才能将研究真正落地到生产中。而对于还未毕业的人工智能方向人才来说,一定要提前明确自己未来的发展方向。

“如果未来想进入企业里,就需要知道企业需要的是什么样的人才,企业需要的是工程能力强、算法能力强的人才,要能够解决实际的问题。如果未来想进入高校或研究机构,就要提高自己的学术水平。当你明确了从事的方向目标之后,再去根据目标一步步倒推,自己应该往哪个方向积累。”

写在最后

有句话叫做“万物皆可 AI”,在可预见的未来,AI 的触角将伸向各个领域。

至于未来的 AI 什么样,黄鸿波畅想道:“与其说未来 AI 会应用在哪些方向,倒不如说未来我们需要解决什么问题?在未来,哪里有问题,哪里有痛点,哪里就可以用 AI 来解决。”

采访嘉宾:

黄鸿波,珠海金山网络游戏科技有限公司(西山居)人工智能领域专家,高级算法工程师,谷歌机器学习方向开发者专家,拥有多年软件开发经验,著有《TensorFlow 进阶指南:基础、算法与应用》一书。曾在格力电器股份有限公司大数据中心担任人工智能领域专家,且在多家公司担任过高级工程师,技术经理,技术总监等职务。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483935.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HTTP报文的格式

一、HTTP请求报文的格式 两个回车换行表示首部的结尾注意:HTTP协议首部使用ASCII码作为编码方式HTTP请求报文提交表单时会包含数据 二、HTTP响应报文格式

Transformer走下神坛?南加州大学教授:想解决常识问题,神经网络不是答案

来源:nextgov转自:新智元编辑:LRS如果说人工智能和真正的人脑之间的差距,那最重要的就是机器缺乏生活中的常识。一切貌似合理、理所当然的事物在计算机眼中都是不可理解的。计算机不知道「柠檬是酸的」,「只有成熟的香…

FTP协议、电子邮件系统与Telnet远程控制

一、FTP协议概述 FTP定义 文件传输协议用于因特网文件传输 FTP特性 使用客户端/服务器模式使用TCP提供可靠的传输FTP属于维护状态的协议FTP使用两条TCP连接完成数据传输 FTP的两条连接 数据连接问题 当有具体文件或目录内容传输时,临时建立数据连接主动模式下…

吴志强院士:CIM与城市未来

▲吴志强:博士,教授,中国工程院院士,德国工程科学院院士,瑞典皇家工程科学院院士,同济大学原副校长,中国城市规划学会副理事长,中国2010年上海世博会园区总规划师,北京城…

传输层协议详解

一、传输层的概念和服务 1、传输层的基本概念 传输层负责端到端之间的数据传输控制传输层依赖于网络层的服务,对应用层提供传输服务 2、传输层的功能 跟踪会话 跟踪源主机和目的主机上应用程序间的每次通信 数据分段 将数据分段,并管理每个分段 …

在后SCI时代需要什么样的人才?

来源:秦四清科学网博客。链接地址:http://blog.sciencenet.cn/blog-575926-1302503.html近些年,国家陆续出台了一系列破“五唯”举措,这标志着后SCI 时代的到来。大家知道,创新是引领发展的第一驱动力,而创…

OpenGL之纹理过滤(Texture Filtering)、MipMap方法、纹理坐标

1.1 纹理过滤 像素、片元都是具有面积的,一个像素可能对应物体上的一小块区域,而物体上这个小区域对应于纹理图像上的一个小区域,因此一个像素的颜色可能来自于纹理中的一小个不规则区域,如果纹理的分辨率比较高,则这…

OpenGL之环境映射

1.1 环境映射(Environment Mapping) 具有光滑表面的物体会反射形成周围环境的影响,是一种环境光效果。 光线跟踪等(全局光照)可以实现这种效果,但是效率太低,可以采用环境映射技术就能快速实现。 1.2 环境映射技术 …

Nature对数千篇论文提出质疑:隐藏的细菌蛋白为自然界的“电网”提供动力

隐藏在细菌中的蛋白质在缺乏氧气的时候泵出纳米线,这本质上是“呼出”电子来源:耶鲁大学Nikhil Malvankar耶鲁大学的研究人员在《自然》杂志上报告说,一种隐藏在细菌内部的毛发状蛋白质充当了自然界“电网”的某种开关,“电网”是由细菌产生的…

TCP的拥塞控制机制

拥塞: 在某段时间,若对网络中某资源的需求超过了该资源所能提供的可用部分,网络的性能就要变坏,产生拥塞若网络中有许多资源同时产生拥塞,网络的性能就要明显变坏,整个网络的吞吐量将随输入负荷的增大而下…

光刻机:半导体工业最耀眼的明珠

来源:胖福的小木屋原标题:《世界上所有半导体企业都离不开的光刻机是什么,一口气带你搞懂》光刻机是在半导体领域必不可少的设备,无论生产制造什么样的芯片,都脱离不了光刻机,如果说航空发动机代表了人类科…

ubuntu-18.04 修改用户名密码

1. 开放root登录 设置root密码 $ sudo passwd root切换到root 用户 $ sudo -i修改/etc/pam.d/gdm-autologin $ vim /etc/pam.d/gdm-autologin  注释所圈行修改/etc/pam.d/gdm-password $ vim /etc/pam.d/gdm-password  同样注释所圈行修改/root/.profi…

网络层的基本概念

网络层的功能 网络层负责实现各种不一样的物理网络的互联 网络层采用分组交换技术网络层应当使用统一编址路由器使用存储转发实现异构网络的互联网络层关注分组从一个网络到达另一个网络的选路问题 资源子网与通信子网 资源子网 负责全网的数据处理业务,向网络…

JS高级学习笔记(6)- 事件循环

参考文章:深入理解JS引擎的执行机制 JavaScript 异步、栈、事件循环、任务队列 我的笔记:ES系列之Promise async 和 await Event Loop 前提 js是单线程的 js的Event Loop是JS的执行机制,深入了解JS的执行,就等于深入了解JS里的event …

[美]杰克·巴尔金:算法社会中的三大法则

杰克巴尔金:耶鲁大学奈特宪法与第一修正案讲席教授,耶鲁大学法学院信息社会项目主任。来源:数字法治译者:刘颖,同济大学法学院助理教授、硕士生导师,法学博士。陈瑶瑶,上海大学法学院硕士研究生…

CentOS7完成mysql的安装和远程访问

详见链接https://blog.csdn.net/weixin_42266606/article/details/80879571 (此处我的本地用户名root,密码root;远程用户名root,密码12345) 1.下载 MySQL 所需要的安装包 网址:https://dev.mysql.com/downloads/mysql/ 2.Select O…

维特根斯坦:为何夸大人工智能是对人性的贬损?

© Semantics3来源:利维坦文:Steven Gambardella译:苦山校对:兔子的凌波微步原文:medium.com/stevengambardella/wittgenstein-intelligence-is-never-artificial-51933315d1bd利维坦按:众所周知&#…

哔哩哔哩n倍速播放视频

在b站看一些学习视频的时候,有时候2倍速满足不了我们的需求,可以在控制台键入以下命令实现n倍速播放视频 document.querySelector(video).playbackRate 3

法国数学到底有多厉害?

来源:盘古论市、EETOP等引子在德国数学家高斯的一部传记中,作者引用了下面这段话:有一个异乡人在巴黎问当地人,“为什么贵国历史上出了那么多伟大的数学家?”巴黎人回答,“我们最优秀的人学习数学。”又去问…

DevExpress破解和消除弹出框问题

在解决方案管理器列表中找到 license.licx 设置属性 将[生成操作]选项改为[无] 转载于:https://www.cnblogs.com/sinceret/p/10556243.html