Stuart Russell：智能本质和人工智能安全的巨大挑战

斯图尔特·罗素（Stuart Russell），加州大学伯克利分校计算机科学专业教授，著有人工智能领域“标准教科书”——《人工智能：一种现代化方法》（与谷歌研究主管Peter Norvig合著）

来源：智能探索

随着人工智能的发展速度越来越快，Russell对这一领域的担忧不断加剧。他表示，人工智能有了很大跨越，很大程度上是因为神经网络学习算法有了质的飞跃。相关技术已经应用在Facebook的人脸识别软件，智能手机的私人助手应用，以及谷歌的自动驾驶汽车上面了。还有一个现实中的例子，根据《自然》杂志上最近刊登的一项研究成果，一个人工神经模拟网络学习玩雅达利公司的视频游戏，结果玩得竟然比人类还要好，这也引起了业界震动。“如果这发生在一个刚出生的孩子身上，你会认为，这是与生俱来的。”Russell说道。

2015年，在美国物理学会年会上，Russell接受了Quanta Magazine的采访，并谈论了智能本质和人工智能安全的巨大挑战。

您认为，人工智能的目标就是要能证明它能符合人类价值观，这意味着什么？

这么说真有点气人，这里把两件事情放在在了一起，一个是要“能证明”，另一个是“人类价值观”，它们貌似就是非常矛盾的。人类价值观本身就多少存在一些神秘，从某种程度上，我们的价值观会在行为上有所表现，你可能希望证明机器也能做出绝大多数类似的行为吧。或许，机器会有一些零碎的东西无法理解，而实际上，就连人类自己有时都不太认可彼此。不过，只要机器能够获得基本权利，你可能就会发现它们其实并不是非常有害的。你会如何着手实现这些？这个问题其实就是我现在的工作：机器需要在什么地方拥有一些近似于价值观的东西呢？重要的是，这些价值观必须是人类希望他们拥有的。我认为答案就是一种名叫“逆向强化学习”的技术。普通的强化学习是一种过程，你会根据自己的表现得到一定的奖励和惩罚，你的目标就是要识别出一些能让你获得最多奖励的行为。这就是雅达利游戏公司DQN系统正在做的事情：它给每个游戏分数，而这套系统的目标，就是要让分数变得越来越大。逆向强化学习恰恰与之相反，你会发现一些行为，然后你需要尝试搞清楚这种行为尝试最大化的那个分数是多少。举个例子，你的家用机器人看到你早上从床上爬起来，然后把一些褐色的玩意儿放进一台噪音很大的机器里磨碎，然后再把一些蒸汽、热水、牛奶和这个液体混合在一起，一饮而尽之后，精神就会变得非常好。此时，逆向强化学习技术就需要学习，这其实就是人类在清晨价值功能的一部分，因为他们需要喝咖啡。关于人类行为和行为态度，在书本、电影、互联网之外，其实存在着大量信息。因此，当涉及到人类价值时，机器需要学习的资源是非常庞大的，比如谁赢了比赛金牌，谁去坐牢，以及为什么会这样。

您是怎么进入人工智能这一领域的？

当我还在读书的时候，总体来说，人工智能还不是一种正式的学术科目。但是当时我所在的是伦敦的一家公立寄宿学校，位于圣保罗，所以我的时间没有花在打英式橄榄球上，相反，在附近的一所高校里，我学习了计算机科学A-level课程。我当时为A-level课程准备了一个项目，就是编了一个程序教自己下井字棋，或是一字棋。当时我在那里并不受到人们欢迎，因为我总是一连几个小时霸占着学校里的计算机。第二年，我写了一个国际象棋程序，同时也获得了帝国理工大学教授的许可，可以使用他们学校里的大型计算机。搞清楚计算机如何学习下棋真的太有意思了，我学到了很多今后会在书本上学到的东西。不过怎么说呢，当时我还只是把这个当作是一个爱好；因为当时我最感兴趣的学科专业是物理。我在牛津大学学习了物理学，之后当我申请读研究生的时候，也是申请了在牛津和剑桥继续攻读理论物理专业。后来我又申请了麻省理工学院，卡耐基-梅隆大学和斯坦福大学三所高校的计算机科学专业，但不幸的是，当时我错过了申请截止日期，好在斯坦福大学网开一面，于是我来到了斯坦福大学。

在您整个职业生涯里，花了大量时间尝试理解人工智能是什么，这也是搞清楚机器会如何实现人工智能的先决条件。从中您学到了些什么？

在上世纪80年代，我进行了理论研究，当时我开始思考制定理性决策，但问题是，这个问题是不可能解决的。如果你非常理性，你可能会想：这是我目前的状态，这是我现在能做的行为，之后我可以做那些行为，接着是那些行为，再接着又是那些行为。哪条路径能确保实现我的目标呢？理性行为的定义，要求你去优化整个宇宙的未来，这靠计算是根本不可能实现的。在人工智能中，也有些事情是不可能实现的，因此我们去定义那些我们正在尝试所做的事情，其实根本没有什么意义，所以，我决定尝试搞明白：我们究竟是如何做决策的？那么，我们是怎么做的呢？这里有一个技巧，你可以去思考一个短期预测，然后再去猜测未来会是什么样子。因此，举个例子，在国际象棋程序里，如果他们非常理性，那么他们就只会走那些能确保将死对方的棋，但实际上，他们并不会这么做。他们会算一下未来要走的几步棋，然后再猜测一下，如果这么走，对于当前自己的棋局是否有帮助，最后，他们会选择走一步对自己当前棋局最为有利的一步棋。“你能证明你的系统，无论他们有多么智能，都不会重写系统内部最初由人类设置的那个目标吗？”实际上，真正需要重点考虑的另一件事情，就是在多个抽象级别里的决策问题，也就是所谓的“分层决策”。在一个人一生之中，大约要做20万亿个物理动作。举个例子，在本届大会上做一次演讲，需要作出大约13亿个物理动作。如果你是理性的，那么就会预先想好会怎么做这13亿个物理动作，显然，这非常荒谬，同样也是不可能实现的。因此，如果人们想要能够进行目标管理，就需要非常丰富的高层次抽象行为库。你走路的时候会去想，“首先我要么移动我的左脚，要么移动我的右脚，之后我要么移动…”会这样想吗？显然不会。那么你会想些什么呢？你会想“我得赶紧去艾派迪旅游公司，然后订一个航班。当我落地之后，我要打个的。”这才是人类会想的东西。在我的飞机实际落地之前，我是不会去想任何东西的，也不会去找出租车标记，或是叫车，但是当我落地之后，我会需要更多细节。基本上，这才是我们真正的生活，未来是铺开的，很多细节能够及时的靠近我们，但是很多大块、或是人生的大方向却是非常抽象的，比如“我要考博士”，“我要生孩子”等等。

目前的计算机能做分层决策吗？

这正是目前人工智能所缺失的那一部分，所有这些高级别行为都来自什么地方？我们不认为像DQN网络这样的程序可以识别行为的抽象表达。有一些游戏，DQN还不知道怎么玩儿，那些难度较高的游戏需要在原始行为表现的基础上，向前思考很多很多步，举个例子，如果一个人想，“哦！我现在需要做的，是去开门。”，而开门则需要涉及到拿钥匙，等等。如果机器没有“开门”这个行为表现，那么在这个任务上就不会有任何进展。但是，如果问题被解决（当然这几乎是不可能的），那么我们就会看到机器能力将得到极大的提升。我个人其实也不太确定，在人类级别的人工智能和计算机分层决策问题之间的主要障碍是什么。

对于人类级别人工智能的可能性，您关注的是什么？

1994年，在我首版书中有一个章节，题目叫做“如果我们成功了会怎样？”因为在我看来，对于人工智能似乎大家还没有真正思考过这个问题。或许可能因为这距离我们非常遥远，但很显然，如果人工智能获得成功，那无疑将会是一件大事，甚至会是人类历史上最重大的事件，我们需要用一种较好的方式去描述它。如果这事儿真的成了，那么我们就需要做非常多的思考，至少，要比我们现在正在思考未来会是什么样多得多。

智能爆炸的基本概念，就是一旦机器获得了一定级别的智能水平，他们就能在人工智能上工作，就像我们做的那样，同时还会提升他们自己的能力，重新设计他们自己的硬件，等等。同时，他们的智能将会破纪录般地被放大。在过去的几年里，人工智能圈子已经逐渐开始重新定义人类级别人工智能参数（这可能会是个问题），其中最令人信服的参数必须是要和价值参数有关：你构建了而一个系统，在优化效用函数上表现的非常好，但是效用函数并不是非常正确的。牛津大学哲学家Nick Bostrom写了一本书，叫做《超级智能》，他用回纹针作为例子，你说，“做些回纹针”。它就将整个星球变成一个巨大的回纹针堆积场。你构建了一个超级优化程序；你会给它什么样的效用函数呢？因为这个程序就要打算这么干了！

您如何看待机器和人类价值观的差异呢？

那是个内在问题。你可以说，当有某个领域出现了价值观冲突的时候，机器应该宁可什么都不做。但这是很难实现的。我认为，我们不得不在某些价值功能的基础上构建人工智能。如果你想要一个家庭机器人，它就必须要很好地分享人类价值观的不同部分，否则它很可能会做一些非常愚蠢的事情，比如当孩子肚子饿了，并且冰箱里没有食物了，它可能就会把猫放进烤箱里做晚饭。现实生活中充满了类似的权衡，如果机器可以有一些折中的方式，那么它们在生活中就不会做出那些愚蠢的事情。

从某种意义上来说，在价值观领域里，我没有看到任何的解决方案。我同时还觉得，如果人工智能可以判断正确的人类价值观，那么可能会带来巨大的经济利益。举个例子，一旦家庭机器人做出一两次愚蠢的事情，如同前文讲的把猫放进烤箱，那么人们肯定再也不会买这种类型的机器人了。

但同时还有一个问题，如果智能系统自我表现行为符合人类价值观，那么人类就会过渡到越来越多的智能系统上面，这是否意味着人类自己的价值观要变得越来越好？还是继续表现自我？我不知道答案。

您曾经说过，我们需要通过数学验证人工智能在所有可能的环境下表现出的行为，这该怎么做呢？

人们指出的困难之一，就是一个智能系统可以武断地制造出一个全新的“自我”，而这个新智能系统的目标和原来的老智能系统也是不同的。这种场景，相比很多科幻小说作家会经常提及，在某种程度上，机器会自发地达到战胜人类的目标。所以问题来了：你能证明你的系统无论它多么智能，都永远永远不会重写自己最初由人类设置的目标吗？

证明这点还是相当容易的，正如前文所提到的DQN系统，它可以永远不去改变自己“优化游戏分数”的目标。现在，有一次网络攻击，就是人们谈论被称为“wire-heading”的网络攻击，它让你可以实际进入到雅达利游戏的控制台，手工改变屏幕上生成的分数。此时对DQN是不可行的，因为它的行为范围是完全在游戏本身之中的；它没有机器人手臂去干这种事儿。不过，如果机器在现实世界中有了行动能力，那就会带来严重的问题。因此，你能够证明你设计的系统在自身行为范围之内，永远不会改变自身机制吗？这更难证明了。

如果朝着人工智能这个方向有什么进展的话，您觉得会很有希望吗？

目前有一个新兴的行业领域，叫做“网络-实体系统”，这个系统可以将虚拟环境与真实世界进行匹配。在网络-实体系统中，你可以用一些二进制数字来代表一个空中交通管制程序，然后你可以获得一些真实的飞机，而你真正关心的是，不要发生飞机碰撞。你要试图去证明一个关于虚拟和真实世界整合的定理，此时你会怎么做呢？你会对真实世界进行非常保守的数学描述，比如飞机在这样或那样的环境下可以加速，等等，你的定理在真实世界中会是正确的，只要真实世界能够包含在你的整体行为环境之中。

但是，您已经指出，数学方法可能无法作为人工智能系统的正式验证方法？

在数学专业里有个术语，叫做“不可判定性”。在你所问到关于计算机程序的很多问题之中，其实都存在这样一个普遍的“不可判定性”问题。著名的计算机科学之父，也是人工智能之父阿兰·图灵说过，没有计算机程序能够决定是否存在任何其他可能的程序可以最终终止，并输出一个答案，或是陷入到一个无限循环之中。因此，如果你开始了一个程序，但是它自身可以重写，变成另外一个其他程序，那么就会产生问题，因为你不能证明所有其他可能的程序会让一些“所有权”满意。所以问题就是：是否有必要担心那些能够自我重写的人工智能系统的不可判定性？它们会基于现有程序，加上它们在真实世界中的经验，自我重写成一个新的程序。在下一个程序如何设计的问题上，与真实世界交互的影响范围可能性又是什么？目前，我们貌似还没有太多这方面的知识。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”