AI 发展方向大争论：混合AI ？强化学习？将实际知识和常识整合到AI中？

一个仿人机器人的延伸手。机器人常常使用强化学习来加以训练

来源：云头条

作者：Ben Dickson是一名软件工程师，还是探讨技术在如何解决和带来问题的TechTalks博客的创始人。

2010年代对于AI界来说意义重大，这归功于深度学习领域取得了惊人的进步，AI的这个分支因收集、存储和处理大量数据的能力不断增强而变得切实可行。如今，深度学习不仅是一个科学研究课题，还是许多日常应用系统的一个关键组成部分。

但是十年来的研究和应用清楚地表明，在当前状态下，深度学习并不是克服打造智能与人类相当的AI这一艰巨挑战的最终解决方案。

我们需要怎样才能将AI推到下一个高度？需要更多的数据和更庞大的神经网络？需要新的深度学习算法？还是需要深度学习之外的方法？

这个话题已在AI社区引起了激烈的讨论，也是上周举行的在线讨论Montreal.AI的中心话题。背景和学科迥异的科学家们参加了这场名为《AI辩论2——推动AI前进：一种跨学科的方法》的大辩论。

混合AI

认知科学家Gary Marcus共同主持了这场辩论，他重申了深度学习存在的几大缺点，包括数据需求过高、将知识迁移到其他领域的能力偏低、不透明以及缺乏推理和知识表征。

Marcus一向公开炮轰纯深度学习的方法，他在2020年初发表了一篇论文，他在论文中建议采用一种将学习算法与基于规则的软件相结合的混合方法。

其他发言者也指出混合AI这种解决方案有望克服深度学习面临的挑战。

计算机科学家Luis Lamb说：“面临的主要问题之一是确定AI的基本构建模块以及如何提高AI的可信赖性、可解释性和可解读性。”

Lamb是《神经符号认知推理》（Neural-symbolic Cognitive Reasoning）一书的合著者，他提出了一种同时基于逻辑形式化和机器学习的神经符号AI基础方法。

Lamb说：“我们使用逻辑和知识表征来表示将其与机器学习系统整合起来的推理过程，以便我们还可以利用深度学习机器有效地改革神经学习。”

来自进化的启发

斯坦福大学计算机科学教授、谷歌云前首席AI科学家李飞飞强调，综观进化史，视觉一直是推动人类出现智能的主要因素之一。同样，图像分类和计算机视觉方面的研究工作已帮助引发了过去十年的深度学习革命。李飞飞开发了ImageNet，这个拥有数百万个带标签图像的数据集被用来训练和评估计算机视觉系统。

李飞飞说：“作为科学家，我们问自己‘下一颗北极星是什么？’北极星不止一颗。进化和发展一直给予我极大的启发。”

李飞飞指出，人类和动物身上的智能来自于对现实世界的主动感知和互动，而目前的AI系统严重缺乏这项特性，它们而是依赖由人类筛选和标记的数据。

她说：“感知（perception）和驱动（actuation）之间有一条根本上而言至关重要的环路，它决定着学习、理解、规划和推理。如果我们的AI代理可以具体呈现，可以在探索性行动和利用性行动之间进行转换，并具有多模态、多任务、可泛化且常常社交化的特性，就可以改进这条环路。”

李飞飞目前在斯坦福大学实验室致力于开发利用感知和驱动来理解现实世界的交互式代理。

OpenAI的研究人员Ken Stanley也讨论了从进化汲取的经验教训。Stanley说：“自然界进化具有的一些特性极其强大，它们还无法用算法来解释，原因是我们无法形成自然界中形成的现象。那些是我们应继续追逐和理解的特性，这些特性不仅在进化当中，还在我们自身当中。”

强化学习

计算机科学家Richard Sutton指出，总的来说，AI方面的工作缺乏一种“计算理论”，以视觉研究而家喻户晓的神经科学家David Marr最先提出了这个术语。计算理论定义了信息处理系统力求完成的目标以及为什么力求完成该目标。

Sutton说：“在神经科学领域，我们对这个目标和整体思维的目的缺少大体了解。在AI中也是如此，在AI中可能更令人惊讶。AI中Marr所认为的计算理论更是乏善可陈。”Sutton补充道，教科书常常将AI简单地定义为“让机器做人们所做的事情”，而AI社区最近的辨认（包括神经网络和符号系统之争）“着眼于如何实现某个目标，好像我们已经了解了我们所要做的事情。”

Sutton说：“强化学习是智能的第一个计算理论。”他所说的强化学习是AI的一个分支，为代理赋予环境的基本规则，任由它们发现实现奖励最大化的方法。Sutton说：“强化学习明确了目标，明确了什么和为什么。在强化学习中，目标是实现任意奖励信号最大化。为此，代理必须计算策略、价值函数和生成模型。”

他补充道，这个领域需要进一步开发共同约定的智能计算理论，表示强化学习目前是出色的候选技术，不过他承认其他候选技术可能值得探究。

Sutton是强化学习领域的先驱，出过该课题方面的一本经典教科书。他目前效力的AI实验室DeepMind大力投入于“深度强化学习”，这种强化学习技术将神经网络整合到基本的强化学习技术中。近年来，DeepMind利用深度强化学习来攻克围棋、国际象棋和《星际争霸2》等游戏。

虽然强化学习与人类和动物大脑中的学习机制有着惊人的相似之处，但它也面临着困扰深度学习的同一些挑战。强化学习模型需要进行大量的训练才能学习最简单的东西，并严格受制于它们被训练时所面向的狭窄领域。目前，开发深度强化学习模型需要非常昂贵的计算资源，这使得这个领域的研究仅限于几家财力雄厚的公司，比如拥有DeepMind的谷歌和部分拥有OpenAI的微软。

将实际知识和常识整合到AI中

计算机科学家和图灵奖获得者Judea Pearl以其在贝叶斯网络和因果推理方面的工作而闻名，他强调AI系统需要实际知识和常识才能最有效地利用馈送给它们的数据。

Pearl说：“我认为，我们应该构建一种将实际知识与数据结合在一起的系统。”他补充道，仅仅基于聚集和盲目处理大量数据的AI系统注定会失败。

Pearl表示，知识并不来自数据。相反，我们利用大脑中的先天结构与实际世界互动，我们利用数据来探究世界并从中学习，如同新生儿探索世界那样：新生儿在没有明确指示的情况下学会了许多东西。

Pearl说：“这种结构必须在数据外部加以实现。即使我们以某种方法神奇地从数据中学会了这种结构，仍需要以可以与人类沟通的形式来使用它。”

华盛顿大学的崔艺珍（Yejin Choi）教授也强调了常识的重要性以及缺乏常识给当前的AI系统所带来的挑战，当前的AI系统侧重于将输入数据与结果对应起来。

崔艺珍说：“当今的深度学习即使不理解数据集背后的任务，也可以解释数据集，这归因于AI和人类智能（尤其是关于实际世界的知识）之存在巨大差异，而常识正是缺失的基本要素之一。”

崔艺珍还指出，推理是个无限的领域，推理本身是一项生成任务，与如今的深度学习算法和评估基准测试所适用的分类任务大不相同。崔艺珍说：“我们从不枚举太多，我们只是即时推理，这将是将来我们要考虑的关键的根本挑战之一。”

但是我们如何实现AI也有常识和推理？崔艺珍提议致力于众多的平行研究领域，包括结合符号表征和神经表征、将知识整合到推理中以及设计不仅仅是分类的基准测试。

但是我们如何在AI中达到常识和推理呢？崔艺珍提出了广泛的平行研究领域，包括将符号和神经表示相结合，将知识整合到推理中以及设计不仅仅是分类的基准测试。

崔艺珍表示，我们仍不知道通向常识的完整道路。她补充道：“不过有一点可以肯定，那就是我们一味建造世界上更高的建筑物是无法抵达成功彼岸的。因此，GPT-4、GPT-5或GPT-6可能无济于事。”

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）云脑研究计划，构建互联网（城市）云脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。