认知AI的兴起：2025年AI将会发生质的飞跃

来源： Gadi Singer

自 1956 年 AI 的概念首次被提出，至今已有 60 多年的发展史。如今，随着相关理论和技术的不断革新，AI 在数据、算力和算法 “三要素” 的支撑下越来越多地走进我们的日常生活。

但是，这一系列惊喜的背后，却是大多数 AI 在语言理解、视觉场景理解、决策分析等方面的举步维艰：这些技术依然主要集中在感知层面，即用 AI 模拟人类的听觉、视觉等感知能力，却无法解决推理、规划、联想、创作等复杂的认知智能化任务。

当前的 AI 缺少信息进入 “大脑” 后的加工、理解和思考等，做的只是相对简单的比对和识别，仅仅停留在 “感知” 阶段，而非 “认知”，以感知智能技术为主的 AI 还与人类智能相差甚远。

究其原因在于，AI 正面临着制约其向前发展的瓶颈问题：大规模常识知识库与基于认知的逻辑推理。而基于知识图谱、认知推理、逻辑表达的认知图谱，则被越来越多的国内外学者和产业领袖认为是 “目前可以突破这一技术瓶颈的可行解决方案之一”。

近日，英特尔实验室副总裁、被评为 AI 领域 50 位全球思想领袖和影响者之一的 Gadi Singer 发表了一篇题为 The Rise of Cognitive AI 的文章，探讨了人工智能的第三次浪潮：认知人工智能的兴起。

在不改变原文大意的情况下，学术头条对文章进行了精心的编译，内容如下：

深度学习（DL）正取得巨大的进步，并在我们生活的各个方面革新整个行业，包括医疗保健，零售，制造业，自动驾驶汽车，安全和防诈骗以及数据分析。但是，为了构建人工智能（AI）的未来，推动新一代技术进一步发展，我们要对其设定一组目标和期望 —— 到 2025 年，人工智能将会发生质的飞跃，机器也将明显变得更加智能。

目前，基于深度学习算法的很多应用都解决了相关的感知任务，如对象识别、自然语言处理（NLP）、翻译以及其他涉及数据广泛关联处理的任务（比如推荐系统）。深度学习系统依靠微分编程和复杂的基于数据的相关性做出了出色的成果，并有望在未来几年内推动整个行业的转型。但与此同时，我们必须克服深度学习本身固有的限制，以进一步帮助机器学习或者更广泛地说是人工智能离实现其潜力。要实现非增量创新，需要在以下三个方面共同努力：

实质性地提高模型效率（例如，在不降低其精确度的前提下，将参数数量减少 2-3 个数量级）；
大大增强模型的稳健性、可扩展性和可伸缩性；
全面提高机器的认知能力。

图｜基于深度学习的语言模型中参数数量呈指数级增长（来源：microsoft）

虽然剪枝（pruning）、稀疏性（sparsity）、压缩（compression）、蒸馏（distillation）和图神经网络（GNN）等技术可以提高模型效率，但最终也同时产生了增量改进。在不影响结果的前提下，将模型大小降低几个数量级，可能需要对捕获和表示信息本身的方法以及深度学习模型中的学习能力方面进行更根本的改变。此外，持续性进步也需要更具计算效率的深度学习方法或者转向其他机器学习方法。现在，一类具有前景的人工智能系统正通过在辅助信息库中进行检索来代替大量事实和数据的嵌入，从而迅速受到人们的青睐。

与此同时，统计机器学习方法基于这样的假设 —— 训练样本的分布代表了推理过程中必须处理的内容，在现实生活的使用中存在重大缺陷。尤其在遇到训练数据集采样稀疏，甚至缺乏样本的情况时，深度学习模型就会受到挑战。

除此之外，迁移学习和小样本 / 零样本推理方面取得的结果也不尽人意。模型的低效扩展性使得人工智能无法扩展到数据集和数据科学家缺乏的许多领域。此外，深度学习还非常容易受到数据变化的影响，从而产生低信度分类，但这一问题可以通过提高模型的稳健性和可扩展性得到解决。

最后，在大多数情况下，神经网络无法正确提供认知，推理和可解释性。深度学习缺乏认知机制，无法进行抽象、上下文语境、因果关系、可解释性和可理解性的推理。

下一阶段：认知人工智能

人工智能有望达到人类理解水平。依靠 Daniel Kahneman 在《快思慢想》（Thinking, Fast and Slow）一书中定义的范式，Yoshua Bengio 将当代深度学习的功能等同于他所描述的 “系统 1” 的特点 —— 直觉的、快速的、无意识的、习惯性并完全处于自主控制状态。与此相反，他指出，人工智能系统的下一个挑战在于实现 “系统 2” 的功能 —— 缓慢的、有逻辑的、有序列的、有意识和算法化，例如实现计划和推理所需的功能。

（来源：Pixabay）

Francois Chollet 以类似的方式在广泛概括的基础上描述了人工智能发展中的新兴阶段（“Flexible AI”），它能够适应广泛领域内的未知事件。这两个特征都与 DARPA（美国国防部高级研究计划局）的 “人工智能的第三次浪潮” 的内容一致，其特征是语境顺应（contextual adaptation）、抽象、推理和可解释性。实现这些功能的一种可能途径是将深度学习与符号推理和深度知识结合起来。下面，我将使用术语 “认知人工智能”（Cognitive AI）来指代人工智能的这一新阶段。

尽管我们无望实现开放式通用人工智能（AGI），但具有较高认知能力的人工智能也能在技术和商业领域中发挥更大的作用。一旦人工智能可以在不可预测的环境中做出可靠的决策，它最终将获得更高的自主权，并在机器人技术、自动运输以及物流、工业和金融体系的控制点等领域中发挥重要作用。

结构化知识在认知人工智能中的作用

在人工智能领域，有些人认为可以通过进一步发展深度学习来实现更高级别的机器智能，而另一些人则认为这需要合并其他基本机制。对此，我赞同后者的观点，原因如下：

深度学习掌握了从嵌入空间中的多维结构的输入到预测输出的基于统计的映射。这让它在区分宽数据和浅数据（例如，图像中的单词或像素 / 体元序列）方面表现出色。此外，深度学习在索引资源（如维基百科）和从语料库中最匹配的地方检索答案方面同样有效 —— 正如在 NaturalQA 或 EffiicentQA 等基准测试中所表现的那样。根据 Bengio 的定义，系统 1 的任务依赖于训练期间创建的统计映射功能。而深度学习可以为完成这些任务提供帮助。

相比之下，结构化、显性和可理解的知识可以为实现更高级机器智能或系统 2 的功能提供途径。一种基本的知识构建就是能够捕获有关元素和概念的声明性知识并编码抽象概念（例如，类之间的分层属性遗传）。例如，有关鸟类的知识，加上有关雀形目鸟类的信息，再加上有关麻雀的详细信息，即使没有特别的说明，也能提供大量有关栗麻雀的隐含信息。除此之外，其他知识构建还包括因果模型和预测模型。

这样的构建依赖于显性的概念和定义明确的关系，而不是潜在空间中的嵌入式机器，并且因此所得模型将具有更广泛的解释和预测潜力，远远超过了统计映射的功能。