对话加拿大工程院于非院士：寻找 AI 领域的「香农定理」

来源：AI科技评论

作者：黄楠、青暮

编辑：陈彩娴

我相信智能是一种自然现象，就像岩石滚动和冰雪融化般自然的现象。——摘自于非著作《智能简史——从大爆炸到元宇宙》。

当科学家把一些菟丝子移植到几株营养状态不同的山楂树上时，那些营养状况更好的山楂树会更容易获得菟丝子的「青睐」。这在以往被看作是植物内「被动」存在的东西，但据研究人员发现，植物也具备从过去的经验中学习区分正负面的经验及教训、进行交流、计算自身处境等等人类所具备的能力。

在其最近新出的《智能简史——从大爆炸到元宇宙》（以下简称「智能简史」）一书中，加拿大工程院院士于非将上述示例视为植物的「智能」。

去年12月在雷峰网举办的 CCF-GAIR 大会上，AI 科技评论曾有幸与于非院士进行了一场深入讨论，不一味强调从「感知」到「认知」的阶段进化，而聚焦当下人工智能的局限性以及智能的科学定义，彼时的于非，仍在为人工智能重新定义寻求可计量的「香农定理」。

定义「智能」科学范式，对人工智能的发展具有重要意义。当时，于非就表示：「科学里面最重要的就是定义。这个东西到底是什么？如果只是文字上的描述，在数学上不是可定义、可量化的话，这个问题就解决不了。」

而在《智能简史》中，于非对理性的数学公式下「智能」定义进行了探索，并指出一条量化智能清晰的新路线。

在很长时间里，「智能」都被视作人类独有的产权，但在于非看来，智能实则是存在宇宙中的一种自然现象，与其他自然现象类似。由于宇宙大爆炸下分布不均的成分带来了各种各样的差异，智能旨在通过调节梯度实现宇宙稳定，从物理、化学、生物到人类、机器甚至元宇宙，智能普遍存在，链接形成了一部发展史。

《智能简史》：定义「智能」

当智能应用的空间扩大，如智慧城市与智能网络形成，单体智能的局限性渐显，科学家们开始求变，从更大的视角思考：什么才是真正的智能？

于非也是这求索队伍中的一员。

于非（F. Richard Yu），加拿大工程院院士、IEEE Fellow、是国际信息和人工智能领域专家，科睿唯安计算机科学领域 “全球高倍引科学家”, 谷歌学术引用量超过 3.3 万。

长期以来，关于「智能的定义」问题一直困扰着于非。

智能的定义未明晰，因此人工智能也还没有成为一门科学，处于工程学阶段，无论是预训练模型、知识图谱还是CNN等概念，都是基于认知科学的启发而提出的。「可以说，人工智能还处于仿生学的阶段。就像在空气动力学发明之前，人们只能仿照蜻蜓和鸟来研发飞行器。」

对此，于非着手进行了大量的研究，意图通过其他学科了解以往对智能的描述，直至「越查越久远，一直查到宇宙从哪里来的大爆炸时期。从大爆炸开始产生了物理世界，就有很多的智能现象。」

1969年，比利时物理化学家和理论物理学家伊利亚·普里高津（Ilya. Prigogine）提出「耗散结构」理论。该理论表明：当包含非线性的多基元多组分多层次的开放系统处于一个远离平衡态的情况下时，系统不断同外界交换物质和能量，系统内某个参量变化达到一定阈值后，就会触发从无序突变为有序状态而形成的一种时间，空间或功能的特殊结构。

经由大规模物质和能量的交换冲击形成新结构，这也印证了化学世界中「智能」「秩序始于混乱」的法则。

当范式踏进生物系统，麻省理工学院的杰里米·英格兰（Jeremy England）教授和团队在「耗散适应」理论中展示了系统通过耗散能量以缓解能量不平衡，在一定条件下，无分子系统自然而然充足，通过化学反应代谢消耗更多的能量，从而促进能量的持续耗散以及「熵」（即宇宙无序状态）的增加。

能量堆积下，结构以最快、最省力的过程迅速缓解不平衡，继而稳定形成了生命，这是过往人们对物理世界、化学世界和生物世界中智能起源的认知学说之一。在其发展历史进程中，「智能」也诞生过无数令人为之感叹的「神秘」现象。

而随着人类科技发展迈进新的社会阶段，需要人们在更大的时间和空间范畴里来思考「智能」的更高级别的表现，但能被称之为科学的「智能」，仍然缺少一个理性的数学公式的定义。

为了寻找一种量化信息的方法，1948年，香农在论文“A Mathematical Theory of Communication”中借鉴热力学概念提出「信息熵」，第一次用数学公式，阐明概率与信息冗余度的关系，使用「熵」来量化信息，对信息时代的成功起了至关重要的作用。

迈进智能时代，以符号主义、联结主义、行为主义为代表的三大学派对「智能」的描述争论不休，即使对质量、能源、信息等重要因素的获取难度降低，但「智能」是对信息的更高层次的抽象，其定义尚未明晰。

于非在《智能简史》一书中指出：智能并非人类的专属，而是同岩石滚落、冰雪融化般普遍存在于物理、化学、生物以及人类、机器（人工智能）乃至元宇宙中的自然现象。智能并不神秘，它是缓解不平衡过程中形成的一种自然现象，使人得以用同样一个逻辑来理解世界如何运转。

与此同时，如何量化智能，对于科学的「智能」至关重要。

1950年，图灵首次提出一个判断机器是否能思考，测试机器是否能表现出与人类相同、或无法区分的智能行为能力的测试，给「可计算性」下了一个严格的数学定义。然而，图灵测试中没有量化的智能度量。

对于如何来衡量智能度量，不少研究人员曾进行过粗略的讨论。但是这些工作都是从心理学、哲学或者工程技术角度出发的，对智能的定义仅限于文字性的描述和探讨，并没有从科学的角度深入探讨智能的本质，更没有从数学上量化智能。

针对这个问题，于非在《智能简史》中探索智能的本质，借鉴了能量和信息的量化思想，开创性给出智能的定义，并首创性地提出了一个可衡量相对智能程度的公式：dL = ∂S/∂R；其中， dL 指智能的变化，S是当前的秩序（order）和预期的秩序的相似，R是一般意义的参数（例如，时间、数据量等），因为智能的变化与多个参数有关，所以在数学上表示是一个多元函数。考虑到多元函数关于其中一个自变量的变化率时，一般用偏导𝜕来表示。

和热力学熵相似，智能不是一个绝对量，只是一个相对量，描述的是变化多少。智能定义为一种「前后」过程的尺度标准：在一个学习过程中，衡量随着时间的推移耗散了多少信息。热力学熵测量能量的扩散：在特定温度下，在一个过程中扩散了多少能量，或者扩散得有多广。

其中dS是熵的变化，是传递的能量，T是温度。

图注：于非提出的量度智能数学公式

回顾一下人类科技历史中涉及的几个重要因素：质量、能源、信息和智能，可能会给我们一些认识智能的未来方向的提示。在认知革命之后，人类获得了发明技术的能力，以比以往任何时候都更有效地为稳定宇宙这一过程做出贡献。

人类的合作，从本质上说，其实是形成了有序的特殊社会经济结构，使得物质、能量、信息和智能迅速的流动，从而促进我们的宇宙稳定。为了促进社会经济系统中的人类合作，人类发明了使质量（运输网络）、能源（能源网络）和信息（互联网）互联的技术。

从网联范式演化的历史中，我们可以观察到更高级别的网联范式提供了更高的层次抽象。

当人们很方便的得到有质量的东西后，大家会关心拿到有质量的东西的速度有多快。所以，能量的概念被提出。能量被量化为物质移动的速度有多快。

当人们很方便的得到能量后，大家会关心能量扩散的量有多少。所以，热力学熵的概念被提出。熵是一个能够能定量的测量能量的扩散程度的抽象概念。熵表示一个能量扩散的过程中，在某个特定温度下，能量扩散了多少能量。另外，信息熵和热力学熵等价。所以，信息也可以说是对能量扩散的量有多少的量化。

如今，由于互联网和手机的普及，信息无处不在，信息如同洪水猛兽一样推送到我们的面前。当人们很方便的得到信息后，大家会关心信息耗散的量有多少。所以，智能在本质上可以说是对信息耗散多少的量化。

目前，于非已初步完成对理性的数学公式下「智能」定义的探索，为量化智能提出了一条清晰的新路线。

「智能」之上：集体学习与区块链

去年12月，在雷峰网举办的 CCF-GAIR 大会上，AI 科技评论有幸与于非院士进行了一场关于单体智能与集体智能的对话。当时，于非就指出，从多体协同场景（如智能驾驶）中观察可知，要实现智能网络，集体学习将是非常关键的学习范式，「然而，集体学习目前还没有真正开始。」

在文明发展的过程中，人类之间传递的、书本中记载的，不仅仅是信息，还有智能。对应到人工智能领域的专业术语，那便是数据和知识的区别。智能定义为多个体间达成「智能交换」提供了知识基础，可以进一步实现集体学习。

未来智能的发展也离不开集体学习和网络。

当前大多数AI工作都聚焦单智能体的训练，需要依赖大量预定义的本地环境数据集。随着互联网数据的爆炸性增长，这种中心化的AI架构受限于本地计算能力和存储能力，训练的模型的泛化能力有待提高。此外，实际场景中的许多系统要么过于复杂无法在固定的预定义环境中正确建模，要么动态变化。

当前，AI与人类学习仍然相去甚远。人类学习需要更少的数据集，并且在适应新环境方面更加灵活。集体学习是人类能够在生物圈中发挥主导作用的决定性特征，而在当前的AI系统中很难做到这一点。通过互联智能，可以实现分布式智能、智能存储、智能共享，进一步拉近AI与人类智能的界限，显着提高智能训练效率，更有效地模仿现实世界环境。

就自动驾驶来说，联网自动驾驶汽车（CAV）涉及到车间通讯和车路协同，正是集体学习的具体实现。

在于非看来，车间通信和车路协同是保证交通安全的重要手段。「大多数车祸是因为不知道其他车辆正在做什么或将要做什么」，但通过开发让车辆了解环境和其他车辆发生的情况的通信技术，或能有效预防事故。

单车智能研发的困难在于场景适应性。目前，自动驾驶汽车在规范环境下表现较好，如没有阴雨天、道路施工或行人无规则穿行等情况，但实际应用中，单一模型难以覆盖由数千条道路、不同的天气、驾驶习惯、行人变动等构成的复杂路况。

「在这种情况下，车与车之间的通讯就变得很重要，但这种通讯交换并不限于信息或数据，更理想的情况下应该是——智能。」于非告诉AI 科技评论。

而集体学习的另一层权衡要素，则是个体性的保持。于非说到，「保证通讯的信息可靠性也是非常重要的一环，安全和效率通常需要进行权衡。」

随着连接性和自动化水平的提高，恶意用户能轻松实施不同类型的攻击，威胁到单体车辆安全性，进而威胁到 CAV 的安全性。

CAV 是一个非常复杂的系统，容易遭受的攻击点更是不计其数。仅相关无线接入技术就包括专用短程通信、蜂窝网络、WLAN、蓝牙和卫星通信等；通讯框架实体则包括 OBU、应用程序单元、路边单元（RSU）和传感器等；传感器、全球定位系统 (GPS) 和摄像头等是实现自动驾驶的关键部件。无论哪一个部件遭受攻击，都可以影响单车乃至整个 CAV 的正常运行。

对此，于非另一个主要研究方向「区块链」，可在 CAV 的环境中通过区块链（DLT）技术，实现对车辆隐私数据——即「智能交换」的内容进行保护。

智能交通中，车辆通常具有多个网络接口来与路边单元 (RSU) 和环境车辆进行通信。区块链技术的分布式特性可增强智能交通的鲁棒性，改善车辆通信管理和信息共享，从而建立起去中心化、可信、安全的智能交通系统。

自动驾驶汽车无疑是人工智能改变人类生活的一个备受瞩目的话题。以集体学习为关键的学习范式，在保证区块链的性能后，智能互联得到进一步的应用和实现。

对话于非：「明白了就获得了自由」

围绕《智能简史》，AI 科技评论与于非教授进行了一次对话，以下是部分对话内容对前述文章的进一步补充：

AI 科技评论：为什么单车智能仍然是非常困难的事情？

于非：2014年，Elon Musk（特斯拉CEO 埃隆·马斯克）就开始把特斯拉的系统叫 FSD，Full Self-Drive，当时就开始许诺说「FSD will be arriving next year」，但到现在都没有实现，结论是这个东西太难实现了。我在加拿大期间也做过类似的研究，发现简单有限的情况下比较容易（实现），但真正实现起来非常困难。

由于这个事情，我就一直在思考到底是什么问题，运用一些人工智能的算法为什么无法解决，带着学生也在做这方面的研究，这跟我这本书（《智能简史——从大爆炸到元宇宙》）的成型也很有关系。

Elon Musk 说过一句话，他说自己是个 engineer ，但自动驾驶并不是一个 engineer problem，而是 science problem，science 根本没有解决到底什么叫人工智能，engineer 是做不出来的。

AI 科技评论：这个 science problem 如何解决？

于非：人工智能经过了几起几落，有很多关于人工智能的惊人消息，它成功地完成了人类所做的事情，甚至做得更好。随着人工智能的最新进展，人类智能与人工智能之间的差距似乎正在迅速缩小。诸如此类的新闻和科幻电影让我们相信，通用人工智能（Artificial General Intelligence）或超级人工智能的发展在未来可能不会太远。

但后来总是一次又一次的被泼一盆冷水。

science problem 怎么解决，科学里面最重要的就是定义。这个东西到底是什么？如果只是文字上的描述，在数学上不是可定义、可量化的话，这个问题就解决不了。所以我一直在思考怎么定义，怎么把它变成科学。我查了大量的书，看看其他的科学是怎么产生的，这就是这本书（《智能简史》）的一整个思维过程。

AI 科技评论：最后的结论是从宇宙大爆炸开始。

于非：对，这本书的副名——从大爆炸到元宇宙，将来可能实现元宇宙，那最开始的时候，我们相信 science 就是从大爆炸开始的，从大爆炸开始，「智能」到底是怎么一回事？

研究过程中我发现很有意思，从大爆炸开始一直到物理学的产生，爆炸之后产生了一个物理世界，出现了很多的「智能」现象。最大的一个智能现象，就是天体运行，多个星球能够有序地运转，这并不止我们现在觉得奇妙，牛顿也曾觉得很奇妙。

牛顿有一句名言是，「我不知道为什么，我只知道这个东西可能符合万有引力定律」，跟质量成正比，跟距离的平方成反比，再加上一个系数。这是来自于一个「智能的上帝」，他用了一个词是「intelligent being」。只能说物理世界本身就有智能现象的存在，这是物理学里比较著名的一个例，由于引力造成的这种「智能」一直存在。

1744年，法国科学家皮埃尔-路易斯·莫罗·德·莫佩尔图伊（Pierre-Louis Moreau de Maupertuis）发现了最小作用原理，他发现，一件物体在扔出去后，是沿着一个最小作用量、交给上帝由一个点挪动至另一个点，上帝会选择一条最短、最省力的路径。包括光。假设我们有一杯水，将筷子放进去后呈弯曲状，这是光最省力的一条路。莫佩尔图伊将其视为一个重大发现，作为上帝存在的证明，但在当时受到大家的嘲弄。

此后，最小作用量原理成为物理学中最基本的一个原理，对后来一些科学的发展起到了重要影响。包括我写《智能简史》期间看到时，也觉得很震撼。

紧接着是物理学到化学，也都有类似的一个个阶段进化的例子。

AI 科技评论：那像您所说的，从物理、化学到生物，甚至未来虚拟世界，人工智能，都可以用一个逻辑来理解「智能」？

于非：可以用同样一个逻辑，这也是我思考的初衷，我想要用同一个逻辑来理解这个世界是怎么运转的。所以《智能简史》我选择的第一条名人名言，就是斯宾诺莎的「人类所能企及的最高活动就是为明白而学习，因为明白了就获得了自由」。能否用一个简单的道理来解释整个运转过程，这也是科学探索最高的境界。

science 和 engineer 不一样，engineer 是「我想解决一个问题」，science 是「我想明白这个事情」，这二者最基本的一个区别。但在明白这个世界之后，它会告诉你怎么去解决这个问题。

因此我将《智能简史》里的「智能」定义叫做一种假说，这个假说从大爆炸开始到目前这个世界，从物理学、化学到生物，都是为了推动宇宙平衡稳定而造成的一种一一各种各样的自然现象。举个例子，我将水杯放在桌子上，往旁边挪它就会掉下来，掉下来可能是因为万有引力，那为什么跟万有引力相关？这是因为如果它不掉下来，那么系统就不稳定，而当它掉下来之后，这个系统就变成稳定了。

再例如烧开的热水，热水的热量在房间里不扩散时，它是一个不稳定的系统，因为杯内很烫、而外部很冷，这就造成了两者间存在一种梯度。当热量扩散时，两者趋于温度相同，系统也就变得稳定了。与此同时，作为一个稳定的过程，扩散并不是缓慢进行的，而是以一个最快的、最省力的情况来达成稳定。

AI 科技评论：这种对智能的认识对您的研究有什么指导意义？例如说，在您自动驾驶相关研究里，这种最快、最省力达到稳定的原则是怎么得以应用的？

于非：非常好的问题。这有一个基本原则，就是关于「智能」的定义。智能的本质是什么？就是对信息耗散多少的量化。信息在不同的个体中存在差值，出现了梯度，造成系统不稳定。

自动驾驶也是如此，一个熟练的老司机和自动驾驶机器系统存在梯度，即使机器可以通过各种各样的算法去学习，但为什么还是学不好？究其原因，就是因为车和人的大脑存在梯度、「智能」没有量化，如果将智能度量出来，量化差值，有了科学的指导后，就可以很清晰地知道（自动驾驶）还需要在哪一些方面来提高。

在智能时代，「智能」没有一个清晰的定义是不可想象的。虽然我们也能实现一定的智能，但因为没有数学定义，大家往往通过各种各样的途径想要达到。

比如，通过强大的算力和超大的数据，把现有的算法模型发挥到及至。这种「大力出奇迹」的「暴力美学」，已经产生超大的模型：1750亿个参数的GPT3， 1.6万亿个参数的Switch Transformer。训练这些超大模型消耗的电量需要几万度，产生的二氧化碳当量，相当于一辆汽车行驶地球与月球之间距离的排放量。相比之下，人脑的工作功率约为20W，这足以覆盖整个人思维能力。

对智能本质理解的缺乏限制了人工智能的发展，以至于我们只能通过「暴力美学」，「调整参数」等「体力劳动」来换取微弱的性能提升。

「你无法在造成问题的同一思维层次上解决这个问题。」爱因斯坦说：「你必须超越它并达到一个新的层次，才能解决这个问题。」在研究智能的过程中，研究的对象不能仅局限于人类，而是应该超越人类的层次，考虑宇宙中不同的事物，在更高的层次上研究智能。

当我们在更高的层次上研究智能，考虑到宇宙中不同的事物，将会发现智能是一种自然现象，和其他自然现象（如岩石滚动和冰雪融化）类似。这些现象都是为了促进宇宙的稳定性而出现。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”