自监督学习启示大脑的运作方式

来源：混沌巡洋舰

近十年来，许多最令人印象深刻的人工智能系统都使用大量的标记数据进行训练。例如，一张图片可能被标记为“虎斑猫”或“老虎”，以“训练”一个人工神经网络来正确区分虎斑猫和虎。这一策略既取得了惊人的成功，又存在严重的缺陷。

这种有监督学习需要人类辛苦地标记数据，而神经网络往往走捷径，学会将标记与最少的、有时是表面的信息联系起来。例如，一个神经网络可能会利用草的存在来识别一张奶牛的照片，因为奶牛通常是在田野里拍照的。

加州大学伯克利分校的计算机科学家Alexei Efros表示: “我们正在培养一代算法，它们就像本科生一样，整个学期都没来上课，然后在期末考试的前一天晚上，他们在临时抱佛脚。他们并没有真正学习材料，但他们在考试中表现很好。”

此外，对那些对动物和机器智能的交叉领域感兴趣的研究人员来说，这种“监督式学习”可能在揭示生物大脑方面受到限制。动物ーー包括人类ーー不使用带标签的数据集来学习。在大多数情况下，他们自己探索环境，并通过这样做获得了对世界丰富和强大的理解。

现在，一些计算神经科学家已经开始探索使用很少或没有人类标记的数据训练神经网络。这些“自监督学习”算法已被证明在建立人类语言模型，以及最近的图像识别领域非常成功。在最近的工作中，使用自监督学习模型建立的哺乳动物视觉和听觉系统的计算模型已经显示出比有监督学习模型更接近于大脑功能。在一些神经科学家看来，似乎人工网络开始揭示我们大脑用来学习的一些实际方法。

受人工神经网络启发的大脑模型大约在10年前成熟，大约在同一时期，一个名为 AlexNet 的神经网络彻底改变了对未知图像进行分类的任务。这个网络，像所有的神经网络一样，是由多层人工神经元组成的，这些计算单元彼此之间形成连接，这些连接的权重各不相同。如果一个神经网络未能正确分类一幅图像，学习算法将更新神经元之间连接的权重，以便在下一轮训练中减少错误分类的可能性。该算法对所有的训练图像进行多次重复这一过程，调整权重，直到网络的错误率达到可接受的低水平。

大约在同一时期，神经科学家利用像 AlexNet 及其后继者的神经网络，开发了灵长类动物视觉系统的第一个计算模型。这种结合看起来很有希望: 例如，当猴子和人工神经网络显示相同的图像时，真实神经元和人工神经元的活动显示出一种有趣的对应关系。随后建立了人工听觉和气味检测模型。

但随着该领域的发展，研究人员意识到有监督学习的局限性。例如，2017年，当时在德国蒂宾根大学的计算机科学家Leon Gatys和他的同事拍摄了一张福特 T 型车的照片，然后在照片上覆盖了一个豹皮图案，产生了一个奇怪但容易识别的图像。一个领先的人工神经网络正确地将原始图像分类为 T 型车，但将修改后的图像视为豹。它专注于纹理，对汽车(或豹子)的形状一无所知。

自监督学习策略的设计就是为了避免这类问题。在这种方法中，人类不会标记数据。相反，“这些标签来自数据本身,”瑞士Friedrich Miescher生物医学研究研究所的计算神经科学家Friedemann Zenke说。自我监督算法本质上是在数据中创建空白，并要求神经网络填补空白。例如，在所谓的大语言模型中，训练算法将向神经网络显示句子的前几个单词，并要求它预测下一个单词。当用从互联网上收集的大量文本进行训练时，该模型似乎能够学习语言的句法结构，展示出令人印象深刻的语言能力ーー这一切都没有外部标签或监督。

类似的努力正在计算机视觉领域进行。2021年末，何开明及其同事公布了他们的“蒙面自动编码器”，该编码器是基于埃弗罗斯团队在2016年开创的一项技术。自我监督学习算法随机掩盖图像，掩盖四分之一的图像。掩蔽的自动编码器将未掩蔽的部分转化为潜在的表征——包含有关对象重要信息的压缩数学描述。(就图像而言，潜在的表示可能是一种数学描述，它捕捉图像中物体的形状等信息。)然后，解码器将这些表示转换回完整的图像。

论文地址：https://arxiv.org/abs/2111.06377

自监督学习算法训练编译码器组合，将掩码图像转化为完整的图像。真实图像和重建图像之间的任何差异都会反馈到系统中以帮助它学习。这个过程对一组训练图像重复，直到系统的错误率适当地低。在一个例子中，当一个经过训练的蒙版自动编码器显示一个以前看不到的公交车图像，几乎80% 的公交车图像是模糊的，但模型仍然成功地重建了公交车的外观结构。

“这是一个非常、非常令人印象深刻的结果,”Efros说。

在这样的系统中创建的潜在表征似乎包含比以前的策略所能包含的更深层的信息。系统可能会了解汽车的形状，而不仅仅是它们的模式。这确实是自我监督学习的基本思想，即自下而上地积累知识。没有为了通过考试而临时抱佛脚。

自我监督的大脑

在这样的系统中，一些神经科学家发现这类似我们如何学习。“我认为毫无疑问，大脑90% 的功能是自我监督学习,” Blake Richards说，他是麦吉尔大学和魁北克人工智能研究所的计算神经科学家。生物大脑被认为是不断地预测，比如说，一个物体移动时的未来位置，或者一句话中的下一个单词，就像自我监督学习算法试图预测一幅图像或一段文本中的间隙。而且大脑也会从自己的错误中学习ーー我们大脑的反馈只有一小部分来自外部来源（“错误的答案”）。

例如，考虑人类和其他灵长类动物的视觉系统。这些是所有动物感觉系统中研究得最好的，神经科学家一直在努力解释为什么它们包括两个独立的通路: 负责识别物体和面孔的腹侧视觉通路和负责处理运动的背侧视觉通路(分别是“什么”和“哪里”通路)。

Richards和他的团队建立了一个自监督学习模型，这个模型暗示了一个答案。他们训练了一个结合了两种不同神经网络的人工智能: 第一种被称为 ResNet 架构，用于处理图像; 第二种被称为循环网络，可以跟踪一系列先前的输入，从而对下一个预期的输入做出预测。为了训练合成的人工智能，研究小组从一段视频的10帧序列开始，然后让 ResNet 一个一个地处理它们。然后回归网络预测第11帧的潜在表征，而不是简单地匹配前10帧。自监督学习算法将预测值与实际值进行比较，并指导神经网络更新权值，使预测结果更加准确。

Richards的研究小组发现，受过单一 ResNet 训练的人工智能擅长物体识别，但不擅长对运动进行分类。但当人工智能将单个 ResNet 分成两部分，创造出两条通路(在不改变神经元总数的情况下)时，人工智能就开发出了一个通路中的物体和另一个通路中的运动的表示，从而能够对这些属性进行下游分类ーー就像我们的大脑可能会做的那样。

论文地址：

https://www.biorxiv.org/content/10.1101/2021.06.18.448989v3.full

为了进一步测试人工智能，研究小组给它看了一组西雅图艾伦脑科学研究所的研究人员之前给老鼠看的视频。像灵长类动物一样，老鼠的大脑区域专门用于静态图像和运动。艾伦大学的研究人员记录了老鼠在观看视频时视觉皮层的神经活动。

在这里，Richards的团队也发现了人工智能和活体大脑对视频的反应方式的相似之处。在训练过程中，人工神经网络中的一条通路变得更加类似于小鼠大脑的腹侧物体检测区域，而另一条通路变得更加类似于运动集中的背侧区域。

Richards说，研究结果表明，我们的视觉系统有两条专门的路径，因为它们有助于预测未来看到的东西; 单一的路径表现的不够好。

人类听觉系统的模型讲述了一个类似的故事。今年6月，Meta AI 的研究科学家Jean-Rémi King领导的一个团队，训练了一种名为 Wav2Vec 2.0的人工智能，它利用神经网络将音频转换为潜在表征。研究人员掩盖了其中的一些表示，然后将其输入另一个称为transformer的神经网络。在训练过程中，transformer预测被掩盖的信息。在这个过程中，人工智能学会将声音转化为潜在的表征，同样不需要任何标签。该团队使用了大约600小时的语音数据来训练网络，“这大约是一个孩子在头两年的经验中所能得到的,”King 说。

论文地址：https://arxiv.org/abs/2206.01685

一旦系统被训练好，研究人员就用英语、法语和普通话播放有声读物的部分。然后，研究人员将人工智能的表现与来自412人的数据进行了比较。这412人都是以上述三种语言为母语的人，他们在接受功能磁共振成像(fMRI)扫描时，听到了相同的音频片段。King说他的神经网络和人类大脑，尽管有噪音和低分辨率的功能磁共振成像图像，“不仅相互关联，而且以一种系统的方式相互关联”: 人工智能早期层的活动与初级听觉皮层的活动相一致，而人工智能最深层的活动与大脑较高层的活动相一致，在这种情况下是脑前额叶外皮。“这是非常漂亮的数据,”Richards说。“这不是决定性的，但它是另一个令人信服的证据，表明我们学习语言的方式，实际上在很大程度上是通过试图预测将要说的下一句话。”

不是每个人都相信。Josh McDermott，麻省理工学院的计算神经科学家，利用有监督学习和自我监督学习，研究了视觉和听觉感知模型。他的实验室设计了他所谓的“元音”，合成的音频和视觉信号，对人类来说，只是难以理解的噪音。然而，对于人工神经网络来说，元计似乎与真实信号没有什么区别。这表明，在神经网络的深层形成的表征，即使有自我监督的学习，也与我们大脑中的表征不匹配。麦克德莫特说，这些自我监督的学习方法“在某种意义上是一种进步，因为你能够学习那些不需要所有这些标签就能支持大量识别行为的表示法。”。“但它们仍然存在许多受监督模型的病态。”

一旦系统被训练好，研究人员就用英语、法语和普通话播放有声读物的部分。然后，研究人员将人工智能的表现与来自412人的数据进行了比较。这412人都是以上述三种语言为母语的人，他们在接受功能磁共振成像(fMRI)扫描时，听到了相同的音频片段。金说他的神经网络和人类大脑，尽管有噪音和低分辨率的功能磁共振成像图像，“不仅相互关联，而且以一种系统的方式相互关联”: 人工智能早期层的活动与初级听觉皮层的活动相一致，而人工智能最深层的活动与大脑较高层的活动相一致，在这种情况下是脑前额叶外皮。“这是非常漂亮的数据,”理查兹说。“这不是决定性的，但它是另一个令人信服的证据，表明我们学习语言的方式，实际上在很大程度上是通过试图预测将要说的下一句话。”

自监督学习的未解之谜

不是每个人都这样认为。Josh McDermott，麻省理工学院的计算神经科学家，利用有监督学习和自我监督学习，研究了视觉和听觉感知模型。他的实验室设计了他所谓的“metamers”，合成的音频和视觉信号，对人类来说，只是难以理解的噪音。然而，对于人工神经网络来说，metamers似乎与真实信号没有什么区别。这表明，在神经网络的深层形成的表征，即使有自我监督的学习，也与我们大脑中的表征不匹配。麦McDermott说，这些自我监督的学习方法“在某种意义上是一种进步，因为你能够学习那些不需要所有这些标签就能支持大量识别行为的表示法。”。“但它们仍然存在许多受监督模型的问题。”

算法本身也需要更多的工作。例如，在 Meta AI 的 Wav2Vec 2.0中，人工智能只能预测几十毫秒的潜在声音表征，比发出一个感知上截然不同的噪音所需的时间还要短，更不用说一个单词了。“要做类似于大脑所做的事情，还有很多事情要做,”King说。

真正理解大脑功能需要的不仅仅是自我监督学习。首先，大脑充满了反馈连接，而目前的模型很少有这样的连接，如果有的话。下一个显而易见的步骤将是使用自我监督学习来训练高度重复（recurrent ）的网络(这是一个困难的过程) ，并观察这些网络中的活动与真实的大脑活动之间的比较。另一个关键步骤是将自监督学习模型中人工神经元的活动与单个生物神经元的活动相匹配。“希望在未来，[我们的]结果也将通过单细胞记录得到证实,”King 说。

如果观察到的大脑和自我监督学习模型之间的相似性适用于其他感官任务，这将是一个更强有力的迹象，表明无论我们的大脑能够施展什么魔法，都需要以某种形式进行自我监督学习。如果我们确实发现了大不相同的系统之间的系统性相似之处，这(将)表明，也许没有那么多方法可以以智能的方式处理信息。至少，这是我们愿意研究的美丽假设。

原文链接：

https://www.quantamagazine.org/self-taught-ai-shows-similarities-to-how-the-brain-works-20220811/

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”