EleutherAI：当OpenAI不够开放时，我们该如何选择？

来源：ScienceAI

编辑：萝卜皮

人工智能最令人不安的事情之一是它超越了人类控制、遏制或规范它的权力。然而，它可能会产生可怕的结果，例如药物发现人工智能最近错误地发现了可用作化学武器的致命毒素。

今天，没有比 EleutherAI 更好的例子来说明 AI 的无拘无束了，EleutherAI 是一个松散的计算机科学家协会，他们建立了一个巨大的 AI 系统来与地球上一些最强大的机器学习模型相媲美。（这个团体的名字来源于古希腊语中的自由词，eleutheria。）

「我们基本上是一群在聊天室里闲逛以寻找乐趣的怪人。」该组织的创始人之一 Connor Leahy 说。虽然 EleutherAI 专注于 AI 安全，但他表示，他们的努力清楚地表明，一小部分非正统参与者可以构建和使用具有潜在危险的 AI。「一群黑客在一个山洞里，弄清楚这一点，绝对是可行的。」他说。

该小组的最新成果是 GPT-NeoX-20B，这是一个 200 亿参数、预训练、通用、自回归密集语言模型。如果你不知道这是什么，想想 OpenAI 的 GPT-3，这是一个大型语言模型，近两年前它的能力震惊了世界，包括编写从计算机代码到诗歌和虚假新闻故事等等，在风格和语调上都无法与权威来源区分。

OpenAI 也建立在 AI 应该对所有人开放的前提下——因此得名。但是，当研究实验室创建 GPT-2（其生成式预训练 Transformer 模型的第二次迭代）时，该模型的威力严重扰乱了 OpenAI，以至于他们推迟了其发布。GPT-3 现在只提供给选定的研究人员，并已获得 Microsoft 的独家许可，可用于商业应用。

当然，OpenAI 的模型比 EleutherAI 更大，有 1750 亿个参数——模型内部编码信息的节点或数字。参数越多，模型吸收的信息就越多、越细化，因此模型就越「智能」。

但 EleutherAI 是世界上同类模型中最大、性能最好的模型，可免费公开获得。将 EleutherAI 与 OpenAI 区分开来的唯一因素是训练大规模模型所需的计算能力。

OpenAI 在数量不详的 Nvidia V100 Tensor Core GPU 上训练了 GPT-3，这些 GPU 是有史以来用于加速 AI 的最快芯片。此后，OpenAI 的合作伙伴微软开发了一个用于大型模型训练的单一系统，该系统具有超过 285,000 个 CPU 内核、10,000 个 GPU，以及每个 GPU 服务器每秒 400 Gb 的网络连接。

这并没有阻止 EleutherAI。他们最初使用谷歌提供的硬件作为其 TPU 研究云计划的一部分，构建了一个具有 60 亿个参数的大型语言模型。对于 GPT-NeoX-20B，该小组得到了 CoreWeave 的帮助，CoreWeave 是一家专门针对基于 GPU 的工作负载的云服务提供商。

「目前由科技公司开发的私有模型的主导范式超出了研究人员的访问范围，这是一个巨大的问题。」EleutherAI 联盟的数学家和人工智能研究员 Stella Biderman 认为，「如果我们不了解它的工作原理，我们——科学家、伦理学家、整个社会——就无法就这项技术应该如何融入我们的生活进行必要的对话。」

EleutherAI 于 2020 年 7 月与一群「主要是自学成才的黑客」在社交媒体平台 Discord 上聊天。

「这是从我半开玩笑地说我们应该试着胡闹一下，看看我们是否可以建立自己的类似GPT-3的东西开始的。起初这真的只是一个有趣的爱好项目，在封锁期间，我们没有更好的事情可做，但它很快获得了相当大的吸引力。」Leahy 说。

图示：EleutherAI 的起源可以追溯到 2020 年夏天的一次 Discord 聊天。

Leahy 与其他独立爱好者黑客 Sid Black 和 Leo Gao 一起于 2020 年 7 月创立了 EleutherAI Discord 服务器。「我们认为自己是几十年前经典黑客文化的后代，只是在新的领域里，出于好奇和热爱挑战而对技术进行实验。」

Discord 服务器现在有大约 10,000 名成员，但只有大约 100 或 200 人经常活跃。一个由 10 到 20 人组成的核心小组致力于开发新的应用程序，例如 GPT-NeoX-20B。没有正式的法律结构。

该小组的既定使命是通过使这种规模的模型易于访问，进一步研究人工智能系统的安全使用。事实上，与 GPT-3 不同的是，具有完整模型权重的 GPT-NeoX-20B 可以在许可的 Apache 2.0 许可下免费下载。

「我们希望更多的安全研究人员能够使用这项技术。」Leahy 说，并补充说，研究人员了解他们正在使用的算法的程度令人震惊。他说，经过多次辩论，该组织「非常肯定，这种模型的构建和发布对社会是有益的，因为它将促成更多与安全相关的研究。」

事实上，EleutherAI 的工作已经促成了对大型语言模型的可解释性、安全性和伦理的研究。机器学习安全领域的主要人物 Nicholas Carlini 在最近的一篇论文中表示，「如果没有 EleutherAI 完全公开发布 The Pile 数据集及其 GPT-Neo 系列模型，我们的研究将无法进行。」Pile 数据集是一个 825 GB 的英文文本语料库，用于训练大规模语言模型。

Leahy 认为 AI 的最大风险不是有人利用它做坏事，而是构建一个非常强大的 AI 系统，没人知道如何控制。

「我们必须将 AI 视为不像我们思考的奇怪外星人。」他说，并补充说 AI 擅长优化目标，但如果给定一个愚蠢的目标，结果可能无法预测。他担心研究人员会在创造越来越强大的人工智能的竞赛中过度自信，在这个过程中偷工减料。「我们需要研究这些系统，以了解我们如何控制它们。」

2019 年，被视为强化学习之父的 Richard Sutton 写了一篇名为《痛苦的教训》的文章，认为「从长远来看，唯一重要的是利用计算。」他认为，人工智能的真正进步来自于用于简单学习和搜索算法的强大计算机的日益普及。

OpenAI 正是采用了这种策略，击败了 Dota 2 世界冠军，创造了一个足够灵巧的机器人手控制器来解决魔方，最后是它的一系列生成预训练模型，迄今为止在 GPT-3 中达到顶峰。

大型语言模型（如 GPT-3 和 EleutherAI 的 GPT-NeoX-20B）中使用的 Transformer 算法已被证明特别适合随规模改进。

Leahy 说：「真正令人难以置信的是让模型变得更大，提供更多数据，解锁全新的技能集，无需任何人工标签或教学。」清华大学的一个小组已经创建了一个基于转换器的模型，该模型具有 100 万亿个参数——与人脑中突触的数量相当——尽管他们迄今为止未能将其训练完成。

Leahy 说，任何志同道合的计算机科学家都可以构建一个大型语言模型，但由于需要计算能力，它很难隐藏并且可能非常昂贵。

「实际上很难获得合适的硬件来训练大型语言模型。」他说，并补充说这需要非常高的资本投资，而如今只有几百家公司拥有这种硬件。「现在，这不是你可以匿名做的事情。」

相关报道：https://spectrum.ieee.org/eleutherai-openai-not-open-enough

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”