EleutherAI:当OpenAI不够开放时,我们该如何选择?

1a904ba627b37541cf18b2b60a2559a9.png

来源:ScienceAI

编辑:萝卜皮

人工智能最令人不安的事情之一是它超越了人类控制、遏制或规范它的权力。然而,它可能会产生可怕的结果,例如药物发现人工智能最近错误地发现了可用作化学武器的致命毒素。

今天,没有比 EleutherAI 更好的例子来说明 AI 的无拘无束了,EleutherAI 是一个松散的计算机科学家协会,他们建立了一个巨大的 AI 系统来与地球上一些最强大的机器学习模型相媲美。(这个团体的名字来源于古希腊语中的自由词,eleutheria。)

「我们基本上是一群在聊天室里闲逛以寻找乐趣的怪人。」该组织的创始人之一 Connor Leahy 说。虽然 EleutherAI 专注于 AI 安全,但他表示,他们的努力清楚地表明,一小部分非正统参与者可以构建和使用具有潜在危险的 AI。「一群黑客在一个山洞里,弄清楚这一点,绝对是可行的。」他说。

该小组的最新成果是 GPT-NeoX-20B,这是一个 200 亿参数、预训练、通用、自回归密集语言模型。如果你不知道这是什么,想想 OpenAI 的 GPT-3,这是一个大型语言模型,近两年前它的能力震惊了世界,包括编写从计算机代码到诗歌和虚假新闻故事等等,在风格和语调上都无法与权威来源区分。

OpenAI 也建立在 AI 应该对所有人开放的前提下——因此得名。但是,当研究实验室创建 GPT-2(其生成式预训练 Transformer 模型的第二次迭代)时,该模型的威力严重扰乱了 OpenAI,以至于他们推迟了其发布。GPT-3 现在只提供给选定的研究人员,并已获得 Microsoft 的独家许可,可用于商业应用。

当然,OpenAI 的模型比 EleutherAI 更大,有 1750 亿个参数——模型内部编码信息的节点或数字。参数越多,模型吸收的信息就越多、越细化,因此模型就越「智能」。

但 EleutherAI 是世界上同类模型中最大、性能最好的模型,可免费公开获得。将 EleutherAI 与 OpenAI 区分开来的唯一因素是训练大规模模型所需的计算能力。

OpenAI 在数量不详的 Nvidia V100 Tensor Core GPU 上训练了 GPT-3,这些 GPU 是有史以来用于加速 AI 的最快芯片。此后,OpenAI 的合作伙伴微软开发了一个用于大型模型训练的单一系统,该系统具有超过 285,000 个 CPU 内核、10,000 个 GPU,以及每个 GPU 服务器每秒 400 Gb 的网络连接。

这并没有阻止 EleutherAI。他们最初使用谷歌提供的硬件作为其 TPU 研究云计划的一部分,构建了一个具有 60 亿个参数的大型语言模型。对于 GPT-NeoX-20B,该小组得到了 CoreWeave 的帮助,CoreWeave 是一家专门针对基于 GPU 的工作负载的云服务提供商。

「目前由科技公司开发的私有模型的主导范式超出了研究人员的访问范围,这是一个巨大的问题。」EleutherAI 联盟的数学家和人工智能研究员 Stella Biderman 认为,「如果我们不了解它的工作原理,我们——科学家、伦理学家、整个社会——就无法就这项技术应该如何融入我们的生活进行必要的对话。」

EleutherAI 于 2020 年 7 月与一群「主要是自学成才的黑客」在社交媒体平台 Discord 上聊天。

「这是从我半开玩笑地说我们应该试着胡闹一下,看看我们是否可以建立自己的类似GPT-3的东西开始的。起初这真的只是一个有趣的爱好项目,在封锁期间,我们没有更好的事情可做,但它很快获得了相当大的吸引力。」Leahy 说。

24fd8707f5cbc472c572f57b43c43fa0.png

图示:EleutherAI 的起源可以追溯到 2020 年夏天的一次 Discord 聊天。

Leahy 与其他独立爱好者黑客 Sid Black 和 Leo Gao 一起于 2020 年 7 月创立了 EleutherAI Discord 服务器。「我们认为自己是几十年前经典黑客文化的后代,只是在新的领域里,出于好奇和热爱挑战而对技术进行实验。」

Discord 服务器现在有大约 10,000 名成员,但只有大约 100 或 200 人经常活跃。一个由 10 到 20 人组成的核心小组致力于开发新的应用程序,例如 GPT-NeoX-20B。没有正式的法律结构。

该小组的既定使命是通过使这种规模的模型易于访问,进一步研究人工智能系统的安全使用。事实上,与 GPT-3 不同的是,具有完整模型权重的 GPT-NeoX-20B 可以在许可的 Apache 2.0 许可下免费下载。

「我们希望更多的安全研究人员能够使用这项技术。」Leahy 说,并补充说,研究人员了解他们正在使用的算法的程度令人震惊。他说,经过多次辩论,该组织「非常肯定,这种模型的构建和发布对社会是有益的,因为它将促成更多与安全相关的研究。」

事实上,EleutherAI 的工作已经促成了对大型语言模型的可解释性、安全性和伦理的研究。机器学习安全领域的主要人物 Nicholas Carlini 在最近的一篇论文中表示,「如果没有 EleutherAI 完全公开发布 The Pile 数据集及其 GPT-Neo 系列模型,我们的研究将无法进行。」Pile 数据集是一个 825 GB 的英文文本语料库,用于训练大规模语言模型。

Leahy 认为 AI 的最大风险不是有人利用它做坏事,而是构建一个非常强大的 AI 系统,没人知道如何控制。

「我们必须将 AI 视为不像我们思考的奇怪外星人。」他说,并补充说 AI 擅长优化目标,但如果给定一个愚蠢的目标,结果可能无法预测。他担心研究人员会在创造越来越强大的人工智能的竞赛中过度自信,在这个过程中偷工减料。「我们需要研究这些系统,以了解我们如何控制它们。」

2019 年,被视为强化学习之父的 Richard Sutton 写了一篇名为《痛苦的教训》的文章,认为「从长远来看,唯一重要的是利用计算。」他认为,人工智能的真正进步来自于用于简单学习和搜索算法的强大计算机的日益普及。

OpenAI 正是采用了这种策略,击败了 Dota 2 世界冠军,创造了一个足够灵巧的机器人手控制器来解决魔方,最后是它的一系列生成预训练模型,迄今为止在 GPT-3 中达到顶峰。

大型语言模型(如 GPT-3 和 EleutherAI 的 GPT-NeoX-20B)中使用的 Transformer 算法已被证明特别适合随规模改进。

Leahy 说:「真正令人难以置信的是让模型变得更大,提供更多数据,解锁全新的技能集,无需任何人工标签或教学。」 清华大学的一个小组已经创建了一个基于转换器的模型,该模型具有 100 万亿个参数——与人脑中突触的数量相当——尽管他们迄今为止未能将其训练完成。

Leahy 说,任何志同道合的计算机科学家都可以构建一个大型语言模型,但由于需要计算能力,它很难隐藏并且可能非常昂贵。

「实际上很难获得合适的硬件来训练大型语言模型。」他说,并补充说这需要非常高的资本投资,而如今只有几百家公司拥有这种硬件。「现在,这不是你可以匿名做的事情。」

相关报道:https://spectrum.ieee.org/eleutherai-openai-not-open-enough

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

7666566a767172bc40a342a57efe5458.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482313.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

星地融合→→→6G移动通信关键技术的未来

来源:人民邮电报作者:柯文卫星通信与地面移动通信融合构建全球无缝覆盖的星地融合网络,这一趋势作为未来6G网络技术发展的重要方向得到业界广泛认可,成为当前学术界和产业界研究的热点。  中国信科副总经理、专家委主任&#xf…

这就是深度学习如此强大的原因

来源:ScienceAI编译:绿萝据报道称,由于采用基于云的技术和在大数据中使用深度学习系统,深度学习的使用在过去十年中迅速增长,预计到 2028 年,深度学习的市场规模将达到 930 亿美元。但究竟什么是深度学习&a…

Java基础语法之Map

浅谈Map及其遍历的四种方式 Map简介 Map提供了一种映射关系,其中的元素是以键值对(key-value)的形式存储的,Map中的键值对以Entry类型的对象实例形式存在;Map集合没有继承Collection接口,其提供的是key到value的映射…

谁是ASML的最大股东?为何荷兰光刻巨头要听美国的话?

来源:EETOP整理:technews目前能生产7 纳米以下芯片的极紫外光(EUV) 光刻机,只有荷兰ASML,ASML可说是掌握全球芯片先进制程的关键。ASML 的EUV 光刻机通常优先供货给台积电、三星、英特尔三家,其他要买都要排在三家之后…

SpringMVC详细执行流程与组件说明

SpringMVC详细执行流程与组件说明 文章目录SpringMVC详细执行流程与组件说明1.SpringMVC架构流程2.流程图3.组件说明1.SpringMVC架构流程 用户发送请求至前端控制器DispatcherServlet; DispatcherServlet收到请求调用HandlerMapping处理器映射器; 处理器映射器根据前端请求的…

机器学习的重新思考:人工智能如何学习“失忆”?

来源:Samuel Greengard作者:Samuel Greengard编译:维克多机器学习已经成为各行各业的宝藏工具,常被用来构建系统,帮助人们发现那些容易忽略的细节,并辅助决策。尽管已经取得了惊艳的结果,但是也…

浅谈Spring IOC和DI及Spring工厂类

浅谈Spring IOC和DI及Spring的工厂类 文章目录浅谈Spring IOC和DI及Spring的工厂类一. IOC1.什么是IOC2.为什么使用IOC传统开发模式的弊端3. 使用spring-IOC步骤二. DI1.什么是DI2.传统面向接口编程2.使用DI方式三. Spring的工厂类一. IOC 1.什么是IOC ​ IOC: Inversion of …

城市大脑标准体系与评价指标总体框架研究

来源:城市大脑全球标准研究组根据城市大脑标准的前期研究和中国指挥与控制学会(CICC)《城市大脑建设规范》标准启动会的专家意见,形成城市大脑标准体系与评价指标总体框架(如图1所示),供各位专家探讨&#…

AOP和Spring AOP介绍

AOP和Spring AOP介绍 文章目录AOP和Spring AOP介绍一.AOP简介二. 传统开发存在的弊端三. AOP实现原理四.Spring AOP五.AOP相关术语一.AOP简介 AOP为Aspect Oriented Programming的缩写,意为:面向切面编程。是OOP的延续,是软件开发中的一个热…

新鲜出炉!大规模神经网络最新综述!

来源:arXiv编译:机器之心在本综述论文中,研究者解释了不同技术的工作原理、评估和比较,还分析了一些实现这些技术的框架。现代深度学习和人工智能技术的发展涉及使用深度神经网络(DNN)来解决图像、视频、音…

数据结构与算法理论概述

数据结构与算法理论概述 文章目录数据结构与算法理论概述数据结构概述◆ 数据结构涵盖的内容◆ 存储数据算法概述◆ 算法的基本特性◆ 算法设计要求◆ 算法分析数据结构概述 狭义上:数据结构是专门研究数据存储的问题; 数据的存储包括:个体的…

战略性基础研究的由来及国际实践研究

来源:微信公众号中国科学院院刊,原载:《中国科学院院刊》2022年第3期作者:阿儒涵1,2、杨可佳3、吴丛1,2、李晓轩1,2*1 中国科学院科技战略咨询研究院2 中国科学院大学公共政策与管理学院3 挪威奥斯陆大学技术创新和文化研究中心近…

顺序表Sqlist.cpp

顺序表Sqlist.cpp 文章目录顺序表Sqlist.cpp1 顺序表插入逻辑2 顺序表删除逻辑3 代码演示4 运行结果1 顺序表插入逻辑 在表的第 i 个位置前插入一个元素 实现步骤: 将第 n 至第 i 位的元素向后移动一个位置;将要插入的元素写到第 i 个位置;表…

顺序表的插入删除查找遍历

顺序表的插入删除查找遍历 文章目录顺序表的插入删除查找遍历代码运行结果截图代码 #define Maxsize 100typedef int ElemType; typedef struct{ElemType data[Maxsize];int length; }Sqlist;void Createlink(Sqlist &L) {int a;printf("请输入你要创建的顺序表的长…

Yann LeCun最新访谈:能量模型是通向自主人工智能系统的起点

来源:ZDNet编译:钱磊编辑:陈彩娴继自监督学习之后,Yann LeCun 在接受 ZDNet 的最新访谈中又着重探讨了他在几年前曾大篇幅推崇的概念:「能量模型」(energy-based models)。什么是能量模型&#…

HTML5崛起之时,Java桌面时代就已经终结了

来源:AI前线作者:Steve Hannah翻译:核子可乐编辑:燕珊2004 年 Google Maps 的面世标志着 Java 桌面时代的终结,也改变了桌面环境下“跨平台”的基本定义。本文作者以个人视角对 Java 桌面发展历程做了回顾,…

单链表介绍及其实现

链表 文章目录链表链表的专业术语:实现链表的专业术语: 首节点:存放第一个有效数据的结点;尾结点:存放最后一个有效数据的结点;尾指针指向;头结点:头结点的数据类型和首结点的类型一…

Linux基础概念及常用命令

Linux基础概念及常用命令 文章目录Linux基础概念及常用命令1 Linux概述1.1 为什么要学Linux1.2 Linux简介1.3 Linux 发行版1.4 Linux 应用领域2 Linux常用命令2.1 Linux目录结构2.2 Linux目录命令2.3 Linux文件命令2.4 Linux其他命令1 Linux概述 1.1 为什么要学Linux linux诞生…

PNAS新研究:剑桥学者发现,有些 AI 模型无法被计算

来源:AI科技评论作者:Ailleurs编辑:陈彩娴近日,剑桥学者在《美国科学院院报》(PNAS)上发表了一篇名为“The Difficulty of Computing Stable and Accurate Neural Networks: On the Barriers of Deep Learn…

量子计算机首次成功模拟化学反应

SHUTTERSTOCK来源:IEEE电气电子工程师━━━━利用谷歌的Sycamore量子处理器,科学家们进行了迄今为止涉及量子计算机的最大规模的化学模拟。他们采用了一种新技术,可能有助于抵抗量子电路中常见的噪声。量子计算机理论上可以实现量子优势&…