今天Meta发布了史上最强开源大模型Llama 3,一口气发布了 8B 和 70B 2个预训练和指令微调模型,对比同级别的参数模型,性能上均达到了最佳。
此外,Meta还发布了基于Llama 3的AI助手Meta AI,可以在Facebook、Instagram、WhatsApp、Messenger和网页上通过Meta AI来体验Llama 3的强大功能。
这次发布,小扎表现得非常兴奋,第一时间在社交媒体开启了宣传模式。和Llama 3一起发布的,还有小扎长达一小时的深度访谈,由著名科技博主Dwarkesh Patel主持。采访中深入聊了刚刚发布的Llama 3,Meta AI背后的故事。小扎是如何考虑Llama 3的技术路线的?Meta是如何看待AGI的?AGI路上的瓶颈在哪里?AI是否是人类有史以来最重要的技术?开源对于Meta的意义、对于AI发展的价值等。
首先,扎克伯格详细介绍了Llama 3的技术细节,他特别强调了70B参数模型在数学和推理方面的优秀表现,并分享了未来规划,包括推出支持多模态、多语言功能的更大模型。
访谈中扎克伯格还讨论了Meta提前采购H100 GPU的决策,这一决策是为了支持Reels项目和内容推荐系统的基础设施需求。此外,扎克伯格也谈到了AI如何改变人机交互方式,尤其是在社交和内容推荐方面。
扎克伯格分享了Meta的AGI路径和自己的开源哲学,包括Meta AI研究院(FAIR)和Gen AI团队在推动AI技术发展,特别是在通向通用人工智能(AGI)的道路上的努力。同时,他也表达了对开源的哲学和潜在风险的看法,强调了在开源决策中需要平衡的多种因素。
在讨论AI的长期影响时,扎克伯格认为AI将是一个非常基础的技术,类似于计算机的创造。他还讨论了数据中心规模的增长和能源限制对AI发展的影响。
最后,扎克伯格介绍了Meta正在开发的定制硅芯片,以及这些芯片如何提高AI模型训练和推理任务的效率。他还强调了专注力对于大型科技公司成功的重要性,并分享了Meta是如何管理多个项目并保持重点的。
以下为采访文字稿翻译:
Llama 3
Dwarkesh Patel:Mark,欢迎来到我的播客。
Mark Zuckerberg:谢谢邀请,我是你播客的忠实粉丝。
Dwarkesh Patel:谢谢你这么说。让我们先来谈谈未来会随这次采访同步发布的技术成果,给我们介绍一下Llama3和Meta AI吧,它们有哪些新的、令人兴奋的地方?
Mark Zuckerberg:我认为大多数人会注意到的是新版Meta AI。我们最主要的进展是对大模型的升级,推出Llama 3,并以开源的形式面向社区发布,Meta AI也会基于Llama 3。关于Llama 3肯定有很多细节值得探讨,但总的来说,我们认为现在Meta AI已经成为全球最智能、可供公众免费使用的AI助手。此外,我们还集成了谷歌和必应的实时知识。
我们将在各个应用中把Meta AI防在更显眼的位置,在Facebook和Messenger顶部,你可以直接使用搜索框来提问。我们还添加了一些很酷的、我认为大家会喜欢的创作功能。比如动画功能就不错,基本上你可以对任何图像进行动画处理。
还有一个让人觉得相当惊艳的功能是,它能迅速地生成高质量图像,甚至在你输入查询的同时,它就在实时更新生成的图像。也就是说,你一边键入查询,如“给我展示一只在田野中吃着澳洲坚果、喝着啤酒,背景有山的奶牛”,它一边在实时调整图像。这真的很神奇,我认为人们会喜欢这个功能。我们已经在几个国家推出了这项功能,并将在未来几周和几个月内覆盖更多的国家和地区。我认为这是一个重大突破,非常期待能让大家体验到。对于Meta AI来说,这是巨大的进步。
但如果你想深入了解,Llama 3的技术细节显然是最有趣的。我们正在训练三个版本:一个8B参数模型和一个70B参数模型(今天发布),以及一个405B参数的密集模型,仍在训练中。我对8B和70B参数模型的结果感到非常兴奋。它们在其规模上处于领先地位。我们将发布一篇博客文章,包含所有基准测试结果,供人们自行查看。而且由于它是开源的,人们有机会亲自试用。
播客链接:https://ai.meta.com/blog/meta-llama-3/
我们已经规划了一系列的发布路线,将引入多模态、多语言以及更大的上下文窗口。希望在今年晚些时候,我们能推出405B参数模型。根据目前的训练进度,其MMLU分数已达约85分,预计它在多个基准测试中都将取得领先成绩。我对这一切都感到非常兴奋。70B参数模型也很棒,我们今天就会发布它,其MMLU分数约为82分,在数学和推理方面表现优秀。我认为让大众亲自体验这些成果将会非常震撼。
Dwarkesh Patel:很有意思!我还真不知道它会被用作基准,真是令人印象深刻。
Mark Zuckerberg:这8B模型的算力几乎与Llama 2的最大参数版本相当,所以最小的Llama 3基本和最大的Llama 2一样强大。
Dwarkesh Patel:在深入探讨这些模型之前,我想回顾一下过去。假设你们是从2022年开始采购H100,或者你可以告诉我具体时间。股价遭受重创,人们都在问财务支出都花到哪儿去了,大家对元宇宙并不买账。显然你们是把财务支出花在了采购H100上。你们当时是怎么知道要采购H100的?你们怎么知道需要这些GPU的?
Mark Zuckerberg:因为我们在研发Reels。我们总是希望为无法预见的未来做些准备。在Reels项目上,我们遇到了需要更多GPU来训练模型的情况。这对我们的服务来说是一次重大变革。我们不再只根据你关注的人或页面来为你推荐内容,而是大力推动推荐所谓的“未连接内容”,即来自你未关注的人或页面的内容。
候选内容库——那些我们可能向你展示的内容——规模从数千增长到了数亿。这需要完全不同的基础设施。我们开始着手做这件事,但在追赶TikTok的速度上,我们的基础设施受到了限制。看着这一切,我心想:“嘿,我们必须确保以后再也不要陷入这种境地。所以,让我们订购足够的GPU来完成在Reels和内容排名、信息流推送的工作。但还要再翻一倍。”我们的原则一贯如此:总会有我们目前还无法预知的东西出现。
Dwarkesh Patel:你们当时知道会是AI吗?
Mark Zuckerberg:我们原以为这将与训练大型模型有关,当时我猜测可能涉及内容方面。经营公司的模式就是这样,总有层出不穷的新事物。那时我正全身心投入到让Reels和其他内容的推荐功能正常运行。如今,这正是Instagram和Facebook的一大突破,能够向用户展示他们感兴趣、但并未关注的用户所发布的内容。
但回过头来看,这是一个非常明智的决定,而这一决定源于我们的落后。并不是说“哦,我当时遥遥领先。”实际上,大多数看似明智的决策,都是因为我们之前犯过错误,不想再重蹈覆辙。
Dwarkesh Patel:接下来我想岔开话题问个问题。2006年你们没有以10亿美元的价格出售公司,但显然你们愿意接受某个价格出售,对吧?你当时心里有没有想过“我认为Facebook当时的实际估值应该是这样的,他们并没有正确评估”?如果他们出价5万亿美元,你们当然会卖。你是怎么考虑这个选择的?
Mark Zuckerberg:我觉得有些事情是个人层面的。我不确定当时我是否足够成熟,去做那样的分析。我身边围着一圈人,为了10亿美元争论不休,比如:“这是我们需要实现的收入,这是我们需要达到的规模。这明显是我们多年后才能达到的。”这远远超出了我们当时的水平。我没有足够的财务知识去深入参与那些辩论。
但内心深处,我坚信我们正在做的事情。我也做过一些分析:“如果我不做这件事,我会做什么?嗯,我喜欢创造,喜欢帮助人们沟通,喜欢理解人与人之间的动态和关系。所以我想,如果我把这家公司卖了,我大概会去创建另一家类似的公司,而且我挺喜欢我现在拥有的这家。那为什么还要卖呢?”我认为,人们做出的很多重大决策往往基于信念和价值观。实际上,试图通过分析来预测未来往往非常困难。
在通往AGI的道路上进行编程
Dwarkesh Patel:Facebook AI研究院已经成立很久了,现在它似乎已经成为Meta的重要组成部分。在何时,研发AGI成为了Meta的核心优先事项?
Mark Zuckerberg:已经有一段时间了。我们在大约10年前成立了FAIR。我们的想法是,在通往General Intelligence(或者随便你怎么称呼它)的过程中,将会出现各种各样的创新,这些创新将改进我们所做的所有事情。所以我们并没有将其视为一个产品,而更像是一个研究团队。过去10年里,它创造了许多不同的东西,提升了我们所有产品的性能。它推动了该领域的进步,也让该领域内的其他人创造了提升我们产品性能的东西。我认为这非常棒。
显然,过去几年随着ChatGPT和图像生成的扩散模型的出现和发展,人们与应用程序的交互方式将发生重大变化。所以我们启动了第二个团队——Gen AI团队,目标是将这些技术引入我们的产品中,并构建领先的模型,为所有产品提供支持。
当我们开始做这些事时,最初的理论是,我们所做的一切都是相当社交化的。它帮助人们与创作者互动,帮助人们与企业互动,帮助企业销售商品或进行客户服务。还有一些基本的助手功能,无论是用于我们的应用程序、智能眼镜还是VR。因此,一开始并不完全清楚是否需要AGI来支持这些用例。但通过这段时间的探索,我认为答案已经很清楚,确实需要。例如,当我们正在开发Llama 2时,我们没有优先考虑编码功能,因为人们不会在WhatsApp上向Meta AI提出很多编码问题。
Dwarkesh Patel:现在他们会的,对吧?
Mark Zuckerberg:我不确定。我不认为WhatsApp、Facebook或Instagram是人们会提出大量编码问题的用户界面。可能是我们即将推出的Meta AI网站。但在过去18个月中,有一个出乎意料的结果是,事实证明编程对于许多领域都很重要,而不仅仅是编程。即使人们没有提出代码相关的问题,对模型进行编程能力的训练也能使它们在回答问题时更加严谨,并帮助它们在许多不同类型的领域进行推理。这是其中一个例子,在Llama 3中,我们对其进行了大量编码训练,因为这将使其在所有这些方面变得更好,即使人们主要不是在问代码相关的问题。
另一个例子是推理能力。也许你想与创作者聊天,或者你是一家企业,正在尝试与用户互动。这种互动并不只是简单的回复。这是一个多步骤的过程,你需要思考如何实现对方的目标。很多时候,当客户来时,他们并不一定清楚自己到底在找什么,或者如何提出问题。所以AI的工作并不仅仅是回应问题。你需要更全面地考虑这个问题。这实际上变成了一个推理问题。因此,如果其他人解决了推理问题,或者在推理方面取得了重大进展,而我们还停留在基础的聊天机器人阶段,那么我们的产品就比别人的逊色多了。归根结底,我们意识到我们必须解决general Intelligence的问题,于是我们加大了投入,确保能够做到这一点。
Dwarkesh Patel:那么,能解决用户所有需求的 Llama 版本,它是否足够强大,能够取代这座大楼里的所有程序员?
Mark Zuckerberg:我认为这一切会随着时间逐步发展。
Dwarkesh Patel:但最终会,比如Llama 10。
Mark Zuckerberg:我认为这个问题包含了很多内容。我不确定我们是否在取代人,而是在给人提供更多工具去做更多的事情。
Dwarkesh Patel:那么,在Llama 10之后,这座大楼里的程序员的生产力会提高10倍吗?
Mark Zuckerberg:我希望不止如此。我不认为人类的智能有一个单一的阈值,因为人们有不同的技能。我认为在某种程度上,AI可能会在大多数方面超越人类,这取决于模型的强大程度。但我认为这是一个渐进的过程,我不认为AGI是一个单一的东西,需要添加不同的能力。
多模态是我们现在关注的关键之一,最初是针对照片、图像和文本,但最终会扩展到视频。因为我们非常专注于元宇宙,所以3D类型的内容也很重要。另外,我非常关注的一个模态,但目前行业里很少有人关注,那就是情感理解。人类大脑的很大一部分就是用来理解和解读他人以及表情和情绪的。我认为这是一种独立的模态。你可以说它可能只是视频或图像的一种,但它显然是这两种模态中非常特殊的一种。所以,你希望训练模型专注于所有这些不同的能力,同时在推理和记忆方面做得更好,这本身就是一项艰巨的任务。
我认为在未来,我们不会主要通过将信息塞入查询上下文窗口,来提出更复杂的问题。会有不同的记忆存储或更个性化定制的模型。所有这些都是不同的能力。然后还有让它们变得更大或更小。我们两者都很关心。如果你正在运行像Meta AI这样的东西,那主要是基于服务器的。我们也希望它能在智能眼镜上运行,而智能眼镜的空间非常有限。因此,我们需要一个在这方面非常高效的东西。
Dwarkesh Patel:如果您正在处理价值100亿美元的推理任务,甚至最终达到1000亿美元,当你在工业规模上使用人工智能时,其应用场景是什么?是模拟吗?是元宇宙中的AI吗?我们将如何利用数据中心?
Mark Zuckerberg:我们的预测是,这将从根本上改变所有产品。我认为会出现一种通用助手产品。它将从聊天机器人一问一答的形式,转变为可以解决复杂的任务。这需要大量的推断,也将需要大量的计算资源。此外,我认为与代表他人利益的其他智能体进行交互将成为我们工作的重要部分,无论是对企业还是创作者。我对此的一个主要观点是,不会只有一个单一的人工智能供你交互。每个企业都希望拥有代表自身利益的人工智能。他们不希望主要通过一个推销竞争对手产品的AI与你互动。
我认为创作者将是重要的应用领域之一。我们的平台上大约有2亿创作者。他们都想要与自己的社区互动,但受限于时间。如果能创建一个工具,让创作者拥有并训练这个AI,按照他们的方式与其社区互动,这将非常强大。所有这些都将带来大量的参与度。以上只是toC的应用案例。我和妻子运营着Chan Zuckerberg基金会,我们在科学领域开展了许多工作,显然AI将推动科学、医疗保健等领域的发展。AI将最终影响到产品的所有领域和整个经济。
Dwarkesh Patel:你提到了那种能为您完成多步骤任务的AI。那是不是意味着模型更大?以Llama 4为例,是否仍会有一个7B大小的版本,但只需用正确的数据进行训练,就能变得超级强大?这个过程是怎样的?是通过扩大规模吗?还是像您之前所说的那样,只是大小相同,但使用不同的数据集?
Mark Zuckerberg:我认为我们还没有找到确切的答案。一个明显的模式是,首先有Llama模型,然后围绕它构建一些特定应用的代码。其中一部分是对应用场景的微调,另一部分则是,比如关于Meta AI如何与Google或Bing等工具协作,引入实时知识的逻辑。这并不属于基础的Llama模型。在Llama 2中,我们对此有所涉及,但更多的是手工设计。Llama 3的目标之一是将更多此类功能融入模型本身。
随着Llama 3开始展现出更多类似智能代理的行为,我认为其中一些仍需手工设计。而Llama 4的目标将是将更多此类功能纳入模型。在每个阶段,我们都会对未来可能实现的功能有所预见。我们会对其进行试验和探索,这有助于磨练我们对如何训练到下一个版本模型的直觉,使其更具通用性。手动编码虽然可以解锁某些应用场景,但其本质是脆弱且非通用的。
Dwarkesh Patel:当您说“融入模型本身”具体是指什么?是指在模型中直接训练所需功能吗?
Mark Zuckerberg:对于Llama 2,工具使用非常具体,而Llama 3在工具使用方面有了显著提升。我们不再需要手动编写所有代码来让它使用Google进行搜索,它可以直接执行此操作。同样,对于编写和运行代码等许多任务也是如此。一旦具备这种能力,我们就能够窥见下一步可以尝试做什么。我们并不想等到Llama 4出现才开始构建这些能力,因此可以先进行探索性开发。通过大量手动编码,即使只是暂时的,也能使产品变得更好。这有助于指引我们在下一版模型中构建哪些功能。
Dwarkesh Patel:你对Llama 3的社区微调版本中最感兴趣的是哪个?也许不是对你最有用的那个,而是你最享受与之互动的那个。比如他们将其微调为关于古代的内容,你就可以和Virgil之类的古人对话。你对此有何期待?
Mark Zuckerberg:我认为这类事物的魅力就在于你会收获惊喜。如果我想到任何具体且有价值的东西,我们可能已经在开发了。我认为会出现一些提炼版、缩小版。有一点是,我觉得8B参数对于很多应用场景来说还不够小。随着时间推移,我很希望能有一个1-2B参数的模型,甚至是500M参数的模型,看看能用它们做些什么。如果拥有8B参数的模型已经几乎和最大的Llama 2模型一样强大,那么使用1B参数的模型应该就能实现一些有趣且运行更快的功能。这对于分类任务,或者在理解用户查询意图并将其传递给最强大的模型以精准确定提示之前需要做的许多基础工作都很有用。我认为这可能是社区可以帮我们填补的一个方面。我们也考虑过自己来提炼其中一些模型,但现在GPU都在全力训练那个405B参数的模型。
Dwarkesh Patel:所以你们有这么多GPU,我记得你说过年底会有35万片。
Mark Zuckerberg:这是整个GPU集群,我们建立了两个集群,每个包含约22,000或24,000个节点,专门用于训练大模型,当然也涵盖了我们很多其他工作。我们大量的资源都投入到了Reels模型、Facebook新闻推送和Instagram信息流的训练中。推理对我们来说非常重要,因为我们需要为大量用户提供服务。我们的推理计算需求与训练计算需求的比例,可能比大多数从事此类工作的公司都要高得多,仅仅是因为我们所服务的社区规模之大。
Dwarkesh Patel:你们之前分享给我的材料中,非常有趣的一点是,你们在训练数据上投入的计算量超过了单纯为了训练所需的最优计算量。推理对你们和社区来说如此重要,因此拥有这样一个包含数万亿token的模型是合理的。
Mark Zuckerberg:尽管如此,关于70亿参数模型的一个有趣之处在于,我们原以为它会更快达到饱和。我们在约15万亿token的数据上对其进行了训练。我想我们当初预测它会更快接近极限,但直到最后它仍在学习。如果我们喂给它更多token,它可能会变得稍微更好一些。在某个时候,作为一家公司的管理者,你需要进行这些元层次的思考。我应该把GPU继续用在训练这个70B参数的模型上呢,还是尽快推进,以便开始测试Llama 4的假设?我们需要做出这个决定,我认为我们在当前版本的70B参数模型上找到了一个合理的平衡。未来还会有其他版本,比如多模态的70B参数模型,会在接下来一段时间内出现。但令人着迷的是,目前的架构居然能够处理如此大量的数据。
Dwarkesh Patel:这真是非常有趣。这对未来的模型意味着什么?您提到Llama 3 8B比Llama 2 70B更好。
Mark Zuckerberg:不,不,并没有那么好。我不想过分夸大。它们在相似的量级上。
能源瓶颈
Dwarkesh Patel:这是不是说Llama 4 70B会和Llama 3 405B一样好?这个领域的未来会怎样?
Mark Zuckerberg:这是一个大问题,对吧?我想没有人知道。世界上最难规划的事情之一就是指数曲线。它还能持续多久?我认为很可能还会继续发展。我认为投资100亿甚至1000亿美元来建设基础设施是值得的,假设它继续发展下去,我们将得到一些真正令人惊叹的东西,创造出卓越的产品。我不认为行业内有人能确切告诉你它会以何种速度持续扩展。从历史上看,你总会在某些时候遇到瓶颈。现在有如此多的精力投入到这方面,也许瓶颈很快就会被打破。我认为这是一个有趣的问题。
Dwarkesh Patel:如果没有这些瓶颈,世界会是什么样子?假设进步只是以这种速度持续,这似乎很合理。抛开Llamas……
Mark Zuckerberg:好吧,将会出现不同的瓶颈。过去几年,我认为GPU生产上存在瓶颈。即使是有钱购买GPU的公司,也可能因为供应限制而无法获得他们想要的数量。现在我认为这种情况正在减少。所以你现在看到很多公司在考虑投入大量资金来建立这些东西。我认为这种情况会持续一段时间。存在资本问题。到什么时候投入资本不再值得?我认为,在达到那种程度之前,你们首先会遇到能源限制的问题。目前应该还没有人能构建出单个训练集群达到吉瓦级别的能量消耗。
在这个过程中,你会遇到一些导致整体进度变慢的实际问题。获得能源许可是一个受到政府严格监管的程序。软件行业虽然也受到一定监管,但在我看来,其监管程度比科技界许多人认为的要更严格。当然,如果你在创办一家小公司,或许这种感觉会弱一些。我们与各国政府及监管机构打交道,需要遵循并确保在全球范围内妥善执行许多规则。但我认为,能源问题是没有争议的。如果你谈论的是建设大型新发电厂,或是大规模扩建项目,以及为此铺设穿越其他私有或公共土地的输电线路,这些都是高度受监管的事务。这需要数年的时间筹备。如果我们想要建立一个大型设施,并为其供电,那么这将是一个长期项目。确实有人在做这类事情,但我认为这并不像有些人想象的那样神奇:只要达到某个AI水平,筹集大量资金投入,然后模型就能突然间……在这个过程中,你会遭遇各种瓶颈。
Dwarkesh Patel:是否存在某个项目,可能与AI相关也可能无关,即使是像Meta这样的公司也没有足够资源进行?也就是说,如果你们的研发预算或资本支出预算比现在多出10倍,就可以着手去做的项目?那个项目现在只是在你脑海中萦绕,但以Meta目前的状况,甚至无法通过发行股票或债券来筹集资金?它就像比你们预算大10倍那样庞大?
Mark Zuckerberg:我认为能源是其中一部分。如果有足够的能源供应,我们可能会建造比现在更大的计算集群。
Dwarkesh Patel:从根本上说,这是否意味着资金受限?如果有1万亿美元……
Mark Zuckerberg:我认为关键在于时间。这取决于指数曲线能走多远。现在许多数据中心规模大约在50兆瓦或100兆瓦,大型的可能达到150兆瓦。假设你拿一个完整的数据中心,填满所有用于模型训练所需的设备,搭建你能构建的最大集群。我想很多公司都在做类似的事情。但当你开始考虑建设规模达300兆瓦、500兆瓦甚至1吉瓦(GW)的数据中心时,至今还没有人建成1吉瓦的数据中心。我认为这肯定会发生,只是时间问题,但不会在明年实现。这类设施需要数年时间才能建成。打个比方,1吉瓦的数据中心相当于一座相当规模的核电站全部用来训练模型的功率。
Dwarkesh Patel:亚马逊不是已经这么做了吗?他们有一个950兆瓦的——
Mark Zuckerberg:我不太清楚他们具体做了什么。你得去问他们。
Dwarkesh Patel:而且不一定非要在同一地点,对吧?如果分布式训练可行的话,可以分散布置。
Mark Zuckerberg:嗯,我认为这是一个大问题,具体如何运作。未来我们所谓的训练这些大模型,实际上更可能是在生成合成数据,以便输入到模型中进行推断。我不知道这个比例会是多少,但我认为生成合成数据更像是今天的推断而非训练。显然,如果你这样做是为了训练模型,那它就是整个训练过程的一部分。所以这是一个开放性问题,需要平衡这两者以及它们如何发展。
Dwarkesh Patel:这种情况是否会同样适用于Llama 3,甚至是之后的Llama 4?也就是说,你们发布这些模型后,如果有人拥有大量计算资源,他们就可以利用你们发布的模型,让这些模型变得越来越智能。比如某个像科威特或阿联酋这样的国家,拥有大量计算资源,他们是否可以直接使用Llama 4来制造出更智能的东西?
Mark Zuckerberg:我认为确实会出现这样的趋势,但我也认为模型架构存在根本性限制。比如一个采用Llama 3架构、规模为70B参数的模型可以变得更好,它可以持续进步。正如我所说,我们认为只要继续给它喂入更多数据,或者再次循环使用高价值token,它就会继续改进。现在很多公司都在基于Llama 2的70B参数模型架构,来构建新的模型。但即便如此,还没有任何开源项目能达到像Llama 3一样的代际改进。人们无法在某一特定模型的基础上进行无限的改进,只能进行有限的优化。
AI 是人类有史以来最重要的技术吗?
Dwarkesh Patel:让我们从特定模型和您可能需要的多年能源批准等时间跨度上稍微拉开一些视角。从大局来看,未来几十年人工智能会发生什么?它感觉像是元宇宙或社交这样的另一种技术,还是感觉在人类历史进程中是根本不同的事物?
Mark Zuckerberg:我认为它将非常基础。我觉得它更像是计算机本身的创造。你会得到所有这些新应用,就像你获得了网络或移动电话一样。人们基本上重新思考了所有这些体验,因为很多以前不可能的事情变得可能了。所以我认为这种情况会发生,但我认为这是一个更低层次的创新。我的感觉是,这更像是人们从没有电脑变成有电脑。很难确切地推断出这一切如何发展。
从宇宙尺度上看,显然它会在短短几十年内发生。有一部分人担心它会真正失控,从某种程度上的智能迅速变为极度智能。我只是觉得存在许多物理约束,使得这种情况不太可能发生。我真的看不到这种情况发生。我认为我们会有时间去适应。但它确实会改变我们的工作方式,并为人们提供所有这些创意工具来做不同的事情。我认为它真的能让人们做他们想做的事情。
Dwarkesh Patel:那么也许不是一夜之间,但你的观点是,在宇宙尺度上,我们可以以这种方式看待这些里程碑吗?人类进化了,然后出现了AI,然后他们走向了银河系。也许需要几十年,也许需要一个世纪,但这就是现在历史上正在发生的大局吗?
Mark Zuckerberg:对不起,你是什么意思?
Dwarkesh Patel:我的意思是,曾经有过其他技术,比如计算机甚至火,但AI本身的发展与人类最初进化一样重要。
Mark Zuckerberg:我认为这很棘手。人类历史一直是人们认为人类的某些方面以各种方式非常独特,然后逐渐接受事实并非如此,但人类实际上仍然非常特别。我们认为地球是宇宙的中心,而事实并非如此,但人类仍然非常棒,非常独特,对吧?我认为人们倾向于存在的另一个偏见是认为智能与生命有着根本的联系。但实际上这一点并不清楚。我不知道我们对意识或生命的定义是否足够清晰,足以彻底探究这个问题。科幻小说中充斥着创造智能的内容,让其展现出类似人类的行为等。目前的趋势看起来是,智能可以与意识、主动性和类似的东西相分离,我认为这使得它成为一个非常宝贵的工具。
开源的风险
显然,很难预测这些技术会朝哪个方向发展,这就是为什么我认为没有人应该对其开发方式或计划采取什么行动抱有教条主义态度。我们应该在每次发布时审视它。我们显然是非常支持开源的,但我还没有承诺发布我们做的每一件事。我基本倾向于认为开源对社区有益,对我们也有益,因为我们能从创新中受益。然而,如果在某个时刻,这项技术的能力发生了质的变化,而我们认为开源并不负责任,那么我们就不会这么做。所有这些都很难预测。
Dwarkesh Patel:有什么特定类型的变化,当你在训练Llama 5或Llama 4时,如果看到这种变化,会让你觉得“你知道吗,我不确定是否要将其开源”?
Mark Zuckerberg:这个问题在抽象层面上很难回答,因为任何产品都可能出现负面行为,只要能够控制住,就没有问题。社交媒体有其不好的一面,我们一直在努力进行管控。Llama 2也有其问题,我们花费大量时间确保它不会帮助人们实施暴力行为等。这并不意味着它是一种自主或智能的代理,只是说它对世界了解很多,可以回答一系列我们认为由它来回答并不妥当的问题。
所以我认为真正的问题不在于它会表现出什么行为,而在于它展现出某种情况后,有哪些是我们无法控制的。我觉得事物的好坏表现方式有很多,很难一开始就全部列举出来。看看我们在处理社交媒体时遇到的各种危害类型吧。我们已经识别出大约18或19种有害行为,并且基本上建立了AI系统来识别这些行为,以确保它们在我们的网络上尽可能少地发生。随着时间推移,我相信我们也能对这一问题建立起更细致的分类体系。我认为这也是我们需要投入研究的一个方面,因为我们希望对此有深入理解。
Dwarkesh Patel:在我看来,这似乎是个好主意。如果未来人工智能系统没有得到广泛应用,每个人都没有机会接触它们,我会感到失望。同时,我也希望更好地理解这些缓解措施。如果缓解措施是微调,那么开放权重的意义在于你可以移除这些通常只是在这些能力基础上附加的、较为表面的微调。如果像是在Slack上与生物研究人员交谈……我认为现在的模型还远未达到这种程度。
现在,它们更像是谷歌搜索。但如果我能向它们展示我的培养皿,它们能解释为什么我的天花样本没有生长,以及需要做哪些改变,你又该如何缓解这种情况呢?因为有人可能只是简单地在那里进行微调,对吧?
Mark Zuckerberg:这是真的。我认为很多人会基本使用现成的模型,而有些怀有恶意的人会试图去除所有不良内容。所以我认为这是一个问题。另一方面,我之所以在哲学层面上如此支持开源,是因为我认为未来人工智能的集中有可能像其广泛分布一样危险。
我想很多人会思考这样的问题:“如果我们能做到这些事情,让它们在野外广泛可用是否不好?”我认为另一种情况是,一个机构拥有比其他所有机构都强大得多的人工智能,可能也非常糟糕。我想到了一个安全方面的类比。在很多不同的事物中存在如此多的安全漏洞。如果你能回到一两年前,假设你只比当时多了解一两年的安全漏洞知识,你几乎可以黑进任何系统。这并不是人工智能。因此,很难相信一个非常智能的人工智能可能无法识别一些漏洞,并且就像一个人能够回到一两年前,破坏所有这些系统一样。
那么,我们作为社会是如何应对这个问题的呢?其中一个重要的部分就是开源软件,它确保当软件得到改进时,这些改进不会仅仅停留在一家公司的产品中,而是可以广泛部署到许多不同的系统中,无论是银行、医院还是政府设施。随着软件逐渐强化——这源于更多人能够看到并对其进行测试,以及对这些系统如何运作的标准形成——世界可以迅速共同升级。
我认为在一个人工智能被广泛部署的世界里,随着时间的推移逐步强化,所有不同的系统都将受到制约,这种方式从根本上来说比我更健康。所以风险无处不在,但我认为这是一个人们谈论得不够多的风险。有一种风险是人工智能系统做出坏事。但让我夜不能寐的是,不值得信赖的行为体拥有超级强大的人工智能,无论是不值得信赖的公司还是其他什么。我认为这可能是更大的风险。
Dwarkesh Patel:他们可能做坏事,就因为他们拥有别人没有的武器?
Mark Zuckerberg:或者只是制造大量混乱。我认为这种技术最终会因为经济、安全和其他原因变得非常重要和有价值。如果一个你不信任的人或对手得到了更强大的东西,那我认为这可能会成为问题。最好的缓解方法可能是拥有优秀的开源AI,让它成为标准,并在很多方面成为领导者。这可以确保竞争环境更加公平、平衡。
Dwarkesh Patel:这对我来说似乎有道理。如果真的如此,那就是我所期待的未来。我想从机制上理解,世界上存在开源AI系统这一事实如何防止有人用他们的AI系统制造混乱?以某人携带生物武器的具体例子来说,是因为我们将迅速在全球范围内进行大量研发来找出疫苗吗?到底发生了什么?
Mark Zuckerberg:如果你考虑我之前提到的安全问题,我认为使用较弱AI的人试图入侵由更强AI保护的系统,其成功几率会降低。就软件安全而言。
Dwarkesh Patel:在部署这些系统的过程中,有没有可能出现这种情况:你在训练Llama 4,但它因为觉得你没注意到而对你撒谎,然后你惊呼“哇,这里发生了什么?”这在Llama 4这类系统中可能不太可能发生,但你能想象出类似的情况吗?在那里你会非常担心欺骗性,并且有数十亿份这样的系统存在于野外?
Mark Zuckerberg:我的意思是,现在我们看到很多幻觉现象,而且情况可能更严重。我认为这是一个有趣的问题,即如何区分幻觉与欺骗。这其中存在许多风险和需要考虑的因素。至少在管理我们公司时,我试图在这些长期理论风险与我认为当下确实存在的现实风险之间找到平衡。谈到欺骗,我最担心的形式是人们利用它生成错误信息,然后通过我们的网络或其他途径进行传播。我们对抗这类有害内容的方式是构建比对手更智能的AI系统。
无论是Llama 4还是Llama 6,我们需要考虑我们正在观察到的行为,而不仅仅是自己。我们将其开源的部分原因在于,有很多其他人在研究这个问题。我们希望了解其他人观察到了什么,我们观察到了什么,我们可以减轻什么,然后我们会评估是否可以将其开源。在可预见的未来,我乐观地认为我们能够做到这一点。短期内,我不希望忽视人们今天试图用模型做什么真正坏事这一问题,即使它们不是生存威胁,也存在许多我们运营服务时熟知的相当严重的日常危害。实际上,这也是我们必须投入大量精力的地方。
Dwarkesh Patel:我发现这个合成数据的事情真的很有趣。以当前的模型来看,如果只是反复使用合成数据,出现一个渐近线是有道理的。但假设它们变得更聪明,你开始采用论文中讨论或即将发布的博客文章里提到的那种技术,即追踪到最正确的思维链。为什么你不认为这会导致一个循环,即它变得更聪明,生成更好的输出,继而变得更聪明,如此往复呢?当然,这不会一夜之间发生,但可能在几个月或几年的训练后,随着模型变得越来越聪明。
Mark Zuckerberg:我认为在当前模型架构的限制下,这种情况是有可能发生的。只是就目前的80B参数模型而言,我不认为其能与那些集成了最新研究的数百亿参数顶级模型相媲美。
Dwarkesh Patel:但这些顶级模型也会开源,对吧?
Mark Zuckerberg:嗯,当然,前提是我们刚刚讨论过的所有问题都已解决,答案是肯定的。我们希望情况会如此。但在开发软件的过程中,总有很多事情可以做,但在某种程度上,软件会受到运行其上的芯片的限制。因此,总会存在不同的物理约束。模型的大小将受限于可用于推理的能源量。我对这一领域的快速进步持乐观态度,但同时也比一些人更加谨慎。我认为失控的情况不太可能发生。
Dwarkesh Patel:保持选择的开放性是有意义的。有太多我们不知道的事情。一方面,确保权力平衡非常重要,以免有人成为独裁者;另一方面,你可能不想开源架构,因为中国可能会利用它来追赶美国的人工智能,引发一场智能爆炸并最终胜出。很多事情似乎都有可能发生,考虑到所有可能性并保持选择开放似乎是合理的。
开源价值百亿美元的模型与定制硅芯片
Dwarkesh Patel:我们再回到投资者和开源的话题。假设这个价值100亿美元的模型完全安全,你们已经进行了这些评估,并且与当前情况不同,评估者也可以对模型进行微调,这在未来的模型中应该是可行的。你们会将这个价值100亿美元的模型开源吗?
Mark Zuckerberg:只要它对我们有所帮助,那当然会。
Dwarkesh Patel:但它真的会吗?投入了100亿美元的研发资金,现在却要将其开源。
Mark Zuckerberg:这也是一个随着时间推移我们需要不断评估的问题。我们在开源软件方面有着悠久的历史。但我们通常不会开源我们的产品,比如我们不会把Instagram的代码开源。我们会把很多底层基础设施开源。可能在我们的历史上最大的一个项目就是Open Compute Project,我们在这个项目中公开了所有服务器、网络交换机以及数据中心的设计,使之开源,并且最终证明非常有帮助。虽然很多人能够设计服务器,但整个行业现在已经标准化到了我们的设计,这意味着供应链基本上都是围绕我们的设计构建起来的。因此,产量上升了,成本对所有人都降低了,为我们节省了数十亿美元,这真是太棒了。
所以开源对我们来说有多种可能的好处。一种是如果人们找到了更经济地运行模型的方法。我们将在所有这些事物上花费数十亿甚至数百亿美元。所以如果我们能提高哪怕10%的效率,那就是节省了数十乃至上百亿美元。仅这一点本身就可能价值巨大。特别是在存在其他竞争模型的情况下,我们的模型也不具备明显的优势。
Dwarkesh Patel:那么,你的观点是训练将会被商品化吗?
Mark Zuckerberg:我认为这件事可能会有多种发展路径,其中一种就是商品化。所谓“商品化”,意味着它会变得非常便宜,因为有很多选择。另一个可能的发展方向则是质量上的提升。你提到过微调。目前来说,对市面上大部分主要模型进行微调的能力还相当有限。虽然有一些选项,但通常不适用于最大的模型。如果能做到这一点,针对不同应用或使用场景进行特定的微调,或者将其融入特定的工具链中,我认为这不仅能提高开发效率,还能实现质的飞跃。
这里有一个类比来解释这个问题。我认为移动生态系统中有一个普遍存在的问题,那就是存在苹果和谷歌这两家“看门人”公司,它们可以决定你能开发什么。一方面,这是经济层面的问题,即我们开发出某项产品后,它们会从中拿走一大笔钱。但更让我感到不满的是另一层面,即质量控制。很多时候,当我们想要发布或已经发布了某个功能,苹果却说:“不行,你们不能发布那个。”这很糟糕,对吧?所以问题是,在AI领域,我们是否也会面临类似的局面?是否会有一小部分公司运营封闭的模型,控制着API接口,从而决定你能开发什么?对我们而言,为了确保不陷入那样的境地,自己构建模型是值得的。我不希望其他任何公司告诉我们能开发什么。
从开源的角度来看,我认为许多开发者也不希望这些公司对他们指手画脚。所以问题是,围绕这一领域将形成怎样的生态系统?会出现哪些有趣的新事物?这对我们的产品有多大提升?我认为在很多情况下,如果AI模型像我们的数据库、缓存系统或架构一样,我们会从社区获得有价值的贡献,使我们的产品变得更好。而我们所做的应用特定工作仍然会具有高度差异化,不会受到太大影响。我们将能够继续做我们想做的事,受益于此,我们和社区的所有系统都会因开源而变得更好。
当然,还有一种可能性,即模型本身可能成为产品的核心部分。在这种情况下,是否开源就成为一个更为复杂的经济考量,因为你是在很大程度上将自己商品化。但从我目前所见,我们似乎并未处于那种状况。
Dwarkesh Patel:你们会通过将模型授权给云服务商,从中获得可观的收入吗?也就是说,他们需要向你们支付费用才能使用这个模型。
Mark Zuckerberg:我们希望达成这样的协议,但不确定其收益会有多大。这基本上就是我们对Llama模型的授权方式。在很多方面,它类似于非常宽松的开源许可协议,只是对大型公司使用它设定了限制。这就是我们为何要设立这个限制的原因。我们并非要阻止他们使用,只是希望如果他们打算直接拿我们构建的东西进行转售并从中获利,能够先与我们沟通。比如微软Azure或亚马逊,如果要转售我们的模型,应该与我们进行收入分成。
总之,在这么做之前先来和我们谈谈。目前情况就是这样。至于Llama 2,我们已经与所有主要云服务商达成了协议,Llama 2作为托管服务在所有这些云上都可获取。我认为随着我们发布更大规模的模型,这方面会变得越来越重要。虽然这不是我们的主业,但如果这些公司要售卖我们的模型,我们理应从其中分享一部分收益。
Dwarkesh Patel:关于开源带来的其他风险,我认为您关于权力平衡以及通过更好的对齐技术等消除潜在危害的观点是完全合理的。我希望Meta能有某种框架,就像其他实验室那样,明确指出“一旦发现具体某种情况,就应停止开源甚至可能暂停部署”。将其写下来,让公司对此有所准备,员工也能对此有所预期。
Dwarkesh Patel:这个关于生存风险的观点很公正。目前我们更多关注当下所见的各类风险,即内容风险。我们不希望模型被用来帮助人们实施暴力、欺诈或其他形式的伤害。尽管探讨生存风险或许在智力层面上更有趣,但我认为真正需要投入更多精力去防范的是有人利用模型去伤害他人的情况。就当前的模型而言,我猜测下一代乃至下下代模型,这类更为日常的危害——如人们相互欺诈——仍将是主要问题。我不希望对此掉以轻心。我们认为有责任确保在这方面做得足够好。
Dwarkesh Patel:Meta是一家大公司。你们完全可以兼顾。就开源而言,我其实很想知道,你是否认为从 PyTorch、React、Open Compute等项目出发的开源技术对世界的影响力,甚至超过了Meta的社交媒体方面。我跟使用这些服务的人聊过,他们认为这是有可能的,因为互联网很大一部分都依赖于这些东西运行。
Mark Zuckerberg:这是一个有趣的问题。几乎全世界有一半的人都在使用我们的消费产品,这很难超越。但我认为开源作为一种新的构建事物的方式非常强大。可能确实如此。它可能就像贝尔实验室那样,他们研究晶体管是为了实现长途通话。他们成功了,而且能够实现长途通话对他们来说非常有利可图。从那之后的5到10年,如果问他们发明的最有用的东西是什么,他们会说:“我们实现了长途通话,现在很多人都在进行长途通话。”但如果你在一百年后再问这个问题,答案可能会不同。我认为我们正在做的很多事情都是如此:Reality Labs、一些人工智能项目、一些开源项目。具体的产品会不断演变,某种程度上也会来来去去,但对人类的进步是持久的,这是我们所有人参与其中的一个很酷的部分。
Dwarkesh Patel:Llama模型何时能用上你们自己的定制硅芯片进行训练?
Mark Zuckerberg:很快,但不是Llama 4。我们采取的方法是首先构建能够处理我们排名和推荐类型任务(如 Reels、News Feed广告等)推理工作的定制硅芯片。这些任务原本消耗了大量的GPU资源。当我们能够将这些任务转移到自家硅芯片上时,更昂贵的NVIDIA GPU就可以全部用来训练大模型了。最终,我们希望拥有自己的硅芯片,可以先用来训练一些较简单的东西,然后逐渐用于训练这些非常大型的模型。在此期间,我要说的是这个项目进展得相当顺利,我们正在有条不紊地推进,并且有一个长期的路线图。
Mark Zuckerberg 担任谷歌+ CEO
Dwarkesh Patel :最后一个问题。这完全是个意料之外的话题。如果你被任命为谷歌+的CEO,你能让它成功吗?
Mark Zuckerberg:谷歌+?我不知道。这是一个非常困难的反事实假设。
Dwarkesh Patel :好的,那么真正的最后一个问题将是:当Gemini发布时,办公室里有没有人说过“Carthago delenda est”。
Mark Zuckerberg:不,我认为我们现在更温和了。这是个好问题。问题在于谷歌+并没有CEO,它只是公司内部的一个部门。你之前问过关于最稀缺资源的问题,但你是从美元的角度来问的。实际上,我认为对于大多数至少达到这种规模的公司来说,最稀缺的是专注力。当你还是一家初创企业时,可能你在资金上受到更多限制。你只专注于一个想法,可能没有所有必要的资源。但当你跨过某个门槛,开始从事你所做的事情的本质时,你就会同时开展多个项目。虽然你在它们之间创造了更多价值,但也变得更加受限于你能引导哪些项目走向成功。总是有一些情况下,组织中会随机发生一些很棒的事情,而我甚至都不知道。这些都是很好的。但总体而言,我认为组织的能力在很大程度上受限于CEO和管理团队能够监督和管理的范围。这是我们非常关注的一点。正如Ben Horowitz所说,“保持主次分明”,并努力专注于你的关键优先事项。
如有侵权,请联系删除。参考链接:
https://www.youtube.com/watch?