【AI学习】Ben Thompson对 Nat Friedman 和 Daniel Gross的采访

读了Ben Thompson对 Nat Friedman 和 Daniel Gross的采访这篇文章，挺有趣。
先说最有趣的几个地方：

关于维苏威火山碳化古卷挑战：有趣而有意义！
有关日本的预测：有可能依靠芯片制造业，也许 2030 年代就又是日本的十年。
有关扎克伯格：别跟扎克伯格对赌！时间点，ChatGPT推出前一个月，英伟达在谷底，要卖掉大量芯片，扎克伯格也在谷底，股市在抛售Meta。但是，不要和扎克伯格对赌，就是股市抛售的那个季度，扎克伯格收购了英伟达所有芯片订单。然后，一年以后的事情，大家都看到了！真是人才啊！敢于在逆境中扩大规模！
（恰好，昨天也看到有关小扎的这样一个描述：在硅谷，能够在科技创新领域取得卓越成就的天才，常常是内向者。芝加哥的一家咨询公司ghSMART就曾专门耗费10年时间，对超过2000名CEO展开了性格特征分析，最终得出结论也印证了这一点。来自硅谷的一份心理诊断报告也显示，被外界冠以“天才病”的孤独症谱系障碍，在寻常人群中的发病率约为万分之七，但而在硅谷，这项比例被提高了整整42倍。扎克伯格就曾在采访中表示，自己偏爱独处，可以自己一个人闷在屋子里三天不睡觉。）
有趣的观点：有关宗教和AI，“我在想宗教改革，因为我认为在 1517 年，马丁·路德写了 95 条论纲，通过印刷术，他设法创立了一种在欧洲传播的新宗教。在某种程度上，每个人都在想着，试图将 ChatGPT 与印刷术进行类比，但实际上它们起到的作用几乎相反。……整个过程都是在相反的方向上进行的，印刷术是一种通过书籍传播信息、说服人们做事的技术（the printing press was a technology to disseminate information through a book basically and convince people to do things），而大语言模型则是一种「反书籍」技术（the kind of antibook is the LLM agent），它非常简洁地总结了事物。如果确实是这样的话，它能唤醒人们意识到他们长期以来一直是宗教的同谋，因为它非常简洁地为你总结了这些事情，并将所有事物放在隐藏空间中，突然你意识到，「等一下，这个素食主义概念与另一个概念息息相关。」在某种程度上，大语言模型技术是一种反向的宗教改革（a kind of Reformation in reverse），每个人都突然意识到了有很多事情是错误的。”
两段很搞笑的话语：
看到所有这些公司的 CEO 都在吹嘘他们的 MMLU 参数指标（MMLU number, 大规模多任务语言理解基准）是很有趣的，而 MMLU 是丹·亨德里克斯 ( Dan Hendrycks ) 在大学本科时自己开发的一个评估。所以你基本上是看到万亿美元公司的 CEO 在谈论他们在一个本科生推出的测试中的分数，而这是目前最重要的推理评估（the premier reasoning eval）之一。
在苹果公司，有一个有趣的说法是，「硬件人员认为一切都是软件问题。而软件人员认为一切都是硬件问题。」

当然整个谈话都很有趣，很多有趣的观点，摘录一些如下：

关于维苏威火山碳化古卷挑战：似乎几乎没有人知道这件事，知道有成千上万卷无法打开的古代卷轴，我们想，也许我们可以激励 1000 个在家里用笔记本电脑的人去破解它，而这基本上就是目前发生的事情

在文本中，也存在着分布的梯度，任何预训练过模型的人都会告诉你，大部分文本是无用的（there’s a gradient in a distribution and anyone pre-training a model will tell you that most of the text is useless），实际上，文本或视频中非常高质量的 tokens 数量很少。在音乐中可能也是如此。这里存在一个有趣的帕累托分布（Pareto distribution）

transformer 架构的神奇之处在于即使数据质量很糟糕，它也能工作。……但我认为人们忘记了，如果数据是高质量的，它的效果只会更好。所以，真正的奇迹是，即使数据不好，它也勉强能工作，但如果数据好得多，它的效果要好得多。

你会使用 Sora 类型的模型来模拟飞机机翼如何工作的吗（Sora-type models to model an aircraft wing）？我非常怀疑这一点。但是，实际上，对于你所说的这一点，在涉及到虚拟现实的例子中是一个无关紧要的问题。当你在虚拟现实中或在任何娱乐场景中时，实际上没有人关心空气在机翼上的物理情况是否完美贴合现实。如果你想逐帧分析今天电影中 CGI 的物理情况，你可能会发现各种各样的漏洞，但实际上这并不重要。对我来说，这才是重要的。这些模型的「物理学」已经足够好了，而足够好的「物理学」在很多情况下都足够用了。

文本在逻辑上更密集，但视频更大量（Text is more logically dense, but videos are more）

我的一个看法是，我们将进入一个更加有主动代理能力的模型世界（a more agentic world of models），在这个世界中，我们现在拥有的东西都还只是处于「寒武纪生物大爆炸之前」的时期

AI 公司在训练模型时经历了两个周期，他们相对较不关心利润空间，他们只想要最好的 GPU，他们不想冒任何风险。你花了 3 亿美元，你只是希望你的模型能够「正常输出」（you just want your model to「tape out」properly），然后如果你找到产品市场契合点 ( product market fit，也就是有人为你的产品买单并且有机增长 )，你就会自然进入推理时代。

台积电在日本的建设非常顺利，这与亚利桑那州的情况正好相反。他们建立的 28 纳米工厂主要集中在服务汽车公司，因为这是一个明确的市场需求。但我认为台积电从中得到的启示是：「如果我们要持续存在下去，如果台湾垮台或受到攻击，那么日本就是一个更好的文化适应环境，而且日本在制造方面的卓越表现是被人们认可和熟知的。」

如果人工智能爆发真的成为现实，也许 2030 年代就又是日本的十年，如果他们真的能够制造所有这些产业链组件，那些由于各种原因必须从台湾转移出去的。

芯片制造过去是劳动密集型的，比你想象的更加劳动密集。……但是现在，随着自动化水平的提高和相对劳动成本的变化，更多地涉及到隐性知识和知道如何使机器工作起来，而不是实际的劳动人力成本。芯片制造的劳动成分变得更加高端（the labor component of chips has moved much more high-end），更远离低成本的工作。日本重新成为制造业的非常合适的地方，这在过去的 20 年里并不是这样。

但 Meta 收购了所有这些芯片订单，所以他们在其他所有人之前买进了市场上所有的 GPU，他们上个季度披露的庞大计算集群就是因为那个特定季度的投资。在股市抛售 Meta 的那个季度，实际上是他们未来五年中最重要的投资之一。……别跟扎克伯格对赌！……时机也很关键吧？那正好是在 ChatGPT 推出之前的一个月。所以，他们在有任何竞争出现之前就完成了所有的 GPU 购买。我敢肯定，他们支付的价格比现在任何人支付的价格都要低得多。

我觉得 Gemini 1.5 版本是令人惊讶的，并且像 Groq 这样的验证方式也扩展了我对这些模型的预期。因为这个想法是，「看，只需把你想要的东西全部丢到上下文窗口里，你不需要构建某种 RAG（Retrieval-Augmented Generation 检索增强生成）系统。你不需要弄清楚什么放进去，什么不放进去。」对我来说，这种便利性，是的，速度可能相对较慢，但这在某种程度上是一个巨大的改变，你可以做一些愚蠢的事情。我链接了一条推特，有人在《了不起的盖茨比》（Great Gatsby）中插入了一行文字，并看看它能否找到。就像，「谁会做这种事情呢 ( Who’s going to ever do that)」。「谁会做这种事情呢？」这句话定义了最终会成为大事件的新产品，而且我觉得这种可能性，对我来说，这种可能性—是的，从小上下文窗口到大上下文窗口的程度是有差异的，但对我来说，1.5 版本跨越了，它成为了一个巨大的改变，你可以随心所欲地做任何你想做的事情。……Gemini 让普通人可以微调一个模型（This lets normal people fine-tune a model），你实际上什么都不用做，只是把你所有的东西丢进去，它会自己解决。

对长语境上下文的押注非常重要（the bet on long context is very important），我们认为，不仅能检索出海量信息，还能对海量信息进行推理，这是一种超级能力，我的意思是，这在一定程度上是人类的能力。我们人类有情景记忆（episodic memory）和程序性记忆 ( procedural memory )，能够随着时间的推移保留技能或记忆，并且一直存在一个问题，「人工智能模型如何做到这一点？它们将如何发展情景或程序性记忆？」在上下文语境中，你可以做到这两点。

在谈论分片时，我记得他们是在讨论用在训练。但似乎他们也在推理的情况下使用分片，他们有这种分布工作负载的能力，不仅仅是跨芯片、跨集群，而且至少在理论上，也跨数据中心（not just across chips, not just across clusters, but at least in theory, across data centers），这带来了巨大的挑战……谷歌的网络能力（networking capabilities）一直以来都是众所周知的，但我不确定人们是否意识到这种优势如何能应用在解决这些问题上

今天的 ChatGPT，甚至是 Gemini，这些人工智能模型更接近于人们（哼唱曲子时）的押韵而不是在思考（these models are a little bit closer to someone rhyming and not thinking）。……主动推理（active reasoning）是我认为许多人正在为之努力的重要事情，是的，我们已经看到了一些相当引人注目的东西。一切都还处于非常早期的阶段，但如果说人工智能领域今年有一个重大突破的话（if there’s a big breakthrough of the year），如果我必须猜测的话，那不会是上下文窗口（ context window），而是非常大的上下文与主动推理和自主思考的结合（very large context combined with active reasoning and thinking）。

我认为如果有人能够创造一种能够像人类一样，在他们选择的任何领域中主动推理，以及主动思考问题的东西（if someone had something that had active reasoning and actively thought-through problems the way humans do in whatever domain they choose），那么他们就能领先于别人。

在苹果公司，有一个有趣的说法是，「硬件人员认为一切都是软件问题。而软件人员认为一切都是硬件问题。」

关于Gemini 推出后的灾难：我们从谷歌的一些员工那里听到，这些模型本身，这不太可能是模型训练中的一个深层问题，而更像是后来某个人在产品化过程中做出的决定。因此，可能存在一套系统提示或模板（a set of system prompts or templates），或者类似的东西，强加了一组规则和指导方针给模型，而原始的内部模型并没有做成这个样子。

在我的脑海中，我总是想象成，你在试图在床上拉一张非常紧的床单，那就是你的嵌入空间（embedding space），你把床单拉到右上角，底部左角就会弹出，你这样做，然后右上角也会弹出，这就是你要做的事情。你试图将这个高维空间对齐到一组特定的数学值（align this high dimensional space to a particular set of mathematical values），但在某个时候你永远不会得到一个完美的答案或零损失。所以，顺序很重要，传统上微调更多是在预训练的最后阶段进行的。

如果在模型训练最后阶段输入了特定的一小组信念，它就会无缝地扩展到整个集合。

无论 Gemini 或者其他的模型发生了什么，我们都会观察到这些模型，它们都包含在一个潜在地下的「荣格平面」上（a kind of subterranean Jungian plane），这些平面会自动地调整彼此。模型没有做错任何事情，它只是反映了我们人类的所作所为，结果表明这些东西会物以类聚（they cluster into similar buckets）。

我在想宗教改革，因为我认为在 1517 年，马丁·路德写了 95 条论纲，通过印刷术，他设法创立了一种在欧洲传播的新宗教。在某种程度上，每个人都在想着，试图将 ChatGPT 与印刷术进行类比，但实际上它们起到的作用几乎相反。……整个过程都是在相反的方向上进行的，印刷术是一种通过书籍传播信息、说服人们做事的技术（the printing press was a technology to disseminate information through a book basically and convince people to do things），而大语言模型则是一种「反书籍」技术（the kind of antibook is the LLM agent），它非常简洁地总结了事物。如果确实是这样的话，它能唤醒人们意识到他们长期以来一直是宗教的同谋，因为它非常简洁地为你总结了这些事情，并将所有事物放在隐藏空间中，突然你意识到，「等一下，这个素食主义概念与另一个概念息息相关。」在某种程度上，大语言模型技术是一种反向的宗教改革（a kind of Reformation in reverse），每个人都突然意识到了有很多事情是错误的。

微调一个模型与制作网站的漂亮登陆页一样，是一种审美艺术（fine-tuning a model is just as aesthetic an art as making a beautiful landing page for your website）。

Mistral，一个拥有法国文化和法国风格产品的法国 AI 创业公司，能够生产出一个，值得称赞的模型，我是说，它可能不是最聪明的模型，但至少在我的个人测试中，它相对循规蹈矩，它的政治语气也非常中立，这也应该不足为奇。

关于谷歌现在该怎么办：他们缺少一个主编（a missing editor），缺少一个产品主编（a missing product editor），缺少一个有品味和判断力的人，一个在公司中有权利否决任何人并确保正确事情的人。我认为领导层的改变必须发生，文化是公司中最难改变的一种。你可以进行战略变更，产品变更，运营变更。文化变革是最困难的，只有通过领导力才能实现。我们要么需要看到谷歌领导层有明显不同的行为改变，要么需要看到完全不同的领导者。

AI 是一个令人兴奋的事物，因为它让一些原本难以注意到或容易隐藏的事情变得清晰可见。在过去的一周里，AI 让谷歌的一些文化方面的问题变得非常明晰可见

Mistral 具有初创公司的敏捷性，我认为这点很重要。也许他们还有一些「有益的」限制。他们只有有限的资本，只有有限的计算资源，所以他们会着手解决这些约束条件。

我们之前谈到的 Mistral 非常关心的一件事情就是数据的质量，我们知道他们非常努力地清理他们的训练数据，并且通过这样做有效地获得了 “计算倍增器” ( a compute multiplier )，从而获得了 “质量倍增器” ( a quality multiplier )。但现在他们的模型表现远远超过了他们的权重，感觉几乎像是一个魔术。他们的新 Mistral 大型模型在评估中表现非常出色，他们还没有完全透露是什么，也许是 Mistral 中型模型的混合专家模型之类的东西（MOE mixture of Mistral mediums）。

看到所有这些公司的 CEO 都在吹嘘他们的 MMLU 参数指标（MMLU number, 大规模多任务语言理解基准）是很有趣的，而 MMLU 是丹·亨德里克斯 ( Dan Hendrycks ) 在大学本科时自己开发的一个评估。所以你基本上是看到万亿美元公司的 CEO 在谈论他们在一个本科生推出的测试中的分数，而这是目前最重要的推理评估（the premier reasoning eval）之一。

有一项进展似乎落后得最远，那就是对模型的 “评估”（evals）。

安德烈·卡帕西（Andrej Karpathy）曾经告诉我们，他唯一信任的模型评估是 Twitter 上的评估。在模型发布后，你可以在几周后检查 Twitter 上的用户情绪，看人们是否喜欢它。但每个公司的 CEO 都在训练这些大模型时，说：「我们必须站在榜单榜首。」顺便问一下，这个榜单是什么？这个榜单是一些本科生凑在一起弄出来的东西，是伯克利的人组织的 Chatbot Arena。