【AI学习】Ben Thompson对 Nat Friedman 和 Daniel Gross的采访

读了Ben Thompson对 Nat Friedman 和 Daniel Gross的采访这篇文章,挺有趣。
先说最有趣的几个地方:

  • 关于维苏威火山碳化古卷挑战:有趣而有意义!
  • 有关日本的预测:有可能依靠芯片制造业,也许 2030 年代就又是日本的十年。
  • 有关扎克伯格:别跟扎克伯格对赌!时间点,ChatGPT推出前一个月,英伟达在谷底,要卖掉大量芯片,扎克伯格也在谷底,股市在抛售Meta。但是,不要和扎克伯格对赌,就是股市抛售的那个季度,扎克伯格收购了英伟达所有芯片订单。然后,一年以后的事情,大家都看到了!真是人才啊!敢于在逆境中扩大规模!
    (恰好,昨天也看到有关小扎的这样一个描述:在硅谷,能够在科技创新领域取得卓越成就的天才,常常是内向者。芝加哥的一家咨询公司ghSMART就曾专门耗费10年时间,对超过2000名CEO展开了性格特征分析,最终得出结论也印证了这一点。来自硅谷的一份心理诊断报告也显示,被外界冠以“天才病”的孤独症谱系障碍,在寻常人群中的发病率约为万分之七,但而在硅谷,这项比例被提高了整整42倍。扎克伯格就曾在采访中表示,自己偏爱独处,可以自己一个人闷在屋子里三天不睡觉。)
  • 有趣的观点:有关宗教和AI,“我在想宗教改革,因为我认为在 1517 年,马丁·路德写了 95 条论纲,通过印刷术,他设法创立了一种在欧洲传播的新宗教。在某种程度上,每个人都在想着,试图将 ChatGPT 与印刷术进行类比,但实际上它们起到的作用几乎相反。……整个过程都是在相反的方向上进行的,印刷术是一种通过书籍传播信息、说服人们做事的技术(the printing press was a technology to disseminate information through a book basically and convince people to do things),而大语言模型则是一种「反书籍」技术(the kind of antibook is the LLM agent),它非常简洁地总结了事物。如果确实是这样的话,它能唤醒人们意识到他们长期以来一直是宗教的同谋,因为它非常简洁地为你总结了这些事情,并将所有事物放在隐藏空间中,突然你意识到,「等一下,这个素食主义概念与另一个概念息息相关。」在某种程度上,大语言模型技术是一种反向的宗教改革(a kind of Reformation in reverse),每个人都突然意识到了有很多事情是错误的。”
  • 两段很搞笑的话语:
    看到所有这些公司的 CEO 都在吹嘘他们的 MMLU 参数指标(MMLU number, 大规模多任务语言理解基准)是很有趣的,而 MMLU 是丹·亨德里克斯 ( Dan Hendrycks ) 在大学本科时自己开发的一个评估。所以你基本上是看到万亿美元公司的 CEO 在谈论他们在一个本科生推出的测试中的分数,而这是目前最重要的推理评估(the premier reasoning eval)之一。
    在苹果公司,有一个有趣的说法是,「硬件人员认为一切都是软件问题。而软件人员认为一切都是硬件问题。」

当然整个谈话都很有趣,很多有趣的观点,摘录一些如下:

关于维苏威火山碳化古卷挑战:似乎几乎没有人知道这件事,知道有成千上万卷无法打开的古代卷轴,我们想,也许我们可以激励 1000 个在家里用笔记本电脑的人去破解它,而这基本上就是目前发生的事情

在文本中,也存在着分布的梯度,任何预训练过模型的人都会告诉你,大部分文本是无用的(there’s a gradient in a distribution and anyone pre-training a model will tell you that most of the text is useless),实际上,文本或视频中非常高质量的 tokens 数量很少。在音乐中可能也是如此。这里存在一个有趣的帕累托分布(Pareto distribution)

transformer 架构的神奇之处在于即使数据质量很糟糕,它也能工作。……但我认为人们忘记了,如果数据是高质量的,它的效果只会更好。所以,真正的奇迹是,即使数据不好,它也勉强能工作,但如果数据好得多,它的效果要好得多。

你会使用 Sora 类型的模型来模拟飞机机翼如何工作的吗(Sora-type models to model an aircraft wing)?我非常怀疑这一点。但是,实际上,对于你所说的这一点,在涉及到虚拟现实的例子中是一个无关紧要的问题。当你在虚拟现实中或在任何娱乐场景中时,实际上没有人关心空气在机翼上的物理情况是否完美贴合现实。如果你想逐帧分析今天电影中 CGI 的物理情况,你可能会发现各种各样的漏洞,但实际上这并不重要。对我来说,这才是重要的。这些模型的「物理学」已经足够好了,而足够好的「物理学」在很多情况下都足够用了。

文本在逻辑上更密集,但视频更大量(Text is more logically dense, but videos are more)

我的一个看法是,我们将进入一个更加有主动代理能力的模型世界(a more agentic world of models),在这个世界中,我们现在拥有的东西都还只是处于「寒武纪生物大爆炸之前」的时期

AI 公司在训练模型时经历了两个周期,他们相对较不关心利润空间,他们只想要最好的 GPU,他们不想冒任何风险。你花了 3 亿美元,你只是希望你的模型能够「正常输出」(you just want your model to「tape out」properly),然后如果你找到产品市场契合点 ( product market fit,也就是有人为你的产品买单并且有机增长 ),你就会自然进入推理时代。

台积电在日本的建设非常顺利,这与亚利桑那州的情况正好相反。他们建立的 28 纳米工厂主要集中在服务汽车公司,因为这是一个明确的市场需求。但我认为台积电从中得到的启示是:「如果我们要持续存在下去,如果台湾垮台或受到攻击,那么日本就是一个更好的文化适应环境,而且日本在制造方面的卓越表现是被人们认可和熟知的。」

如果人工智能爆发真的成为现实,也许 2030 年代就又是日本的十年,如果他们真的能够制造所有这些产业链组件,那些由于各种原因必须从台湾转移出去的。

芯片制造过去是劳动密集型的,比你想象的更加劳动密集。……但是现在,随着自动化水平的提高和相对劳动成本的变化,更多地涉及到隐性知识和知道如何使机器工作起来,而不是实际的劳动人力成本。芯片制造的劳动成分变得更加高端(the labor component of chips has moved much more high-end),更远离低成本的工作。日本重新成为制造业的非常合适的地方,这在过去的 20 年里并不是这样。

但 Meta 收购了所有这些芯片订单,所以他们在其他所有人之前买进了市场上所有的 GPU,他们上个季度披露的庞大计算集群就是因为那个特定季度的投资。在股市抛售 Meta 的那个季度,实际上是他们未来五年中最重要的投资之一。……别跟扎克伯格对赌!……时机也很关键吧?那正好是在 ChatGPT 推出之前的一个月。所以,他们在有任何竞争出现之前就完成了所有的 GPU 购买。我敢肯定,他们支付的价格比现在任何人支付的价格都要低得多。

我觉得 Gemini 1.5 版本是令人惊讶的,并且像 Groq 这样的验证方式也扩展了我对这些模型的预期。因为这个想法是,「看,只需把你想要的东西全部丢到上下文窗口里,你不需要构建某种 RAG(Retrieval-Augmented Generation 检索增强生成)系统。你不需要弄清楚什么放进去,什么不放进去。」对我来说,这种便利性,是的,速度可能相对较慢,但这在某种程度上是一个巨大的改变,你可以做一些愚蠢的事情。我链接了一条推特,有人在《了不起的盖茨比》(Great Gatsby)中插入了一行文字,并看看它能否找到。就像,「谁会做这种事情呢 ( Who’s going to ever do that)」。「谁会做这种事情呢?」这句话定义了最终会成为大事件的新产品,而且我觉得这种可能性,对我来说,这种可能性—是的,从小上下文窗口到大上下文窗口的程度是有差异的,但对我来说,1.5 版本跨越了,它成为了一个巨大的改变,你可以随心所欲地做任何你想做的事情。……Gemini 让普通人可以微调一个模型(This lets normal people fine-tune a model),你实际上什么都不用做,只是把你所有的东西丢进去,它会自己解决。

对长语境上下文的押注非常重要(the bet on long context is very important),我们认为,不仅能检索出海量信息,还能对海量信息进行推理,这是一种超级能力,我的意思是,这在一定程度上是人类的能力。我们人类有情景记忆(episodic memory)和程序性记忆 ( procedural memory ),能够随着时间的推移保留技能或记忆,并且一直存在一个问题,「人工智能模型如何做到这一点?它们将如何发展情景或程序性记忆?」 在上下文语境中,你可以做到这两点。

在谈论分片时,我记得他们是在讨论用在训练。但似乎他们也在推理的情况下使用分片,他们有这种分布工作负载的能力,不仅仅是跨芯片、跨集群,而且至少在理论上,也跨数据中心(not just across chips, not just across clusters, but at least in theory, across data centers),这带来了巨大的挑战……谷歌的网络能力(networking capabilities)一直以来都是众所周知的,但我不确定人们是否意识到这种优势如何能应用在解决这些问题上

今天的 ChatGPT,甚至是 Gemini,这些人工智能模型更接近于人们(哼唱曲子时)的押韵而不是在思考(these models are a little bit closer to someone rhyming and not thinking)。……主动推理(active reasoning)是我认为许多人正在为之努力的重要事情,是的,我们已经看到了一些相当引人注目的东西。一切都还处于非常早期的阶段,但如果说人工智能领域今年有一个重大突破的话(if there’s a big breakthrough of the year),如果我必须猜测的话,那不会是上下文窗口( context window),而是非常大的上下文与主动推理和自主思考的结合(very large context combined with active reasoning and thinking)。

我认为如果有人能够创造一种能够像人类一样,在他们选择的任何领域中主动推理,以及主动思考问题的东西(if someone had something that had active reasoning and actively thought-through problems the way humans do in whatever domain they choose),那么他们就能领先于别人。

在苹果公司,有一个有趣的说法是,「硬件人员认为一切都是软件问题。而软件人员认为一切都是硬件问题。」

关于Gemini 推出后的灾难:我们从谷歌的一些员工那里听到,这些模型本身,这不太可能是模型训练中的一个深层问题,而更像是后来某个人在产品化过程中做出的决定。因此,可能存在一套系统提示或模板(a set of system prompts or templates),或者类似的东西,强加了一组规则和指导方针给模型,而原始的内部模型并没有做成这个样子。

在我的脑海中,我总是想象成,你在试图在床上拉一张非常紧的床单,那就是你的嵌入空间(embedding space),你把床单拉到右上角,底部左角就会弹出,你这样做,然后右上角也会弹出,这就是你要做的事情。你试图将这个高维空间对齐到一组特定的数学值(align this high dimensional space to a particular set of mathematical values),但在某个时候你永远不会得到一个完美的答案或零损失。所以,顺序很重要,传统上微调更多是在预训练的最后阶段进行的。

如果在模型训练最后阶段输入了特定的一小组信念,它就会无缝地扩展到整个集合。

无论 Gemini 或者其他的模型发生了什么,我们都会观察到这些模型,它们都包含在一个潜在地下的「荣格平面」上(a kind of subterranean Jungian plane),这些平面会自动地调整彼此。模型没有做错任何事情,它只是反映了我们人类的所作所为,结果表明这些东西会物以类聚(they cluster into similar buckets)。

我在想宗教改革,因为我认为在 1517 年,马丁·路德写了 95 条论纲,通过印刷术,他设法创立了一种在欧洲传播的新宗教。在某种程度上,每个人都在想着,试图将 ChatGPT 与印刷术进行类比,但实际上它们起到的作用几乎相反。……整个过程都是在相反的方向上进行的,印刷术是一种通过书籍传播信息、说服人们做事的技术(the printing press was a technology to disseminate information through a book basically and convince people to do things),而大语言模型则是一种「反书籍」技术(the kind of antibook is the LLM agent),它非常简洁地总结了事物。如果确实是这样的话,它能唤醒人们意识到他们长期以来一直是宗教的同谋,因为它非常简洁地为你总结了这些事情,并将所有事物放在隐藏空间中,突然你意识到,「等一下,这个素食主义概念与另一个概念息息相关。」在某种程度上,大语言模型技术是一种反向的宗教改革(a kind of Reformation in reverse),每个人都突然意识到了有很多事情是错误的。

微调一个模型与制作网站的漂亮登陆页一样,是一种审美艺术(fine-tuning a model is just as aesthetic an art as making a beautiful landing page for your website)。

Mistral,一个拥有法国文化和法国风格产品的法国 AI 创业公司,能够生产出一个,值得称赞的模型,我是说,它可能不是最聪明的模型,但至少在我的个人测试中,它相对循规蹈矩,它的政治语气也非常中立,这也应该不足为奇。

关于谷歌现在该怎么办:他们缺少一个主编(a missing editor),缺少一个产品主编(a missing product editor),缺少一个有品味和判断力的人,一个在公司中有权利否决任何人并确保正确事情的人。我认为领导层的改变必须发生,文化是公司中最难改变的一种。你可以进行战略变更,产品变更,运营变更。文化变革是最困难的,只有通过领导力才能实现。我们要么需要看到谷歌领导层有明显不同的行为改变,要么需要看到完全不同的领导者。

AI 是一个令人兴奋的事物,因为它让一些原本难以注意到或容易隐藏的事情变得清晰可见。在过去的一周里,AI 让谷歌的一些文化方面的问题变得非常明晰可见

Mistral 具有初创公司的敏捷性,我认为这点很重要。也许他们还有一些「有益的」限制。他们只有有限的资本,只有有限的计算资源,所以他们会着手解决这些约束条件。

我们之前谈到的 Mistral 非常关心的一件事情就是数据的质量,我们知道他们非常努力地清理他们的训练数据,并且通过这样做有效地获得了 “计算倍增器” ( a compute multiplier ),从而获得了 “质量倍增器” ( a quality multiplier )。但现在他们的模型表现远远超过了他们的权重,感觉几乎像是一个魔术。他们的新 Mistral 大型模型在评估中表现非常出色,他们还没有完全透露是什么,也许是 Mistral 中型模型的混合专家模型之类的东西(MOE mixture of Mistral mediums)。

看到所有这些公司的 CEO 都在吹嘘他们的 MMLU 参数指标(MMLU number, 大规模多任务语言理解基准)是很有趣的,而 MMLU 是丹·亨德里克斯 ( Dan Hendrycks ) 在大学本科时自己开发的一个评估。所以你基本上是看到万亿美元公司的 CEO 在谈论他们在一个本科生推出的测试中的分数,而这是目前最重要的推理评估(the premier reasoning eval)之一。

有一项进展似乎落后得最远,那就是对模型的 “评估”(evals)。

安德烈·卡帕西(Andrej Karpathy)曾经告诉我们,他唯一信任的模型评估是 Twitter 上的评估。在模型发布后,你可以在几周后检查 Twitter 上的用户情绪,看人们是否喜欢它。但每个公司的 CEO 都在训练这些大模型时,说:「我们必须站在榜单榜首。」顺便问一下,这个榜单是什么?这个榜单是一些本科生凑在一起弄出来的东西,是伯克利的人组织的 Chatbot Arena。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/4274.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

visual studio2022,开发CMake项目添加rabbitmq库,连接到远程计算机并进行开发于调试

1.打开visual studio installer 。安装“用于 Windows 的 C CMake 工具” 2.新建CMake项目 3.点击VS的“工具”—>"选项“—>“跨平台”—>”连接管理器“,添加远程计算机。用来将VS编辑的代码传到服务器进行编译–连接—运行(调试)。 …

java中的泛型(三)——通配符

在前面的文章中我们简要介绍了泛型的概念以及泛型类和泛型方法的使用。在介绍泛型时我们说过在在java中一般用E、T、K、V、N、?这几个字母和符号来表示泛型,对于前面的几个字符它们的使用没有区别,只要注意它们所代表的类型就好。而对于最后一个&#x…

优化大型语言模型交互:提升查询和提示效果的26条原则

推荐下arxiv挂的一个提示词教程: https://github.com/VILA-Lab/ATLAS https://arxiv.org/abs/2312.16171 它提出了一套26条指导原则,改善和优化与大型语言模型(LLMs)的交互过程。通过这些原则,旨在简化对LLMs的查询和…

E4980A是德科技E4980A精密LCR表

181/2461/8938产品概述: Keysight E4980A 精密 LCR 表为各种元件测量提供了精度、速度和多功能性的最佳组合。E4980A 在低阻抗和高阻抗范围内提供快速测量速度和出色的性能,是元件和材料的一般研发和制造测试的终极工具。LAN、USB 和 GPIB PC 连接可提高…

概率论知识点(2)指数分布随机变量PDF,CDF及其特征函数

(1) X ∼ exp ⁡ ( 1 ) X\sim \exp(1) X∼exp(1), Y ∼ exp ⁡ ( 1 ) Y\sim \exp(1) Y∼exp(1), PDF: f X ( x ) = e − x , x > 0 f_{X}(x)=e^{-x},x>0 fX​(x)=e−x,x>0; f Y ( y ) = e − y , y > 0 f_{Y}(y)=e^{-y},y>0 fY​(y)=e−y,y>0CDF: F X…

【氮化镓】p-GaN HEMTs空穴陷阱低温冻结效应

这篇文章是关于低温条件下p-GaN高电子迁移率晶体管(HEMTs)栅极漏电的研究。文章通过电容深能级瞬态谱(C-DLTS)测试和理论模型分析,探讨了空穴陷阱对栅极漏电电流的影响。以下是对文章的总结: 摘要&#xf…

sql server 数据库的学习

前言: SQL Server是由微软公司开发的一种关系型数据库管理系统(RDBMS),用于存储和检索数据。它提供了一个可扩展的、安全的和可靠的数据存储和管理解决方案,并主要用于构建企业级应用程序。SQL Server支持使用SQL&…

java中的异常处理机制

通俗易懂地说,java中的异常处理机制就是try-catch-finally, try是可能出现的异常,而catch是处理那些异常,可以有多个,catch中也可以用throw抛出异常,finally是无论如何都要进行执行的代码 catch中那个东西,只有一个异常处理了,才会执行下一个异常 接下来说说throw和throws吧 其…

本地认证的密码去哪了?怎么保证安全的?

1. windows登录的明文密码,存储过程是怎么样的?密文存在哪个文件下?该文件是否可以打开,并且查看到密文? 系统将输入的明文密码通过hash算法转为哈希值,且输入的值会在内存中立即删除无法查看。 然后将密文存放在C:…

基于Spring Boot的火车订票管理系统设计与实现

基于Spring Boot的火车订票管理系统设计与实现 开发语言:Java框架:springbootJDK版本:JDK1.8数据库工具:Navicat11开发软件:eclipse/myeclipse/idea 系统部分展示 前台首页功能界面图,在系统首页可以查看…

ROS机器人小车建模仿真与SLAM(5)

目录 一、ROS中使用摄像头 1.1 验证摄像头设备可用 1.2 安装cheese 1.3 测试 二、获取摄像头驱动包 2.1 usb_cam 2.1.1 rosrun方式运行 2.1.2 roslaunch方式运行 三、摄像头标定(camera calibration) 3.2 标定前准备 3.2.1 标定板 3.2.2 摄像头调焦 3.3 标定摄像头…

MySQL__索引

文章目录 😊 作者:Lion J 💖 主页: https://blog.csdn.net/weixin_69252724 🎉 主题: MySQL__索引) ⏱️ 创作时间:2024年04月23日 ———————————————— 这里写目…

avl excite python二次开发1--python解释器需用内置解释器aws_cmd

avl excite python二次开发1--python解释器需用内置解释器aws_cmd 1、python解释器问题1.1、用外置python解释器,import WSInterface会失败(WSInterface.pyd)1.2、用内置解释器aws_cmd运行py脚本1.3 用内置解释器aws_python执行脚本三级目录 1、python解释器问题 1…

Python_AI库 Pandas的数据结构及基本操作

Python_AI库 Pandas的数据结构及基本操作 本文默认读者具备以下技能: 熟悉python基础知识,vscode或其它编辑工具 熟悉表格文件的基本操作 具备自主扩展学习能力 本文篇幅较长,但比较重要,希望读者可以认真看完并实例运行。 Pa…

Hugging Face 新开源Parler-TTS,高质量文本转语音模型,可自主训练定制声音,训练代码、模型、数据集全部公开

前言 Parler-TTS 是大名鼎鼎的huggingface推出的一款轻量级文本到语音(TTS)模型,它能够生成高质量、自然流畅的语音,并且能够模仿特定说话者的风格,包括性别、音高、说话风格等。这款模型是由Dan Lyth和Simon King创建…

【机器学习原理】决策树从原理到实践

基于树的模型是机器学习中非常重要的一类模型,最基础的就是决策树,本篇主要讲述决策树的原理和几类最常见的决策树算法,这也是更复杂的树模型算法的基础。 参考文章: 1.CSDN-基于熵的两个模型(ID3,C4.5)比较详细,有数字…

PotatoPie 4.0 实验教程(22) —— FPGA实现摄像头图像对数(log)变换

什么是图像的log变换? 总的来说,对数变换是一种常用的图像增强技术,可以改善图像的视觉质量、减少噪声以及突出图像中的细节,从而提高图像在视觉感知和分析中的效果和可用性。 图像的对数变换(log transformation&am…

【Linux命令行艺术】1. 初见命令行

📚博客主页:爱敲代码的小杨. ✨专栏:《Java SE语法》 | 《数据结构与算法》 | 《C生万物》 |《MySQL探索之旅》 |《Web世界探险家》 ❤️感谢大家点赞👍🏻收藏⭐评论✍🏻,您的三连就是我持续更…

Anti Rookit -- 检测隐藏进程

Anti Rookit 一:检测隐藏进程 引言 检测隐藏进程除了众所周知的枚举进程ID之外,还有枚举句柄表的方式。不过今天给大家带来的是第三种方法。 探究 应用层通过接口 C r e a t e P r o c e s s \textcolor{cornflowerblue}{CreateProcess} CreateProcess…

【Linux系统编程】26.信号、kill、alarm、setitimer

目录 信号 信号共性 信号特质 产生信号 信号相关概念 默认处理动作 信号4要素 常规信号 ​编辑 注意 kill 参数pid 测试代码1 测试结果 测试代码2 测试结果 alarm 参数seconds 返回值 取消闹钟 测试代码3 测试结果1 测试结果2 ​编辑 setitimer 参数…