每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
昨天谷歌云端服务年度主题演讲的主要信息不容错过:谷歌拥有最佳的人工智能基础设施。这是首席执行官桑达尔·皮查伊在视频问候中的言论:
我想强调谷歌云显示如此进步的几个原因。其中之一是我们对人工智能的深度投资。我们早已知道人工智能将改变每一个行业和公司,包括我们自己。这就是为什么我们在过去十年中一直在构建人工智能基础设施,包括现已进入第五代的TPU。这些进步帮助客户训练并运行前沿的语言模型。这些投资使我们站在了人工智能平台转变的最前沿。
谷歌云CEO托马斯·库里安也明确表示了优先事项:
今天我们将专注于谷歌如何帮助领先公司转型,成为数字和人工智能领导者,这是通向云端的新方式。我们有许多重要的进展,从我们的基础设施开始。
然而,关于主题演讲最有趣的部分是该基础设施所能实现的事物,以及这关于谷歌竞争能力的表述。
落地
关于大型语言模型(LLM)最令人惊讶的事情之一是它们所知道的内容;从一开始,幻觉就是一个问题。当然,幻觉是LLM如此令人印象深刻的部分原因:计算机实际上在创造!这也是一个对于这次主题演讲的企业客户来说并不特别令人印象深刻的特征。为此,库里安在讨论谷歌基础设施优势后不久,谈到了“落地”,不仅是在谷歌的双子座模型广泛应用中,也特别是在企业用例中,通过谷歌的Vertex AI模型管理服务实现:为了增强模型,Vertex AI提供了管理工具,将您的模型与企业应用程序和数据库连接起来,使用扩展和函数调用。Vertex还提供了检索增强生成(RAG),结合检索和生成模型的优势,提供高质量的个性化答案和建议。Vertex可以通过将生成的人工智能与您的企业真实数据相结合,用来自网络和您的组织的最新知识来增强模型。今天我们有一个非常重要的公告:您现在可以通过谷歌搜索进行落地,这可能是世界上最值得信赖的事实信息源,深入了解全球知识。通过谷歌搜索进行双子座回应的落地提高了回应质量,并显著减少了幻觉。
其次,我们还使得用您的企业数据库和应用程序中的数据,以及任何数据库中的数据进行落地变得容易。一旦您选择了合适的模型,调整好并与您的企业真实数据连接后,Vertex的MLOps可以帮助您管理和监控模型。
使用谷歌搜索的RAG实现是一个明显的胜利,与ChatGPT集成Bing(或Microsoft Copilot in Bing)相呼应:LLM在可能的情况下提供答案,并在网络上搜索它不知道的事物,这一功能特别有用,如果您正在寻找更多最新信息的话。然而,在将双子座与谷歌的BigQuery数据仓库和Looker商业智能平台集成的背景中,更令人印象深刻的落地展示如下:
在此演示中,工作人员收到特定产品即将售罄的警报;使用生成人工智能,工作人员可以查看销售趋势,找到类似型号,并为处理存货下降制定行动计划,以便交付给她的团队。
值得注意的不是演示的具体内容(这是专门为Cymbal,谷歌的演示品牌,虚构的);而是LLM的角色:它不提供信息或采取特定行动,而是作为一个更易于访问的自然语言界面来呈现和收集数据,这些数据否则将需要更多的专业知识和时间。换句话说,它是可靠的,因为它通过谷歌承诺与其其他企业数据服务的集成进行了落地。
双子座1.5
与此同时,最后一部分实际上并没有从导言中继续下去:是的,那些利用谷歌或BigQuery的LLM在谷歌的基础设施上运行,但其他公司或创业公司也可以构建类似的东西。这是皮查伊导言的其余部分的来源:
我们还在继续构建能够让搜索、地图和Android等产品更加有用的强大人工智能模型。12月,我们迈出了下一个重大步骤,推出了我们迄今为止最大、最强大的模型——双子座。我们一直在通过我们的API将其引入我们的产品以及企业和开发者中。我们已经推出了下一代双子座1.5 Pro。它已在Vertex AI中进行了私密预览。1.5 Pro表现出戏剧性的性能提升,并包含了长文本理解的突破。这意味着它可以一致地处理100万个信息标记,为企业开辟了使用人工智能创造、发现和构建的新可能性。双子座还具有多模态能力,可以处理音频、视频、文本、代码等更多内容。借助这两项进步,企业今天能够做到之前使用人工智能无法实现的事情。
谷歌尚未透露双子座1.5是如何制造的,但显然该公司已经克服了传统变压器的主要局限性:随着上下文长度的增加,内存要求会呈二次方增长。一种有前景的方法是环形注意力与块状变压器,它将长上下文分解为可以单独计算的片段,即使这些设备在计算这些片段的同时进行通信,也能使上下文整体有意义;在这种情况下,内存要求与上下文长度线性扩展,只需在环形拓扑中简单增加更多设备即可。
这就是谷歌基础设施的用武之地:该公司不仅拥有庞大的TPU车队,还一直在开发这些TPU在从芯片到集群甚至数据中心的每个层面上并行运行(后者对于训练比推断更为重要);如果有需要规模的解决方案,谷歌
是提供这种解决方案的最佳选手,似乎公司正是通过双子座1.5做到了这一点。
演示
为此,根据皮查伊的结束语,主题演讲中的几乎所有其他演示都在暗中利用双子座1.5的上下文窗口。在一个双子座工作区演示中,工作人员评估了两份工作声明,并与公司的合规文档进行了比较:
这里是关键引述:
谷歌驱动器准备就绪,无需任何额外的人工智能预处理工作…
这些文档每份超过70页。我本来需要花几个小时来审查这些文件,但双子座将帮助我找到一个清晰的答案,为我节省大量时间…
在我继续与这个供应商合作之前,我需要确保不存在合规问题,我将坦率地说,我并没有记住我们合规规则书中的每一条规则,因为它有超过100页。我将不得不仔细查看这个提议的80页并手动与100页的规则书进行比较。所以,我在侧边栏中问:“这个报价是否符合以下条件”,然后我只需@提及我们的合规规则书,按Enter键,看看双子座有什么要说的。挺有趣的:双子座发现了一个问题,因为供应商没有列出他们的安全认证。因为双子座在我公司的数据中进行了落地,有对特定文件的来源引用,我可以信任这个回应并在选择供应商之前开始解决问题。这个演示与上一个演示的关键区别在于开头的引述:一个大的上下文窗口在更多的使用场景中起作用,而不需要任何繁琐的RAG实现或特别连接到外部数据存储;只需上传您需要分析的文件,然后开始。在一个创意代理与Imagen演示中,工作人员正在寻求为一个户外产品创建营销图片和故事板:
这里是关键引述:
创意代理可以分析我们之前的活动,了解我们独特的品牌风格,并将其应用到新的创意中。在这种情况下,创意代理分析了我们目录中的超过3,000张品牌图片、描述、视频和其他产品的文档,这些都包含在谷歌驱动器中,以创建这个摘要…创意代理能够使用双子座Pro的100万标记上下文窗口及其跨文本、图片和视频的推理能力来生成这个摘要。
公平地说,这是一个较弱的演示:品牌摘要和营销活动并不那么令人印象深刻,而且使用合成声音创建播客的想法技术上令人印象深刻,但也是从未有人会去听的东西。然而,这本身就是令人印象深刻的:正如我在双子座1.5首次宣布时的更新中所说,“一个大得多的上下文窗口使做傻事成为可能”,而傻事往往会转变为严肃的能力。
在一个双子座代码助手演示中(以前称为开发者的Duet AI),一位新工作的开发者被安排修改网站主页:
对于那些在外面的开发者,你们知道这意味着我们需要在主页中添加填充,修改一些视图,确保我们的微服务配置已更改,通常,即使只是熟悉我们公司拥有超过100,000行代码的11个服务的代码库也需要我一两周的时间。但现在,有了双子座代码助手,作为团队中的新工程师,我可以比以往任何时候都更高效,并可以在几分钟内完成所有这些工作。这是因为双子座的代码转换具有完整的代码库意识,使我们能够轻松地推理整个代码库,而其他模型则无法处理超过12,000到15,000行代码。双子座与代码助手如此智能,我们只需给它我们的业务要求,包括视觉设计…双子座代码助手不仅建议代码编辑;它提供清晰的建议,并确保所有这些建议与[公司的]安全和合规要求保持一致…
结论
让我们回顾一下:在幕后,双子座已分析了我整个代码库在GitLab中;它已实现了一个新功能;并确保生成的所有代码都与我公司的标准和要求兼容。再次说明,撇开这个演示的不切实际性不谈:关键的收获是当模型能够在处理问题时拥有围绕问题的所有上下文时解锁的能力;这只能通过——在这里名称是恰当的——一个长上下文窗口来实现,而这最终是由谷歌的基础设施使能的。
谷歌的本质
如果还不清楚,我认为这次主题演讲是谷歌在人工智能时代迄今为止最令人印象深刻的表现,尤其是因为该公司清楚地知道自己的优势在哪里。几年前我写了一篇名为《微软的垄断宿醉》的文章,讨论了该公司当时正在从Windows作为其战略中心的过渡;核心论点是与路·格斯特纳在1990年代转变IBM的比较。
垄断的好处是公司可以做任何事情,因为没有竞争;坏处是当垄断结束时,公司仍能以平庸的水平做任何事情,但不能在任何一项上做到最好,因为它已变得庞大而懒惰。换句话说,对于一个前垄断者来说,“大”是唯一真正有区别的资产。
我的论点是,商业模型可以改变:IBM做到了,当我写这篇文章时,微软也在这样做。此外,格斯特纳已经表明文化也可以改变,纳德拉在微软也正是这样做的。但是不能改变的是本质:IBM是一个依赖广度而非专业化的公司;这就是为什么格斯特纳正确地没有拆分公司,而是选择向企业提供互联网解决方案。同样,微软是一个围绕Windows集成的公司;公司转向以Teams为中心的云服务也忠实于公司的本质。
谷歌面临许多相同的挑战,经过其长期统治开放网络的几十年:昨天展示的所有产品都依赖于与广告不同的商业模型,要正确执行并交付这些产品将需要文化上的转变,以支持而不是容忍客户。但是没有改变的——
因为这是公司的本质,因此不能改变——是依赖规模和压倒性基础设施优势。这比任何事情都更定义了谷歌,看到公司如此明确地将这作为一个优势是令人鼓舞的。