一万年太久,只争朝夕 | Foundation model的进展仍不够快

编者按:如今根基模型(Foundation Models)的应用和相关创新正在快速涌现,但仍有很大的提升空间,目前还无法充分发挥根基模型的潜能、将其高效快速地应用于企业级AI应用中。

根基模型的加速应用和落地,带动了基础设施和工具领域的创新。本期IDP Inspiration,我们为大家带来的是创投机构Madrona对于根基模型的发展研判,和大家一同从投资人的视角探寻根基模型发展带来的AI Infra新机遇。

以下是译文,Enjoy!

人工智能领域目前的活动速度简直令人惊讶。基于根基模型(Foundation model),生成性AI应用程序和应用于数据的复杂推理的更大范畴的应用程序正在快速增多。 这些应用程序从实际的(加速代码开发[1]和测试[2]、法律合同[3]和奥斯卡提名电影的生产[4])到有趣的(多模态生成说唱对决)再到引人深思的(在美国医学执照考试中或接近通过水平)。而根基模型的能力、模型准确性和基础设施的演变速度至少与之一样快。

如果所有这些感觉都不同,那是因为它们确实不同。以前云计算的出现提供了以前不可能的计算能力,使得包括变换器(Transformer)模型在内的计算机科学的新领域成为可能。该模型[7]可以让人们使用云计算来构建更大的模型,这些模型更好地推广,并且能够完成新任务,例如文本和图像生成、汇总和分类。这些更大的模型已经显示出复杂推理、知识推理和超出分布稳健性的能力[8],而更小的、更专业化的模型都不具备这些能力。这些大型模型被称为根基模型(Foundation Models),因为开发人员可以在它们的基础上构建应用程序。

然而,尽管创新活动和步伐在飞速发展,未来仍然显然不够快,根基模型和生成式人工智能尚未达到目标。

构建者们面临一个不太令人满意的选择:打天下(机遇根基模型构建应用)容易守天下(形成护城河)难,或者相反。 在前一种情况下,根基模型允许开发者在一个周末(或几分钟)内创建应用程序,而此前需要几个月。但是,开发人员受到那些专有模型的现成功能的限制,其他开发人员也可以使用,这意味着开发人员必须富有创造力,找到差异化的来源。在第二种选择中,开发人员可以扩展开源模型体系结构的功能,以构建一些新颖且易于形成护城河的东西。但这需要极高的技术深度,仅有极少数的团队具备这种能力。能力集中在少数人手中与一个行业蓬勃发展所需要的恰好相反——我们需要更多的力量分散到更多的人手中,而不是更加集中

但是,如果我们将大规模根基模型视为一种新的应用程序平台,提取出更广泛的技术栈,就会发现那些挑战是创业者的机会。我们去年晚些时候写了一篇文章,描述了这个栈,并预测工具层的出现。该栈发展如此之快(工具层也已经快速形成!),现在值得再次审视。

图片

纵观当今根基模型栈的状态,我们发现了三个创业机会:

1)开发新颖的应用程序:技术最先进的团队面临着广阔的前景。有很多创新可以做,特别是在信息检索,混合模态和训练/推理效率方面。这个领域的团队可以推动科学的界限,创建以前不可能的应用程序。

2)寻找差异化:具有出色想法但仅有早期技术能力的团队现在可以访问工具,使得可以使用更丰富的记忆/上下文,更丰富的外部数据源和API,以及评估和缝合多个模型的能力来构建更丰富的应用程序。这为创始人提供了更广泛的途径构建新颖且易防御的产品,即使他们已经使用了广泛可用的技术。

3)开发工具:喜欢基础设施的团队现在有一个高效率的机会,可以在编排Orchestraction(开发人员框架,数据源和动作,评估)根基模型操作(部署,训练和推理的基础设施和优化工具) 方面构建工具。更加强大和灵活的工具将加强现有开发者的能力,并使根基模型栈能够被更多的新开发者使用。

1 根基模型Foundation Models

开发根基模型的人面临一个不吸引人的权衡——即基于模型构建新的应用程序的难易和对模型保护的难易之间的权衡,该权衡源于核心基础模型的建立和开源方式。 开发者今天必须在 iPhone/Android,Windows/Linux 风格的战争中选择一方,在每一方都有痛苦的妥协。

一方面,我们看到来自 OpenAI、co:here 和 AI21 等高度复杂、快速演变的专有模型 (我们也可以把谷歌加入到这个名单中,因为他们在这些模型上花费的时间比任何人都长[9],而且计划将模型外部化[10])。另一方面是开源架构,如 Stable Diffusion[11]、Eleuther、GLM130B、OPT、BLOOM、Alexa Teacher Model 等,都在 Huggingface[12] 上组织成社区中心。

1.1 专有模型

专有模型是由拥有雄厚资金和技实力的提供商所拥有的,这意味着他们可以提供行业领先的模型性能。它们的现成模型也意味着开发人员可以轻松上手。Azure的新OpenAI服务使得入门变得比以往更容易,我们预计这将加速开发人员的实验速度。

这些人也在考虑成本——OpenAI 在2022年末将价格降低了60%,Azure 也相应的调整了价格。但是这里的成本仍然很高,限制了商业模式的可持续性发展。按席位许可证(per-seat licenses )和基于使用定价(consumption-based pricing)等模式在早期很普遍,这些可以持续。但是广告支持的业务模型可能不会产生足够的收入来覆盖这一水平的成本。

1.2 开源模型

开源模型的性能不如专有模型,但是在过去一年中有了显著改善。更重要的是,技术复杂度高的建设者可以拥有扩展这些体系结构的灵活性,并建立尚不可能用专有模型实现的差异化功能(这是我们喜欢 Runway 的原因之一,Runway 是一个下一代内容生成套件,提供实时视频编辑、协作等。为了支持所有这些功能,Runway 继续对多模态系统和生成模型的科学做出深入贡献,以加速 Runway 的客户的特征开发)。

专有根基模型和开源根基模型之间的紧张关系已经像iPhone/Android 的战争一样。专有模型的优势是性能和易于上手。开源模型的优势是灵活性和成本效率。 可以肯定的是每个阵营都会加大投资以解决其弱点(使 OSS 模型更容易上手,并使其有可能更深入地扩展OpenAI模型),同时也要充分利用它们的优势。

2 Tooling / Orchestration

强大、灵活的工具能够使现有开发者的能力变得更加强大,使更多的新开发者能够使用根基模型技术栈。

我们在2022年10月写道[13]:“根基模型并不是’just work’仅运行即可,因为它们只是广泛的软件栈中一个组成部分。如今,从根基模型中得到最好的推理效果,需要应用开发者采取很多辅助措施“。

我们确实看到开发人员在软件栈的这一层次上有密切关注。很多最酷的、回报最高的工作将在未来几个月内发生在软件栈之上,特别是在开发者框架、数据源、优化措施以及评估方面。

2.1 开发者框架

过去的经验告诉我们,框架(dbt,Ruby)对于将大型应用程序的各个部分连接起来是很有用的。根基模型开发框架让开发者很容易地将诸如跨多个调用的Context、提示工程和根基模型的选择(或多个模型的顺序) 结合起来。研究人员已经开始量化[14]这些使用根基模型构建的应用有多么强大。LangChain[15]、Dust.tt[16]、Fixie.ai[17]、GPT Index[18]和Cognosis[19]是这部分软件栈中最吸引开发者的项目。不好描述上手其中一些框架是多么容易。但是演示起来真的很容易,所以我们现在就给大家演示一下。下面是LangChain开发者指南中的四行入门代码:

图片

这样的开发者框架使入门使用根基模型变得十分简单,甚至几乎成为一种乐趣。敏锐的开发者可能会注意到,通过上面的代码,如果开发者想要更换已启动的应用程序底层LLM/FM,几乎不费吹灰之力。从长远来看,使开发变得更容易往往会带来更多的开发者,并加速新应用程序的出现。在工具层面的创新速度已经非常快,这为工具的开发者和使用工具创建新应用程序的开发者创造了很多机会!

2.2 数据源和优化措施

如今根基模型只会推理它们接受训练的那些事实。但这对于需要根据变化极快的现实数据做出决策的应用开发者和终端用户来说,是个很大的限制,比如天气、金融市场、旅游市场、供应库存等等。因此,当我们想进行“hot” information retrieval时,这将是一件大事。在这种情况下,我们不需要训练或编辑模型,而是让模型调用外部数据源并实时推理这些数据。Google Research和Deepmind在这个方向上发表了一些不错的研究论文[20],OpenAI也是如此。所以,“hot” information retrieval时代即将到来,特别是目前在这个领域的研究成果转商业应用的速度非常快。

上述提到的开发者框架预见到了根基模型科学的演变,并开始支持一些外部数据源。按照类似的思路,开发者框架也将支持一些”下游“领域的概念(比如调用外部API,如Salesforce、Zapier、Google Calendar,甚至AWS Lambda serverless计算函数)。通过这些外部数据和优化措施的整合,很多新型根基模型应用将变得可能,而这在以前是很难或不可能的,特别是对于在专有模型之上构建应用的早期团队。

2.3 评估

我们在2022年10月[13]写道:“我们必须小心谨慎对待根基模型,因为我们永远不知道它们会说些什么或做些什么。这些模型的提供者,以及建立在它们之上的应用开发者,必须接受承担这些风险的责任。”可以预见开发人员在这方面很快就会变得更加成熟。Academic benchmarks(学术评估基准)是评估模型性能的重要步骤。但是,即使是像HELM这样最复杂的评估基准也是不完美的,因为它们不是面向所有用户群或所有特定使用案例而设计的

最好的测试集来自于最终用户。生成的建议中有多少被接受?chatbot有多少次对话的 “转折”?用户在一张特定的图片上停留了多长时间,或者他们分享了多少次?这些类型的输入总体上描述了一种模式,然后开发者可以用它来定制或解释一个模型的行为,以达到最大效果。HoneyHive[21]和HumanLoop[22]是两个典型的公司,它们帮助开发者迭代根基模型架构,修改提prompts,过滤和添加新的训练集,甚至提炼模型以提高指定用例的推理性能。

3 Tooling / FMOps

计算是根基模型公司的主要成本驱动因素,制约了他们可以选择的商业模式。新一代的部署优化、训练工具和基础设施,正在帮助开发者解锁新的商业模式。

根基模型对训练和推理有巨大的计算要求,需要大量的专业硬件,这导致应用开发者面临高成本和运营限制 (吞吐量和并发量) 。大公司有实力来维持,微软在2020年建设了世界前5名的超算基础设施用于支持OpenAI发展。但是,即使是巨头公司也面临着供应链和经济上的限制。因此,训练、部署和推理优化是投资的关键领域,在这里我们看到了大量的创新点和机会。

3.1 训练

现在开源根基模型的修改和再训练比以往要容易。 最大的根基模型(foundation models)训练费用超过1000万美元,而Chinchilla[23]和Beyond Neural Scaling Laws[24]等论文表明,根基模型可以用50万美元甚至更少的费用训练,这意味着更多的公司可以自己创建根基模型。如今,AI从业者可以获取很多大规模的数据集,如LAION[25](图像)、PILE[26](多样化的语言文本)和Common Crawl[27](网络抓取数据)。他们可以使用Snorkel[28]、fastdup[29]和xethub[30]等工具来策划、组织和获取这些大型数据集。他们也可以访问HuggingFace获取最新和最强大的开源模型架构。他们还可以使用来自Cerebras[31]、MosaicML[32]等训练基础设施来大规模地训练这些模型。这些资源对于利用最新的模型架构、修改重构这些架构的代码,然后在公共和专有数据的基础上训练私人模型是非常强大的。

3.2 部署和推理

持续的推理成本没有像训练成本那样急剧下降。大部分的计算成本将最终用于推理,而不是训练。推理成本最终对开发者造成了更大的限制,因为它也限制了公司可以选择的商业模式。 Apache TVM[33]等部署框架以及蒸馏和量化[34]等技术都可以帮助降低成本,但这些都需要相当的技术深度才能使用。OctoML[35](TVM的开发者)提供可以降低成本和部署时间的管理服务,并能最大化利用很多算力硬件。这使得更多开发者可以使用这些类型的优化,同时也让开发者能够更有效地工作。很多托管推理公司,如Modal Labs[36]、Banana[37]、Beam[38]和Saturn Cloud[39],也想要使推理比直接在AWS、Azure或GCP等超级服务器上运行更具成本效益。

4 #HereWeGo

对于大规模foundation models(根基模型),我们才刚刚开始触及表面。大型科技公司和资本雄厚的初创公司正在大力投资于更大、更好的模型、工具和基础设施。但最好的创新需要无畏的技术和产品灵感。

围绕根基模型相关的创新仍然会源源不断,但是其速度和质量将会受到很多限制,直到软件栈足够完善能够让仅在某一方面有突出优势的团队也能作出巨大贡献。 这些工作都需要由大科技公司及其创始人、学者、开发者、开源社区和投资者共同完成。同时,所有这些创新都需要考虑有没有伦理道德负面影响,有没有潜在的意外后果,并将必要的防护措施做到位,这至少与推进技术本身具有同等重要性。

要让未来AI驱动的高质量应用源源不断的出现,这需要我们所有人共同努力。我们期待看到企业家们提出什么新的想法来帮助释放根基模型的真正力量,并实现人人期望的广泛创新和影响力。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

资源分享

图片

大模型AGI学习包

图片

图片

资料目录

  1. 成长路线图&学习规划
  2. 配套视频教程
  3. 实战LLM
  4. 人工智能比赛资料
  5. AI人工智能必读书单
  6. 面试题合集

人工智能\大模型入门学习大礼包》,可以扫描下方二维码免费领取

1.成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。

图片

2.视频教程

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,其中一共有21个章节,每个章节都是当前板块的精华浓缩

图片

3.LLM

大家最喜欢也是最关心的LLM(大语言模型)

图片

人工智能\大模型入门学习大礼包》,可以扫描下方二维码免费领取

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/865311.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

64、基于去噪卷积神经网络的彩色图像去噪(matlab)

1、基于去噪卷积神经网络的彩色图像去噪的原理及流程 基于去噪卷积神经网络的彩色图像去噪是一种基于深度学习的图像处理技术,可以有效地去除图像中的噪声,提高图像的质量。下面是在Matlab中实现基于去噪卷积神经网络的彩色图像去噪的原理及流程&#x…

移动端响应式布局开发的四大方案

移动端响应式布局开发的四大方案 media媒体查询remflexvh/vw media媒体查询 媒体查询通常会结合百分比实现自适应,它经常应用于pc端与移动端是一套项目代码的情况,依据媒体查询写多套不同的样式 rem pc端和移动端是两套代码的,通常pc端不做…

ChatGPT如何应用在谷歌seo?

ChatGPT在提升博客和创作效率方面非常有用。它可以帮助你快速生成吸引人的标题,确保内容第一眼就能抓住读者的注意力。不仅如此,ChatGPT还能根据你的主题生成详细的文章提纲,让你在写作时思路更加清晰。关键词优化也是它的强项,可…

300KG载重履带式无人车技术详解

一、动力系统 300KG载重履带式无人车采用了高效且稳定的动力系统,通常由电池组或燃油发动机作为动力源。电池组提供了较长的续航时间和较低的运行噪音,适用于需要静音作业的场合。而燃油发动机则能提供更高的功率和续航能力,适用于需要长时间…

STM32远程烧录程序

目录 简介 不同的程序下载方式 ICP:In-Circuit Programming ISP:In-System Programing IAP:In-Application Programming BootLoader Bootloader 是什么? STM32的启动方式 存储器组织 存储器映像 嵌入式SRAM 嵌入式FL…

不同行业如何选择适合自己行业的项目管理工具?

在当今的信息化时代,项目管理软件已成为各行各业不可或缺的工具。然而,由于各行业具有不同的特点和需求,因此选择合适的项目管理软件成为了一个重要问题。本文将探讨不同行业在选择项目管理软件时需要考虑的因素,希望能帮助大家更…

vue实现一个简单的审批绘制功能

1、vue代码 <div class"approval"><div class"approval_ul" v-for"(item,key) in approvalList" :key"key"><div><el-radio-group v-model"item.jointlySign"><el-radio label"1">…

【超全详解】耳机怎么清理?手把手教你清洁各种耳机!

平时听歌、听书、打电话耳机往往有时候几个小时都戴着&#xff0c;时间久了难免会堆积污垢堵孔。这可能就会造成耳机左右音量不一致、声音小、降噪效果变差、嗡嗡声等问题&#xff0c; 而且耳机用久了如果不及时清理&#xff0c;可能导致耳朵感染细菌&#xff0c;严重的话会影响…

亚马逊测评策略全攻略:详析各方案优势与局限,你精通了吗?

亚马逊测评&#xff0c;一个绕不开的话题。不管是对于新手卖家还是资深卖家来说&#xff0c;它都是提升产品销量和排名的有效手段之一。接下来&#xff0c;我将为大家详细解析亚马逊测评的各种方式和注意事项。 一、精准筛选真人测评资源 在寻找真人测评资源时&#xff0c;许多…

难道 Java 已经过时了?

当一门技术已经存在许多年了&#xff0c;它可能会失去竞争力&#xff0c;而后黯然退场&#xff0c;默默地离开&#xff0c;这对大部分的人来说就已经算是过时了。 Java 于 1995 年正式上线&#xff0c;至今已经走过了 27 个年头&#xff0c;在众多编程技术里算是年龄比较大的语…

数据结构----栈和队列之队列的实现

目录 1.基本概况 2.队列组成 3.队列的实现 &#xff08;1&#xff09;队列的初始化 &#xff08;2&#xff09;队列的销毁 &#xff08;3&#xff09;队列的尾插 &#xff08;4&#xff09;队列的头删 &#xff08;5&#xff09;队列的判空 &#xff08;6&#xff09;队…

外挂级OCR神器:免费文档解析、表格识别、手写识别、古籍识别、PDF转Word

智能文档解析&#xff1a;大模型友好的文档解析工具 PDF转Markdown 支持将任意格式的文件&#xff08;图片、PDF、Doc&#xff0f;Docx、网页等&#xff09;解析为Markdown或Json格式&#xff0c;以对LLM友好的方式呈现。 更高速度&#xff1a;100页PDF最快1.5s完成解析 更大…

SAR目标检测

Multi-Stage with Filter Augmentation 多阶段滤波器增强(MSFA) 对SAR合成孔径雷达目标检测性能的改善 MSFA ON SAR 传统方法: 预训练:传统方法开始于在通用数据集上预训练一个基础模型。 微调:这个预训练的模型会被微调以适应特定的SAR图像&#xff0c;试图缩小域间的差距 …

【JAVA多线程】JDK中的各种锁,看这一篇就够了

目录 1.概论 1.1.实现锁的要素 1.2.阻塞队列 1.3.Lock接口和Sync类 2.各种锁 2.1.互斥锁 2.1.1.概论 2.1.2.源码 1.lock() 2.unlock() 2.2.读写锁 2.3.Condition 2.3.1.概论 2.3.2.底层实现 1.概论 1.1.实现锁的要素 JAVA中的锁都是可重入的锁&#xff0c;因为…

苹果再出新招:macOS15 Beta2预览版更新,居然还有iPhone镜像功能

在数字化时代&#xff0c;操作系统的更新迭代是技术进步的显著标志。苹果公司以其一贯的创新精神&#xff0c;不断推动着个人计算体验的边界。 2024年6月25日&#xff0c;苹果公司向Mac电脑用户推出了macOS 15开发者预览版Beta 2更新&#xff0c;这不仅是对macOS系统的一次重大…

【探索Linux】P.36(传输层 —— TCP协议段格式)

阅读导航 引言一、TCP段的基本格式二、控制位详细介绍三、16位接收窗口大小⭕窗口大小的作用⭕窗口大小的限制⭕窗口缩放选项⭕窗口大小的更新⭕窗口大小与拥塞控制 四、紧急指针温馨提示 引言 在上一篇文章中&#xff0c;我们深入探讨了一种无连接的UDP协议&#xff0c;它以其…

14-14 商业领域的人工智能革命

在商业技术领域&#xff0c;对话式人工智能已获得广泛认可和使用&#xff0c;产生了重大而直接的影响。GPT-2 和 GPT-3 等大型语言模型一直是该领域的基础&#xff0c;但它们的高级继任者将对话界面推向了新的高度。这些较新的模型不仅仅是处理输入&#xff1b;它们旨在完美地集…

RK3568驱动指南|第十六篇 SPI-第188章 mcp2515驱动编写:复位函数

瑞芯微RK3568芯片是一款定位中高端的通用型SOC&#xff0c;采用22nm制程工艺&#xff0c;搭载一颗四核Cortex-A55处理器和Mali G52 2EE 图形处理器。RK3568 支持4K 解码和 1080P 编码&#xff0c;支持SATA/PCIE/USB3.0 外围接口。RK3568内置独立NPU&#xff0c;可用于轻量级人工…

[数据结构] --- 树

1 树的基本概念 1.1 树的定义 树是n(n>0)个结点的有限集。当 n 0 时&#xff0c;称为空树。在任意一棵树非空树中应满足&#xff1a; (1) 有且仅有一个特定的称为根 (root) 的结点&#xff1b; (2) 当 n > 1 时&#xff0c;其余结点可分为m(m>0)个互不相交的有限集…

GDB 远程调试简介

文章目录 1. 前言2. GDB 远程调试2.1 准备工作2.1.1 准备 客户端 gdb 程序2.1.2 准备 服务端 gdbserver2.1.3 准备 被调试程序 2.2 调试2.2.1 通过网络远程调试2.2.1.1 通过 gdbserver 直接启动程序调试2.2.1.2 通过 gdbserver 挂接到已运行程序调试 2.2.2 通过串口远程调试2.2…