去年此时,ChatGPT横空出世席卷全球,许多人称其意味着AI的iPhone时刻到来。CSDN创始人蒋涛对此曾预测:「下一步就是应用时刻,新应用时代将来临……大模型将推动更多的AI应用程序员诞生」。
在2023亚马逊云科技re:Invent全球大会第三天的Keynote,亚马逊云科技数据和人工智能副总裁Swami Sivasubramanian博士关于亚马逊云科技生成式AI的最新能力、面向生成式AI时代的数据战略以及借助生成式AI应用提高生产效率的演讲中,可以真真切切地感受到亚马逊云科技将生成式AI应用开发门槛打下来,生成式AI新应用的到来。
Swami博士在开场中这样说道:“今天,人类和技术之间正展现出前所未有的紧密关系,生成式AI正以许多意想不到的方式提升人类的生产力。这种关系让人类与人工智能共同形成新的创新充满了无限可能性。”
基于此,Swami博士带来了亚马逊云科技一系列的产品,其关键作用在于:帮助所有开发及企业快速、安全、规模化地构建生成式应用。并且,Swami博士认为,数据是构建差异化生成式AI应用的核心优势,亚马逊云科技在生成式AI能力的基础上,从数据维度为所有企业保驾护航。
针对Swami博士的精彩演讲,亚马逊云科技人工智能产品市场经理宋洪涛、亚马逊云科技数据分析与人工智能产品总监Troy Cui、亚马逊云科技数据产品技术总监王晓野,以及CSDN人工智能技术主编袁滚滚联袂,在re:Invent全球大会现场展开了深入的解读与探讨,助力所有开发者及企业尽情拥抱生成式AI时代。
亚马逊云科技在生成式AI领域的布局
宋洪涛:今天Swami博士从非常独特的视角介绍了如何借助数据来构建自己的生成式AI应用,以及有了生成式AI应用之后,如何更好地改变我们的生活方式,提升自己的工作效率。在昨天的大会上,亚马逊云科技首席执行官Adam Selipsky也重磅分享了亚马逊云科技生成式AI技术栈的三层架构,这三层技术架构具体是什么样的?以及Amazon Bedrock升级带来了哪些亮点?
王晓野:亚马逊云科技投身生成式AI领域,其实与我们之前在云计算和其他领域的做法一脉相承。我们的目标是将一项极其复杂的技术变得更易用,降低使用门槛,使得任何人都能够轻松应用。
因此,基于这一大前提,我们提出了三层架构的理念。这样的分层结构有助于更清晰地组织技术,实现端到端地帮客户思考问题。
-
最底层是基础架构。一方面,它离不开基础模型的构建。这一维度模型的典型特点是参数规模比较大,从训练到推理、性能、一个模型可能要几个月的时间才能完成,成本在百万美金级别。亚马逊云科技希望在基础模型的训练和推理阶段,提供最好的基础模型的基础设施。比如Amazon SageMaker作为模型训练的核心产品,我们也把它划到基础设施这一层去帮助客户,把整个模型无论是训练还是推理的性能都做到极致。
-
另一方面,芯片也提供了强有力的支持。在这次大会上,我们与英伟达深度合作。实际上,业内最领先的GPU在亚马逊云科技可以使用。同时亚马逊云科技对于自研芯片Trainium和Inferentia,都更新到了第二代的水平。
-
中间层是存储,这一层可以让客户能更好地利用模型能力。此次,Amazon Bedrock进行了全新的升级,用户可以基于此平台挑选到最好的模型,以及获得最简单的使用方式。我们会根据用户的实际场景,例如Amazon CoderWhisperer代码生成助理,不断扩展平台的功能,以满足更多需求。
-
最上层是应用层,Adam在本届大会上发布了最重磅的产品Amazon Q,就是希望通过生成式AI助理为用户解惑,让了解业务的专家一直在线。应用层还涵盖开箱即用的生成式AI应用,为生成式AI用户和缺乏开发技能的业务人员提供便捷使用服务的途径,以加速工作效率。
Troy Cui:基于Amazon BedRock来看,它存在的意义在于亚马逊云科技帮助我们筛选市场上最优秀的模型,将这些模型提供给我们,使得我们自己无需再进行繁琐的连接步骤。现在,只需通过一个API即可直接访问这些模型。
这一次,Amazon BedRock最直接的改进之一是对这些模型进行了大量更新,比如增加了对Claude 2.1和Llama 2 70b的支持。其中,Claude 2.1模型在处理复杂的总结和推理方面非常强大,支持200k上下文token,而我们还进一步加强了对整个稳定性方面的支持,提供了强大的扩展性。
宋洪涛:亚马逊云科技最近发布了一款最新产品,名为Amazon Titan Multimodal Embeddings。多模态实际上代表了在生成式AI模型领域一个非常重要的趋势。对于我们的客户和基础模型而言,Multimodal Embeddings到底意味着什么呢?在技术领域,Embedding是一个经常被提及的术语,那么它究竟是用来做什么的呢?
王晓野:简单理解,可以将Embedding视为数字化。在聊天语言类模型火爆时,大家纷纷使用像向量数据库这样的工具,它将信息数字化,因为只有数字化后,我们更容易通过数学方法计算其相似性。因此,核心问题是将诸如"Embedding"这样的概念转化为数字,以便更轻松地寻找相似性。
这一次我们发布的是一个被称为“多模态”的概念,可能听起来有些抽象。它包括了图片、声音、视频等多种形式,而不仅仅是文本。在这其中最有用的场景之一是电商网站上的以图搜图。当我们看到一件喜欢的产品,比如手机壳,想要找到在哪个电商网站上购买时,我们可以拍照然后搜索。这时,我们就依赖中间层将这个图片转化为数字,这将提升搜索的准确性。
在数学层面,寻找相似性并不是特别困难的任务,因此关键在于模型能否在这个过程中有效地将两个图片或类似的元素的相似感觉转化为数字。在这一步骤中,模型的性能至关重要,因为它需要综合多个维度,如颜色、场景等,从而使两者在数字化转换后更加相似。
我们此次发布的模型更加注重在这一层面的表现,此外还包括了将图片和文字描述放一起考虑,能够更全面地呈现物品的特点。
加快生成式AI脚步的同时,如何保护隐私和保证安全?
宋洪涛:我关注到Swami博士宣布了几款大语言模型的更新,其中一个是Amazon Titan Image Generator文生图模型,Swami博士提到要做负责任的AI,比如通过不可见的水印方式,来更好的保护大模型生成的图片的版权。我知道在文书处理领域,版权问题或者是隐私问题实际上是很多客户的一个非常大的痛点。
袁滚滚:我的工作是属于内容创作,经常使用大模型生成文字和图片。OpenAI发布过Copywriter Shield Support版权盾支持计划,面向API开发者和企业客户,如果因为生成结果遭遇版权上的法律纠纷,OpenAI会给他们兜底。但相信未来大模型会应用到各个领域和场景,这类承诺的时效性是不确定的。因此,像图片水印技术,底层是较为成熟的数字水印技术,可以在多方面保护大模型生成内容的安全。
当你发现网上有违规的内容,怀疑是大模型生成的,可以通过图片水印去追责到它是哪个大模型生成的。还有一种是我通过咱们的大模型去生成附带数字水印的图片,可以保护作者版权。
王晓野:首先,Swami博士提到了目前关于图片水印技术的三个挑战:
-
第一,水印必须是不可见的,否则会直接影响图片。
-
第二,图片加水印意味着在推理过程中要额外消耗一些性能,但又不能因此延迟变慢,这些问题都需要解决。
-
第三,大部分人生成图片后都会再编辑,无法确保图片在编辑之后水印是否还在。
通过Swami博士的解释,我们可以发现一些以为很成熟的技术实际上并不容易也确实很重要,需要特殊处理和对待。同时,也能看出image generator模型与其他开源模型的区别在哪。如果企业真要用起来,这种模型可能值得第一个去尝试。
百花齐放的大模型,究竟该怎么选?
宋洪涛:在面对如此多的基础模型时,客户究竟应该如何选择最适合其业务场景的模型呢?亚马逊云科技是否已有相关产品或工具来协助客户做出更明智的选择?
TroyCui:在生产环境中选择大模型需要考虑多个因素。
-
首先,模型的准确度在问题回答中尤为重要。
-
其次,在生产环境中,你必须关注延时情况。
-
最后,如果你的产品将被大量用户使用,也需要考虑在大规模运作下的成本。
作为一个面向生产和企业客户的模型大型生态平台,亚马逊云科技发布了Model evaluation and selection,旨在帮助企业客户在生产环境中做出最佳选择。这个工具为你提供了在选择最适合的模型时进行比较的选项。整个比较过程将综合考虑这三个关键因素,帮助你在准确性、延时和成本之间取得平衡。这个工具以一种轻松而便捷的方式,为企业提供了价值和持续交付的途径。
袁滚滚:在模型选择上,我们刚刚提到了Amazon BedRock现在支持Claude 2.1以及Llama 2 70b。在此之前,大家总觉得GPT是一个断层式领先的大模型,只要选择GPT就对了。
但其实随着时间的推移,其他的一些模型都有很大的提升,与GPT差距逐渐缩小。比如说Claude 2.1对长文本的支持,以及它对文件上传的支持,其实都可以帮助用户找到适合的场景。Llama2是开源的基础大模型,具有非常完备的生态,有很多开源的工具和组件也可以提升模型效果,所以其实并不是只有GPT一个选择。
宋洪涛:在过去半年的时间里,我们可以看到一个叫RAG(Retrieval Augmented Generation)的技术成为了企业用户构建生成式AI应用时的主流选择。Troy Cui老师能否以一种深入浅出的方式向大家介绍一下RAG的具体原理?
Troy Cui:大语言模型的基本能力是理解和表达,即完全理解你所说的事情、了解你的意图等,RAG则是在此基础上赋予大模型记忆的能力。当大模型遇到一些问答或搜索场景的时候,先会理解对方的意思,再到记忆里去检索,最后输出结果。所以简单来说,RAG其实是把向量数据库和大语言模型以这种方式进行结合来赋能的。
在使用RAG的过程中,实际上会涉及到许多组件。首先要用到Embedding模型,将已有的内容知识,包括文本、图片等多模态内容变成向量,然后把这些向量化的数据存储到向量数据库中。当真正面对业务流程时,你还需要处理许多方面,比如性能优化、各种调整工作等,最后还要将其构建成一个完整的package,以便对外输出。
因此,RAG的概念听起来虽然很简单,但要将其工程化以形成一个能够对外赋能的业务,实际上还需要进行大量的工程化工作。
宋洪涛:今天Swami博士宣布接入了一项名为Knowledge Bases for Amazon Bedrock的服务,这项服务是否能帮助客户或应用开发者在一定程度上解决您上面提到的挑战或困难?
Troy Cui:今年,亚马逊云科技进行了非常多的发布,很多都致力于协助企业客户融入具体服务场景。例如在某个具体场景中,我们会提供一个相对实用的开箱即用工具,让客户可以直接在这个场景中赋能和上线——而Knowledge Bases for Amazon Bedrock提供的就是这么一个能力。
刚才我们提到,整个知识库处于检索的场景里,客户可能把数据放在了Amazon S3,可以通过Amazon Bedrock将它直接转成向量,并勾选一些Embedding的向量数据库,包括Open Search、Pinecone、Redis,之后还会有Aurora、MongoDB等更多新的数据库。然后通过向量数据存储,将其送给模型以形成一个反馈。
因此Knowledge Bases for Amazon Bedrock就相当于已经把整个端到端的工作都package好了,企业可以直接拿出来进行业务赋能。
以低代码、无代码的方式,更快捷构建生成式AI应用
宋洪涛:我今天看到Swami博士提到了一个叫“Agents for Amazon Bedrock”的工具,想请晓野老师给大家简单的剖析一下Agents for Amazon Bedrock,它将如何帮助开发者用低代码甚至无代码的方式去构建生成式AI应用?
王晓野:Agents for Amazon Bedrock的实现逻辑是能先帮你做任务规划,Swami博士每次都会用买鞋换颜色来举例。客户买鞋要求换颜色的场景下,需要做任务规划:第一步模型会帮你核实购买记录,再对照换购政策,判断是否能换鞋退货,然后执行退货任务,接着进入物流任务,下一步和客户做差价结算。
每一步背后都需要一个微服务,而要跑这种单一功能的函数,最适合的就是在Lambda这种无服务器计算服务上。Agents for Amazon Bedrock的作用就是把这些工作流程串起来,自动帮你做任务编排:只要你告诉它这个函数是干什么的,它基本就能把这件事情推理明白并推进执行。
宋洪涛:如何打通生成式AI应用从POC(Proof of Concept)到落地的“最后三公里”,是目前很多企业头疼的问题。基于此,Swami博士分享了一个针对Anthropic Claude的客户定制模型项目(Custom model program),晓野老师能否介绍一下?
王晓野:首先,我们争取降低客户开发门槛,例如通过产品让模型更容易访问,通过安全Agent帮助完成任务,使构建生成式AI应用更容易。客户评估这个产品是否有效,取决于最终的业务产出,但这需要一个不断变化的迭代过程。
为此,我们推出了这个全球化项目,并形成了Generative AI Innovation Center这个组织部门。本质上来说,这个项目是提供人力支持,即一组专家去帮你调教模型,包括改prompt、做RAG等复杂的工程化工作,来帮你用好Anthropic Claude,并针对企业业务做定制化模型。在中国,这个专家团队叫做Innovation Lab。
为算法工程师降低运维门槛
宋洪涛:对于大多数的模型提供商而言,Amazon SageMaker HyperPod是一款很受欢迎的产品,在训练、部署、推理优化方面,它能有效提高开发效率并降低复杂度。那么对于今天发布的Amazon SageMaker HyperPod,各位有什么理解和看法?
袁滚滚:在Swami博士分享的时候已经提到Amazon SageMaker HyperPod非常适用于基础大模型,在训练阶段减轻运维负担。
基础大模型训练的时间周期可能要十天半个月甚至更长,算力成本也更高,有非常多复杂的运维问题,算法工程师不一定能解决。比如说我们的一台服务器Crash之后,怎么样去定位问题,需要很强的工程经验和能力。快速定位是数据问题,算法问题,还是集群问题,再去解决问题。
Amazon SageMaker HyperPod就是提供了非常自动化运维的训练集群,可以快速定位到故障节点,然后自动化替换,再重启上一个Checkpoint的训练任务。我相信Amazon SageMaker HyperPod能够可以解放很多算法工程师,在模型训练阶段的运维压力。
Amazon Sagemaker HyperPod预装了Amazon SageMaker的训练库。所以只需选择自己需要的训练环境,自定义训练库和调优工具,然后就新建实例,就直接开始训练任务。
王晓野:这点确实非常重要。现在市场上AI人才本就较为短缺,很多都去训练模型了,对于如何运维、检测机器故障、如何排查问题等工作很难负担,很多时候会忘记做Checkpoint,重启就回到了两三天前,很耽误开发进度。Amazon SageMaker HyperPod的出现,能让数据科学家从底层的运维问题解放出来,更专注于模型的超参数调整等工作。
宋洪涛:从全面的产品角度出发,向量数据库是一个十分重要的组成部分。请Troy分享一下,亚马逊云科技在数据库产品这一侧是怎样去支持向量能力的?
Troy Cui:我认为向量是将整个客户数据进行向量化,以在未来为业务提供更好的服务能力,这是当前的一个大趋势。在实际中,有不少客户会好奇:为什么亚马逊云科技不做一个名字就叫向量数据库产品,而是发布如此多的向量功能呢?对此,亚马逊云科技希望在每一个数据基础上,客户都能拥有选择权,让客户将数据存放在最适合存储的环境中,并赋予环境向量化能力。这样,当真正需要向量支撑的业务时,他们不需要将数据从已存储的数据挪到向量数据库里。基于这样一个大的思路,我们希望给客户一个说明,无论数据存储在哪里,你都随时拥有使用向量化的能力。此次大会上,我们又发布了一些具备向量存储环境的数据库能力。目前,亚马逊云有7个具备向量存储环境能力的数据库产品,让客户有许多选择。
生成式AI正在彻底改变开发者的工作方式
宋洪涛:之前亚马逊云科技推出了一款名为Amazon CodeWhisperer的产品,旨在从代码开发的角度助力开发者提高编写代码的效率。现在引入了Amazon Q,与Amazon CodeWhisperer相结合,是否能够进一步提升开发者在代码开发方面的体验和效率呢?
袁滚滚:CSDN在前一阵子在社区进行了调研,数千开发者填写了问卷,提交他们代码生成工具的使用习惯。结果有近90%的开发者都已经试用过了各类代码生成工具,接近40%的开发者现在每天都在使用。我们也对大家的工具选型做了调查,Amazon CodeWhisperer也是遥遥领先的。
代码生成的应用场景,或者说开发者使用代码生成工具生成什么内容呢?常见用途有单元测试、代码注释、学习新语言或者编写跨技术栈产品。
还有一类情况,比如某个编程语言的发生了变化,尤其是新版本发生了大改变时,我们需要通过代码生成工具来了解这些变化。
所以开发者是使用场景很复杂,使用环境也很复杂,有些在是通过IDE里的插件使用代码生成工具,有的是在对话式窗口使用,还有的通过本地部署使用。Amazon Q能够针对不同的用户需求,更加细粒度的解决这个问题。
王晓野:在代码应用场景中,我们并没有分得那么细,统一将其归纳为代码生成,但实际上这一领域涵盖了许多不同的功能。这一次,Amazon Q并非提供所有可能的代码生成功能,它的核心是在你原有的一部分代码基础上,利用大型模型理解你的原始代码的功能,并在此基础上生成新的功能,对某些代码段进行增强。
我们希望在这个特定的领域提供一种新的能力。此外,代码的翻译和转换也是我们关注的重点。当然,未来会有更多的应用场景,但目前我们建议大家首先关注这两个核心能力,以便更好地理解其基本原理。
Amazon Q以企业级AI助理为Slogan,为业务领域工作人员提供一个智能化助手。用户可以直接连接到自己业务的数据库,例如里面包含员工工资的数据库,然后与助手进行对话。在设计时,Amazon对数据保护和权限便在考虑。一开始,当你进行连接时,它会与你的企业的单点登录(SSO)进行集成,通过SSO中设置的角色权限了解你能访问什么。举例说明,当一个普通员工而不是经理询问整个团队其他成员的工资时,它将限制这个权限,不会回答这样的问题。因此,它充分考虑了企业的相关因素。
未来Amazon Q会针对更多的场景进行开发。目前,我们推出了一个可能会受到一些客户欢迎的平台——Center,它涵盖了我们的呼叫中心。同时,在业务智能(BI)领域,我们也引入了助手。
宋洪涛:帮助开发者借助于生成式AI的应用来提升个人的效率,以及持续推动生成式AI的普惠化,是亚马逊云科技一直以来的愿景。基于此,除了上面产品之外,Swami博士在演讲中还带来一款与Amazon Bedrock名字相似的产品——PartyRock。那么,这款产品到底有什么作用?
王晓野:PartyRock的底层是基于Amazon Bedrock研发的。简单来看,它相当于是一个“游乐场”,让开发者感受到生成式AI+Agent的能力所散发的巨大潜力,以及让众多开发者发挥想象,去创新创造。
Troy Cui:我认为可以将其视为一个体验区,甚至不需要亚马逊云科技的账号,可以在PartyRock上尝试网络体验。
袁滚滚:我强烈推荐尝试一下PartyRock,它实际上是基于Amazon BedRock打造的一站式AI应用生成工具。你甚至无需注册亚马逊云科技的账户,就能够免费使用亚马逊云科技的云资源,轻松生成令人惊叹的Web和App应用,并可以与他人分享。更有趣的是,它在线上已经提供了一些示范应用,有些甚至功能异常强大,底层采用了Claude2的先进模型技术,让人感到非常惊喜。
对开发者的建议
宋洪涛:最后请各位用一句话总结一下观看Swami博士演讲的感受,以及对当代开发者的建议。
袁滚滚:我写了一句话:云服务霸主,深度拥抱AI、企业与开发者,共享技术红利。这实际上也是对我们开发者的号召,希望大家都能抓住这波人工智能技术、大模型技术的机会,在亚马逊云科技坚实的云服务基础上,开发更多新的创新应用。
王晓野:我想基于Amazon Q产品的定位与大家分享我们想要实现的目标,以及产品迭代时优先考虑的一些关键维度和因素,一切的基础其实就是企业需求。
重视企业需求,即企业的数据是否有被认真对待、数据隐私的保护以及是否能够通过个性化数据定制来打破商业壁垒。在满足企业需求的前提下,我们需要负责任地确保产品能够为企业提供实质帮助。
Troy Cui:从数据层面来看,亚马逊云科技将进一步解决隐私与安全问题,让客户完全不用担心这部分,而是将更多精力放在数据价值的挖掘上,而非关注那些耗费时间却重复的工作。
宋洪涛:感谢三位老师的精彩总结。我们非常幸运地处在生成式AI爆发的时代,期待后续的生成式AI能为我们的工作和生活带来更多便利。