智能体(AI Agent),正在将用户对大语言模型的使用分成两种截然不同的方式:同样是写一篇文章,在非智能体工作流中,用户输入提示词,然后等待大模型生成答案的整个过程,就像中间不使用退格键而从头到尾打出一篇文章;有了智能体工作流的加入,当用户在写作过程中碰到需要联网查资料时,就可以借助大模型对话框之外的内容,修改文章。
加入工作流程更容易迭代的智能体后,用户最终的成稿效果无疑将更好。具体能有多好?百度前首席科学家、斯坦福大学教授吴恩达给出的研究结果是,“处于智能体工作流中的GPT-3.5,实际上优于GPT-4。这是一个信号。AI智能体工作流将在今年推动AI取得巨大进步,甚至可能超过下一代基础模型。”
在吴恩达看来,智能体工作流,将可以帮助我们在通往AGI的漫长旅程中向前迈出一小步。
类比智能电动汽车,犹如其在新能源技术应用和里程焦虑之间寻找到某种平衡的增程路线一样,智能体,就仿佛大模型领域的“增程路线”,在AI技术应用和生成幻觉之间尽可能达成新的平衡。
2023年是基于大模型的AI产品大爆发的一年;2024年,则正被行业形容为智能体的爆发之年。
能够减少幻觉出现的智能体,在提升工作效率方面的应用,同样值得期待。大型数据库提供商MongoDB的CEO戴夫·伊蒂切里亚就曾在谈及AI当前应用时表示:“我注意到电子邮件中出现了一些新功能提示,比如‘你想用AI重写这张便条吗?’然而,这些功能并未真正给我的生活带来颠覆性的改变。”
在戴夫看来,只有提供更为出色的功能,大模型才能吸引更多人在上面投入巨额资金,“我坚信智能体将是工作流程的下一个重大突破。”
包括OpenAI、微软等公司,纷纷加入开发并应用智能体的生态大战之中。国内厂商也不例外,以百度为首的一众国内大模型玩家,基于各自的基础模型,相继对外发布了智能体开发平台。
随着智能体应用日益得到重视,有着移动互联网产品和流量红利的科技大厂,无疑在这场竞赛中占据了抢跑优势。
移动生态,成了百度在这波智能体浪潮中的潮头。
在5⽉30⽇的2024百度移动⽣态万象⼤会上,百度集团资深副总裁、百度移动生态事业群组总经理何俊杰率先展示了搜索上的新变化。
以前,想要搜索“大兴机场哪个航司准点率最高”,用户需要跳出百度APP,结合其他出行APP给出的数据来自行研判;现在,借助“智慧数据智能体”,百度APP可以直接以图表形式呈现各航司的准点率,犹如为人人配备了一名专业数据分析师。
借助“AI图片助手”智能体,人人还可以化身设计师。无论日常创作还是做PPT配图,对不满意的图片,不管是想要涂抹掉路人,还是想让画面里的天空变蓝,抑或是想把写实的照片变成动漫风格,百度搜索的“AI 图片助手”,都可以按照要求完成一句话P图。
目前,“AI 图片助手”功能正在灰度测试中,未来将全量上线。
临近高考,现在在百度APP中搜索高考填报志愿,**考生和家长还可以借用智能体“AI志愿助手”,帮助获得一份满意的志愿填报方案。**在百度APP提问“600分能上什么大学”,“AI志愿助手”就会给出相应大学的推荐列表。对于学校地理位置、宿舍有没有空调等家长关心的更多复杂问题,“AI志愿助手”还支持多轮互动,持续输出相应答案。
据字母榜(ID:wujicaijing)了解,目前,百度搜索中已经有11%的搜索结果是由AI生成。
除了百度搜索之外,智能体的应用已经覆盖到百度移动生态的各个产品之中。
打开文心一言APP,用户根据个人需求,可以直接调用“谈薪指导师”智能体、“英语口语练习”智能体等等。
百度优选的慧播星则是业内首个AI全栈式数字人直播解决方案,依托多项生成式AI技术,让直播带货实现了“自动驾驶”,每个人都可以5分钟打造一个数字人智能体。截至目前,慧播星已累计帮助数万商家降本增效,直播运营成本降低80%,GMV平均提升62%。
百度也是业内最早布局智能体的大厂之一。2023年9月,百度发布“灵境矩阵”文心一言插件生态平台,同年12月升级为“灵境矩阵智能体平台”,今年4月份的Create大会上,再次升级更名为“文心智能体平台”。
在文心智能体平台上,拥有开发能力的个人、组织,可以自主开发智能体;不懂代码、0基础的菜鸟小白,同样可以运用零代码模式,零成本一句话创建智能体。
目前,文心智能体平台支持一个账号最多可创建50个智能体。有一位19岁的大一学生,已经相继创建了29个智能体,其中22个已发布上线可见,涉及的类型包括论文助手、购物助手、消费维权、短视频策划、文化探索、猜灯谜、文案助手等等。
如何将更多开发者、普通用户吸引到自己的智能体平台上来,在这场新的生态之战中,比拼的是谁能为智能体应用提供更好的流量扶持,谁的基础模型底座性能更强大。
没有移动互联网超级应用傍身的OpenAI,在今年1月上线GPT store后,很快便遭遇热度难以为继的困境。
根据Similarweb网站数据,2023年11月GPT store亮相后,其月均访问量一度达到4280万次,到2024年1月,这一数字降至约640万次,访问量流失了将近40%。缺少有效分发机制,成为导致GPT store用户热情消退的原因之一。
在依然是生成式AI最重要入口的搜索领域,百度无疑在智能体的分发和运营上有着先天优势。今年一季度财报数据显示,百度APP月活已达6.76亿,借助超级应用的产品规模效应,百度文心智能体平台的定位不仅是一个纯开发平台,更是构筑起一个覆盖“开发+分发+运营+变现”的商业闭环。
为了进一步提高智能体曝光度,5月份,百度搜索加码推出“互动频道”。互动频道,成为百度搜索为智能体分发开辟的一个全新场域,该界面聚集了大量各个领域的专业智能体,供用户随时@特定智能体,答疑解惑,例如你可以@苏轼、鲁迅等智能体进行深度对话。
值得注意的是,为了做好智能体应用的分发,有机会被更多用户用到,百度还打通了智能体在百度搜索、小度、文心一言、地图、车机等多场景、多设备的流转落地,从而在做到人人可开发的基础上,更进一步实现人人能分发、人人可获益的新目标。
依托多样化的分发场景,百度不仅有望吸引更多智能体开发者加入生态建设中来,还能够通过更多用户的使用帮助智能体获得数据反馈,使得模型自主调优,从而让智能体越用越聪明。
基础模型更新迭代能力,同样决定着智能体的聪明程度。一度专注于智能体的明星初创公司Adept,在日益激烈的大模型性能竞争之下,近期被爆出公司可能出售的消息。
百度智能体背后的文心大模型,则仍走在持续迭代的路上。早在2019年,百度就推出了1亿参数规模的文心大模型1.0版本,随后又在2.0版本升级至10亿参数,ChatGPT发布后不久,即推出了3.0版本。
过去一年,文心大模型经历了从 3.0 版本到 3.5,再到 4.0 版本的进化。据此前报道,百度将于明年发布文心大模型5.0版本,很多人猜想其在多模态、低延时、参数等方面可能有显著提升。
面对当下一众大模型向内“卷算力”“卷参数”的竞赛,何俊杰提出,大模型更应该向外“卷场景”“卷问题”,在先进的基础模型底座之上尽可能生长出越来越多的智能体应用,从而帮助具体的人,解决具体的问题,并在不断满足需求的过程中,反向促进基础模型的不断进步。
技术和应用是相互促进、相互激发的关系。文心大模型5.0如果推出后,无疑对百度搜索、百度文库、文心一言APP、百度APP等移动生态应用来说,是一大利好,比如,如果百度文库这类生产力工具应用新一代大模型,可能带来更丝滑的多模态能力,一个创意能毫秒级产出小说、漫画、有声剧、视频等各类内容,无疑给文创行业带来巨大的生产力提升,很多行业的商业模式也可能因此改变。或许,百度已经在酝酿之中。
越来越多智能体应用的落地,还将为现有的移动生态筑起一道新的护城河。
在百度将AI嵌入移动生态之际,谷歌同样选择了把生成式AI带入旗下主要产品。那些一度被视为挑战传统搜索的AI产品,却并未带来所谓的颠覆效果。
融入ChatGPT的新必应推出后,微软CEO纳德拉曾寄望于借此挑战谷歌搜索地位。一年多后,StatCounter数据显示,截至2024年4月,谷歌在搜索市场份额仍占到90.91%,必应为3.64%。这意味着,自宣布集成ChatGPT以来,必应在搜索市场的份额仅上升了不到1%。
全球范围内,微软没有实现靠必应扩大搜索市场份额的野心,国内甚至没有出现百度搜索的直接挑战者。
智能体与搜索的融合,可以帮助完善百度搜索的内容库数量和质量,最终带给用户更好的搜索体验。
更重要的是,随着越来越多智能体应用的落地,百度还将率先积累起庞大的用户群,并有望借助新的用户数据反馈,推动文心大模型能力的持续迭代,进而提供给用户更好的智能体使用体验。
正如近期李彦宏在对外演讲中所说,“很多人都在关注GPT-5的发布时间,但我更感兴趣的是,哪些应用可以充分利用大语言模型的所有能力。”在李彦宏看来,“应用的进步,可以推动基础模型的创新,也有助于加快从互联网时代向人工智能时代的转变。”
在效率跟效果的大模型飞轮效应中,智能体,正成为推动转化过程中的一道新齿轮。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。