大模型时代的开发者:从飞桨PPDE到文心布道师

f87db078451e0ef39796970fbe45f288.gif

飞桨开发者技术专家(PPDE)谢杰航研究方向为AI城市规划、景观设计、生态环境及农业等领域的应用落地。他在此前Wave Summit 2023深度学习开发者大会上为大家带来了主题为《大模型时代的开发者:从飞桨PPDE到文心布道师》的演讲。本次演讲共分为三个部分:从文科生到人工智能从业者、从深度学习到大模型和大模型与风景园林的深度融合。

8be7fcf44cb25676bf33a06c2d9de79c.jpeg

cf6eb770fb4ca598231ed71ef824670e.png

从文科生到人工智能从业者

谢杰航最大的标签是文科生,非科班出身。2019年,在没有任何基础的情况下,他系统学习了《百度架构师手把手教深度学习》《机器学习的思考故事》等课程,打下了坚实的基础。对他来说,2020年是求知探索的一年,也是学习最痛苦的一年,一路打怪升级,深度学习《高层API助你快速上手深度学习》《七天训练营》等一系列课程,从一名新手小白成长为行家里手。2021年开始,陆续为飞桨的开源社区做一些产业级的解决方案,包括并行化识别、无人机环境巡航等的开源项目。最后,在2021年9月,谢杰航成为了飞桨开发者技术专家。

7dbd9b6ed152008651f3ea54b6e081c9.png

在开源社区,谢杰航不仅参加了开发者大会、飞桨开发者等丰富多彩的线下活动,在线上,他还创作精选项目、加入飞桨兴趣小组,与飞桨社区共同成长。

f7af0fccb81bb47a8864d7bc1b67c3e7.jpeg

不论工程优化或者前沿算法多么复杂,都可以在飞桨解决端到端的问题,不需要用户到处去找开源库,去攒自己的方案。百度飞桨在2021年就发布了业界首创的4D混合并行技术,并且依赖这套技术数次在国际权威的Benchmark MLPerf Training上做到了世界范围的性能第一。

目前,PPDE已经成为国内AI领域最活跃的荣誉体系之一,主要有3个特点:

1、覆盖区域广泛,分布于33个省级行政区,已有超过三百位成员。

2、活动形式多元,定期组织活动形式多元的活动,例如社团市集、极客沙龙、AI体验、技术讲座等活动。

3、开源贡献丰富,飞桨开发者技术专家,从算子、底层代码、产业及案例等方面,为飞桨开发者社区做了很多开源的贡献。

205d4f38d239dce36f2f0f74804cb7ff.png

793aaea641a5c52d254cee8ebd1def5e.png

 从深度学习到大模型

今年,由于大模型的快速发展,对开发者来说,既是一次机遇又是一次挑战。从普通的开发者变成大模型的开发者,所有的开发项目都围绕大模型进行。然而,从以前的传统方式到现在的大模型方式,需要一个转变的历程。

传统人工智能应用开发方式,首先要有明确的业务需求,然后根据业务需求去寻找数据或者标准数据,进行大量的数据公测;其次,要有模型开发,模型训练,模型评估,模型压缩,模型加密,模型部署;最后,将模型结合一些工程的开发变成一个应用。

基于文心大模型应用开发的范式是截然不同的。同样是从业务需求开始,但是从数据工程环节之后却有很大变化。大模型最大的改变就是模型层面,现在很少有开发者研究模型,因为所有的开发都是基于大模型基座进行。就像文心一言一样,调参、微调训练、评估、部署、运维,都实现了一体化全自动。之前做AI应用,特别是大模型应用的时候,谢杰航总担心服务会不会挂掉。现在,交给文心大模型背后的运维团队后,只需要关注业务就行。

所以大模型时代,在建模方面不需要做过多努力,可直接利用API做应用。API结合Prompt模板管理优化或者使用流行的插件库,然后融入工作流(业务流),就能快速产生一个业务应用。

934056247092e8e34dbf641b84d33c02.jpeg

人工智能到大模型转向,其开发核心没有改变,依然是模型、算力和数据三要素,真正改变的是开发思维。

  • 在模型方面,通常很少去调整大模型结构,因为一旦调整,就要重新训练所有参数,一般开发者无法承受这样的训练成本压力,所以会选择大模型基座。

  • 在算力方面,由于硬件成本无法改变,所以把着重点放在推理加速、模型量化、压缩等技术上,这样就能用更少资源和算力把大模型运行起来,这是一个普通开发者需要关注的方向。

  • 在数据方面,只要把更多时间和资金投入到现在高质量、多模态数据的标注上,就能改变大模型生成结果,这是开发者能最大限度改动调优的部分。

31c4702a389cdb37b3247b2936d811b3.jpeg

因此,要做好全面储备拥抱大模型的趋势,深入了解前沿知识,快速提升技术能力,积极实践参加比赛,全面拓宽认知。

b7f1ffec9864c620e920fc1d3ebb6426.jpeg

bb28b13668a5bea1745f62275e4a9c3d.png

大模型与风景园林的深度融合

一个大模型的技术落地到业务,需要关注以下3个方向。

解构业务,找准需求

由于大模型的推理成本很高,必须要在业务流中弄清楚,哪些适用大模型,哪些适用普通模型、小模型;然后通过对业务流的解构,进而找到对应的需求,最后决定用大模型去开发哪些应用。

2a92983449dedd06113fd6cfd91230b6.jpeg

社区资源支持,为项目实现保驾护航

开源社区提供飞桨大模型开发套件、社区精选大模型开源项目、大模型开发课程等等资源。飞桨AI Studio星河社区提供GPU算力支持,开发者可以直接一键Fork这些项目,调换好数据,就能生成自己的项目。

98dc675e537ae1f8a2cee7696a3070af.jpeg

落地案例

基于文心大模型和飞桨AI Studio星河社区,谢杰航完成了景观效果图生成器、仙人掌 Cactus、城市规划法规标准查询助手三个案例,因为有充足的算力、数据、模型基座和开发套件,三个案例应用落地时间平均不到两天。其中,景观效果图生成器是最难的案例,用了整整两天时间。其他两个案例都是基于PaddleNLP的一些基座模型进行微调,开发速度非常快。

6099ffb1cd06d74b28fc6fec8262f96e.jpeg

成为文心布道师后,谢杰航在线上、广州、上海进行应用分享,探索出了开发者的发展路径,最大的感受是:

  • 同频共振,快速成长。通过布道去推动自己主动追踪学习和掌握当下最新开源技术,紧跟国际技术变化趋势,才不会落后于时代,才能与时代同频共振。

  • 开放交流,开源共建。与开源社区的开发者保持密切的交流和信息互通,了解行业对大模型的落地需求,共同探索、攻克行业大模型落地的难点,与开源社区共建大模型生态。

  • 技术融合,全栈能力。与以往基于云计算、大数据的开发技术栈不同,大模型开发落地需要更强的计算能力、更灵活的资源调度和管理能力以及弹性容错机制,大模型开发者除了需要掌握开发技术栈以外,还需要对数据工程和运维管理技术有所了解,才能保证大模型应用顺利落地。

本篇文章根据WAVE SUMMIT 2023深度学习开发者大会讲稿整理而成

91fdc29f930d22adeadf8179175d3cdd.png

90b5c3b488e119f5950d74c0b8e73412.jpeg

201f412f35b83d50cd999b104fb3b1df.jpeg

ef72c586bdd5554820e6b4ffb1204aeb.jpeg

0507c7cd9cd1b7664c1a7cdfb4714b29.gif

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/103324.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决MySQL错误-this is incompatible with sql_mode=only_full_group_by

报错 Expression #1 of SELECT list is not in GROUP BY clause and contains nonaggregated column ‘数据库名.表名.字段名’ which is not functionally dependent on columns in GROUP BY clause; this is incompatible with sql_modeonly_full_group_by 原因 MySQL错误-t…

Java架构师缓存性能优化

目录 1 缓存的负载策略2 缓存的序列化问题3 缓存命中率低4 缓存对数据库高并发访问5 缓存数据刷新的策略5.1. 实时策略5.2. 异步策略5.3. 定时策略6 何时写缓存7 批量数据来更新缓存8 缓存数据过期的策略9 缓存数据如何恢复10 缓存数据如何迁移11 缓存冷启动和缓存预热1 缓存的…

全新整合热搜榜单热门榜单内容系统聚合源码/带教程安装

源码简介: 在移动互联网时代,我们每天都会接收到大量的信息,但是想要知道哪些是最热门的话题和内容,往往需要花费很多精力去搜索和筛选。因为有这个需要,一个全新整合热搜榜单热门榜单内容系统聚合源码就应运而生了&a…

PMP证书有什么用?考试条件是什么?

PMP证书摆在明面上的一个用处就是在招聘项目经理岗或者PMO岗的岗位要求中都会有一条:持有PMP证书优先。面试的时候,如果两个候选人的经历、经验、期望薪资都差不多,那么HR就会更倾向于有PMP/ACP等证书的候选人。 PMP是什么? PMP是…

LabVIEW将视觉生成器AI用作OPC服务器

LabVIEW将视觉生成器AI用作OPC服务器 介绍如何将视觉生成器AI配置为OPC服务器,并使用共享变量共享视觉生成器AI生成的结果。OPC是一系列标准规范,定义了来自不同制造商的控制设备之间的实时数据通信。OPC数据访问通信是基于客户端服务器的通信。 共享系…

whistle安卓手机抓包(图文详解)

1、安装node https://nodejs.org (官网下载对应的node,一般推荐长期稳定版本 LTS) 需要node的版本是大于 v0.10.0 查看自己本地node 版本号 node -v2、安装whistle npm i -g whistle3、开启whistle 补充说明: ● w2 stop:关闭…

XML是不是主要用做配置文件?

2023年10月11日,周三下午 这几天发现tomcat的配置文件主要是用XML文件来写的, 于是就有了这个问题。 是的,XML非常适合用来做配置文件。 XML作为配置文件的主要优点: 可读性强。XML使用标签结构组织数据,内容清晰易懂。跨语言和跨平台。XML作为纯文本…

Servlet的部署与安全

1 Servlet 部署 Servlet规范关于各个东西该放在哪里有许多严格的规则。 1.1 WAR war文件代表Web归档(Web Archive),war实际就是一个JAR,只不过扩展名是.war而不是.jar。 其采用了一种可移植的压缩形式,把整个Web应用结构(去掉…

相似与不同:数字孪生和元宇宙的对比

数字孪生和元宇宙是两个备受瞩目的概念,都在数字领域产生了巨大的影响。它们有一些相似之处,但也存在显著的不同。本文将介绍它们的相同点和不同点,以及它们在不同应用领域的前景。 1. 相同点 虚拟性质: 数字孪生和元宇宙都是虚…

Linux引导故障排除:从问题到解决方案的详细指南

1 BIOS初始化 通电->对硬件检测->初始化硬件时钟 2 磁盘引导及其修复 2.1 磁盘引导故障 磁盘主引导记录(MBR)是在0磁道1扇区位置,446字节。 MBR作用:记录grub2引导文件的位置 2.2 修复 步骤:1、光盘进…

1014蓝桥算法双周赛,学习算法技巧,助力蓝桥杯

家人们,我来免费给大家送福利了!!! 【1014蓝桥算法双周赛 】 背景 蓝桥杯全国软件和信息技术专业人才大赛是由工业和信息化部人才交流中心举办的全国性IT学科赛事。参赛高校超过1200余所,累计参赛人数超过40万人。该…

PHP 员工工资管理系统mysql数据库web结构apache计算机软件工程网页wamp

一、源码特点 PHP 员工工资管理系统是一套完善的web设计系统,对理解php编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。 php员工工资管理系统 代码 https://download.csdn.net/download/qq_41221322/884215…

用手势识别来测试视力?试试用百度AI来实现想法

文章目录 ⭐ 前言⭐ 灵感来源⭐ 项目准备⭐ 项目实现⭐ 不足与展望 ⭐ 前言 10月17日,以“生成未来(PROMPT THE WORLD)”为主题的百度世界2023将在北京首钢园举办。百度创始人、董事长兼首席执行官李彦宏将带来以“手把手教你做AI原生应用”…

【安全】linux audit审计使用入门

文章目录 1 audit简介2 auditctl的使用2 audit配置和规则3 工作原理4 audit接口调用4.1 获取和修改配置4.2 获取和修改规则4.3 获取审计日志 5 audit存在的问题5.1 内核版本5.2 审计日志过多造成的缓存队列和磁盘问题5.2 容器环境下同一个命令的日志存在差异 6 参考文档 1 audi…

睿趣科技:未来抖音开网店还有前景吗

随着科技的快速发展,电商平台已经成为了人们生活中不可或缺的一部分。在中国,抖音作为一个短视频平台,近年来迅速崛起,吸引了大量的用户和商家。那么,在未来,抖音是否还能为商家提供一个有效的电商平台呢?…

1688关键字搜索接口

1688关键字搜索接口,即item_search接口,是一个通过API接口进行程序操作的工具。它通过将买家在前端页面输入的关键字转化为后端服务器能够识别的格式,从而实现对指定关键字进行搜索,并返回相关结果。使用该API不仅可以省去繁琐的手…

本土元素的魔力:品牌的全球化之路

随着全球化的不断推进,越来越多的企业正积极寻求国际市场上的机会。然而,进军国际市场并不是一项容易的任务,需要深思熟虑的战略和坚定的决心。在这个竞争激烈的环境中,一种被称为“本土化”的战略变得越来越重要。这种策略强调的…

Bootstrap-媒体类型

加上媒体查询之后,只有在特定的设备之下才能起作用!!!

前端--CSS

文章目录 CSS的介绍 引入方式 代码风格 选择器 复合选择器 (选学) 常用元素属性 背景属性 圆角矩形 Chrome 调试工具 -- 查看 CSS 属性 元素的显示模式 盒模型 弹性布局 一、CSS的介绍 层叠样式表 (Cascading Style Sheets). CSS 能够对网页中元素位置的排版进行像素级精…

Django实战项目-学习任务系统-用户注册

接着上期代码框架,开发第2个功能,用户注册,在原有用户模型基础上,增加一个学生用户属性表,用来关联学生用户的各种属性值,这个属性表是参考网络小说里系统属性值设计的,方便直观了解用户的能力高…