车载GPT爆红前夜:一场巨头竞逐的游戏

在基于GPT-3.5的ChatGPT问世之前,OpenAI作为深度学习领域并不大为人所看好的技术分支玩家,已经在GPT这个赛道默默耕耘了七八年的时间。

好几年的时间里,GPT始终没有跨越从“不能用”到“能用”的奇点。转折点发生在2020年6月份发布的GPT-3,从这一版本开始,GPT可以做比较出色的文本生成工作了,初步具备了“智慧涌现”能力。

再后来,OpenAI在GPT-3.5里加入了个人机交互界面,做了聊天机器人ChatGPT,迅速席卷全球,在短短的两个月的时间里,用户数量迅速突破1亿大关。

d54a97a43f15abb874a8d19ea9aa6044.jpeg图片来源:英伟达

海外的谷歌、Meta、特斯拉,国内的百度、华为、阿里、字节这些互联网巨头纷纷加码在GPT大模型上的投入,再后来,本土电动车企形形色色的GPT也陆续问世了。

自2023年第四季度开始,问界M9上的盘古大模型、理想OTA5.0里的Mind GPT,蔚来汽车上的NOMI GPT、小鹏XOS天玑系统里的XGPT陆续上车,不仅帮你写诗,还能帮你做事。

那么,这些车载GPT是如何横空出世的,它们又将为汽车上带来何种变化呢?

一、大模型上车:开源 VS 闭源

早期,没有在大模型方面布局的本土车企是借助国内外开源的基础大模型自研GPT,这应该也算是业内公开的秘密。原因无他,真正自研大模型实在太消耗资源了。

大模型的赛道非常卷。为了缩短训练时间,且提高训练效率,OpenAI、谷歌、Meta这些巨头的基础大模型都是投入大几千张甚至几万张A100、H100显卡训练出来的。

1万张A100大约对应3.12E的训练算力。公开信息显示,国内头部车企里,华为用在汽车业务上的训练算力3.5E,百度为2.2E,蔚小理的算力规模都在1E左右。

在一次访谈中,马斯克透露过xAI的Grok(据说要上特斯拉的车)训练投入了8000张A100。从GPU小时来算,且不说这些闭源的参数量奔着万亿级别而去的大模型,即便那些开源大模型,其消耗的GPU资源都是不可承担之重。

据悉,Meta开源的LLaMA-2-70B的大模型,使用了2000个英伟达A100训练,耗费了172万个GPU小时;地表最强开源大模型Falcon-180B,使用了4096个A100 GPU,耗费了约700万 GPU小时进行训练。

bad4e9bafceca1cf8e7af546810eddaf.jpeg来源:马斯克访谈

无论从什么角度,不以大模型为主业的本土车企,都不可能为这个赛道投入这么巨大的资源,而且,几万张A100/H100(百亿美金)远不是这些现在基本上还无法盈利、只能依靠资本市场输血的车企所能承担的了的。

所以,采用开源大模型自研可满足车用场景的GPT,成了本土车企的捷径,也几乎是唯一可行的路径。

只有少数巨头强势赋能的车企,才会采用了自研基础大模型的方案。比如,华为系的问界、智界和百度系的极越,真要算起来,华为的盘古大模型和百度的文心一言问世的时间也不短了。

稍许遗憾的是,这两个大模型至今没有产生破圈效应,GPT上车的时间也并没有比蔚小理早很多。

这背后有一系列复杂的原因。

一方面,正如华为高管在2023年的华为开发者大会上所说的那样,“我们的大模型不做诗,只做事”,因为一直做着to B的生意,没有to C,所以没有被大众所熟知。

另一方面,盘古大模型和文心一言之前基础能力不足,基础能力的不足来自于参数规模比较小、训练数据和训练时间不足。

必须承认,直到OpenAI的ChatGPT问世之后,整个行业及业界专家才真正接受了比例定律Scaling Law,建立了可以通过扩大模型规模、增加训练数据量、延长训练时间实现模型性能持续提升的“信仰”。

信仰不足、意见不一是之前不够大的大模型基础能力不足,从而没有产生破圈效应的重要原因。

即便认可了比例定律的第一性原理,要从千亿参数迈进到万亿参数,也需要对模型设计做大量的科研工作,才能解决参数数量级提升引发的梯度爆炸等一系列问题。

无论如何,虽然同是率先将大模型技术搬上汽车的第一阵营,华为(问界和智界)/百度(极越)的大模型上车路径和蔚小理还是有着明显的区别,其本质的区别就在于前两家的基础大模型来自自力更生,而新势力的基础大模型很大可能来自于业界的开源方案。

二、 专心做训练也是一种自研

除了参数量达到1800亿的Falcon-180B(去年9月份开源),开源基础大模型的参数一般都在几百亿级别。这是巨头的游戏。

扎克伯格的Meta是开源大模型的主要贡献者,它们开源的LLaMA-70B的参数在700亿左右。

另一玩家是谷歌,也许是意识到了无法打败OpenAI,带着搅局或者不想让OpenAI垄断基础大模型市场的心思,谷歌正加快开源的动作,它最近开源了两个大模型——Gemma 2B和7B,可分别在端侧和云端部署。

根据这些巨头宣布开源大模型的时间做一个推论,蔚小理等本土车企们用的开源大模型的参数量大概在千亿左右。

这些开源基础大模型提供的不只是模型结构的细节,更重要的是,它们经过了万亿Token的训练,模型里的权重参数已经是完成度很高的可用状态。对于基于开源大模型做训练的车企而言,要做的工作是寻找或建立能够适用于车用场景的数据集,再进行微调训练。

在开源基础大模型上面做定制,从而训练出微调大模型的过程,就好比学霸上完了高中,并将他脑袋里成熟的神经网络复刻到你的脑袋里,然后你再去上大学选个专业,在这个专业领域单兵突进,继续深造。

比如,现在有专门面向医疗行业、财税行业的大模型,同样是在基础大模型之训练出来的。

再比如,一小撮程序员训练出来志在消灭大多数程序员的软件开发者大模型——GitHub Copilot,和最近让码农们闻风丧胆的Davin。

2de379619fcf4e4762d34aa69f21b65b.jpeg图片来源:GitHub

和华为系、百度系相比,蔚小理的GPT在参数量上也许小了一个数量级,但这并不意味着NOMI GPT们在车载场景下的专项能力一定会低于华为/百度系车企,几百亿参数的大模型足以将文本形式的所有人类知识压缩进去

再者,加大训练数据规模同样可以提升大模型的表现,可以认为,数据集的作用并不亚于模型参数。

在2023年的微软Build大会上,Andrej Karpathy大神在阐释参数量和Token数量对大模型性能的影响时,对2020年问世的GPT-3和2023年问世的LLaMA-65B做过对比。

8e5100d0d460e062147874f2d2f8c49b.jpeg图片来源:微软Build大会

2020年发布的GPT-3的参数量为1750亿,训练Token数量为3000亿(随着时间的增加,会继续追加训练数据规模),LLaMA-65B的参数量为650亿,用于训练的Token数量介于1万亿-1.4万亿之间。

GPT-3参数量更大,表现却不及LLaMA-65B,背后的主要原因就在于LLaMA进行了更加充分的训练。

在训练上,其他玩家也可以站在巨人的肩膀上,向训练完备、表现出色的大模型投喂更多的训练语料。而且,在一定程度上,语料库也是现成的。

过去几十年,除了寻求如何设计更加可泛化的推理机制,设计可通向人类通用能力和常识的神经网络和大模型,人工智能研究人员还把大量的精力放在了孜孜不倦地构建包含大量常识语料库的知识库上面。

比如,用于训练和评估用于检测机器释义文本模型的Identifying Machine-Paraphrased Plagiarism、通用文本分类数据集Wikipedia、Reddit 和 Stack Exchange、QA 数据集Quoref 、 基于文本的问答数据集TriviaQA等等。

这背后有大量的工作要做。因为,和基础大模型可以通过无监督、无需标注的数据进行训练不同,在基础大模型之上进行微调训练时,需要通过有监督和基于人类反馈的强化学习形式,在标注过的高质量数据集上进行训练,通过对话形式进行专项能力训练,工作量也不容小觑。

46e3b1c131ee54c0b07ce51c44a603f7.jpeg图片来源: Andrej Karpathy

三、大模型上车的部署路径

大模型自有其训练机制,在车端的部署路径也日益清晰。

按照难易程度和各个头部车企的大模型上车实践,可以做出一个比较清晰合理的判断:大模型将全面改造智能座舱,并有望在几年后真正部署在智能驾驶方案中。

智能座舱是人机交互集中发生的地方,人和机器或智能体的交互主要体现在机器对人类意图的理解、记忆和推理三个方面,大模型天然具备超强的理解和生成能力,并可以通过提高上下文的长度增强记忆能力,再加上智能座舱的容错能力特别强,所以,从技术和应用场景的契合度上,大模型和智能座舱可谓天作之合,也必然大幅度提升人机交互体验。

理想汽车在MEGA发布会上,介绍了Mind GPT的四大落地场景:百科老师、用车助手、出行助手和娱乐助手,基本总结了大模型技术当前在智能座舱领域的几个用武之地。

141b84bc3d4ffa9b7d14596b4e7173ba.jpeg图片来源:理想汽车

自动驾驶领域也是大模型可以大显身手的地方。

大模型对自动驾驶的意义目前主要体现在加快算法开发和模型迭代速度上,比如毫末智行发布的大模型DriveGPT雪湖·海若可以在“训练阶段”进行数据的筛选、挖掘、自动标注,在“仿真阶段”生成测试场景。

不过,由于自动驾驶对安全性的要求特别高,对实时性的要求也极为严苛,要在车端部署大模型形式的自动驾驶方案还需要很长一段时间。

业界还在探索在“开发阶段”利用大模型(生成式的多模态大视觉语言模型),比如理想汽车最近和清华联手开发的DriveVLM,部署在英伟达Orin X上的话,推理能力需要0.3秒

0.3秒是个什么概念?就是如果你以20米每秒(对应72公里每小时)的速度开车,0.3秒可以跑出去6米。。。这还仅仅是考虑到了实时性这个单一因素,还没有涉及到大模型的幻觉对安全性的威胁。

所以,大模型改造智能座舱可谓指日可待,但用在自动驾驶方面,只能说任重道远,未来可期。

总体上,面对激烈的市场竞争,本土车企不能放过任何一个风口,大模型这种超级大的风口绝对不能错过,其他车企今年会陆续传来大模型上车的消息,这一点基本上毋庸置疑。

接下来这一年,大家可能需要做好迎接各种车载大模型炫技的测评视频满天飞的准备,不过,也不用太理会他们说的怎么天花乱坠,大模型从“能用”到真正“好用”,再到产生破圈效应,诸位且耐心等一等吧。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/12206.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【STM32】状态机实现定时器按键消抖,处理单击、双击、三击、长按事件

目录 一、简单介绍 二、模块与接线 三、cubemx配置 四、驱动编写 状态图 按键类型定义 参数初始化/复位 按键扫描 串口重定向 主函数 五、效果展示 六、驱动附录 key.c key.h 一、简单介绍 众所周知,普通的机械按键会产生抖动,可以采取硬件…

注意力机制篇 | YOLOv8改进之在C2f模块引入反向残差注意力模块iRMB | CVPR 2023

前言:Hello大家好,我是小哥谈。反向残差注意力模块iRMB是一种用于图像分类和目标检测的深度学习模块。它结合了反向残差和注意力机制的优点,能够有效地提高模型的性能。在iRMB中,反向残差指的是将原始的残差块进行反转,即将卷积操作和批量归一化操作放在了后面。这样做的好…

软件工程期末复习(6)需求分析的任务

需求分析 需求分析的任务 “建造一个软件系统的最困难的部分是决定要建造什么……没有别的工作在做错时会如此影响最终系统,没有别的工作比以后矫正更困难。” —— Fred Brooks 需求难以建立的原因&#x…

矩阵相关运算1

矩阵运算是线性代数中的一个核心部分,它包含了许多不同类型的操作,可以应用于各种科学和工程问题中。 矩阵加法和减法 矩阵加法和减法需要两个矩阵具有相同的维度。操作是逐元素进行的: CAB or CA−B其中 A,B 和 C 是矩阵,且 C…

7nm项目之模块实现——02 Placeopt分析

一、Log需要看什么 1.log最后的error 注意:warnning暂时可以不用过于关注,如果特别的warning出现问题,在其他方面也会体现 2.run time 在大型项目实际开发中,周期一般较长,可能几天过这几周,所以这就需要…

探讨 cs2019 c++ 的STL 库中的模板 conjunction 与 disjunction

(1)在 STL 库源码中这俩模板经常出现,用来给源码编译中的条件选择,模板的版本选择等提供依据。先给出其定义: 以及: 可以得出结论: conj 是为了查找逻辑布尔型模板参数中的第一个 false &#x…

vs2019中__cplusplus一直显示199711

vs2019中__cplusplus一直显示199711,如何修改? 打开属性->C/C->命令行,其他选项,输入:/Zc:__cplusplus

aws s3

列出关键点 创建s3 设置s3策略,所有人访问 { "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor1", "Effect": "Allow", …

C#窗体程序设计笔记:如何调出控件工具箱,并设置控件的属性

文章目录 调出控件工具箱设置控件属性 调出控件工具箱 使用Visual Studio打开C#解决方案后,初始界面如下图所示: 接着,在上方的菜单栏依次选择“视图”“工具箱”,即可打开工具箱,如下图所示: 设置控件属…

Android开发,日志级别

5个日志级别 Verbose (VERBOSE): 这是最低的日志级别,用于输出最为详尽的信息,包括开发和调试过程中的各种细节。在Log类中对应的方法是Log.v()。Debug (DEBUG): 此级别用于输出调试信息,帮助开发者理解程序运行流程或状态。通过Log.d()方法…

产品品牌CRUD

文章目录 1.renren-generator生成CRUD1.数据库表设计1.数据表设计2.分析 2.代码生成器生成crud1.查看generator.properties(不需要修改)2.修改application.yml 连接的数据库修改为云数据库3.启动renren-generator模块4.浏览器访问 http://localhost:81/5…

解决使用Vue.js前端与Flask后端API交互时跨源资源共享问题

我在使用flask以及Vue做一个项目时遇到了Vue前端与Flask后端API交互的问题就是前端获取不到后端返回的数据,报错: 上网查说是跨域问题,于是找了一些解决办法,就是可以通过设置响应头的 Access-Control-Allow-Origin 字段来允许所有…

易货模式:引领交易新潮流,实现资源高效利用

随着全球经济的繁荣和科技的日新月异,传统的交易模式正面临革新。在追求高效、便捷与环保的当下,易货模式作为一种新兴的交易方式,逐渐崭露头角,受到越来越多人的青睐。 易货模式,简而言之,就是通过平台或在…

知乎广告推广投放流程以及价格?

知乎作为一个拥有庞大高质量用户群体的知识分享平台,成为了众多品牌不可忽视的广告投放渠道。知乎不仅汇聚了各行各业的专业人士,其独特的社区氛围也为品牌提供了精准触达目标受众的机会。知乎广告推广的投放流程、费用标准,云衔科技提供的专…

刷代码随想录有感(65):回溯算法——组合问题

题干&#xff1a; 代码&#xff1a; class Solution { public:vector<vector<int>> res;vector<int> tmp;void backtracking(int n, int k, int start){if(tmp.size() k){res.push_back(tmp);return;}for(int i start; i < n; i){tmp.push_back(i);bac…

全栈开发之路——前端篇(9)插槽、常用api和全局api

全栈开发一条龙——前端篇 第一篇&#xff1a;框架确定、ide设置与项目创建 第二篇&#xff1a;介绍项目文件意义、组件结构与导入以及setup的引入。 第三篇&#xff1a;setup语法&#xff0c;设置响应式数据。 第四篇&#xff1a;数据绑定、计算属性和watch监视 第五篇 : 组件…

Transformers中加载预训练模型的过程剖析(一)

使用HuggingFace的Transformers库加载预训练模型来处理下游深度学习任务很是方便,然而加载预训练模型的方法多种多样且过程比较隐蔽,这在一定程度上会给人带来困惑。因此,本篇文章主要讲一下使用不同方法加载本地预训练模型的区别、加载预训练模型及其配置的过程,藉此做个记…

计算机组成原理(超详解!!) 第八节 总线系统

1.总线的概念和结构形态 1.总线&#xff08;BUS&#xff09;的基本概念 是构成计算机系统的互联机构&#xff0c;是多个系统功能部件&#xff08;运算器、控制器、存储器、输入/输出设备&#xff09;之间进行数据传送的公共通路。 由传输信息的电路和管理信息传输的协议组成…

【数据结构】栈和队列专题

前言 上篇博客我们讨论了栈和队列的有关结构&#xff0c;本篇博客我们继续来讨论有关栈和队列习题 这些题算是经典了 &#x1f493; 个人主页&#xff1a;小张同学zkf ⏩ 文章专栏&#xff1a;数据结构 若有问题 评论区见&#x1f4dd; &#x1f389;欢迎大家点赞&#x1f44d…