2023最大技术潮:大模型冲击下的智能汽车

作者 |德新

编辑 |王博

0be7182827bebea81197a8e2b930faa4.jpeg

过去这年最大的技术潮,非大模型莫属。

2023年初,由ChatGPT掀起的浪花,迅速地演变成了席卷全球的AI科技浪潮。汽车行业在其中也不可避免。各大车企纷纷投入与大模型相关的布局。

  • 长城官宣成立了AI Lab,到2023年9月AI Lab已经有超过400人规模,这支团队由长城智能化副总裁吴会肖带队,并由AI Lab负责人杨继峰领衔。长城的AI Lab又称智能空间实验室。很明显长城的大模型发力的首站会是智能座舱空间。
  • 吉利在汽车研究院下也成立了类似的机构,AI智能研究部。吉利汽车集团CEO淦家阅在这年中期透露,吉利已经具备全栈自研的大模型技术。吉利自研大模型最早上车的车型,可能是马上要上市的银河E8。
  • 理想则在2023年6月份公布了大模型MindGPT,其原有的座舱人工智能助手理想同学将基于大模型打造新一代的多模态人机交互技术体系。MindGPT所展示的功能,在理想最近更新的OTA 5.0上刚刚落地兑现。

尽管由于车端算力的限制,千亿级参数规模的大模型还未被搬上车,但「BEV + Transformer」的框架在这年中几乎统一了所有厂商的智驾感知系统。无论在智能驾驶还是智能座舱上,更大规模、更为通用的模型正在替代此前多个专用小模型的格局。

「AI大模型不是普通的技术和创新,而是技术范式级的创新。」北大光华管理学院组织与战略管理系副教授王铁民在最近的一次分享中这样总结。

什么叫「范式级的创新」?科学哲学家托马斯·库恩早在1962年给了一个定义,是指「那些公认的科学成就,在一段时间里为实践共同体提供典型的问题和解答」。

简单来说,在未来相当长一段时间内,AI大模型将是很多技术问题的答案。

一、大模型上车,首先从座舱语音开始

关于大模型上车给车端带来什么,在过去一年中有很多讨论与实践。

49c27a39337c87efc7c96a57118d8a98.jpeg

腾讯智慧出行副总裁钟学丹,在近期腾讯与北大光华联合举办的「AI+出行」产业沙龙上,这样总结AI赋能下的汽车新智能:

  • 第一,它重新定义了汽车的人机交互方式;
  • 第二,明年或者在未来一段时间内,无论是高速还是城区的自动驾驶,将涌现越来越多的端到端的技术;
  • 第三,舱驾一体的趋势将加快落地;
  • 第四,汽车将变成开放的平台,将接入更多的服务和体验内容,来帮助用户解决实际的问题。

236aae321004532ba0cc49d42bc5ca97.jpeg

座舱领域,尤其是语音交互,可能是过去这年用户感知变化最为明显的领域。

钟学丹认为,当前结合大模型,语音正在发生新的变化。交互方式正从规则模式是转变为更自然的方式;交互场景,从过去单一任务的交互,转变为基于多任务的应用;座舱也正从单一语音交互向多模态交互转变。

iPhone开启了消费电子的触控交互时代,目前绝大部分消费电子的交互都是以触控为主,汽车也延续了这样的交互方式。但差别在于无论是手机、iPad还是电脑,都属于大部分时间是一个人使用的私人设备,汽车是比较少见的一对多的设备。所以,汽车当前以触控为主、语音为辅的交互方式未必是最佳方案。

理想汽车智能空间副总裁勾晓菲认为,大模型的出现让语言的理解能力迈上了一个新的高度。因此,从智能空间的角度,理想希望推动未来车内的主要交互形态,从触控为主、对话为辅,逐步向以对话为主、触控为辅转变。

因为对话式的交互,用户是完全开放式的输入,所以下个阶段行业面临的很大挑战是,座舱一端的输出也要变成开放式的——即所有的UI都会变成生成式的,UI的布局要根据用户的语言逻辑自动生成,高度匹配用户的语义。

与此同时,今天座舱应用提供的能力都是基于各个公司的垂直领域相互独立的。比如用户要去吃望京的美食,需要跨美团和地图两个应用。未来不同的科技企业都会有属于自己的Agent,它代表了各自公司的通用能力和私域能力,这些Agent可能会像人与人一样组建成社会网络。在数字世界里,Agent组成的社会网络,通过这种全新的接口形式把各家的能力联通起来。

二、大模型驱动的下一代自动驾驶

理想汽车有一组内部数据,60%的出行场景下,只有驾驶员一个人在车内。所以如果不能通过自动驾驶把驾驶员解放出来,智能座舱是无法发挥价值的。

与高度个性化的座舱服务不同,自动驾驶是极度标准化的功能。勾晓菲甚至认为,「自动驾驶一旦实现,是没有什么想象空间的,但座舱的人机交互背后有强大的生态和非常多的服务,背后有无限的想象空间。」

自动驾驶目前所处的阶段,无论从技术研发还是市场占有率上,都在高速增长。

由于城区自动驾驶功能的快速推进,「BEV + Transformer + 占用网络 + 无图化」是过去这年头部车企的主力研发方向。「BEV 上车」,以具备鸟瞰视角(Bird's Eye View)的大模型实现了多摄像头的融合感知,从而大幅提高了智驾感知的数据驱动比例。

在上一年的CVPR 2023上,还提出了UniAD的论文工作,将感知、决策、规控等模块整合到一个端到端的网络。以一个深度神经网络为基础,以提升最终的驾驶体验为目标进行端到端的优化,可以极大地提升智驾系统的开发效率。

特斯拉FSD的下一个大版本,V12也将引入端到端的网络。

钟学丹认为,过去业界在开发自动驾驶系统时,做的是感知与规划分离,这种分离的方式是不符合用户的驾驶行为和体验的。而如何实现端到端的自动驾驶全链路的模型,更多关注到最终达成更好驾驶体验的目标,是更重要的解决路径。

除了对自动驾驶端到端技术架构的影响,大模型也在帮助提升针对训练需要的海量数据标注。

在Mind GPT发布之后,李想就曾经表示,理想内部一年要做大概1000万帧的自动驾驶图像的人工标定,外包的价格大概6元到8元钱一张,一年成本接近一亿元。当使用大模型进行自动化标定,过去需要用一年完成的工作基本上3个小时就能搞定,效率提升千倍。

从车端到云端,大模型正全面推动自动驾驶的体验进化。

三、掘金大模型的挑战

除了智能驾驶、智能座舱这两大最常见的智能化领域,汽车从生产、制造、营销、服务的全链条,也可能被大模型改造。

腾讯智慧出行副总裁钟学丹提出了一些案例,比如在设计研发领域,腾讯云AI代码助手的能力已经可以帮助开发团队完成编码的编制、测试以及质量提升

通过AIGC生成的数字化营销内容,可以帮助销售团队更好地理解用户。比如在卖车的过程中,每个用户对车的需求和想法都不一样,如何为TA创造独特的内容,如何让内容的表述更好地切中潜在车主的需求,将对销售转化有很大帮助。

长城汽车AI Lab的负责人杨继峰也告诉我们,内部已经开始使用AI长做在做造型设计,并且其使用AI的作品与人工设计的作品拿来做图灵测试,目前已经很难辨认出来是否是由AI设计的。

0692afca6027f75d84f1b24a3160ae1d.jpeg

钟学丹也提到,大模型要在全产业链条上落地,目前有三大挑战,模型挑战、数据挑战以及算力挑战

算力挑战最容易理解,当前高算力的GPU对全行业而言都是稀缺资源。

HiEV获悉一家互联网巨头在年初向英伟达下了10亿美元的GPU订单,但随着对高算力计算平台的出口限制,GPU越发稀缺,尤其在去年9/10月之后,不少企业的供应链团队都在加班加点解决算力的缺口问题。

而数据挑战,源于对数据合规与数据安全的要求,尤其在自动驾驶领域,车辆感知的数据处理不当直接影响地理信息安全,而用户车内的数据则涉及隐私安全。

目前虽然通用大模型正上演「百模大战」,但对于垂直行业应用而言,其准确率仍达不到应用要求,大模型如何针对行业应用开发调教,以及对应行业训练数据的质量提升,仍任重道远。

互联网巨头们是这波「百模大战」最积极的参与方和推动者,无论从模型训练、算力建设还是数据挖掘上,他们都有丰厚的储备。

通用大模型可以帮助行业开发者快速建立行业大模型的基础。以腾讯为例,腾讯的混元大模型有超千亿级的参数规模,预训练语料超过2万亿Token。目前在腾讯云上,已经有超过300个应用接入混元大模型,用在广告、营销、游戏、社交等场景。

腾讯也对外提供大模型的一站式商店——MaaS平台(模型即服务),帮助企业快速打造专有的模型应用。在底层设施上,提供大规模训练集群和高性能计算网络,带来业界最高3.2Tbps带宽,算力性能提升3倍,为大模型训练提供智算能力支撑。在面向大模型的特殊数据场景上,向量数据库可以帮助系统在数据访问效率带来10倍提升。

不少人将2023年称为大模型元年,大模型的技术盛宴才刚刚开始,而汽车作为当前最大的消费电子单品,可能会成为从中技术获益最大的一支。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/594545.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

尝试解决 H5无法播放mp3录音问题

1.问题描述 将H5传递的录音 media_id 通过微信获取临时素材接口获取到录音文件流之后,转为mp3文件上传到服务器。但是H5却没办法播放这个mp3文件。这个文件只能在播放器上播放,比如网易云什么的。不能直接在微信,浏览器上播放 2.原因分析 通…

山西电力市场日前价格预测【2024-01-04】

日前价格预测 预测说明: 如上图所示,预测明日(2024-01-04)山西电力市场全天平均日前电价为197.93元/MWh。其中,最高日前电价为376.04元/MWh,预计出现在18:15。最低日前电价为0.00元/MWh,预计出…

Go语言基础简单了解

文章目录 前言关于Go学习流程 基础语法注释变量常量数据类型运算符fmt库 流程控制if、switch、selectfor、break、continue遍历String 函数值传递和引用传递deferinit匿名、回调、闭包函数 数组和切片Map结构体自定义数据类型接口协程和channel线程锁异常处理泛型文件读取文件写…

数据库中的几种锁

数据库锁 1.数据库锁的种类 以 mysql innoDB 为例,数据库的锁有 排他锁,共享锁,意向锁,自增锁,间隙锁,锁的范围有包括,行锁,表锁 ,区间锁。 从应用研发的视角&#xff…

C++:第十一讲DFS深搜

Everyday English Your optimal career is simply this: Share the real you with physical world through th e process of creative self-expression. 你的最佳职业很简单,就是这样:通过创造性自我表达的途径和世界分享真实的你。 前言 今天带着大家…

一元函数微分学——刷题(14

目录 1.题目:2.解题思路和步骤:3.总结:小结: 1.题目: 2.解题思路和步骤: 只要知道反函数求导等于原函数的导数的倒数,那就很好求解了,这不过要先处理好x和y的对应关系,知…

本地套接字通信

本地套接字(Unix域套接字)是用于在同一台机器上的进程之间进行通信的一种方式。它不涉及网络协议,而是直接在文件系统中创建一个套接字文件,进程可以通过该文件进行通信。 本地套接字的作用:本地的进程间通信 有关系的…

语音AI小夜灯项目

一、项目简介 使用ESP32-S3N8R8模块作为主控芯片,S3内核增加了用于加速神经网络计算和信号处理等的指令,这使得我们可以使用它来快速解析训练好的语音模型进行语音识别的功能。 二、原理解析 本项目由四个部分组成,电源部分、LED照明部分、…

uniapp二维码有效期倒计时三分钟的效果是实现

需求&#xff1a; 会员码时效只有3分钟有效期&#xff0c;需要在页面倒计时3分钟&#xff0c;没有长按保存的效果实现 效果&#xff1a; 代码&#xff1a; <templete> <view> <uni-list> <view class"custom-list-item" click"onCode(c…

java代码规范(适合写程序之前先了解有助于开发协同)

目录 一、类定义 二、方法定义 三、接口定义 四、变量定义 1、命名规范&#xff1a; 2、类型规范&#xff1a; 3、常量规范&#xff1a; 五、static关键字 1、静态变量&#xff08;类变量&#xff09;&#xff1a; 2、静态方法&#xff08;类方法&#xff09;&#x…

AUTOSAR软件手册文档缩写描述,AUTOSAR_TR_PredefinedNames

由于AUTOSAR文档中的缩写太多&#xff0c;入门者看起开不方便。例如TR、SWS、SRS、EXP模块。 下载链接&#xff1a;https://www.autosar.org/fileadmin/standards/R21-11/FO/AUTOSAR_TR_PredefinedNames.pdf

android——自定义TextView

效果展示&#xff1a; 代码解析&#xff1a; 1、首先设置自定义属性&#xff08;res/values下新建一个attrs.xml文件&#xff09; <?xml version"1.0" encoding"utf-8"?> <resources><!-- name 自定义view的名字 CustomTextView--&…

Spring Bean的生命周期(钩子函数)

借鉴&#xff1a;https://www.cnblogs.com/liweimingbk/p/17843970.html https://blog.csdn.net/lxz352907839/article/details/128634404 一、Spring Bean生命周期 如果Spring配置文件中所定义的Bean类实现了ApplicationContextAware 接口&#xff0c;那么在加载Spring配置文…

Flood Fill算法总结

算法思想 从一个起点开始&#xff0c;每一次随机选择一个新加进来的格子&#xff0c;看一下它周围能否扩展新的格子。如果能扩展&#xff0c;那么就扩展进来&#xff0c;直到不能扩展新的格子为止。当然需要判重&#xff0c;同样一个格子只能覆盖一次&#xff0c;这样能够保证时…

DataLoader与Dataset

一、人民币二分类 二、DataLoader 与 Dataset DataLoader torch.utils.data.DataLoader 功能&#xff1a;构建可迭代的数据装载器 &#xff08;只标注了较为重要的&#xff09; • dataset: Dataset类&#xff0c;决定数据从哪读取及如何读取 • batchsize : 批大小 • num_…

机器学习异常值处理 逻辑汇总一

一 清除数据中恒定不变值 如果某个数据长时间不变&#xff0c;默认异常&#xff0c;清除掉该部分数据&#xff1a; # 使用 shift 和 cumsum 来创建一个分组键&#xff0c;每次值改变都会增加组号 g (df[沉淀池3号进水流量] ! df[沉淀池3号进水流量].shift()).cumsum()# 使用…

案例253:基于微信小程序的懂球短视频管理系统

文末获取源码 开发语言&#xff1a;Java 框架&#xff1a;SpringBoot JDK版本&#xff1a;JDK1.8 数据库&#xff1a;mysql 5.7 开发软件&#xff1a;eclipse/myeclipse/idea Maven包&#xff1a;Maven3.5.4 小程序框架&#xff1a;uniapp 小程序开发软件&#xff1a;HBuilder …

GC8549 大电流,双通道 12V,短地短电源保护等功能 可替代ONSEMI的LV8548/LV8549

GC8549 可以工作在 3.8~12V 的电源电压上&#xff0c;每 通道能提供高达 1.5A 持续输出电流或者 2.5A 峰值 电流&#xff0c;睡眠模式下功耗小于 1uA。具有 PWM&#xff08;IN/EN&#xff09;输入接口,与行业标 准器件兼容&#xff0c;并具有过温保护&#xff0c;欠压保护&…

【计算机网络】网络层

文章目录 网络层提供的服务虚电路数据报服务虚电路与数据报服务比较 虚拟互连网络IP地址IP层次结构IP地址分类特殊地址子网掩码 子网划分变长子网划分超网合并网络规律 IP地址与MAC地址ARP协议ARP欺骗的应用 数据包数据包首部 路由ICMP协议RIP动态路由协议OSPF协议BGP协议 VPNN…

进程等待(wait和wait函数)【Linux】

进程等待 wait和wait函数【Linux】 进程等待的概念进程等待的必要性进程等待的方法wait函数waitpid函数 非阻塞等待和阻塞等待的对比阻塞等待&#xff1a;非阻塞等待 进程等待的概念 进程等待就是通过 wait/waitpid的方式&#xff0c;让父进程对子进程进行等待子进程退出并且将…