下半年交火点:智驾全国都能开,智舱多模态大模型

“你猜一猜我现在参加什么样的活动呢?”

“你参加的是WAIC,就是那个人工智能的大Party,超多科技高手都在这……”

“你帮我介绍一下这本书吧。”

“这书叫《反脆弱,从不确定性中获益》,讲的是怎么在混乱里找机会,作者塔勒布,来自土耳其,还写了《黑天鹅》,里面提了不少新词,像反脆弱者,书里挺有给我启发的东西……”

以上两段对话来自7月5日,2024世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)上,商汤科技发布的“日日新5.5”原生多模态大模型现场演示对话。大模型能从工作人员脖子上佩戴的胸卡带子上的文字识别出所在活动,随便翻开一本书,都能归纳总结整本书或者任何一页的内容,而且都在瞬间完成。

当天,商汤旗下智能汽车事业群商汤绝影发布了自动驾驶大模型DriveAGI,以及行业首个车载生成式交互界面“随心界面”(FlexInterface)、“随意操控”(AgentFlow)等基于多模态大模型的车载AI Agent应用。

图片

3月28日小米SU7发布会上的语音演示中,车主可以问小爱同学“这条隧道有多长?”“旁边路过的河是什么河”“前面的车是什么车”“有没有离簋街和望京都很近的川菜馆”,车载语音交互的历史进程向前迈进了一大步。

小米SU7语音交互背后就有商汤大模型的支持。商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚透露,商汤与小米的合作从去年的小爱手机开始,小米汽车语音的特点是与手机、其他终端由由同一套体系支撑,汽车语音需要根据用车场景做适度修改,早期有其他供应商平行推进。

到今年1月,雷军体验过车机语音后认为模型效果不够好,其他供应商没有做出快速整改,绝影用了一个多星期时间根据要求做出了适应用车要求的模型。比如小米要求首次响应的延时必须控制在2秒之内,也就是说,使用者说了一段话,输入一堆文字,车机反馈时,即使是云端的反馈,也需要在一两秒内迅速响应。

这对每家供应商都有挑战,绝影通过各种资源优化和保障措施最终完成得比较好。优化的背后需要一个专注汽车领域的团队,让模型更好地为汽车服务。这次考验后,商汤正式成为小米SU7语音大模型的供应商。

6月25日,吉利控股集团旗下子品牌翼真汽车(LEVC)旗下首款豪华纯电MPV翼真L380上市发布,商汤绝影为翼真 L380定制化打造了“AI闲聊”、“美图壁纸”、“童话绘本”、“AI问诊”等AI大模型座舱产品和功能。

图片

大模型发力自动驾驶之前,已经在智能座舱上多点落地。

多模态大模型能够将语音、文字、图像、手势、视频等各种模态进行高效且深度地融合,提供更加丰富且自然的人机交互体验。

过去模型处理不同模态信息是先把语音等输入转化为文字,文字和图像结合进行分析,输出反馈也是先生成文字,根据文字再生成语音输出,会有大量信息丢失和很高的延迟。多模态大模型是一种端到端的模型,文字、语音、视频等不同模态一同输入,模型统一处理后输出相应模态的信息,相较于过去的方案,多模态融合的体验与技术难度都呈几何倍数的提升。

智能座舱被改变。

图片

为智能座舱带来多大变化

大模型在2023年成为人工智能的最大风口,很快形成百模大战局面。

有公开数据称,截至2024年4月底,国内共推出305个大模型,10亿参数规模以上的大模型数量已超100个,数量可观。

2024年成为大模型真正落地元年。

汽车领域,大模型上车两个最大的应用是自动驾驶和智能座舱多模态交互,后者落地速度更快,问界借助华为旗下盘古大模型、极越利用百度文心一言都实现了车端落地,蔚小理这些新势力车企选择自研,小米、LEVC是与供应商合作的代表。

大模型能为智能座舱带来多大变化?

图片

首先是语音能够实现连续多轮对话,更像人与人的交互。此前的语音系统不支持多轮对话,每次对话都是独立的,缺乏记忆功能,车机无法记住之前的信息。大模型支持多轮对话,能够记住之前的对话内容,并能从大量输入中总结出有用信息,甚至可以处理长达100万token的上下文输入,理解整本书的内容。这是大模型特有的能力。

其次,犹如增加了一位线上助理。大模型能帮助管理日程表,只需简单指示,它能在开车等不便操作的情况下,为车主找到合适的时间安排会议,并在有冲突时协助调整。

大模型能在视频会议结束后生成会议总结,包括会议要点,每位与会者说了什么话、重点是什么、计划和行动是什么,都能总结提炼出来。

最大的变化是,大模型能根据使用者的指令跨APP完成复杂任务。

王晓刚举例:“你现在开车说我要看欧洲杯,能不能给我找一个酒馆,我一边看欧洲杯,一边吃饭,你到小红书上查一查,有没有比较好的馆子。”

如果做任务分解,这件事分几个步骤:首先激活小红书APP,大模型需要理解每个页面是什么内容,每个按钮代表什么操作,每条评论有什么价值。这涉及到的文字大模型、多模态大模型的能力,能够像人一样读懂文字信息、图片信息、视频信息。读懂之后选择符合要求的餐馆。第二个步骤是上美团APP找到这个餐馆订餐。第三个步骤是导航到该餐馆。

以往的语音控制体系是一条指令对应一个执行动作或一个APP,上述举例给出的是一个复杂任务,需要多个动作、调用多个APP分步骤完成,是一系列执行动作的组合,相比以前的人机交互是革命性的,拥有了类似人类的协调资源、解决问题的能力。

图片

大模型还带来一些小彩蛋,比如车机界面可变,每天心情不同、关注点不同,就可以设置不同的界面。比如最近关注欧洲杯,就可以让中控大屏显示欧洲杯主题,有最新战报,还可以随时播放比赛信息。

图片

训练一个模型要上亿投入

上述跨APP完成复杂任务的难点在于让大模型准确理解每个APP页面的信息含义、每个操作按钮的含义。

“多模态的模型可以去自动地分析几百万个图形界面,分析后知道每个图形界面是干什么的。另外还有任务分解,我说了一段话,你要把它分解成一个工作流,我说的是到小红书上看看再定,我并没有清楚地告诉它你第一步干什么,第二步、第三步干什么,它要自己理解这件事,然后把工作流排出来。它本质上带来的就是一个人机交互变革的大模型。”王晓刚说。

功能实现背后是对大模型的海量训练和硬件支撑,并不是所有公司具备这样的条件,王晓刚认为大部分汽车公司自研大模型是不现实或者性价比很低的。

“一个语言模型的训练有几千亿参数,几千张卡,要训练三个月,光这里面投入的成本要几千万甚至上亿。还有数据的清洗、计算的资源,它是一个研发体系。把3000张卡放在一起去训练一个模型,这件事儿本身就很难,因为3000张卡这么多硬件,中间某一个硬件出了问题,整个系统就失效了。要让这个系统能够稳定运行一个月以上,这里面有很多软硬件基础的建设。另外训练大模型的研发团队也很烧钱,经验丰富的团队都是资源和钱堆出来的。”王晓刚说。

图片

硬件方面,商汤拥有4.5万张GPU,总算力在国内仅次于BAT和头条,国内汽车公司拥有的计算卡数量一般在几千张不等。

2021年成立的商汤绝影最初的核心业务是智能座舱,截止2023年底已经与自主、新势力、合资、海外各类型30多家车企合作,覆盖90款车型,累计交付195万辆。

相比OpenAI等通用大模型公司,商汤绝影的优势在于他们有更符合汽车行业要求的大模型解决方案。比如汽车是私密空间,用户非常在意隐私保护,多模态大模型大部分的任务必须在车端完成,需要有云侧、端云结合、端侧等全栈方式灵活部署多模态大模型的能力。

王晓刚7月5日在WAIC上宣布商汤绝影在行业内率先实现了原生多模态大模型的车端部署,相较于动辄就有几秒钟延迟的云上部署方案,绝影车载端侧8B模型首包延迟可低至300毫秒以内,推理速度40 Tokens/秒,并且能够覆盖主流算力平台。

作为大模型落地元年,2024年已经过去一半,智能驾驶的竞争点从开城数量集体转向“全国都能开”,智能座舱的竞争,也将因为大模型的陆续上车,进入新的阶段。


如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/43453.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

搞不清啊?伦敦金与上海金区别是?

进入黄金市场的朋友,有可能会被各式各样的黄金交易品种带得眼花缭乱,其实各品种虽然都以黄金作为投资标的物,但是也是各有不同的,下面我们就来比较一下相似的投资品种——伦敦金和上海金。 首先在比较之前,我们要搞清楚…

基于泰坦尼克号生还数据进行 Spark 分析

基于泰坦尼克号生还数据进行 Spark 分析 在这篇博客中,我们将展示如何使用 Apache Spark 分析著名的泰坦尼克号数据集。通过这篇教程,您将学习如何处理数据、分析乘客的生还情况,并生成有价值的统计信息。 数据解析 • PassengerId &#…

快速排序[原理,C++实现,注意事项,时间复杂度分析]

模板&#xff1a; //本模板来自ACwing void quick_sort(int q[],int l,int r) {if(l>r) return;int xq[lr>>1],il-1,jr1;while(i<j){do i;while(q[i]<x);do j--;while(q[j]>x); if(i<j) swap(q[i],q[j]);}quick_sort(q,l,j);quick_sort(q,j1,r); };原理&…

注册中心组成结构和基本原理解析

假如你正在设计和开发一个分布式服务系统&#xff0c;系统中存在一批能够独立运行的服务&#xff0c;而在部署上也采用了集群模式以防止出现单点故障。显然&#xff0c;对于一个完整的业务系统而言&#xff0c;这些服务之间需要相互调用并形成复杂的访问链路&#xff0c;一种可…

codesys多段直线电机跨电机控制

1. 电机描述 在X轴上有多段直线电机&#xff0c;如下图有9个&#xff0c;从X1到X9. 2.codesys程序结构 程序名称&#xff1a;Pou_two_motors 动作名称&#xff1a;ACT_move 把这个程序搞到任务配置里面 通过ethercat总线命名一下这些电机&#xff0c;方便调用。 3.程序内容 P…

油烟监测仪:守护厨房,让蓝天白云成为常态

夏日炎炎&#xff0c;白天的酷暑让人们更加向往夜晚的凉爽与惬意。在这样的季节里&#xff0c;品尝各式烧烤、小龙虾&#xff0c;再搭配一杯冰镇啤酒&#xff0c;成为了许多市民夜晚消遣的不二选择。然而&#xff0c;随之而来的餐饮油烟问题也进入了高发阶段&#xff0c;对周边…

智能锁赛博化,凯迪仕携全球顶尖科技亮相建博会!

7月8日&#xff0c;作为大家居建材行业全球规模第一大展&#xff0c;2024中国建博会&#xff08;广州&#xff09;在广交会展馆正式拉开序幕。据官方数据显示&#xff0c;本届展会展出规模展览总规模近40万平方米&#xff0c;建筑装饰领域各细分题材的一线品牌几乎全部参展。 其…

循环练习题

思路&#xff1a; 代码&#xff1a; public static void main(String[] args) {double sum0;for (int i1;i<100;i){if (i%2!0){sum1.0/i;}else {sum-1.0/i;}}System.out.println(sum);} 结果为&#xff1a;

vscode取消未使用变量的提示(爆红)

目前项目正在使用ts&#xff08;TypeScript&#xff09;&#xff0c;可以在 tsconfig.json 文件中调整编译选项 在你的项目中找到并打开 tsconfig.json 文件&#xff0c;将noUnusedLocals和noUnusedParameters设置为false&#xff0c;关闭vscode重新打开项目即可 {"comp…

Mysql 高性能索引

引言 索引是一种用于快速查询和检索数据的数据结构&#xff0c;其本质可以看成是一种排序好的数据结构。 常见的索引类型包括B-Tree索引、哈希索引、空间数据索引&#xff08;R-Tree&#xff09;、全文索引。 索引的类型 在MySQL中&#xff0c;索引是在 存储引擎层 而不是服…

井字游戏00

题目链接 井字游戏 题目描述 注意点 1 < board.length board[i].length < 100输入一定遵循井字棋规则 解答思路 如果某一方想要获胜&#xff0c;则其需要占满某一行或某一列或对角线&#xff0c;所以只需要根据第一行和第一列判断是否填充完某一行或某一列或对角线…

EHS管理体系,重塑造企业竞争力的关键密码

在当今这个快速发展的时代&#xff0c;企业面临着前所未有的挑战与机遇。随着全球环保意识的普遍觉醒&#xff0c;以及社会各界对企业社会责任的日益关注&#xff0c;EHS&#xff08;环境&#xff0c;健康&#xff0c;安全&#xff09;管理体系成为了企业稳健前行的重要基石。它…

设计模式之Facade设计模式

Facade设计模式&#xff0c;也称为外观模式&#xff0c;是一种结构型设计模式&#xff0c;它主要用于为子系统中的一组接口提供一个统一的高层接口&#xff0c;从而使得子系统更加容易使用。以下是关于Facade设计模式的详细介绍&#xff1a; 一、定义 Facade模式为多个复杂的…

一款强大且免费开源的多连接数据库管理工具

大家好&#xff0c;今天给大家分享一款免费开源的跨平台数据库管理工具DbGate。 DbGate是一款免费开源的跨平台数据库管理工具&#xff0c;支持多种数据库&#xff0c;包括MySQL、PostgreSQL、SQL Server、MongoDB、SQLite等。它可以在Windows、Linux、Mac操作系统上运行&#…

【概念介绍】Signed Distance Function(SDF)

三维空间的表示形式可以分为显式和隐式 显式&#xff1a; 体素Voxel&#xff0c;点云Point Cloud&#xff0c;三角面片Mesh隐式&#xff1a;符号距离函数Signed Distance Funciton(SDF)&#xff0c;占用场Occupancy Field&#xff0c;神经辐射场Neural Radiance Field&#xff…

MAC在网络结构中的位置:深入解析

MAC在网络结构中的位置&#xff1a;深入解析 在网络通信的世界里&#xff0c;每一层都扮演着至关重要的角色。今天&#xff0c;我们将聚焦于一个经常被提到但可能不太被理解的概念&#xff1a;MAC&#xff08;Media Access Control&#xff0c;媒体访问控制&#xff09;。我们…

命名空间namespace--c++入门基础等

个人主页点这里~ 1.命名空间-namespace 简介 &#xff1a;在C/C中&#xff0c;变量、函数和后面要学到的类都是大量存在的&#xff0c;这些变量、函数和类的名称将都存在于全局作用域中&#xff0c;可能会导致很多冲突。使用命名空间的目的是对标识符的名称进行本地化&#xf…

echarts图表加载显示空白

数据请求了&#xff0c;图表加载显示空白 报错&#xff1a; Error: Initialize failed: invalid dom. at Object.init (echarts.js:2273:1) 方案 1. 通过this.$nexttick(()>{}) , 试过&#xff0c; 还是不行 2、把 this.lineChart2 this.$echarts.init(document.g…

EV代码签名-解决软件下载时风险警告

软件开发公司在发布软件后&#xff0c;用户尝试下载并安装软件时&#xff0c;如果被SmartScreen识别不常见或尚未建立起良好的信誉度&#xff0c;系统会发出警告&#xff0c;提示用户软件程序可能会对电脑构成风险&#xff0c;或者提示软件非正版软件&#xff0c;这有可能会造成…

点播CDN回源标准化策略

一、背景&问题&#xff1a; 背景&#xff1a; 历史上公司点播CDN接入的厂商就比较多 厂商之间回源的方式存在细节上的差异 不同的厂商之间专线大小存在差异 厂商之间的定位不同&#xff0c;有全镜像存储厂商&#xff0c;作为源站资源副本永久存储&#xff0c;也有镜像存…