对话商汤王晓刚:“百模大战”下半场,如何才能突出重围?

点击关注

文 | 姚悦

今年最早发布的那批大模型,现在怎么样了?

近期,商汤科技宣布“商汤日日新SenseNova”大模型体系完成了第一次重大迭代。这距离其发布过去3个月时间。

“每天不断接到用户调用,收到建议反馈后,每隔几天都会进行快速更新。同时,也会有长远规划,每隔一个月或几个月,大模型要有质变,上一个台阶。”商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚表示,大模型体系确实在“日日新”。

“商汤日日新SenseNova”各大模型都已经完成不同程度升级。商量SenseChat升级到2.0版本,上下文长度从2k(2048个字)提升到了32k(32768个字),意味着能够更加充分理解上下文。在知识信息准确性、逻辑判断能力、创作性等方面都有了更多提升。

而目标“赋能各行各业”,商汤科技大模型的多模态能力也不断在金融、医疗,以及智能汽车领域等领域场景已经实现或正在探索落地。

特别是在近期的CVPR(国际计算机视觉与模式识别会议)2023中,商汤科技及联合实验室提出业内首个感知决策一体化的自动驾驶通用大模型——UniAD,多项关键技术指标上超越了SOTA(当前最先进技术)。“大模型一定会对下一代自动驾驶产生深刻影响。”王晓刚表示。

不过,商汤科技大模型体系迭代的同时,外界环境亦在剧变。

经历半年多的“大炼模”,国内大模型从“硬桥硬马”的参数竞赛,已经进入到“真刀真枪”解决问题的下半场阶段,竞争愈加白热化。甚至有资本市场人士认为,这轮“百模大战”,国内AI大模型最终胜出的不超过2%,意味着,剩下98%的国内大模型都会消失在竞争中。

激烈的竞争中,如何才能跻身“关键少数”?近期,光锥智能对话商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚,了解商汤科技当前阶段关于大模型的经验、思考和规划。

核心观点:

1、以前每个领域都有自己的模型,每个行业每个方向有自己的研发团队,大家协同性不需要那么高,但今天必须是高度协同的状态,一定需要对研发体系进行重塑。

2、大模型一定会对下一代自动驾驶产生深刻影响。

3、如何让视觉信息和语言信息有同样的特征表达,进行更好的融合,同时把图像里面丰富的语义内涵去挖掘出来,是发展多模态的一大挑战。

4、保证大模型的优势需要做到三点:一是软硬件基础设施,二是深入到各个行业高速运转大模型研发体系,三是不断创新目标和方式

(商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁 王晓刚)

以下为对话实录:


“今天必须高度协同,就需要重塑研发体系”

Q:商汤科技最新推出的“商量2.0”新增了知识库融合接口,有什么具体作用?

A:一些客户有专属领域知识需求,如果没有外挂知识库融合,就需要把客户的数据拿来,再去训练模型,一方面成本比较高,涉及到整个模型的迭代;另一方面,安全性不能得到保障。

通过知识库的融合,不需要进入到模型本身,就可以比较简单、方便地把领域知识总结在一起,解决大模型的“幻觉”问题。

Q:商汤科技的AI大装置SenseCore如何同步升级?

A:在过去几个月,大装置也都处于非常紧张的迭代状态,要保证有更大规模的卡连接,也要保证卡间、机间通讯支持稳定运行。

同时,大装置也需要针对不同类型的应用,不同类型模型进行优化。比如做秒画,要涉及到生成非常高清的高质量图像,就涉及到大量数据传输,对带宽要求就非常高,这和自然语言模型就很不一样。所以随着模型演进,大装置本身系统能力也在提升。此外,在部署端也在做一些工作。

Q:关于商汤AI大装置SenseCore,是不是可以理解为是一个提供基础设施的基站,团队在整个商汤内部是类似于中台的形式?

A:可以把大装置理解成一个基础设施,同样,各个大模型的团队,也是把这个模型去提供给各个行业的行业线,从某种意义上,也是中台。

所以将来,商汤一定需要对研发体系进行重塑,能够去充分利用好这些公共资源,把各个行业的信息汇聚导入到大模型还有中台,建立起基础设施。

这就和以前人工智能的发展很不一样,以前每个领域都有自己的模型,每个行业每个方向有自己的研发团队,大家协同性就不需要那么高,但今天必须是高度协同的状态。

Q:商汤科技的“日日新”现在是以什么样的速度更新的?

A:每天都不断接到用户调用,很多重点客户很有积极性,会比较全方位地测试和评估,也会给出方向性的建议。所以收到这些反馈以后,(大模型)每隔几天都会进行快速更新。

同时,也有长期规划,每隔一个月或几个月,模型在有些地方要有质变。比如,“商量”模型,4月10号发布的模型,上下文的长度是2k,现在商量2.0能做到32k,就能有非常强的能力去理解上下文。

Q:客户反馈跟研发迭代之间的流程具体是什么样的,效果如何?

A:客户很多,大模型团队人数有限,不可能让大模型团队直接去面对这么多客户。所以要动员整个公司的产品和研发力量,把大模型开放给其他各个研发团队。

这些研发团队跟客户对接过程中,能够去探索怎么样调整模型,更好满足各个行业的需求。一旦根据需求找到对应调试方式,就会对基座模型团队反馈,基座模型团队再进行模型更新。

不过,各个研发团队并不是立刻把客户的需求反馈,而是开发一段时间,对用户的需求进行消化、整理,然后做二次创新,得到一些比较确定的结论,再给到基座模型团队。

这样做,最大程度地节省了基座模型团队的时间和资源,同时能够动员整个公司的研发和产品的资源去对接客户。

“大模型一定会对下一代自动驾驶产生深刻影响”

Q:有观点认为“大模型永远是现实世界的子集”,商汤如何看待这个说法。基于这个说法,智能驾驶辅助是否真的可以通过大模型训练来实现无人驾驶的终极目标?

A:人的认知本身也是现实世界的一个子集,而且是在不断演进的过程当中。如果说“大模型是现实世界的子集”也没错。但最核心的,还是要看到大模型现在无论对科技进步,还有行业发展都带来了深刻变化。而且人工智能发展也是永无止境的,也不是单一维度,可能在未来结合其他维度有突破,不断有新的成果产生。

大模型一定会对下一代自动驾驶产生比较深刻影响,大模型的特点是不断去解锁人类之前不能完成的新功能和新任务。

现在自动驾驶不够智能,有几方面原因,首先,车上各种传感器种类非常多,不同类型的传感器融合具有挑战性;其次,自动驾驶系统和人工智能系统,最核心的是做决策和判断的模块,但目前这些模块还是基于规则。

在未来,大模型会给自动驾驶带来三个重要变化:

第一个,核心决策模块,可以用语言模型去替代以往比较简单的规则;

第二,决策模块变得非常强大,可以更好地融合从感知模块输出的各种信息,提升整体安全性和驾驶体验。

例如,车上感知、决策,规划、控制众多模块,原来都是割裂来看,分别去开发,然后通过手动的方式进行链接。但商汤最近发布的首个端到端的自动驾驶通用大模型——UniAD,就是以最终的驾驶体验为目标,让这些模块实现端到端优化,可以极大提升开发效率。

第三,自动驾驶还有一大挑战,就是AI模型可执行、可解释性不高。但现在大模型,尤其是语言模型,不单是输出结果,还可以输出中间的逻辑推理过程来解释这原因。所以,未来的自动驾驶系统,会有更好的可解释性,出现问题的时候,可以更好地去诊断,更好地辅助提升各方面的能力。

Q:UniAD有没有应用到实际的量产,或者走向一个应用阶段,有没有可以立刻分享的?

A:面向量产还有一定的周期,但现在已经开始,基于我们以往在自动驾驶领域的量产经验,继续过去的一些方法——BEV、Transfomer,以及其它智驾系统,会发现一些非常难解决的例子,针对这些例子现在用UniAD的框架去进行测试,就会看到有比较显著的提升。

Q:在智能驾驶方面,会不会在大模型上有更多的探索?

A:大模型的投入一定是持续的。大模型能够让商汤找到核心价值所在,未来也会给客车企业开放接口,在上面做二次开发创新。

“往通用视觉方向努力”

Q:商汤已经推出多种类别的大模型,在战略部署上未来是不是会有一些侧重点,是会偏向视觉语言,还是多模态的发展?

A:是偏向多模态,AI系统一定能够更好把握各种多模态的信息,现实生活中遇到很多应用场景,自动驾驶还有机器人等等,都会运用到多模态。

Q“书生”系列的统一通用视觉任务框架,是不是可以理解为就是商汤在追求“视觉版的ChatGPT”或者是“视觉版的AGI”?

A是往通用视觉这个方向努力,3月份发布的“书生2.5”,现在也正式做了比较大的升级,推出“书生多模态”的模型。这里面统一了自然语言指令,可以定义各种开放式任务,像之前视觉任务都是预定义任务,现在做延申以后,有非常开放的350万语义标签,能够更好地覆盖开放世界里面各种类别和概念。

举个例子,出国的话,如果国外菜单看不懂,就可以拍一张照片,大模型能介绍菜单有什么,还会给一些建议,你可以提要求,想吃荤的还是素的,预算多少,它就会给你一些组合建议等等。

所以,多模态能够帮助我们与现实世界有更好的交互,这也是商汤致力于这一方向的原因,希望在不断探索与推进的过程中,给人类带来新的价值。

Q:研究语言大模型方面的思路和路径和传统NLP会有哪些差异,大模型的思路对于商汤研究视觉或者通用视觉智能会有什么启发?

A现在研究自然语言,和以前研究思路很不一样。过去几十年是基于语法的规则来产生语义、语法的分析书等等,现在都是基于大模型,基于Transformer网络架构。

商汤从2019年开始从事大模型方面的研究,当时视觉就走的(大模型)这条路线。在Transformer领域里,商汤本身也有比较深的研究,在自动驾驶里面提出的BEV也是行业里面影响比较大的“老架构”。

当商汤从2021年开始从事自然语言研究的时候,这方面是有比较明显的优势,再往多模态方向发展的时候,语言视觉开始有更加深度融合,就体现出比较强的这方面的积累和能力。

Q:商汤是从视觉大模型做起,现在做到多模态大模型有什么挑战?

A:在开发大模型过程中,怎么能够让视觉信息和语言信息有同样的特征表达,有很好的融合,例如,一张图能够迎合1000多个词,怎么能够把图像里面非常丰富的语义的内涵去挖掘出来,是开发(多模态)大模型过程中面临的挑战。

此外,要想做好多模态,视觉还有语言,这些模型都需要比较强。要能够更好地运用多模态,还需要深入了解各行业。因为有一些多模态的数据,例如自动驾驶、机器人等领域的视觉任务数据,现阶段在互联网上是没有的。

如何在“百模大战”中保持优势?

 Q:当前“百模大战”态势中,商汤“日日新”大模型体系如何在这种激烈的竞争中保持优势?

A:首先,商汤“日日新”大模型有一个比较长的历史积累,从2019年开始,我们就从事大模型方面的研究,也比较早建立大装置软硬件的基础设施。第二,需要针对大模型给行业带来的变化,重塑研发体系。第三,不要一直去追随国外的成果,而是要基于大模型在应用上的落地,有自己的创新性。

Q:商汤在创新方面具体有哪些成果?

A:今年6月,商汤的智能决策在《我的世界》游戏上面取得了重要突破。在过去几年,包括OpenAI、DeepMind都花了大量的精力在这个方向上,基于强化学习,完成开放世界里面的任务。它们过去几年一共解决了78个任务,而商汤融合语言模型去做,能够解决全部的262个任务。

决策这个方向的市场很广,基于大模型,未来可以用到机器人、自动驾驶等各领域。

此外,“书生”多模态大模型也是一大创新。以往无论是图像视频、视觉任务,有检测分割分类等等,这些都是过去几十年定义好的,但是有了新任务时候都不太可以用语言描述新的任务。像Meta能够去做任意物体的分割,今天商汤做的这些事情要远远超过他们的能力,可以通过自然语言去定义新的视觉任务,可以及时去给出新的任务结果输出。

欢迎关注“光锥智能”,获取更多前沿科技知识!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/9846.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

QT实现用户登录注册功能

本文实例为大家分享了QT实现用户登录注册的具体代码&#xff0c;供大家参考&#xff0c;具体内容如下 1、login.h ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 #ifndef LOGIN_H #define LOGIN_H #include <QWidget> namespace Ui { c…

全面防护!Fortinet发布混合式部署防火墙HMF

在企业IT复杂性日益增长、网络安全威胁日趋紧迫、网络安全设施可维护性逐渐降低的背景下&#xff0c;企业迫切寻求可无缝跨越所有IT区域&#xff0c;有效简化企业防护架构的统一解决方案。近日&#xff0c; Fortinet Accelerate 2023中国区15城巡展圆满落幕&#xff0c;在收官之…

【深度学习之YOLO8】视频流推断

官方V8模型下载 需要准备两个东西 simsun.ttc字体包YOLOv8官方模型成品 ScreenCapture屏幕图像类 import cv2 import mss import numpy as npclass ScreenCapture:"""parameters----------screen_resolution : Tuple[int, int]屏幕宽高&#xff0c;分别为x&a…

【文献分享】比目前最先进的模型轻30%!高效多机器人SLAM蒸馏描述符!

论文题目&#xff1a;Descriptor Distillation for Efficient Multi-Robot SLAM 中文题目&#xff1a;高效多机器人SLAM蒸馏描述符 作者&#xff1a;Xiyue Guo, Junjie Hu, Hujun Bao and Guofeng Zhang 作者机构&#xff1a;浙江大学CAD&CG国家重点实验室 香港中文大学…

Vue系列第四篇:Vue2 + Element开发登录页面

Vue开发中Element是一个比较受欢迎的界面库&#xff0c;实际开发中Vue2搭配Element UI开发&#xff0c;Vue3搭配Element plus开发&#xff0c;今天就用Vue2 Element来开发登录页面。 目录 1.Element UI介绍 1.1官网 1.2element-ui安装 2.开发环境准备 2.1core-js安装 2…

List集合类详解(附加思维导图)

目录 一、List集合思维导图 二、List集合类的常见方法 2.1、ArrayList集合常用方法 2.2、LinkedList集合常用方法 一、List集合思维导图 二、List集合类的常见方法 2.1、ArrayList集合常用方法 ①.add(Object element) 向列表的尾部添加指定的元素。 ②.size() 返回列表中…

xxljob

调度中心&#xff1a; 下载调度中心的代码 下载sql&#xff0c;执行sql 更改配置 启动项目 输入地址即可访问界面 执行器&#xff1a; 新建springboot的项目&#xff0c;导入相关依赖 添加和执行器的配置 上面的就是读取配置文件的信息 把从配置文件获取的值set到对…

家政服务小程序制作攻略揭秘

想要打造一个家政服务小程序&#xff0c;但是又不懂编程和设计&#xff1f;不用担心&#xff01;下面将为你详细介绍如何利用第三方平台&#xff0c;从零开始打造一个家政服务小程序。 首先&#xff0c;你需要找到一个适合的第三方平台&#xff0c;例如乔拓云网。在乔拓云网的【…

Rman配置参数详解

using target database control file instead of recovery catalog指的是使用目标数据库控制文件代替恢复目录 1、CONFIGURE RETENTION POLICY TO REDUNDANCY 1; # default 设置rman备份过期条件&#xff1a;是用来决定那些备份不再需要了&#xff0c;它一共有三种可选项&…

进销存+小程序商城一体化,多门店管理解决方案-免费试用|亿发

为了适应市场变化和增强管理效率&#xff0c;越来越多的连锁&#xff0c;门店开始转向进销存小程序商城一体化&#xff0c;将进销存与订货商城结合&#xff0c;以实现更便捷、有效的经营模式&#xff0c;让企业迈向数字化时代。让我们一起来看看进销存小程序商城一体化系统相比…

MySQL索引失效原因及解决方案

MySQL索引失效原因及解决方案 在使用MySQL数据库时&#xff0c;索引是一种重要的性能优化工具。然而&#xff0c;有时候我们可能会遇到索引失效的情况。本文将介绍几种常见的MySQL索引失效原因以及相应的解决方案&#xff0c;并提供SQL语句的错误示例和正确示例。 1. 字符串字…

文本预处理——文本数据分析

目录 文本数据分析中文酒店评价语料获得训练集和验证集的标签数量分布获取训练集和验证集的句子长度分布获取训练集和验证集的正负样本长度散点分布获得训练集和验证集不同词汇总数统计获得训练集上正负的样本的高频形容词词云获得验证集上正负的样本的形容词词云 文本数据分析…

如何在APP开发中实现多平台兼容?

随着移动互联网的发展&#xff0c;各大 APP平台也如雨后春笋般崛起&#xff0c;现在市面上主流的 APP平台基本都已经支持 IOS、 Android、 WP等多个平台的开发&#xff0c;但对于一些只想专注于做一款 APP的企业来说&#xff0c;往往只能选择在一个平台开发一个 APP&#xff0c…

Kubernetes ConfigMap - Secret - 使用ConfigMap来配置 Redis

目录 ConfigMap &#xff1a; 参考文档&#xff1a;k8s -- ConfigMap - 简书 (jianshu.com) K8S ConfigMap使用 - 知乎 (zhihu.com) ConfigMap的作用类型&#xff1a; 可以作为卷的数据来源&#xff1a;使用 ConfigMap 来配置 Redis | Kubernetes 可以基于文件创建 Conf…

华为数通HCIP-ISIS高级

isis区域间的互访 1、L2区域 to L1区域 在L1区域发布的路由会以L1-LSP在L1区域内传递&#xff0c;到达L1-2路由器时&#xff0c;L1-2路由器会将该L1-LSP转换为L2-LSP在L2区域内传递&#xff1b; 因此L2区域的设备可以学习到L1区域的明细路由&#xff0c;进行访问&#xff1b;…

linux的一些基本指令第二期

rm rm -r 你要删除的目录名 加了-r 之后表示递归删除你要删除的目录 使用这个命名之后&#xff0c;他会一边递归到叶子节点&#xff0c;一边询问你是否要删除&#xff0c;然后会递归回来&#xff0c;在回来的途中删除&#xff1a; rm -rf 你要删除的目录名 强制执行删除操作…

c++类和对象(拷贝构造、运算符重载、初始化列表、静态成员、友元等)

一、拷贝构造 拷贝构造函数的特征&#xff1a; 1、拷贝构造函数是构造函数的一个重载形式&#xff1b; 2、拷贝构造函数的参数只有一个且必须是同类类型对象的引用&#xff0c;使用传值方式编译器直接报错&#xff0c;因为会引发无穷递归调用。 在c中自定义类型传值传参的时…

微信批量删除好友怎么删除

微信好友太多想要批量删除不知道怎么删除&#xff0c;相信这个问题也困扰了不少人。那么怎样才能批量的删除微信好友&#xff1f;其实不难&#xff0c;可以通过新建标签删除的方式来实现批量删除好友。 怎么批量删除 微信批量删除好友的具体步骤如下&#xff1a; 1、新建标签 首…

CC1310F128系列 超低功耗低于1GHz射频 微控制器芯片

CC1310F128 是一款经济高效型超低功耗低于1GHz射频器件&#xff0c;凭借极低的有源射频和MCU电流消耗以及灵活的低功耗模式&#xff0c;CC1310F128可确保卓越的电池寿命&#xff0c;并能够在小型纽扣电池供电的情况下以及在能量采集应用中实现远距离工作。 改芯片有三个后缀&am…

【ArcGIS Pro微课1000例】0029:绘制全球海洋波纹荡漾效果图

本文讲解ArcGIS Pro3.0中,基于全球航洋面状矢量数据,绘制震撼全球海洋波纹荡漾效果图。 文章目录 一、效果预览二、效果制作三、参数详解一、效果预览 绘制好的海水波纹荡漾效果图如下: 下面我们来学习绘制过程。 二、效果制作 波纹荡漾效果需要在全局或者局部场景中制作…