ChatGPT可以开车吗?分享大型语言模型在自动驾驶方面的应用案例

自动驾驶边缘案例需要复杂的、类似人类的推理,远远超出传统的算法和人工智能模型。而大型语言模型正在致力实现这一目标。

人工智能技术如今正在快速发展和应用,人工智能模型也是如此。拥有100亿个参数的通用模型的性能正在碾压拥有5000万个参数的任务特定模型,在从单一模型解决许多任务方面表现出了卓越的性能。

人工智能模型也正在变得多模态。微软公司的Florence 2和OpenAI公司的GPT-4V等新的视觉模型正在扩展这些模型的应用,以整合图像、视频和声音,将大型语言模型(LLM)强大的能力应用在数百万个新的用例中。

事实证明,在模型工程领域,规模越大越好,每个应用程序都经历了类似的发展:

  • 一个任务,一个领域:针对特定用例的简单模型——用于检测道路的对象检测器,用于室内场景的深度分割模型、图像字幕模型、用于Web应用程序的聊天机器人等。
  • 一个任务,每个领域:将一个简单模型的应用扩展到许多用例中——无处不在的对象检测器(YOLO、DINO等)、各种事物的深度分割(MobileNet)、多种产品的聊天插件。
  • 每个任务,每个领域:可以应用在任何事情的大型模型,新的大型语言模型(LLM)使范式转变成为可能。例如Florence、GPT-4V、ChatGPT。
  • 每个任务,一个领域:为某一个领域优化大型模型,支持实时应用程序和更高的可靠性——例如,用于交互式搜索的GPT-3.5-Turbo,用于研究和起草法律文档的Harvey.ai,用于自动驾驶的DriveGPT。

运行在小型模型上的自动驾驶技术

自动驾驶技术仍然在小型模型上运行。虽然许多单一任务模型、专用传感器和精确的地图组合已经提供了令人印象深刻的原型,但目前的技术还没有提供支持司机日常所需的安全性或规模。

以下是阻碍自动驾驶技术发展的因素:

  • 零样本泛化。现有的模型经常在从未见过的情况下失败,通常被称为自动驾驶的“长尾”。如果没有得到充分的训练,这些模型就没有能力根据基本原则来推断下一步该做什么。迄今为止的解决方案是建立另一个专用模型。难以绘制动态场景是大多数自动驾驶系统的一个关键弱点。
  • 理解司机和行人的意图。现有的模型无法理解人类互动和意图的微妙之处,无论是车内的司机还是车外的行人或车辆。
  • 准确绘制区域地图。虽然自动驾驶车辆在地图绘制良好的区域大多可以行驶,但事实证明,精确的高清地图很难进行缩放。如果没有精确的地图,基于地图的自动驾驶车辆就不能很好地行驶。
  • 扩展到其他类型车辆。如今的自动驾驶出租车依赖于专门的传感器,昂贵的计算以及许多专用模型的组合——这是一个复杂而昂贵的技术,尚未扩展应用到其他类型的汽车。

大型语言模型和长尾问题

在所有应用程序中,模型工程师使用大型语言模型作为超级强大的开发工具来改进模型工程过程的每个方面。大型语言模型已经被证明在开发和改进模拟环境,对大量数据集进行分类、理解和标记,以及解释和调试神经网络的“黑匣子”方面非常有用。

也许大型语言模型在开发过程中的最大优势之一是能够用自然语言表达复杂的、多步骤的逻辑,通过绕过对专家代码的需求来加快开发速度。这已经被证明在复杂的问题领域非常有用,例如文本摘要或代码完成与代码库之间的复杂依赖关系。

所有这些工程工具都可以广泛地改进开发工作,包括自动驾驶,但大型语言模型最有趣和最有影响力的应用是直接针对驾驶任务本身:对复杂的场景进行推理,并规划最安全的前进路线。

自动驾驶是一个特别具有挑战性的问题,因为某些边缘情况需要复杂的、类似人类的推理,远远超出传统的算法和模型。大型语言模型在超越纯粹的相关性,展示真正的“对世界的理解”方面表现出了希望。这种新的理解水平延伸到了驾驶任务,使司机能够在不需要明确训练的情况下,以安全和自然的方式在复杂的场景中导航。

现有的模型可能会被十字路口出现的建筑工人或事故现场周围的路线所迷惑,大型语言模型已经显示出了非常熟练地推理正确路线和速度的能力。大型语言模型提供了一条解决“长尾”的新途径,即处理前所未有的情况的能力。在过去的二十年,长尾一直是自动驾驶面临的根本挑战。

大型语言模型对自主任务的限制

如今,大型语言模型对于自主应用方面仍然存在一些限制。简单地说,大型语言模型需要变得更加可靠和更快。因此需要开发解决方案,而这正是开发人员努力工作的地方。

1.延迟和实时限制

司机的关键决策必须在不到一秒钟的时间内做出,而在数据中心运行的最新大型语言模型可能需要10秒或更长时间。

解决这个问题的一个方案是采用混合云架构,它用数据中心处理为车载计算系统提供补充。另一个方案是专门构建的大型语言模型,它可以将大型模型压缩成足够小、足够快,以适应汽车的应用。人们已经看到在优化大型模型方面有了显著的改进。Mistral 7B和Llama 2 7B已证明其性能可与GPT-3.5相媲美,参数数量级更少(70亿个参数对1750亿个参数)。摩尔定律和持续的优化应该会迅速将更多的这些模型转移到边缘。

2.幻觉

大型语言模型基于相关性进行推理,但并非所有相关性在特定场景中都有效。例如,自动驾驶车辆观察到一个人站在十字路口可能意味着停止(行人)、驶离(交警)或减速(施工工人)。正相关性并不总是给出正确的答案。当模型产生不能反映现实的输出时,将其结果称为“幻觉”。

基于人类反馈的强化学习(RLHF)通过将模型与人类反馈相结合来理解这些复杂的驾驶场景,为这些问题提供了一个潜在的解决方案。随着数据质量的提高,像Llama 2 70B这样的小型模型的性能与GPT-4不相上下,参数却减少了20倍(700亿个参数对1.7万亿个参数)。

研究项目也使更好的数据质量更容易扩展。例如,OpenChat框架利用了强化学习微调(RLFT)等新技术,在提高性能的同时避免了成本高昂的人类偏好标签。

3.新的长尾

大型语言模型已经编码了“一切”,但仍然可能没有涵盖所有特定于驾驶的概念,例如在繁忙的十字路口进行导航的能力。这里的一个潜在解决方案是采用长序列的专有驾驶数据训练模型,这些数据可以将这些更详细的概念嵌入模型中。例如,Replit使用来自其用户群的专有编码数据,通过微调不断改进其代码生成工具,性能优于Code Llama 7B等大型模型。

自动驾驶的未来发展

如今,自动驾驶尚未成为主流技术,目前只有少数自动驾驶车辆能够在最复杂的城市环境安全行驶。大型模型正在改变自动驾驶模型的开发方式,最终将改变自动驾驶技术——提供必要的安全性和规模,最终将这项技术交付给司机。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/840807.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

缓存IO与直接IO

IO类型 缓存 I/O 缓存 I/O 又被称作标准 I/O,大多数文件系统的默认 I/O 操作都是缓存 I/O。在 Linux 的缓存 I/O 机制中,数据先从磁盘复制到内核空间的缓冲区,然后从内核空间缓冲区复制到应用程序的地址空间(用户空间&#xff0…

提示优化 | PhaseEvo:面向大型语言模型的统一上下文提示优化

【摘要】为大型语言模型 (LLM) 制作理想的提示是一项具有挑战性的任务,需要大量资源和专家的人力投入。现有的工作将提示教学和情境学习示例的优化视为不同的问题,导致提示性能不佳。本研究通过建立统一的上下文提示优化框架来解决这一限制,旨…

Langchain-Chatchat的markdownHeaderTextSplitter使用

文章目录 背景排查步骤官方issue排查测试正常对话测试官方默认知识库Debug排查vscode配置launch.json命令行自动启动condadebug知识库搜索测试更换ChineseRecursiveTextSplitter分词器 结论 关于markdownHeaderTextSplitter的探索标准的markdown测试集Langchain区分head1和head…

Linux驱动(2)---Linux内核的组成

1.Linux内核源码目录 arch包含和硬件体系相关结构相关源码,每个平台占用一个目录 block:块设备驱动程序I/O调度 crypto:常用加密和三列算法,还有一些压缩和CRC校验算法。 documentation:内核个部分的通用解释和注释.。 drive…

01_尚硅谷JavaWeb最新版笔记

尚硅谷JAVAWEB概述 课程概述 计划学习时间:1周以内

【2024软考】史上最全!软考刷题+解析大合集(9万字全手工打,货真价实)

计算机基础知识 1.中断向量表用来保存各个中断源的中断服务程序的入口地址。当外设发出中断请求信号(INTR)以后,由中断控制器(INTC)确定其中断号,并根据中断号查找中断向量表来取得其中断服务程序的入口地…

第86天:代码审计-PHP项目TP框架安全写法1day利用0day分析

案例一: 利用框架漏洞-TP3框架-SQL注入&Demo&YxtCMF 首先先查询thinkphp的版本 去寻找版本漏洞: Thinkphp3.2.3及以下版本漏洞整理_thinkphp3.2.3漏洞-CSDN博客 去查这个exp注入 这里的利用条件是必须有find方法,并且where后面的参数是数组 …

java基础-JVM日志、参数、内存结构、垃圾回收器

一、基础基础 1.1 数据类型 Java的数据类型分为原始数据类型和引用数据类型。 原始数据类型又分为数字型和布尔型。 数字型又有byte、short、int、long、char、float、double。注意,在这里char被定义为整数型,并且在规范中明确定义:byte、…

电赛一等奖!基于TMS320F2812的简易数字频率计

电赛一等奖!简易数字频率计设计(原理图、PCB、源码、分析报告) 这份文件是关于合肥工业大学电气与自动化工程学院的一个项目报告,题目为“基于TMS320F2812的简易数字频率计”。项目由方敏、侯其立、李苗、张巧云四位本科生完成&am…

Redis 哨兵机制的工作原理——Java全栈知识(22)

Redis 哨兵机制的工作原理 在之前的文章我们讲到了 Redis 的三种集群架构:跳转文章:Redis集群模式 接下来我们详细讲哨兵机制的作用以及实现原理 以下是 Redis 哨兵的结构图 1、Redis 哨兵的作用 哨兵的作用如下: 1、监控,2、…

【ArcGIS微课1000例】0111:谷歌地球Google Earth下载安装与使用教程

一、谷歌地球安装 双击安装包,默认点击完成即可。 二、谷歌地球使用 打开快捷方式,开始使用谷歌地球。欢迎界面: 软件主界面: 三、谷歌地球下载 软件安装包位于《ArcGIS微课实验1000例(附数据)专栏配套完数据包中的0111.rar中…

企业如何防止数据泄密?大型企业必备的文件加密软件

随着信息化建设的大步推进,越来越多的企业资料以电子文件的形式保存,企业内部和企业之间的信息交流也主要依靠电子文件。近年来的泄密事件层出不穷,比如东软泄密案、HTC窃密案、力拓案等,给企业带来灾难性的经济损失及信誉重创。如…

出题123

题目时限空间说明 无特殊均默认 1 s , 256 M B 1s,256MB 1s,256MB Problem a 最大化 在最大化目标值的基础上选择的操作越多越好,且输出操作应当按照顺序执行,即你的输出顺序就是你的执行顺序,当有多个执行顺序可以最大化目标值时&#xff0…

python中的条件语句

python中语句的执行顺序 默认情况下,python代码的执行顺序,是从上到下依次执行的,这个顺序是不会变的, python中的条件语句 电脑的CPU芯片是能够进行算术运算也能进行逻辑判断的。 条件语句能够表达“如果...否则...” 这样的语…

基于51单片机的数字频率计(电路图+pcb+论文+仿真+源码)

于51单片机的数字频率计 设计的频率计范围能够达到1HZ-1MHZ(实际上51单片机达不到这个范围,不要在实验环境下进行),这个是课设来着,用Proteus仿真实现的,给有需要的同学参考一下 仿真原理图如下(proteus仿真工程文件可…

面试八股之JVM篇3.6——垃圾回收——强引用、弱引用、虚引用、软引用

🌈hello,你好鸭,我是Ethan,一名不断学习的码农,很高兴你能来阅读。 ✔️目前博客主要更新Java系列、项目案例、计算机必学四件套等。 🏃人生之义,在于追求,不在成败,勤通…

Javascript特效之鼠标悬停特效【css】

先看一看效果&#xff0c;是不是很炫酷啊&#xff1f;&#xff1f; HTML代码&#xff1a; <!DOCTYPE html> <html><head><meta charset""UTF-8"" /><title>CSS特效&#xff1a;鼠标悬停效果</title><link rel&q…

SQL分类——DDL(数据定义语言)

一、DDL&#xff08;数据定义语言&#xff09; &#xff08;1&#xff09;DDL——数据库——操作的相关语法&#xff1a; 查询 可以一次性查询当前数据库服务器中所有的数据库&#xff1a; SHOW DATABASES; 查询当前所处的数据库&#xff1a; SELECT DATABASE(); 创建 一般最简…

Python | Leetcode Python题解之第101题对称二叉树

题目&#xff1a; 题解&#xff1a; class Solution:# 在【100. 相同的树】的基础上稍加改动def isSameTree(self, p: Optional[TreeNode], q: Optional[TreeNode]) -> bool:if p is None or q is None:return p is qreturn p.val q.val and self.isSameTree(p.left, q.ri…

Transformer详解(1)-结构解读

Transormer块主要由四个部分组成&#xff0c;注意力层、位置感知前馈神经网络、残差连接和层归一化。 1、注意力层(Multi-Head Attention) 使用多头注意力机制整合上下文语义&#xff0c;它使得序列中任意两个单词之间的依赖关系可以直接被建模而不基于传统的循环结构&#…