ChatGPT可以开车吗？分享大型语言模型在自动驾驶方面的应用案例

自动驾驶边缘案例需要复杂的、类似人类的推理，远远超出传统的算法和人工智能模型。而大型语言模型正在致力实现这一目标。

人工智能技术如今正在快速发展和应用，人工智能模型也是如此。拥有100亿个参数的通用模型的性能正在碾压拥有5000万个参数的任务特定模型，在从单一模型解决许多任务方面表现出了卓越的性能。

人工智能模型也正在变得多模态。微软公司的Florence 2和OpenAI公司的GPT-4V等新的视觉模型正在扩展这些模型的应用，以整合图像、视频和声音，将大型语言模型（LLM）强大的能力应用在数百万个新的用例中。

事实证明，在模型工程领域，规模越大越好，每个应用程序都经历了类似的发展：

一个任务，一个领域：针对特定用例的简单模型——用于检测道路的对象检测器，用于室内场景的深度分割模型、图像字幕模型、用于Web应用程序的聊天机器人等。
一个任务，每个领域：将一个简单模型的应用扩展到许多用例中——无处不在的对象检测器(YOLO、DINO等)、各种事物的深度分割(MobileNet)、多种产品的聊天插件。
每个任务，每个领域：可以应用在任何事情的大型模型，新的大型语言模型（LLM）使范式转变成为可能。例如Florence、GPT-4V、ChatGPT。
每个任务，一个领域：为某一个领域优化大型模型，支持实时应用程序和更高的可靠性——例如，用于交互式搜索的GPT-3.5-Turbo，用于研究和起草法律文档的Harvey.ai，用于自动驾驶的DriveGPT。

运行在小型模型上的自动驾驶技术

自动驾驶技术仍然在小型模型上运行。虽然许多单一任务模型、专用传感器和精确的地图组合已经提供了令人印象深刻的原型，但目前的技术还没有提供支持司机日常所需的安全性或规模。

以下是阻碍自动驾驶技术发展的因素：

零样本泛化。现有的模型经常在从未见过的情况下失败，通常被称为自动驾驶的“长尾”。如果没有得到充分的训练，这些模型就没有能力根据基本原则来推断下一步该做什么。迄今为止的解决方案是建立另一个专用模型。难以绘制动态场景是大多数自动驾驶系统的一个关键弱点。
理解司机和行人的意图。现有的模型无法理解人类互动和意图的微妙之处，无论是车内的司机还是车外的行人或车辆。
准确绘制区域地图。虽然自动驾驶车辆在地图绘制良好的区域大多可以行驶，但事实证明，精确的高清地图很难进行缩放。如果没有精确的地图，基于地图的自动驾驶车辆就不能很好地行驶。
扩展到其他类型车辆。如今的自动驾驶出租车依赖于专门的传感器，昂贵的计算以及许多专用模型的组合——这是一个复杂而昂贵的技术，尚未扩展应用到其他类型的汽车。

大型语言模型和长尾问题

在所有应用程序中，模型工程师使用大型语言模型作为超级强大的开发工具来改进模型工程过程的每个方面。大型语言模型已经被证明在开发和改进模拟环境，对大量数据集进行分类、理解和标记，以及解释和调试神经网络的“黑匣子”方面非常有用。

也许大型语言模型在开发过程中的最大优势之一是能够用自然语言表达复杂的、多步骤的逻辑，通过绕过对专家代码的需求来加快开发速度。这已经被证明在复杂的问题领域非常有用，例如文本摘要或代码完成与代码库之间的复杂依赖关系。

所有这些工程工具都可以广泛地改进开发工作，包括自动驾驶，但大型语言模型最有趣和最有影响力的应用是直接针对驾驶任务本身：对复杂的场景进行推理，并规划最安全的前进路线。

自动驾驶是一个特别具有挑战性的问题，因为某些边缘情况需要复杂的、类似人类的推理，远远超出传统的算法和模型。大型语言模型在超越纯粹的相关性，展示真正的“对世界的理解”方面表现出了希望。这种新的理解水平延伸到了驾驶任务，使司机能够在不需要明确训练的情况下，以安全和自然的方式在复杂的场景中导航。

现有的模型可能会被十字路口出现的建筑工人或事故现场周围的路线所迷惑，大型语言模型已经显示出了非常熟练地推理正确路线和速度的能力。大型语言模型提供了一条解决“长尾”的新途径，即处理前所未有的情况的能力。在过去的二十年，长尾一直是自动驾驶面临的根本挑战。

大型语言模型对自主任务的限制

如今，大型语言模型对于自主应用方面仍然存在一些限制。简单地说，大型语言模型需要变得更加可靠和更快。因此需要开发解决方案，而这正是开发人员努力工作的地方。

1.延迟和实时限制

司机的关键决策必须在不到一秒钟的时间内做出，而在数据中心运行的最新大型语言模型可能需要10秒或更长时间。

解决这个问题的一个方案是采用混合云架构，它用数据中心处理为车载计算系统提供补充。另一个方案是专门构建的大型语言模型，它可以将大型模型压缩成足够小、足够快，以适应汽车的应用。人们已经看到在优化大型模型方面有了显著的改进。Mistral 7B和Llama 2 7B已证明其性能可与GPT-3.5相媲美，参数数量级更少（70亿个参数对1750亿个参数）。摩尔定律和持续的优化应该会迅速将更多的这些模型转移到边缘。

2.幻觉

大型语言模型基于相关性进行推理，但并非所有相关性在特定场景中都有效。例如，自动驾驶车辆观察到一个人站在十字路口可能意味着停止(行人)、驶离(交警)或减速(施工工人)。正相关性并不总是给出正确的答案。当模型产生不能反映现实的输出时，将其结果称为“幻觉”。

基于人类反馈的强化学习(RLHF)通过将模型与人类反馈相结合来理解这些复杂的驾驶场景，为这些问题提供了一个潜在的解决方案。随着数据质量的提高，像Llama 2 70B这样的小型模型的性能与GPT-4不相上下，参数却减少了20倍（700亿个参数对1.7万亿个参数）。

研究项目也使更好的数据质量更容易扩展。例如，OpenChat框架利用了强化学习微调(RLFT)等新技术，在提高性能的同时避免了成本高昂的人类偏好标签。

3.新的长尾

大型语言模型已经编码了“一切”，但仍然可能没有涵盖所有特定于驾驶的概念，例如在繁忙的十字路口进行导航的能力。这里的一个潜在解决方案是采用长序列的专有驾驶数据训练模型，这些数据可以将这些更详细的概念嵌入模型中。例如，Replit使用来自其用户群的专有编码数据，通过微调不断改进其代码生成工具，性能优于Code Llama 7B等大型模型。