过去的一年,OpenAI的chatGPT将自然语言的大型语言模型(LLM)推向了公众的视野,人工智能AI如一夜春风吹遍了巴黎,全世界都为AI而疯狂。
OpenAI ChatGPT是一个使用人类反馈进行微调的预训练生成文本模型。不像以前的模型主要在单个提示符上操作,ChatGPT通过对话提供了特别令人印象深刻的交互技能,结合了文本生成和代码合成。这些模型正在广泛的应用中发生革命性的变化。这些模型在文本生成、机器翻译和代码合成等各种任务中取得了显著的成果。进而迅速发展到文生图,文生视频的阶段,几个月前,SORA的出现更使人们惊呼人工智能时代已经到了。
到目前为止,chatGPT输出的文本对于人类而言,已经近乎于完美,而生成的图片和视频不乏惊艳之作。但是生产的文本依然会出现文不对题的现象,而且每次输出的文本存在区别。而图片和视频还略显幼稚。有待进一步地提升。
基于大语言模型的各种生成系统的不确定性和错误的风险,给人们一个感觉,将LLM 应用于物理设备的控制目前仍然是不现实的。LLM 在工业领域的应用仅限于知识库,图像识别的少数领域。
本文介绍国外论文中的一些内容,探讨ChatGPT的能力是否以及如何推广到机器人领域。如果控制物理的机器人成为可能,那么将chatGPT技术延伸到物理世界就只是时间问题了。
基本思路
机器人系统与纯文本应用程序不同,需要对现实世界的物理、环境背景以及执行物理动作的能力有深刻的理解。生成式机器人模型需要具有强大的常识性知识和复杂的世界模型,以及与用户交互的能力,以物理上可能且在现实世界中有意义的方式解释和执行命令。这些挑战超出了语言模型的原始范围,因为它们不仅必须理解给定文本的含义,还必须将意图转化为物理动作的逻辑序列。
鉴于机器人技术是一个多种多样的领域,存在多种平台、场景和工具,因此存在各种各样的库和api。我们没有要求LLM输出特定于平台或库的代码,这可能涉及大量的微调,而是为ChatGPT创建一个简单的高级函数库来处理,然后可以在后端链接到所选择平台的实际api。因此,我们允许ChatGPT从自然对话中解析用户意图,并将其转换为高级函数调用的逻辑链。
从上图可见,机器人的控制依然保留了现有工程控制的方式,使用API和程序库来控制机器人的动作,这里将会使用各种数字化模型,例如OPCUA ,工业4.0 管理壳等。物理设备仍然基于已有的数学模型,物理原理和机电控制算法来控制,我们并没有打算让chatGPT 来代替传统的工程设计,而是为chatGPT构建一个连接物理世界的接口。
机器人与ChatGPT
推动机器人控制的LLM提出了几个挑战,例如提供对问题的完整而准确的描述,识别允许的函数调用和api的正确集合,以及使用特殊参数使答案结构有偏差。为了在机器人应用程序中有效地使用ChatGPT,我们构建了一个由以下步骤组成的管线:
- 定义一个高级机器人函数库。此库可以特定于感兴趣的形式因素或场景,并且应该映射到机器人平台上的实际实现,同时具有足够的描述性以供ChatGPT遵循;
- 为ChatGPT构建一个提示符( prompt),它描述了目标,同时还标识了库中允许的高级函数集。提示符还可以包含有关约束的信息,或者ChatGPT应该如何构建其响应;
- 用户在循环中评估ChatGPT输出的代码,通过直接分析或模拟,并向ChatGPT提供关于输出代码质量和安全性的反馈;
- 在对chatgpt生成的实现进行迭代之后,可以将最终代码部署到机器人上。
通过这项工作,人们希望为融合LLM和机器人技术的未来研究开辟新的机会和途径。我们相信,我们的研究结果将启发和指导这个令人兴奋的领域的进一步研究,为开发新的、创新的机器人系统铺平道路,这些系统可以以自然、直观的方式与人类互动。
机器人API库的构建和描述
机器人技术是一个成熟的领域,已经存在大量的库,无论是黑盒还是开源,都可以用于感知和动作领域的基本功能(例如对象检测和分割,映射,运动规划,控制,抓取)。如果在提示符中适当指定,LLM能够使用这些预定义的功能进行机器人推理和执行。
提示符设计的一个重要要求是,所有API名称必须描述整个函数行为。明确的名称对于LLM推断api之间的功能连接并为问题产生所需的结果至关重要。因此,我们可以定义高级函数,它们作为来自各自库的实际实现的包装器。例如,一个名为detect_object(object_name)的函数可以在内部链接到一个OpenCV函数或一个计算机视觉模型,而像move_to(x, y, z)这样的函数可以在内部调用一个运动规划和避障管道,以及用于无人机的适当的低级电机命令。在提示符中列出这样一组高级函数是允许ChatGPT创建行为原语的逻辑序列,以及推广到不同场景和平台的关键。
提示符中清晰地描述任务细节
通过提供对所需机器人任务及其上下文的清晰而简洁的描述,ChatGPT可以生成更准确的响应。除了机器人的api,一个好的上下文描述应该包含:
- 约束和需求:指定与任务相关的约束或需求。如果任务涉及移动物体,你可以指定要移动的物体的重量、大小和形状。
- 环境:描述机器人任务发生的环境。例如,如果任务是在迷宫中穿行,你可能会描述迷宫的大小和形状,以及需要避开的障碍物或危险。
- 当前状态:描述机器人系统的当前状态。例如,如果任务是捡起一个物体,你可能会描述机器人和物体的当前位置和方向。
- 目标和目的:陈述任务的目标和目的。如果任务是组装一个拼图,你可以指定需要组装的碎片的数量和期望的完成时间。
- 解决方案示例:演示如何解决类似的任务,作为指导LLM案策略的一种手段。例如,如果一个任务涉及到与用户的交互,我们可以描述一个例子,说明机器人应该如何以及何时要求用户输入。注意,启动也会引入偏差,所以我们应该提供多样化的例子,避免过度规定性的语言。
-
任务描述
- 完成提示工程之后,就可以向chatGPT 提出任务了,下面是一个例子
为机器人问题定义不同api时的良好提示实践示例。明确机器人可以执行的函数定义,明确说明任务目标 。
即使是设计良好的提示也可能不包含解决问题所需的所有必要信息,或者在某些情况下,ChatGPT无法以零概率的方式生成正确的响应。在这些情况下,我们发现用户可以采取的一个简单而有效的策略是,以聊天格式向ChatGPT发送描述问题的附加指令,并让它自行纠正。以前依赖于GPT-3模型的方法。要求用户重新设计输入提示符并从头生成新的输出。然而,ChatGPT的对话功能是一种非常有效的行为纠正工具。
仿真的重要性
虽然ChatGPT的功能令人印象深刻,但不应忽视实际部署的安全考虑,特别是在物理机器人部署的情况下。 我们发现在ChatGPT产生意外行为的情况下,有必要让一个人在循环中进行监视和干预。此外,在将模型部署到现实世界之前,使用模拟器对评估模型的性能特别有帮助。我们强调,ChatGPT在机器人中的应用并不是一个完全自动化的过程,而是作为一种增强人类能力的工具。
结束语
当chatGPT后,人们最沮丧的事情也许是突然发现过去的艰辛努力获得的经验,技术突然之间被AI白嫖了,而且自己在未来的角色也显得不重要了。这就是AI代替和超越人类的终结目标。现在看来并非如此。让AI 直接从头学习和理解物理世界是不现实的。将AI作为思考,推演和交互工具,与传统的物理系统作为观测与执行机构相结合是可行之路。今天,我们在解决IT/OT 融合,在不远的将来,我们将面临AI/OT的融合。
- AI/OT的融合是一个有趣的话题,也是可以马上开始的探索之路。