Mobile-Agents: Autonomous Multi-modal Mobile Device Agent With Visual Perception
摘要
本文介绍了Mobile-Agents,这是一个自主的多模态移动设备代理,它首先利用视觉感知工具准确地识别和定位移动应用程序前端界面中的视觉和文本元素。借助这种感知的视觉上下文,Mobile-Agent框架自主地规划和分解复杂的操作任务,并通过逐步操作导航移动应用程序。与现有解决方案不同,Mobile-Agent框架不依赖于移动系统元数据或移动应用程序的XML文件,从而在视觉为中心的方式下提高了跨不同移动操作环境的适应性。Mobile-Agent框架采用的方法消除了对系统特定自定义的需求,从而提高了性能并降低了计算要求。
1. 引言
随着多模态大型语言模型(MLLM)的出现,移动设备代理进入了一个新时代,它们能够通过文本、图像和语音与世界进行理解和交互。这些代理标志着传统AI的重大进步,为用户与设备交互提供了更丰富、更直观的方式。通过利用MLLM,这些代理可以从各种模态中处理和合成大量信息,从而以以前无法想象的方式提供个性化帮助并增强用户体验。
2. Mobile-Agent框架
Mobile-Agent框架的核心是一个最先进的多模态大型语言模型GPT-4V,以及一个用于文本定位任务的文本检测模块。此外,Mobile-Agent还使用了一个图标检测模块来定位图标。
2.1 视觉感知
GPT-4V MLLM在指令和屏幕截图上提供了满意的结果,但它无法有效地输出操作发生的位置。因此,Mobile-Agent框架需要依赖外部工具来协助操作定位。
2.1.1 文本定位
Mobile-Agent框架实现了一个OCR工具来检测屏幕上对应文本的位置。有三种独特的文本定位场景。
2.1.2 图标定位
Mobile-Agent框架实现了一个图标检测工具来定位图标的位置。
2.2 指令执行
Mobile-Agent框架定义了8种不同的操作来将动作转换为屏幕上的操作。
2.3 自我规划
Mobile-Agent框架在每次迭代之前捕获屏幕截图并将其提供给代理。代理观察屏幕截图、操作历史和系统提示,以输出下一步操作。
2.4 自我反思
Mobile-Agent框架引入了一种自我评估方法,以在两种特定情况下激活。
3. 实验
Mobile-Agent框架引入了Mobile-Eval基准测试,包括10个常用应用程序,并为每个应用程序设计了三个指令。
4. 结果
Mobile-Agent在三个给定任务中的完成率分别为91%,82%和82%。成功率超过90%。过程分数(PS)指标显示,Mobile-Agent在三个任务中执行准确动作的可能性很高,成功率约为80%。相对效率(RE)指标显示,Mobile-Agent在执行操作时具有与人类最佳水平相当的高效性。
5. 结论
本文介绍了Mobile-Agents,这是一个自主的多模态移动设备代理,它首先利用视觉感知技术精确检测和定位移动应用程序界面中的视觉和文本组件。借助这种感知的视觉上下文,Mobile-Agent框架自主地规划和分解复杂的操作任务,并通过逐步操作导航移动应用程序。与现有方法不同,Mobile-Agent框架不依赖于移动系统元数据或移动应用程序的XML文件,从而在视觉为中心的方式下提高了跨不同移动操作环境的适应性。Mobile-Agent框架采用的方法消除了对系统特定自定义的需求,从而提高了性能并降低了计算要求。