移动代理:具有视觉感知能力的自主多模态移动设备代理

Mobile-Agents: Autonomous Multi-modal Mobile Device Agent With Visual Perception

摘要

本文介绍了Mobile-Agents,这是一个自主的多模态移动设备代理,它首先利用视觉感知工具准确地识别和定位移动应用程序前端界面中的视觉和文本元素。借助这种感知的视觉上下文,Mobile-Agent框架自主地规划和分解复杂的操作任务,并通过逐步操作导航移动应用程序。与现有解决方案不同,Mobile-Agent框架不依赖于移动系统元数据或移动应用程序的XML文件,从而在视觉为中心的方式下提高了跨不同移动操作环境的适应性。Mobile-Agent框架采用的方法消除了对系统特定自定义的需求,从而提高了性能并降低了计算要求。

1. 引言

随着多模态大型语言模型(MLLM)的出现,移动设备代理进入了一个新时代,它们能够通过文本、图像和语音与世界进行理解和交互。这些代理标志着传统AI的重大进步,为用户与设备交互提供了更丰富、更直观的方式。通过利用MLLM,这些代理可以从各种模态中处理和合成大量信息,从而以以前无法想象的方式提供个性化帮助并增强用户体验。

2. Mobile-Agent框架

Mobile-Agent框架的核心是一个最先进的多模态大型语言模型GPT-4V,以及一个用于文本定位任务的文本检测模块。此外,Mobile-Agent还使用了一个图标检测模块来定位图标。

2.1 视觉感知

GPT-4V MLLM在指令和屏幕截图上提供了满意的结果,但它无法有效地输出操作发生的位置。因此,Mobile-Agent框架需要依赖外部工具来协助操作定位。

2.1.1 文本定位

Mobile-Agent框架实现了一个OCR工具来检测屏幕上对应文本的位置。有三种独特的文本定位场景。

2.1.2 图标定位

Mobile-Agent框架实现了一个图标检测工具来定位图标的位置。

2.2 指令执行

Mobile-Agent框架定义了8种不同的操作来将动作转换为屏幕上的操作。

2.3 自我规划

Mobile-Agent框架在每次迭代之前捕获屏幕截图并将其提供给代理。代理观察屏幕截图、操作历史和系统提示,以输出下一步操作。

2.4 自我反思

Mobile-Agent框架引入了一种自我评估方法,以在两种特定情况下激活。

3. 实验

Mobile-Agent框架引入了Mobile-Eval基准测试,包括10个常用应用程序,并为每个应用程序设计了三个指令。

4. 结果

Mobile-Agent在三个给定任务中的完成率分别为91%,82%和82%。成功率超过90%。过程分数(PS)指标显示,Mobile-Agent在三个任务中执行准确动作的可能性很高,成功率约为80%。相对效率(RE)指标显示,Mobile-Agent在执行操作时具有与人类最佳水平相当的高效性。

5. 结论

本文介绍了Mobile-Agents,这是一个自主的多模态移动设备代理,它首先利用视觉感知技术精确检测和定位移动应用程序界面中的视觉和文本组件。借助这种感知的视觉上下文,Mobile-Agent框架自主地规划和分解复杂的操作任务,并通过逐步操作导航移动应用程序。与现有方法不同,Mobile-Agent框架不依赖于移动系统元数据或移动应用程序的XML文件,从而在视觉为中心的方式下提高了跨不同移动操作环境的适应性。Mobile-Agent框架采用的方法消除了对系统特定自定义的需求,从而提高了性能并降低了计算要求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/756995.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Covalent Network借助大规模的历史Web3数据集,推动人工智能发展

人工智能在众多领域中增强了区块链的实用性,反之亦然,区块链确保了 AI 模型所使用的数据的来源和质量。人工智能带来的生产力提升,将与区块链系统固有的安全性和透明度融合。 Covalent Network(CQT)正位于这两项互补技…

Docker 学习笔记

Play With Docker一个免费使用的基于web界面的Docker环境 常用docker命令 可使用docker COMMAND --help查看命令的用法 Docker镜像相关 1、docker image pull:用于下载镜像,镜像从远程镜像仓库服务的仓库中下载,默认从Docker Hub的仓库中拉…

JS+CSS3点击粒子烟花动画js特效

JSCSS3点击粒子烟花动画js特效 JSCSS3点击粒子烟花动画js特效

ES-Hadoop:将Elasticsearch与Hadoop无缝集成的开源工具

hadoop 大数据技术之Hive(3)PyHive pyhdfs ES,Elasticsearch https://zhuanlan.zhihu.com/p/595505475?utm_id0 Hadoop hdfs 、hive、spark https://blog.51cto.com/u_16099278/6901638 ES-Hadoop:将Elasticsearch与Hadoop无缝集成的开源工…

idea import的maven类报红

idea 报红/显示红色的原因 一般报红,显示红色,是因为 idea 在此路径下,找不到这个类。 找到是哪个 jar 包的类导致 idea 报红 点击报红的路径的上一层,进入jar 包。比如: import com.aaa.bbb.ccc.DddDto;这个 impo…

Qt + HTTP 线程交互类封装

介绍 QT的HTTP模块封装的交互类&#xff0c;线程运行。使用时添加自己的业务逻辑即可 代码 头文件 /*** file httpcontroller.h* brief 云台相机的协议交互类* author xintong-zhou* date 2024-03-13*/#ifndef HTTPCONTROLLER_H #define HTTPCONTROLLER_H#include <QNet…

服务器上配置nginx

如何在 Ubuntu 20.04 上安装 Nginx - 知乎 (zhihu.com) 就像是在本机进行下载配置一般&#xff0c;成功后你自己可以通过浏览器输入网址访问&#xff0c;本地环回地址或者连接上互联网后的ip地址&#xff08;那么处于同一局域网的其他设备也可以访问&#xff09;。 在本机部署…

Spring AOP和AspectJ AOP区别

Spring AOP&#xff08;Aspect-Oriented Programming&#xff09;和 AspectJ AOP 是两种不同的 AOP 实现方式&#xff0c;它们在实现上有一些区别。下面是它们之间的主要区别&#xff1a; 基于代理 vs 字节码增强&#xff1a; Spring AOP&#xff1a; Spring AOP 是基于代理的…

TikTok云手机是什么原理?

随着社交媒体的快速发展和普及&#xff0c;TikTok已成为全球最受欢迎的短视频平台之一&#xff0c;吸引了数以亿计的用户。在TikTok上&#xff0c;许多用户和内容创作者都希望能够更灵活地管理和运营多个账号&#xff0c;这就需要借助云手机技术。那么&#xff0c;TikTok云手机…

windows跳板机配置(端口转发)

目录 前言操作步骤端口防火墙开放测试参考 前言 跳板机一般用于异构网络间的中转站&#xff0c;比如对方在防火墙上只给你开放了一台服务器的权限&#xff0c;你无法访问对方局域网的其它主机&#xff0c;但你能访问的这台服务器则有权限访问其它主机。那么这台服务器就可以作…

基于python失物招领系统-安卓-flask-django-nodejs-php

随着现在网络的快速发展&#xff0c;网络的应用在各行各业当中&#xff0c;利用网络来做这个失物招领的网站&#xff0c;随之就产生了“失物招领 ”&#xff0c;这样用户就可以利用平台来发布信息。 对于本失物招领 的设计来说&#xff0c; 它是应用mysql数据库、安卓等技术动…

GitHub与Git命令使用笔记

GitHub与Git命令使用笔记 文章目录 GitHub与Git命令使用笔记上传本地的新项目到github1. 创建新的GitHub仓库2. 初始化本地项目目录3. 将本地仓库关联到GitHub4. 推送本地代码到GitHub上传本地项目到GitHub时发生冲突 将默认分支名称从master改为main 上传本地的新项目到github…

【YOLOv5改进系列(1)】高效涨点----使用EIoU、Alpha-IoU、SIoU、Focal-EIOU替换CIou

改进IOU损失函数 &#x1f680;&#x1f680;&#x1f680;前言一、1️⃣ 如何添加损失函数1.1 &#x1f393; 修改bbox_iou函数1.2 ✨修改__call__中iou函数 二、2️⃣替换EIOU三、3️⃣替换SIoU四、4️⃣替换Alpha-IoU五、5️⃣替换Focal-EIOU六、6️⃣ 替换后的实验结果 &a…

Scala--03--变量和数据类型

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 变量和数据类型1.注释2 变量和常量&#xff08;重点&#xff09;3 标识符的命名规范4 字符串输出5.IO 输入 输出键盘输入读写文件 IO 6.数据类型&#xff08;重点&a…

3D开发工具HOOPS如何助力3D项目实现扩展现实技术?

在当今数字化时代&#xff0c;扩展现实&#xff08;Augmented Reality&#xff0c;AR&#xff09;技术的应用已经逐渐深入到各行各业&#xff0c;为用户带来了前所未有的沉浸式体验。而在实现这种技术的开发过程中&#xff0c;HOOPS技术的运用无疑是一种强大的助力。HOOPS是一种…

element-ui出的treeselect下拉树组件基本使用,以及只能选择叶子节点的功能,给节点添加按钮操作

element-ui出的treeselect下拉树组件基本使用&#xff1a;Vue通用下拉树组件riophae/vue-treeselect的使用-CSDN博客 vue-treeselect 问题合集、好用的树形下拉组件&#xff08;vue-treeselect的使用、相关问题解决方案&#xff09;-CSDN博客 需求1&#xff1a;treeselect下拉…

力扣Lc18--- 168. Excel表列名称(java版)-2024年3月19日

1.题目描述 2.知识点 注1&#xff1a;StringBuilder 对象的 insert() 方法用于在字符串的指定位置插入字符或字符序列。这里的第一个参数是插入位置的索引&#xff0c;而第二个参数是要插入的字符或字符序列。 public class InsertExample {public static void main(String[…

Filter and Listener and AJAX and JSON

一、Filter Filter 表示过滤器&#xff0c;是 JavaWeb 三大组件(Servlet、Filter、Listener)之一。过滤器可以把对资源的请求拦截下来&#xff0c;从而实现一些特殊的功能。&#xff08;拦截指定资源&#xff09; 正常情况下&#xff0c;浏览器可以访问服务器上的所有的资源&…

瑞_Redis_短信登录

文章目录 项目介绍1 短信登录1.1 项目准备1.1.1 导入SQL1.1.2 导入后端项目1.1.3 导入前端项目 1.2 基于Session实现登录流程1.2.1 功能流程介绍1.2.1.1 发送短信验证码1.2.1.2 短信验证码登录、注册1.2.1.3 校验登录状态 1.2.2 实现发送短信验证码功能1.2.2.1 页面流程1.2.2.2…

【保姆级】前端使用node.js基础教程

文章目录 安装和版本管理&#xff1a;npm 命令&#xff08;Node 包管理器&#xff09;&#xff1a;运行 Node.js 脚本&#xff1a;调试和开发工具&#xff1a;其他常用命令&#xff1a;模块管理&#xff1a;包管理&#xff1a;调试工具&#xff1a;异步编程和包管理&#xff1a…