浙江省建设注册管理中心网站/关键词排名提高

浙江省建设注册管理中心网站,关键词排名提高,平面设计制作公司,深圳网站建设团队25年2月来自北京交大和阿里巴巴公司的论文“Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration”。 移动设备使用量的快速增长,迫切需要改进自动化以实现无缝任务管理。然而,因缺乏操作知识&#xff0…

25年2月来自北京交大和阿里巴巴公司的论文“Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration”。

移动设备使用量的快速增长,迫切需要改进自动化以实现无缝任务管理。然而,因缺乏操作知识,许多人工智能驱动的框架举步维艰。手写知识虽然有帮助,但劳动强度大、效率低下。为了应对这些挑战,Mobile-Agent-V,利用视频指导为移动自动化提供丰富且经济高效操作知识。Mobile-Agent-V通过利用视频输入来增强任务执行能力,而无需专门的采样或预处理。Mobile-Agent-V集成滑动窗口策略,并结合视频智体和深度反思智体,以确保动作和用户指令对齐。通过这种创新方法,用户可以在指导下记录任务流程,使系统能够自主学习并高效执行任务。与现有框架相比,Mobile-Agent-V的性能提高30%。

用户每天执行大量操作,对移动设备的依赖性不断增加,这凸显简化交互的必要性。目前,人工智能推动移动自动化,提高生产力研究。ChatGPT 和 Claude 等系统使设备能够根据用户输入自主处理任务。

多模态大语言模型 (MLLM) 的发展显著改善移动设备操作框架,并使用这些模型作为智体 (Liu et al., 2023b; Zhu et al., 2023; Ye et al., 2023a; Dai et al., 2023; Liu et al., 2023a; Chen et al., 2023; Bai et al., 2023; Ye et al., 2023b; Wang et al., 2023; Lu et al., 2024a; Ye et al., 2024; Wu et al., 2024)。这些框架利用智体的感知、决策和反思来执行跨多个应用程序的复杂任务,从而拓宽移动设备的自主能力。

为了提高用户体验,基于大语言模型 (LLM) 的智体框架在 GUI 操作方面正在迅速发展 (Wang,2024d;Liu,2025)。在 Web 上,基于 HTML 的解析因其可解释性而占主导地位,而一些框架(例如 ChatGPT 的 Web 助手)则利用视觉感知 (Zhou,2023;Deng,2023;Zheng,2024;He,2024;Lù,2024;Yoran,2024;Reddy,2024)。相比之下,基于 PC 的框架,依靠系统 API 或自动化工具来增强控制和灵活性 (Zhang et al., 2024a; Tan et al., 2024; Xie et al., 2024)。在移动领域,一个关键挑战是让智体具备操作知识,而 LLM 通常缺乏这些知识。现有的方法包括:(1)在运营数据上训练模型,成本高昂且缺乏可扩展性(Hong et al., 2023; Cheng et al., 2024; You et al., 2024; Zhang et al., 2024b; Chen and Li, 2024; Lu et al., 2024b; Chai et al., 2024; Rawles et al., 2024; Xu et al., 2024; Li et al., 2024a; Wan et al., 2024; Xing et al., 2024; Liu et al., 2024); (2) 实现自主探索,但这是资源密集型的 (Yang et al., 2023; Wang et al., 2024c; Li et al., 2024b; Wang et al., 2025);(3) 手动生成知识,但效率低下,且依赖于迭代的人为干预 (Wang et al., 2024b)。

视频指导已成为训练智体的重要方式,使它们能够有效地理解动态环境并与之交互。早期的研究侧重于使用大语言模型 (LLM) 作为视频理解的中央智体。扩展这个想法,(Wang et al., 2024e) 可以提高长期时间理解能力。除了理解之外,视频指导还被用于现实世界的应用。(Wang et al., 2024a) 将 LLM 集成到视频编辑工作流程中,并自动执行基于语言的视频描述和编辑。同样,(Zhang et al., 2024c) 引入一种检索相关视频帧的有效方法,从而实现结构化视频处理。在机器人技术中,(Chane-Sane et al., 2023) 利用人类演示视频来教机器人新的操作技能,而无需明确的监督。这些研究展示视频引导状态日益增长的作用,从视频理解和检索到现实世界的任务执行,为更先进的多模式学习系统奠定基础。

尽管取得进展,但现有方法仍然受到有限操作知识的限制。如图所示,即使经过广泛的探索,当前的智体仍然难以完成诸如在拍照时禁用位置记录之类的任务。这种限制源于缺乏全面的训练数据、由于应用程序更新而导致学习的知识迅速过时以及无法访问特定于设备的操作信息。虽然 Odyssey 等方法利用外部任务路径,但它们面临着可扩展性和数据收集方面的挑战(Lu,2024b)。由于任务序列冗长,AppAgent 的自我探索成本高昂(Yang,2023),而 Mobile-Agent-V2 对手动编程的依赖仍然效率低下(Wang,2024b)。这些挑战凸显移动自动化需要更具可扩展性和适应性的解决方案。

请添加图片描述

Mobile-Agent-V 是一种通过视频指导增强移动自动化的框架。其关键组件包括视频处理、滑动窗口、视频智体、深度反思智体、决策智体,这些组件协同工作,提高运营效率和准确性。

Mobile-Agent-V 的整体工作流程如图所示。给定一个捕获演示任务的输入视频 V,系统首先通过均匀采样和冗余消除提取关键帧 F′。执行从位于关键帧序列开始处的初始滑动窗口开始。在每次迭代中,决策智体根据当前窗口、视频指令和历史决策生成动作 O_i。如果任务成功完成,则流程终止。否则,深度反思智体将验证并优化该动作以确保与演示任务保持一致。然后在设备上执行优化后的决策 RO_i,将其状态更新为 D_i+1。视频智体随后确定下一个窗口起点 S_i+1,以便在任务进展过程​​中动态调整观察范围。此迭代过程持续进行,直到任务完成或达到预定义的最大探索限制。

请添加图片描述

完整的流程在如下算法中概述:

请添加图片描述

视频处理

传统的均匀采样通常用于视频理解,它只对具有相对静态场景和帧间连续运动的真实世界视频有效。然而,在移动视频录制中,大多数帧保持静态,而其余帧由于间歇性的人机交互和快速的设备响应而快速变化。这使得均匀采样不足以满足移动设备视频的需求。

为了解决这个问题,首先以频率 d 对 V 进行均匀采样,以获得关键帧集 F。接下来,计算连续关键帧之间的相似度,并删除相似度高于阈值 s 的关键帧,从而得到一个简化的集合 F_s。最后,过滤掉时间间隔小于阈值 f_s 的关键帧,得到最终的关键帧集 F ′。

滑动窗口

为了提高 MLLM 对视频的理解能力,通过仅选择与当前操作相关的关键帧来减少输入长度。这是通过滑动窗口实现的,其中窗口的起点和终点之间的关键帧 V_w 作为决策的输入。

理想情况下,如果关键帧提取准确,窗口大小应为 2,覆盖操作前后的状态以预测状态转换。但是,为了增强鲁棒性,窗口大小通常大于 2,并且起点向后移动以捕捉先前的状态,从而获得更好的上下文。

决策智体

动作空间。决策智体负责生成改变设备状态的动作。为了确保通过操作工具无缝执行,采用与现有框架类似的动作空间。Mobile-Agent-V 定义六个基本动作:单击、滚动、键入、返回、主页和完成。它们分别对应于点击特定位置、沿指定方向滚动、在活动输入字段中输入文本、导航到上一页、返回主屏幕和完成任务。

决策。与依赖内部操作知识的先前方法不同,Mobile-Agent-V 中的决策智体直接从视频内容中得出动作。这对上下文遵循提出了更高的要求。通过利用滑动窗口机制,过滤掉不相关的帧,在保留关键信息的同时减少输入长度。

深度反思智体

即使使用滑动窗口,处理低质量的关键帧也需要增加窗口大小,因为较小的窗口可能由冗余帧主导,从而阻止关键关键帧被包含进来。在无法确保完美提取关键帧的情况下,决策智体在对长多帧序列进行推理时仍然面临挑战。为了解决这个问题,引入深度反思智体,它对决策智体的输出进行深入验证和改进。具体来说,它遵循一个结构化的过程:分析视频中的每个操作,识别记录序列中的当前设备状态,验证决策智体的操作是否与视频中的相应操作一致,如果检测到差异,则根据观察的轨迹改进操作。这种反思机制通过确保严格遵守演示的操作来提高决策准确性,从而最终得出改进的决策 RO_i。

视频智体

为了在整个任务执行过程中动态调整滑动窗口,引入了视频智体。最初,窗口从第一个关键帧跨越到第 W 个关键帧。每次操作后,视频智体都会分析操作前后的屏幕截图、当前窗口内的关键帧以及用户输入,以识别相应的关键帧。然后,它确定更新后的窗口起点,确保自适应前进。

此外,视频智体还可以处理异常情况,例如导致意外状态的错误转换或由冗余或缺失关键帧引起的差异。为了提高可靠性,它可以标记不一致并生成诊断反馈,从而促进错误恢复并提高决策稳健性。

将 Mobile-Agent-V 与几个开源智体框架进行了比较,包括 ApAgent(Yang,2023)、Mobile-Agent(Wang,2024c)和 Mobile-Agent-v2(Wang,2024b)。为了评估其从视频中学习操作知识的能力,引入人工策划的知识基线,其中专家手动从视频中提取关键操作步骤并将其作为文本输入提供。此文本替换 Mobile-Agent-V 中的视频输入。

Mobile-Agent-V 和基线都使用 GPT-4o 作为 MLLM,确保与基线保持一致。该模型通过官方 API 访问,具有默认超参数。

实验在 OnePlus 7 Pro 智能手机上使用 Android Debug Bridge (ADB) 进行交互,与基线保持一致。可点击位置从设备的 XML 层次结构中提取,在屏幕截图上进行视觉标记,并由智体用于精确的操作选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/898259.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

电鱼智能EFISH-RK3576-SBC工控板已适配Android 14系统

EFISH-RK3576-SBC工控板此前已提供了Linux 6.1.57系统,为了满足更多客户的需求,电鱼智能近日又为其成功适配了Android 14系统——硬件性能卓越的核心板与Android 14的深度组合,将为用户带来更加流畅、开放、智能的使用体验。 一、高性能处理器…

正点原子[第三期]Arm(iMX6U)Linux移植学习笔记-5.1 uboot顶层Makefile分析-VSCode工程创建

前言: 本文是根据哔哩哔哩网站上“Arm(iMX6U)Linux系统移植和根文件系统构键篇”视频的学习笔记,在这里会记录下正点原子 I.MX6ULL 开发板的配套视频教程所作的实验和学习笔记内容。本文大量引用了正点原子教学视频和链接中的内容。 引用: …

无线头戴式摄像头系统:无需标记点摄像头智能捕捉人脸表情

AH-T无线头戴式摄像头系统是一款可以精准捕捉人脸面部细微表情的设备,基于单目无标记点摄像头智能识别算法,无需在脸上粘贴标记点即可实现真人细微脸部表情的精准捕捉,采用头盔,面捕摄像头一体式人性化设计,可以让使用…

Tailwind CSS 中的 spacing 详解

🔍 Tailwind CSS 中的 spacing 详解 spacing(间距)是 Tailwind CSS 里的一个核心概念,它主要用于控制 padding(内边距)、margin(外边距)、width(宽度)、heig…

STM32---FreeRTOS内存管理实验

一、简介 1、FreeRTOS内存管理简介 2、FreeRTOS提供的内存管理算法 1、heap_1内存管理算法 2、heap_2内存管理算法 4、heap_4内存管理算法 5、heap_5内存管理算法 二、FreeRTOS内存管理相关API函数介绍 三、 FreeRTOS内存管理实验 1、代码 main.c #include "st…

【VUE】ant design vue实现表格table上下拖拽排序

适合版本&#xff1a;ant design vue 1.7.8 实现效果&#xff1a; 代码&#xff1a; <template><div class"table-container"><a-table:columns"columns":dataSource"tableData":rowKey"record > record.id":row…

Java设计模式建模语言面向对象设计原则

设计模式 设计模式的概念 设计模式最初用于建筑领域的设计中。 软件的设计模式&#xff0c;又称设计模式&#xff0c;是一套被反复使用&#xff0c;多数人知道的&#xff0c;经过分类编目的&#xff0c;代码设计经验的总结。 它描述了在软件设计过程中的一些不断重复发生的…

Docker - 切换源 (Linux / macOS)

文章目录 Linux 系统macOS 系统 Linux 系统 修改配置文件&#xff1a;/etc/docker/daemon.json "registry-mirrors": ["https://docker.mirrors.ustc.edu.cn","https://hub-mirror.c.163.com"]验证是否修改成功&#xff1a; docker info重启 …

RocketMQ的安装及配置(windows)

1. 环境准备 JDK需要先安装好。 1. RocketMQ是用Java语言写的&#xff0c;所以需要JDK的支持。2. 下载RocketMQ 建议下载这个低版本的 https://rocketmq.apache.org/release-notes/2020/12/21/4.8.0/ 下载之后解压即可&#xff0c;目录结构如下&#xff1a; 3. 配置RocketM…

【运维自动化-标准运维】如何实现一个最简单的流程编排

流程编排是标准运维最核心的功能&#xff0c;通过将不同功能的原子插件在画布上可视化的拖拽编排&#xff0c;可以实现各种不同场景的跨系统工作流。标准运维流程 根据实际运维操作场景梳理出来的操作步骤&#xff0c;通过不同的流转逻辑&#xff08;并行、分支、条件并行&…

性能测试之grafana展示jmeter测试指标与主机监控

性能测试之grafana展示jmeter测试指标与主机监控 背景 ​ 公司新的项目准备开展性能测试,之前性能监控主要使用的jmeter的插件jpgc-Transactions per Second 与 jpgc- Response Times Over Time 与 jpgc - Active Threads Over Time等等插件监控性能指标结果,PerfMon Metrics…

1~2 课程简介+ESP32-IDF环境搭建(虚拟机Linux环境下)

哔站“宸芯IOT”视频链接 一、课程内容介绍 1.什么是ESP32 ESP32是集成2.4GHz Wi-Fi和蓝牙双模的单芯片方案&#xff0c;具有超高的射频性能、稳定性、通用性和可靠性&#xff0c;以及超低的功耗&#xff0c;满足不同的功耗需求&#xff0c;适用于各种应用场景。ESP32是ESP8…

YOLOv11小白的进击之路(九)创新YOLO11损失函数之NWD损失函数源码解读

之前的博客也有对YOLO11的损失函数进行过源码分析&#xff0c;可以参考&#xff1a;YOLOv11小白的进击之路&#xff08;六&#xff09;创新YOLO的iou及损失函数时的源码分析_yolov11的损失函数是什么-CSDN博客最近在做小目标检测的时候注意到了NWD损失函数&#xff0c;这里对其…

VLN 论文精读(四)Dynamic Path Navigation for Motion Agents with LLM Reasoning

这篇笔记用来描述2025年发表在arxiv上的一篇有关VLN领域的论文&#xff0c;由港科大和达特茅斯大学联合发布&#xff0c;其核心思想有以下几点&#xff1a; 将3D环境转化为2D平面&#xff1b;2D平面中障碍物分布、机器人起点与终点信息用稀疏矩阵形式进行描述&#xff1b;与LL…

vue3之写一个aichat ----vite.config.js

vite.config.js的CSS配置 postcss-pxtorem 开发响应式网页的时候需要用到postcss-pxtorem amfe-flexible amfe-flexible是由阿里团队开发的一个库&#xff0c;它可以根据设备的屏幕宽度去动态调整HTML根元素()的字体大小&#xff0c;这意味着无论用户使用什么尺寸的设备访问你…

宝石PDF,全新 PC 版本,全部免费

宝石PDF已经运行 3 年时间&#xff0c;有客户端&#xff0c;小程序&#xff0c;一直未上 PC 版本&#xff0c;随着客户端功能升级的不及时&#xff0c;很多用户建议上 PC 版本。但是飞哥一直忙&#xff0c;这不终于给上了。 同时系统的名称也从 “PDF云转换”改为“宝石PDF”&…

HTML课后实践

实验一 【实验原理】 在搜索引擎的文本分析中&#xff0c;标题的信息权重要比正文的大&#xff0c;所以标题的样式非常重要。本实验通过把标题标记和常规文本进行对比输出&#xff0c;掌握标题标签的用法。在网页中&#xff0c;有时需要为文字设置粗体、斜体或下划线效果&#…

【紫光同创FPGA开发常用工具】FPGACPLD的下载与固化

文档内容适配技术问题说明&#xff08;非正文&#xff09;&#xff1a; 1、FPGA&CPLD如何下载位流文件&#xff1b; 2、FPGA外部flash如何固化位流文件&#xff1b; 3、PDS软件烧录界面如何新增用户flash&#xff1b; 4、CPLD内部flash如何固化位流文件&#xff1b; F…

塔能智慧物联节能方案:点亮城市,赋能工厂

在全球积极倡导节能减排、绿色发展的时代背景下&#xff0c;塔能&#xff08;江苏&#xff09;科技有限公司凭借其创新的智慧物联节能一体化解决方案&#xff0c;在城市照明和工厂节能领域取得了显著成果。该方案不仅为城市的夜晚带来了明亮且节能的照明&#xff0c;还为工厂的…

Python自动点击器开发教程 - 支持键盘连按和鼠标连点

Python自动点击器开发教程 - 支持键盘连按和鼠标连点 这里写目录标题 Python自动点击器开发教程 - 支持键盘连按和鼠标连点项目介绍开发环境安装依赖核心代码解析1. 键盘模拟实现2. 鼠标点击实现 开发要点使用说明注意事项优化建议打包发布项目源码开发心得参考资料成品工具 项…