UI-TARS与Midscene.js自动化探索

结合 Midscene.js 和 UI-TARS 大模型 实现 UI 页面自动化的可实施方案,涵盖环境配置、核心流程、代码示例及优化建议:

一、环境配置与工具集成

  1. 安装 Midscene.js

    • 方式一:通过 Chrome 插件快速安装(适用于浏览器自动化场景)。
    • 方式二:从 GitHub 下载源码集成到现有项目(支持 Node.js 或 Puppeteer 环境)。
  2. 配置 UI-TARS 模型服务

    • 模型部署:在阿里云 PAI、ModelScope 等平台部署 UI-TARS 模型(推荐使用 7B 或 72B 版本)。
    • API 接入:获取模型服务的 endpoint URLAPI Token,并在 Midscene.js 中配置以下参数:
      const mid = new Midscene({OPENAI_API_KEY: "<UI-TARS-API-TOKEN>",OPENAI_BASE_URL: "<UI-TARS-ENDPOINT>/v1",MIDSCENE_MODEL_NAME: "UI-TARS-7B-SFT" // 根据部署版本调整
      });
      

二、核心功能实现方案

1. 行为操作(AI Action)

通过自然语言指令驱动页面交互,UI-TARS 解析指令并生成精准操作(点击、输入、滚动等)。
示例代码

// 电商网站自动化下单流程
await mid.aiAction('打开浏览器并访问电商网站首页', { url: 'https://example.com' });
await mid.aiAction('在搜索框中输入“手机”并点击搜索按钮');
await mid.aiAction('选择搜索结果中的第一个商品并进入详情页');
await mid.aiAction('点击“加入购物车”并跳转到结算页面');

优势

  • UI-TARS 的 增强感知能力 能识别复杂 UI 元素(如动态加载的列表)。
  • 支持多级推理(如先滚动定位再点击)。
2. 数据提取(AI Query)

从页面中提取结构化数据,结合 UI-TARS 的 GUI 增强感知 能力,支持动态元素识别。
示例代码

const productInfo = await mid.aiQuery({name: '商品名称,string',price: '当前价格,number',stock: '库存状态,boolean'
});
// 输出示例:{ name: "某品牌手机", price: 2999, stock: true }

应用场景:价格监控、数据爬取等。

3. 断言验证(AI Assert)

通过自然语言描述预期结果,UI-TARS 结合 System 2 推理 验证页面状态。
示例代码

await mid.aiAssert('购物车中显示的商品总价为 2999 元');
await mid.aiAssert('当前页面包含“订单提交成功”提示');

优化建议:对于关键断言,可结合传统断言库(如 Jest)提升稳定性。


三、调试与优化

  1. 调试配置

    • 启用 MIDSCENE_DEBUG_AI_PROFILE=1 查看每次调用的 Token 消耗和执行时间。
    • 使用 可视化报告 回放操作步骤,定位失败环节。
  2. 性能优化

    • 短期记忆利用:通过 context 参数传递历史操作,减少重复推理。
    • 混合定位策略:对高稳定性要求的元素,结合 CSS 选择器与 AI 指令(如 mid.click('#search-box', { aiFallback: '在搜索框输入关键词' }))。

四、扩展应用场景

  1. 跨平台自动化
    • 结合 UI-TARS-Desktop 客户端实现桌面应用自动化(如调整 PPT 样式、修改系统设置)。
  2. 复杂任务处理
    • 利用 UI-TARS 的 多级思维模式 处理多步骤任务(如“从邮箱下载附件并解析内容”)。

五、代码示例(完整流程)

const { Midscene } = require('@midscene/web');
const puppeteer = require('puppeteer');(async () => {const browser = await puppeteer.launch();const page = await browser.newPage();const mid = new Midscene(page, {OPENAI_API_KEY: "sk-xxx", // 替换为 UI-TARS 的 API KeyOPENAI_BASE_URL: "https://ui-tars-endpoint/v1"});try {// 步骤 1:登录操作await mid.aiAction('打开登录页面并输入用户名和密码', {username: 'test@example.com',password: 'password123'});// 步骤 2:数据提取const userProfile = await mid.aiQuery({name: '用户昵称,string',role: '用户角色,string'});console.log('用户信息:', userProfile);// 步骤 3:断言验证await mid.aiAssert('页面右上角显示“欢迎回来”提示');} finally {await browser.close();}
})();

六、注意事项

  • 指令清晰度:避免模糊描述(如“点击那个按钮”),需明确元素特征(如“点击蓝色‘提交’按钮”)。
  • 模型适配:UI-TARS 在动态环境(如 Android 应用)中表现更优,静态网页可优先使用 GPT-4o。

通过上述方案,可快速构建基于自然语言的 UI 自动化流程,显著降低脚本维护成本。如需进一步优化,建议参考 UI-TARS 官方文档 和 Midscene.js 示例项目。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/73107.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Web开发-JS应用NodeJS原型链污染文件系统Express模块数据库通讯

知识点&#xff1a; 1、安全开发-NodeJS-开发环境&功能实现 2、安全开发-NodeJS-安全漏洞&案例分析 3、安全开发-NodeJS-特有漏洞 node.js就是专门运行javascript的一个应用程序&#xff0c;区别于以往用浏览器解析原生js代码&#xff0c;node.js本身就可以解析执行js代…

Spring AOP 核心概念与实践指南

第一章&#xff1a;AOP 核心概念与基础应用 1.1 AOP 核心思想 ​面向切面编程&#xff1a;通过横向抽取机制解决代码重复问题&#xff08;如日志、事务、安全等&#xff09;​核心优势&#xff1a;不修改源代码增强功能&#xff0c;提高代码复用性和可维护性 1.2 基础环境搭…

Flutter使用自签证书打包ipa

在 Flutter 中使用自签证书打包 IPA 文件&#xff0c;可以通过以下步骤完成&#xff1a; 1. 准备自签证书 方式一 生成自签证书&#xff1a; 打开 钥匙串访问 应用。选择 证书助理 > 创建证书。按照提示填写证书信息&#xff0c;选择证书类型为 代码签名&#xff0c;并保存…

基于STM32的机器人控制系统设计方案

一、系统概述 该机器人控制系统以STM32微控制器为核心,旨在实现对机器人的运动控制、传感器数据采集与处理、任务调度以及人机交互等功能。适用于多种类型的移动机器人,如轮式机器人、履带式机器人等,可应用于室内导航、环境监测、物流搬运等场景。 二、硬件设计 STM32微控…

【leetcode hot 100 51】N皇后

解法一&#xff1a;&#xff08;基于集合的回溯&#xff09;我们从第一行开始寻找&#xff0c;找每一行皇后应该放在第几列。每次找到都用Set记录已经用过的列和对角&#xff0c;其中从左到右向下的对角&#xff08;行-列相同&#xff09;&#xff0c;右到左向下的对角&#xf…

蓝桥刷题note9(分发饼干,最长回文子串)

1.分发饼干 假设你是一位很棒的家长&#xff0c;想要给你的孩子们一些小饼干。但是&#xff0c;每个孩子最多只能给一块饼干。 对每个孩子 i&#xff0c;都有一个胃口值 g[i]&#xff0c;这是能让孩子们满足胃口的饼干的最小尺寸&#xff1b;并且每块饼干 j&#xff0c;都有…

面试常问系列(一)-神经网络参数初始化

一、背景 说到参数初始化&#xff0c;先提一下大家常见的两个概念梯度消失和梯度爆炸。 &#xff08;一&#xff09;、梯度消失&#xff1a;深层网络的“静默杀手” 定义&#xff1a; 在反向传播过程中&#xff0c;梯度值随着网络层数增加呈指数级衰减&#xff0c;最终趋近…

Manacher 马拉车算法

Manacher 马拉车算法 5. 最长回文子串 - 力扣&#xff08;LeetCode&#xff09; 马拉车算法是目前解决寻找字符串中最长的回文子串时间复杂度最低的算法&#xff08;线性O(n)&#xff09;. 中心扩散法 初始化一个长度与字符串 s 相等的 臂长数组 arr 和 最长臂长 max 与 最…

(学习总结29)Linux 进程概念和进程状态

Linux 进程概念 冯诺依曼体系结构软件运行与存储分级数据流动的理论过程 操作系统操作系统(Operator System) 概念操作系统的功能与作用系统调用和库函数概念 进程概念描述进程 - PCBtask_struct查看进程通过系统调用获取进程标示符 PID通过系统调用 fork 函数创建进程简单使用…

MySQL密码修改的全部方式一篇详解

本文将详细介绍多种修改MySQL密码的方式。 本文目录 一、alter user 语句操作步骤 二、set password操作步骤 三、直接修改 mysql.user表操作步骤 一、alter user 语句 当你以 root 用户或者拥有足够权限的用户登录 MySQL 时&#xff0c;可以使用 ALTER USER 语句来修改密码。…

Wi-Fi NAN 架构(Wi-Fi Aware Specification v4.0,第2章:2.3~2.6)

1. NAN 数据通信架构 1.1 单播支持 要在两个NAN设备之间启动单播数据通信&#xff0c;服务需发起一个NAN数据路径&#xff08;NDP&#xff0c;NAN Data Path&#xff09;请求。这对NAN设备之间会建立一个NAN设备链路&#xff08;NDL&#xff0c;NAN Device Link&#xff09;&…

Lineageos 22.1(Android 15)实现负一屏

一、前言 方案是参考的这位大佬的&#xff0c;大家可以去付费订阅支持一波。我大概理一下Android15的修改。 大佬的方案代码 二、Android15适配调整 1.bp调整&#xff0c;加入aidl引入&#xff0c;这样make之后就可以索引代码了 filegroup {name: "launcher-src"…

Java 大视界 -- Java 大数据在智能医疗远程会诊与专家协作中的技术支持(146)

&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎来到 青云交的博客&#xff01;能与诸位在此相逢&#xff0c;我倍感荣幸。在这飞速更迭的时代&#xff0c;我们都渴望一方心灵净土&#xff0c;而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识&#xff0c;也…

Sqlite3数据库

工具库的使用&#xff1a;程序编写时#include <库名.h>即可调用库中的函数 编译时链接工具库&#xff1b; 注意&#xff1a;数据库中不区分字母大小写&#xff1b; SQLite 中的事务是数据库操作中非常重要的一个概念&#xff0c;它用于确保数据库操作的完整性和一致性。…

虚拟路由与单页应用(SPA):详解

在单页应用&#xff08;SPA&#xff0c;Single Page Application&#xff09;中&#xff0c;虚拟路由&#xff08;也称为前端路由&#xff09;是一种关键的技术&#xff0c;用于管理页面导航和状态变化&#xff0c;而无需重新加载整个页面。为了帮助你更好地理解这一概念&#…

练习:运动计划

需求&#xff1a;键盘录入星期数&#xff0c;显示今天的减肥活动。 周一&#xff1a;跑步&#xff1b; 周二&#xff1a;游泳&#xff1b; 周三&#xff1a;慢走&#xff1b; 周四&#xff1a;骑动感单车&#xff1b; 周五&#xff1a;拳击&#xff1b; 周六&#xff1a;…

通过webrtc+canvas+css实现简单的电脑滤镜拍照效果

这里我们用的是webrtc中的MediaDevices.getUserMedia()的浏览器api进行的效果实现&#xff0c;MediaDevices.getUserMedia() 会提示用户给予使用媒体输入的许可&#xff0c;媒体输入会产生一个MediaStream&#xff0c;里面包含了请求的媒体类型的轨道。此流可以包含一个视频轨道…

《TCP/IP网络编程》学习笔记 | Chapter 20:Windows 中的线程同步

《TCP/IP网络编程》学习笔记 | Chapter 20&#xff1a;Windows 中的线程同步 《TCP/IP网络编程》学习笔记 | Chapter 20&#xff1a;Windows 中的线程同步用户模式和内核模式用户模式同步内核模式同步 基于 CRITICAL_SECTION 的同步内核模式的同步方法基于互斥量对象的同步基于…

VBA-Excel

VBA 一、数据类型与变量 常用数据类型&#xff1a; Byte&#xff1a;字节型&#xff0c;0~255。Integer&#xff1a;整数型&#xff0c;用于存储整数值&#xff0c;范围 -32768 到 32767。Long&#xff1a;长整型&#xff0c;可存储更大范围的整数&#xff0c;范围 -214748364…

kotlin 内联函数 inline

高阶函数实现的原理&#xff1a;函数类型其实是生成了一个对象 。 inline翻译成中文的意思就是内联&#xff0c;在kotlin里面inline被用来修饰函数&#xff0c;表明当前函数在编译时是以内嵌的形式进行编译的&#xff0c;从而减少了一层函数调用栈&#xff1a; inline fun fun…