字节跳动发布UI-TARS,超越GPT-4o和Claude,能接管电脑完成复杂任务

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

字节跳动的全新人工智能代理UI-TARS横空出世,其能力不仅可以接管用户的电脑,还能自主完成复杂的工作流,大幅超越现有的竞争对手。

UI-TARS与Anthropic的“Computer Use”类似,能够理解图形用户界面(GUI)、进行逻辑推理并逐步执行操作。

行业领先的性能表现

UI-TARS基于约500亿训练标注数据,提供7B和72B参数版本。无论是在性能、感知能力、任务执行能力还是整体表现上,UI-TARS在10多个GUI基准测试中均表现出色,超越OpenAI的GPT-4o、Anthropic的Claude,以及谷歌的Gemini。

例如,在VisualWebBench测试中,UI-TARS 72B取得了82.8%的高分,领先于GPT-4o(78.5%)和Claude 3.5(78.2%)。在WebSRC测试(衡量网页语义内容理解能力)中,UI-TARS-7B得分93.6%,而在复杂屏幕布局理解的ScreenQA-short测试中,UI-TARS-72B以88.6%的成绩拔得头筹,全面超越Qwen、Claude 3.5和Gemini系列模型。

研究团队表示,这些成果证明了UI-TARS在网页与移动端环境中优异的感知与理解能力。这种能力为复杂任务的精准执行奠定了坚实基础。

操作演示:能看懂界面并自主行动

UI-TARS的操作界面分为两部分:左侧为思考过程,实时记录其每一步推理逻辑;右侧为操作窗口,可自动打开文件、访问网站或运行应用程序。

实例场景

  • 搜索航班:UI-TARS被指示查找从西雅图(SEA)到纽约(NYC)下个月5日出发、10日返回的往返航班,并按价格升序排序。它会自动导航至航空公司官网,填写相关信息,逐步完成操作,同时详细解释每一步的行动逻辑。
  • 安装VS Code扩展:它会先打开VS Code,等待应用完全加载,再导航至扩展视图,搜索并安装autoDocstring扩展。整个过程中遇到问题时,模型会尝试纠正,比如点击不准时会重新调整并执行操作。

UI-TARS的多步骤操作能力和故障恢复能力展示了其出色的自主学习和适应性。

背后技术解析

UI-TARS通过大规模截图数据集训练,数据包含元素描述、类型、视觉信息、位置框和功能等元数据。模型可以全面描述截图内容,不仅识别界面元素,还能理解它们的空间关系。

  • 状态变化描述:UI-TARS通过截图前后的对比,识别界面变化并判断是否执行了点击或输入等操作。
  • 短期与长期记忆:模型具备实时处理任务的能力,同时保留历史交互记录以优化后续决策。
  • 推理能力:UI-TARS兼具快速直觉式(System 1)和深度反思式(System 2)推理,支持多步骤决策、错误纠正及动态适应。

研究人员还引入了纠错和反思数据,确保模型能够识别错误并动态调整,从而进一步提升任务完成的可靠性与效率。

超越竞争对手的全能表现

与Anthropic的Claude相比,UI-TARS不仅在网页任务中表现优异,还能轻松胜任移动端操作。

Claude在移动任务上的短板反映了其GUI操作能力的局限,而UI-TARS在跨平台领域(如网页和移动端)都展现了卓越的能力。例如,在多步骤操作与移动任务中,UI-TARS在AndroidWorld的116项测试中实现了高分表现,进一步验证了其通用性和实用性。

未来展望

UI-TARS的诞生代表着AI原生代理技术的重大进步。研究人员表示,未来的发展方向在于结合主动学习和持续学习,使代理通过与真实世界的交互自主改进能力。这种前瞻性设计将推动AI在更多实际场景中的落地应用,成为竞争激烈的AI代理市场中的重要玩家。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/893753.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

移动光猫怎么自己改桥接模式?

环境: 型号H3-8s 问题描述: 家里宽带用的是H3-8s 光猫,想改桥接模式。 解决方案: 1.默认管理员账号和密码: 账号:CMCCAdmin 密码:aDm8H%MdAWEB页面我试了登陆不了,显示错误 …

Java 在包管理与模块化中的优势:与其他开发语言的比较

在开发复杂的、规模庞大的软件系统时,包管理和模块化设计起着至关重要的作用。它们不仅决定了代码的组织和可维护性,还直接影响到团队协作效率、扩展性和性能。在众多编程语言中,Java 凭借其成熟的生态系统、强类型系统和标准化的包管理机制&…

MYSQL学习笔记(六):聚合函数、sql语句执行原理简要分析

前言: 学习和使用数据库可以说是程序员必须具备能力,这里将更新关于MYSQL的使用讲解,大概应该会更新30篇,涵盖入门、进阶、高级(一些原理分析);这一篇是内容较少,主要讲解:聚合函数和简要介绍sql语句执行过…

【EXCEL_VBA_实战】多工作薄合并深入理解

工作背景:多个工作薄存在冲突的名称,需快速合并 困难点:工作表移动复制时,若有冲突的名称,会不断弹出对话框待人工确认 思路:利用代码确认弹出的对话框 关键代码:Application.DisplayAlerts …

【Java数据结构】排序

【Java数据结构】排序 一、排序1.1 排序的概念1.2 排序的稳定性1.3 内部排序和外部排序1.3.1 内部排序1.3.2 外部排序 二、插入排序2.1 直接插入排序2.2 希尔排序 三、选择排序3.1 选择排序3.2 堆排序 四、交换排序4.1 冒泡排序4.2 快速排序Hoare法:挖坑法&#xff…

Java数据结构 (链表反转(LinkedList----Leetcode206))

1. 链表的当前结构 每个方框代表一个节点,每个节点包含两个部分: 左侧的数字:节点存储的值,例如 45、34 等。右侧的地址(如 0x90):表示该节点 next 指针指向的下一个节点的内存地址。 例子中&a…

Linux查看服务器的内外网地址

目录: 1、内网地址2、外网地址3、ping时显示地址与真实不一致 1、内网地址 ifconfig2、外网地址 curl ifconfig.me3、ping时显示地址与真实不一致 原因是dns缓存导致的,ping这种方法也是不准确的,有弊端不建议使用,只适用于测试…

微服务学习-服务调用组件 OpenFeign 实战

1. OpenFeign 接口方法编写规范 1.1. 在编写 OpenFeign 接口方法时,需要遵循以下规范 1.1.1.1. 接口中的方法必须使用 RequestMapping、GetMapping、PostMapping 等注解声明 HTTP 请求的类型。 1.1.1.2. 方法的参数可以使用 RequestParam、RequestHeader、PathVa…

基于C语言的数组从入门到精通

简介:本篇文章主要介绍了一维数组,二维数组,字符数组的定义,数组的应用,数组的核心代码解析,适用于0基础的初学者. C语言数组 1.一维数组 1.1定义 1.1.1声明 语法:数据类型 数组名[数组大小];示例:int arr[5]; 1.1.2初始化 a.静态初始化 完全初始化:int arr[5] {1…

音频入门(二):音频数据增强

本文介绍了一些常见的音频数据增强方法,并给出了代码实现。 目录 一、简介 二、代码 1. 安装必要的库 2. 代码 3. 各函数的介绍 4. 使用方法 参考: 一、简介 音频数据增强是机器学习和深度学习领域中用于改善模型性能和泛化能力的技术。 使用数据…

Go中new和make的区别对比

Go 中 new 和 make 的区别 在 Go 语言中,new 和 make 都用于分配内存,但它们的使用场景和行为有显著的区别。 1. new 定义 new 是 Go 语言中的一个内置函数,用于分配内存并返回指向该内存的指针。new 分配的内存会被初始化为零值。 作用…

IOS 自定义代理协议Delegate

QuestionViewCell.h文件代码&#xff0c;定义代理协议 protocol QuestionViewCellDelegate <NSObject>- (void)cellIsOpenDidChangeAtIndexPath:(NSIndexPath *)indexPath;endinterface QuestionViewCell : UITableViewCellproperty (nonatomic, weak) id<QuestionVi…

使用 Pipeline 提高 Redis 批量操作性能

使用 Pipeline 提高 Redis 批量操作性能 在 Redis 中&#xff0c;Pipeline&#xff08;管道&#xff09; 是一种用于提高批量操作性能的技术。它允许客户端一次性发送多个命令到 Redis 服务器&#xff0c;而不需要等待每个命令的单独响应&#xff0c;从而减少了**网络往返&…

消息队列篇--通信协议篇--AMOP(交换机,队列绑定,消息确认,AMOP实现实例,AMOP报文,帧,AMOP消息传递模式等)

AMQP&#xff08;Advanced Message Queuing Protocol&#xff0c;高级消息队列协议&#xff09;是一种开放的、跨平台的消息传递协议&#xff0c;旨在提供一种标准化的方式在不同的消息代理和客户端之间进行消息传递。AMQP不仅定义了消息格式和路由机制&#xff0c;还规定了如何…

深入理解 JavaScript 对象字面量:创建对象的简洁方法

深入理解 JavaScript 对象字面量&#xff1a;创建对象的简洁方法 JavaScript 是一门灵活且强大的语言&#xff0c;广泛应用于从简单的网站到复杂的Web应用的开发。在 JavaScript 中&#xff0c;最基本的概念之一就是对象。对象是键值对的集合&#xff0c;它让我们能够在代码中…

LLaMA-Factory 微调LLaMA3

LoRA介绍 LoRA&#xff08;Low-Rank Adaptation&#xff09;是一种用于大模型微调的技术&#xff0c; 通过引入低秩矩阵来减少微调时的参数量。在预训练的模型中&#xff0c; LoRA通过添加两个小矩阵B和A来近似原始的大矩阵ΔW&#xff0c;从而减 少需要更新的参数数量。具体来…

gitlabgit分支合并

在GitLab中&#xff0c;分支合并是一个非常常见的操作&#xff0c;可以将一个分支的改动合并到另一个分支中。下面我将为你介绍一下GitLab中分支合并的具体步骤。 首先&#xff0c;进入你的项目仓库页面&#xff0c;在页面上方的导航栏中点击”Repository”&#xff0c;然后选择…

【第六天】零基础入门刷题Python-算法篇-数据结构与算法的介绍-一种常见的贪心算法(持续更新)

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、Python数据结构与算法的详细介绍1.Python中的常用的贪心算法2.贪心算法3.详细的贪心代码1&#xff09;一种常见的贪心算法 总结 前言 提示&#xff1a;这里…

【项目实战】—— 高并发内存池设计与实现

目录 一&#xff0c;项目介绍 1.1 关于高并发内存池 1.2 关于池化技术 1.3 关于malloc 二&#xff0c;定长内存池实现 2.1 实现详情 ​2.2 完整代码 三&#xff0c;高并发内存池整体设计 四&#xff0c;threadcache设计 4.1 整体设计 4.2 哈希桶映射对齐规则 4.3 …

Vue3笔记——(一)

001.教程简介 1.采用方式ts组合式APIsetup语法糖 2.核心内容&#xff1a;ref、reactive、computed、watch、生命周期… 3.常用内容&#xff1a;hooks、自定义ref、路由、pinia、mitt… 4.面试&#xff1a;组件通信、响应式相关API… 002.Vue3 2020.9.18发布3.0(性能好、速度快…