字节跳动发布UI-TARS,超越GPT-4o和Claude,能接管电脑完成复杂任务

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

字节跳动的全新人工智能代理UI-TARS横空出世,其能力不仅可以接管用户的电脑,还能自主完成复杂的工作流,大幅超越现有的竞争对手。

UI-TARS与Anthropic的“Computer Use”类似,能够理解图形用户界面(GUI)、进行逻辑推理并逐步执行操作。

行业领先的性能表现

UI-TARS基于约500亿训练标注数据,提供7B和72B参数版本。无论是在性能、感知能力、任务执行能力还是整体表现上,UI-TARS在10多个GUI基准测试中均表现出色,超越OpenAI的GPT-4o、Anthropic的Claude,以及谷歌的Gemini。

例如,在VisualWebBench测试中,UI-TARS 72B取得了82.8%的高分,领先于GPT-4o(78.5%)和Claude 3.5(78.2%)。在WebSRC测试(衡量网页语义内容理解能力)中,UI-TARS-7B得分93.6%,而在复杂屏幕布局理解的ScreenQA-short测试中,UI-TARS-72B以88.6%的成绩拔得头筹,全面超越Qwen、Claude 3.5和Gemini系列模型。

研究团队表示,这些成果证明了UI-TARS在网页与移动端环境中优异的感知与理解能力。这种能力为复杂任务的精准执行奠定了坚实基础。

操作演示:能看懂界面并自主行动

UI-TARS的操作界面分为两部分:左侧为思考过程,实时记录其每一步推理逻辑;右侧为操作窗口,可自动打开文件、访问网站或运行应用程序。

实例场景

  • 搜索航班:UI-TARS被指示查找从西雅图(SEA)到纽约(NYC)下个月5日出发、10日返回的往返航班,并按价格升序排序。它会自动导航至航空公司官网,填写相关信息,逐步完成操作,同时详细解释每一步的行动逻辑。
  • 安装VS Code扩展:它会先打开VS Code,等待应用完全加载,再导航至扩展视图,搜索并安装autoDocstring扩展。整个过程中遇到问题时,模型会尝试纠正,比如点击不准时会重新调整并执行操作。

UI-TARS的多步骤操作能力和故障恢复能力展示了其出色的自主学习和适应性。

背后技术解析

UI-TARS通过大规模截图数据集训练,数据包含元素描述、类型、视觉信息、位置框和功能等元数据。模型可以全面描述截图内容,不仅识别界面元素,还能理解它们的空间关系。

  • 状态变化描述:UI-TARS通过截图前后的对比,识别界面变化并判断是否执行了点击或输入等操作。
  • 短期与长期记忆:模型具备实时处理任务的能力,同时保留历史交互记录以优化后续决策。
  • 推理能力:UI-TARS兼具快速直觉式(System 1)和深度反思式(System 2)推理,支持多步骤决策、错误纠正及动态适应。

研究人员还引入了纠错和反思数据,确保模型能够识别错误并动态调整,从而进一步提升任务完成的可靠性与效率。

超越竞争对手的全能表现

与Anthropic的Claude相比,UI-TARS不仅在网页任务中表现优异,还能轻松胜任移动端操作。

Claude在移动任务上的短板反映了其GUI操作能力的局限,而UI-TARS在跨平台领域(如网页和移动端)都展现了卓越的能力。例如,在多步骤操作与移动任务中,UI-TARS在AndroidWorld的116项测试中实现了高分表现,进一步验证了其通用性和实用性。

未来展望

UI-TARS的诞生代表着AI原生代理技术的重大进步。研究人员表示,未来的发展方向在于结合主动学习和持续学习,使代理通过与真实世界的交互自主改进能力。这种前瞻性设计将推动AI在更多实际场景中的落地应用,成为竞争激烈的AI代理市场中的重要玩家。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/893753.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

移动光猫怎么自己改桥接模式?

环境: 型号H3-8s 问题描述: 家里宽带用的是H3-8s 光猫,想改桥接模式。 解决方案: 1.默认管理员账号和密码: 账号:CMCCAdmin 密码:aDm8H%MdAWEB页面我试了登陆不了,显示错误 …

【Java数据结构】排序

【Java数据结构】排序 一、排序1.1 排序的概念1.2 排序的稳定性1.3 内部排序和外部排序1.3.1 内部排序1.3.2 外部排序 二、插入排序2.1 直接插入排序2.2 希尔排序 三、选择排序3.1 选择排序3.2 堆排序 四、交换排序4.1 冒泡排序4.2 快速排序Hoare法:挖坑法&#xff…

Java数据结构 (链表反转(LinkedList----Leetcode206))

1. 链表的当前结构 每个方框代表一个节点,每个节点包含两个部分: 左侧的数字:节点存储的值,例如 45、34 等。右侧的地址(如 0x90):表示该节点 next 指针指向的下一个节点的内存地址。 例子中&a…

Linux查看服务器的内外网地址

目录: 1、内网地址2、外网地址3、ping时显示地址与真实不一致 1、内网地址 ifconfig2、外网地址 curl ifconfig.me3、ping时显示地址与真实不一致 原因是dns缓存导致的,ping这种方法也是不准确的,有弊端不建议使用,只适用于测试…

微服务学习-服务调用组件 OpenFeign 实战

1. OpenFeign 接口方法编写规范 1.1. 在编写 OpenFeign 接口方法时,需要遵循以下规范 1.1.1.1. 接口中的方法必须使用 RequestMapping、GetMapping、PostMapping 等注解声明 HTTP 请求的类型。 1.1.1.2. 方法的参数可以使用 RequestParam、RequestHeader、PathVa…

基于C语言的数组从入门到精通

简介:本篇文章主要介绍了一维数组,二维数组,字符数组的定义,数组的应用,数组的核心代码解析,适用于0基础的初学者. C语言数组 1.一维数组 1.1定义 1.1.1声明 语法:数据类型 数组名[数组大小];示例:int arr[5]; 1.1.2初始化 a.静态初始化 完全初始化:int arr[5] {1…

音频入门(二):音频数据增强

本文介绍了一些常见的音频数据增强方法,并给出了代码实现。 目录 一、简介 二、代码 1. 安装必要的库 2. 代码 3. 各函数的介绍 4. 使用方法 参考: 一、简介 音频数据增强是机器学习和深度学习领域中用于改善模型性能和泛化能力的技术。 使用数据…

Go中new和make的区别对比

Go 中 new 和 make 的区别 在 Go 语言中,new 和 make 都用于分配内存,但它们的使用场景和行为有显著的区别。 1. new 定义 new 是 Go 语言中的一个内置函数,用于分配内存并返回指向该内存的指针。new 分配的内存会被初始化为零值。 作用…

消息队列篇--通信协议篇--AMOP(交换机,队列绑定,消息确认,AMOP实现实例,AMOP报文,帧,AMOP消息传递模式等)

AMQP(Advanced Message Queuing Protocol,高级消息队列协议)是一种开放的、跨平台的消息传递协议,旨在提供一种标准化的方式在不同的消息代理和客户端之间进行消息传递。AMQP不仅定义了消息格式和路由机制,还规定了如何…

LLaMA-Factory 微调LLaMA3

LoRA介绍 LoRA(Low-Rank Adaptation)是一种用于大模型微调的技术, 通过引入低秩矩阵来减少微调时的参数量。在预训练的模型中, LoRA通过添加两个小矩阵B和A来近似原始的大矩阵ΔW,从而减 少需要更新的参数数量。具体来…

【项目实战】—— 高并发内存池设计与实现

目录 一,项目介绍 1.1 关于高并发内存池 1.2 关于池化技术 1.3 关于malloc 二,定长内存池实现 2.1 实现详情 ​2.2 完整代码 三,高并发内存池整体设计 四,threadcache设计 4.1 整体设计 4.2 哈希桶映射对齐规则 4.3 …

设计模式的艺术-代理模式

结构性模式的名称、定义、学习难度和使用频率如下表所示: 1.如何理解代理模式 代理模式(Proxy Pattern):给某一个对象提供一个代理,并由代理对象控制对原对象的引用。代理模式是一种对象结构型模式。 代理模式类型较多…

计算机网络 (54)系统安全:防火墙与入侵检测

前言 计算机网络系统安全是确保网络通信和数据不受未经授权访问、泄露、破坏或篡改的关键。防火墙和入侵检测系统(IDS)是维护网络系统安全的两大核心组件。 一、防火墙 定义与功能 防火墙是一种用来加强网络之间访问控制的特殊网络互联设备,它…

three.js+WebGL踩坑经验合集(3):THREE.Line的射线检测问题(不是阈值方面的,也不是难选中的问题)

笔者之所以要在标题里强调不是阈值方面,是因为网上的大多数文章提到线的射线检测问题,90%以上的文章都说是因为线太细所以难选中,然后让大家把线的阈值调大。 而本文所要探讨的问题则恰好相反,不是难选中,而是在某些角…

省市区三级联动

引言 在网页中,经常会遇到需要用户选择地区的场景,如注册表单、地址填写等。为了提供更好的用户体验,我们可以实现一个三级联动的地区选择器,让用户依次选择省份、城市和地区。 效果展示: 只有先选择省份后才可以选择…

快速搭建深度学习环境(Linux:miniconda+pytorch+jupyter notebook)

本文基于服务器端环境展开,使用的虚拟终端为Xshell。 miniconda miniconda是Anaconda的轻量版,仅包含Conda和Python,如果只做深度学习,可使用miniconda。 [注]:Anaconda、Conda与Miniconda Conda:创建和管…

BGP分解实验·11——路由聚合与条件性通告(3)

续接上(2)的实验。其拓扑如下: 路由聚合的负向也就是拆分,在有双出口的情况下,在多出口做流量分担是优选方法之一。 BGP可以根据指定来源而聚合路由,在产生该聚合路由的范围内的条目注入到本地BGP表后再向…

攻防世界easyRSA

解密脚本: p473398607161 q4511491 e17def extended_euclidean(a, b):if b 0:return a, 1, 0gcd, x1, y1 extended_euclidean(b, a % b)x y1y x1 - (a // b) * y1return gcd, x, ydef calculate_private_key(p, q, e):phi (p - 1) * (q - 1)gcd, x, y extend…

常见的多媒体框架(FFmpeg GStreamer DirectShow AVFoundation OpenMax)

1.FFmpeg FFmpeg是一个非常强大的开源多媒体处理框架,它提供了一系列用于处理音频、视频和多媒体流的工具和库。它也是最流行且应用最广泛的框架! 官方网址:https://ffmpeg.org/ FFmpeg 的主要特点和功能: 编解码器支持: FFmpe…

.NET MAUI进行UDP通信(二)

上篇文章有写过一个简单的demo&#xff0c;本次对项目进行进一步的扩展&#xff0c;添加tabbar功能。 1.修改AppShell.xaml文件&#xff0c;如下所示&#xff1a; <?xml version"1.0" encoding"UTF-8" ?> <Shellx:Class"mauiDemo.AppShel…