【Github3k+⭐️】《CogAgent: A Visual Language Model for GUI Agents》译读笔记

CogAgent: A Visual Language Model for GUI Agents

摘要

人们通过图形用户界面(Graphical User Interfaces, GUIs)在数字设备上花费大量时间,例如,计算机或智能手机屏幕。ChatGPT 等大型语言模型(Large Language Models, LLMs) 可以帮助人们完成撰写电子邮件等任务,但难以理解 GUI 并与之交互,从而限制了它们提升自动化水平的潜力。本文介绍了CogAgent,这是一个180亿参数的视觉语言模型(Visual Language Model, VLM),专门用于 GUI 理解和导航。通过同时使用 low-resolution and high-resolution 的图像编码器,CogAgent支持分辨率为 1120 × 1120 1120\times1120 1120×1120 的输入,使其能够识别微小的页面元素和文本。作为一个通用的视觉语言模型,CogAgent在五个 text-rich 的基准测试和四个通用 VQA 基准测试上达到了先进的水平,包括VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet 和 POPE。CogAgent仅使用屏幕截图作为输入,在PC和 Android GUI 导航任务(Mind2Web和AITW)上,超越了使用提取HTML文本的基于LLM的方法,达到了先进水平。模型和代码开源于https://github.com/THUDM/CogVLM。

1 引言

数字世界中的自主代理是许多现代人梦寐以求的理想助手。想象一下这个场景:您输入任务描述,然后放松并享用一杯咖啡,同时观看在线订票、进行 Web 搜索、管理文件和创建 PowerPoint 演示文稿等任务自动完成。
  最近,基于LLMs的agents的出现使我们离这个梦想更近了一步。例如,拥有150,000 星的开源项目 AutoGPT [33_AutoGPT] 利用 ChatGPT [29_ChatGPT] 将语言理解与Google搜索和本地文件操作等预定义操作集成在一起。研究人员也开始开发面向智能体(agent-oriented)的LLMs [42_Agenttuning, 7_Fireact]。然而,单纯基于语言的代理在实际场景中的潜力非常有限,因为大多数应用程序通过GUIs与人类交互,其特点如下:

  • 通常缺乏用于交互的标准API。
  • 图标、图像、图表和空间关系等重要信息难以用语言直接表达。
  • 即使在 text-rendered 的GUI(如网页)中,canvas和iframe等元素也无法通过HTML解析来掌握其功能。

  基于VLM的代理则有可能克服这些限制。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/610160.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

免费用chatGPT

免费用chatGPT,地址: DocGPT - 第二大脑

设计模式面试

C 面向对象设计 封装:隐藏内部实现继承:复用现有代码多态:改写对象行为 设计模式关键在于分解和抽象; 设计模式的主要目的是易于变化 面向对象设计原则–比设计模式更加重要 违背了设计原则,设计模式是错误的。 依赖倒置原则…

你们做外贸主要的获客渠道有哪些?

昨天跟一个同行朋友聊天,他原本主打产品是做动力类的,这两年竞争太大,订单也减少了很多。为了求发展,就拓品了,而拓展的新品刚好是我们这一块,而且非常迅速地找到场地把生产线弄了起来,还不断扩…

严格次小生成树(LCA+Kruskal)

一、次小生成树 次小生成树是指在给定的无向图中,如果存在最小生成树和次小生成树,那么对于任何一颗最小生成树来看,都存在一颗次小生成树,使得这两棵树只有一条边不同。次小生成树的边权和大于等于最小生成树的另一颗树&#xf…

RT-DETR 更换骨干网络之 MobileNetV3 | 《搜寻 MobileNetV3》

论文地址:https://arxiv.org/abs/1905.02244 代码地址:https://github.com/xiaolai-sqlai/mobilenetv3 我们展示了基于互补搜索技术和新颖架构设计相结合的下一代 MobileNets。MobileNetV3通过结合硬件感知网络架构搜索(NAS)和 NetAdapt算法对移动设计如何协同工作,利用互…

Linux踢掉远程登录用户

在Linux系统中,有时候我们需要踢掉一些远程登录的用户,可能是为了维护系统的安全性或者解决一些资源争用的问题。本文将介绍在Linux系统下踢掉远程登录用户的几种方法。 ### 1. 使用pkill或pkillall命令 #### pkill命令 如果你知道特定用户的进程&…

IntelliJ IDEA如何使用固定地址公网远程访问本地Mysql数据库

文章目录 1. 本地连接测试2. Windows安装Cpolar3. 配置Mysql公网地址4. IDEA远程连接Mysql小结 5. 固定连接公网地址6. 固定地址连接测试 IDEA作为Java开发最主力的工具,在开发过程中需要经常用到数据库,如Mysql数据库,但是在IDEA中只能连接本…

前端面试题集合五(css)

CSS 面试知识点总结 本部分主要是笔者在复习 CSS 相关知识和一些相关面试题时所做的笔记,如果出现错误,希望大家指出! 目录 1.介绍一下标准的 CSS 的盒子模型?低版本 IE 的盒子模型有什么不同的?2.CSS 选择符有哪些…

Linux学习记录(二)

组管理和权限管理 组的基本介绍 在Linux中每个用户必须属于一个组,不能独立于组外; 在Linux中每个文件有所有者、所在组、其他组的概念。 一般来说谁创建了文件,谁就是文件的所有者,用户所在组就是该文件的所在组。 查看文件的…

Apache ECharts | 一个数据可视化图表库

文章目录 1、简介1.1、主要特点1.2、使用场景 2、安装方式一:从下载的源代码或编译产物安装方法二:从 npm 安装方法三:⭐定制安装echarts.js 3、使用 官网: 英语:https://echarts.apache.org/en/index.html 中文&a…

Vue-4、单向数据绑定与双向数据绑定

1、单向数据绑定 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>数据绑定</title><!--引入vue--><script type"text/javascript" src"https://cdn.jsdelivr.net/npm/…

linux(ubuntu)中crontab定时器命令详解 以及windows中定时器

linux&#xff08;ubuntu&#xff09;中crontab定时器命令详解 crontab 是一个用于创建、编辑和管理用户的定时任务的命令&#xff0c;它可以让用户在指定的时间自动执行指定的命令或脚本。 基本语法 -e&#xff1a;编辑用户的 crontab 文件&#xff1b;-l&#xff1a;列出用…

【机器学习】常见算法详解第2篇:K近邻算法各种距离度量(已分享,附代码)

本系列文章md笔记&#xff08;已分享&#xff09;主要讨论机器学习算法相关知识。机器学习算法文章笔记以算法、案例为驱动的学习&#xff0c;伴随浅显易懂的数学知识&#xff0c;让大家掌握机器学习常见算法原理&#xff0c;应用Scikit-learn实现机器学习算法的应用&#xff0…

Java18:网络编程

一.对象序列化&#xff1a; 1.对象流&#xff1a; ObjectInputStream 和 ObjectOutputStream 2.作用&#xff1a; ObjectOutputSteam&#xff1a;内存中的对象-->存储中的文件&#xff0c;通过网络传输出去 ObjectInputStream:存储中的文件&#xff0c;通过网络传输出去…

【漏洞复现】ActiveMQ文件上传漏洞(CVE-2016-3088)

Nx01 产品简介 Apache ActiveMQ是Apache软件基金会所研发的开放源代码消息中间件。ActiveMQ是消息队列服务&#xff0c;是面向消息中间件&#xff08;MOM&#xff09;的最终实现&#xff0c;它为企业消息传递提供高可用、出色性能、可扩展、稳定和安全保障。 Nx02 漏洞描述 Ap…

vercel部署twikoo后评论收不到通知邮件问题解决方法

&#x1f4cc; 前言&#xff1a;本文主要是总结一下在vercel部署twikoo后收不到评论邮件通知问题的解决方法&#xff0c;本人在各种查资料无果后最终去twioo的git官方项目的issue中找到某位大佬给出的原因以及解决方案&#xff0c;故做此记录&#xff0c;希望对遇到此问题的同学…

用python实现检查一个文件夹中所有word文件内容是否重复

要检查一个文件夹中所有Word文件的内容是否重复&#xff0c;你可以使用Python的python-docx库来读取Word文件的内容&#xff0c;并使用Python的集合数据结构来检查重复项。 以下是一个示例代码&#xff0c;演示如何实现这个功能&#xff1a; python复制代码 import os from d…

重学JavaScript高级(八):ES6-ES12新增特性学习

ES6-ES12新增特性学习 ES6–对象字面量增强 属性的简写方法的简写计算属性名 let name "zhangcheng" //我想让sum作为obj的key值 let objKey "sum" let obj {//属性名的简写name//等同于name:name//方法的简写running(){}//等同于running:function()…

可视化试题(二)

1、fb5-6 关系数据具有( 关联 )性和( 分布 )性 2、fb8-4 从可视化系统设计的角度出发&#xff0c;通常需要根据系统将要完成的任务的类型选择交互技术。按照任务类型分类可以将数据可视化中的交互技术分为选择、&#xff08; 重新配置 &#xff09;、重新编码…

ERD助力研发资产沉淀研发提效

一、从痛点中思考答案 痛点一&#xff1a;复杂系统的设计和逻辑碎片化散落&#xff0c;缺少沉淀导致系统后期维护、迭代以及架构升级都非常困难。 痛点二&#xff1a;由于新需求或新项目导致的系统的老旧逻辑梳理往往耗费大量人力&#xff0c;甚至造成人才的流失。 痛点三&a…