超越GPT-4,清华发布网页导航智能体AutoWebGLM

随着大语言模型(LLMs)的发展,Agent在网络导航等任务中展现出了前所未有的能力。想象一下,一个基于LLM的Agent能够在你享用早餐时为你总结在线新闻,这样的场景已经不再遥不可及。这种将LLMs融入日常任务的做法,不仅优化了我们与技术的互动方式,也重新定义了机器辅助生产力的边界。

许多公司都看好这一块的发展,已着手耕耘,期待着引发一场交互技术的变革,如腾讯的AppAgent、阿里的Mobile Agent等。前百度智能家居硬件总经理吕骋再次创业推出的智能网页访问一体机Rabbit R1,更是引领了一股时代潮流。这不,据说Sam Altman与前苹果设计总监Jony Ive共同创办的神秘AI硬件公司,也与这脱不了干系。

但是,目前真正能使用的网页操作Agent,因现实世界中网页行动的多样性、HTML文本的庞大以及网络开放性质带来的决策复杂性等原因,在实际应用中表现得远不尽人意。

为了应对这些挑战,清华大学的研究者们开发了AutoWebGLM,这是一个基于ChatGLM3-6B构建的自动化网络导航Agent,它在多个方面超越了GPT-4(下图),并通过人工智能与人类的混合方法构建了网络浏览数据,以进行课程训练。AutoWebGLM通过强化学习和拒绝采样进一步提升了模型对网页的理解、浏览器操作以及自身高效任务分解的能力。这一切的进展,都预示着Agent在网络世界中的新征程已经开启。

 GPT-3.5研究测试:

https://hujiaoai.cn

GPT-4研究测试:

https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4):

https://hiclaude3.com

图片

论文标题:
AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent

论文链接:
https://arxiv.org/pdf/2404.03648.pdf

项目地址:
https://github.com/THUDM/AutoWebGLM

挑战与动机:网络导航中的三大难题

网络导航面临的三大挑战包括:

  • 缺乏统一的行动空间:缺少一个全面且便捷的行动空间,能够覆盖浏览器上各种网站所需执行的所有必要任务。

  • 缺乏网页简化方法:网页的多样性和复杂性,以及它们倾向于冗长的文本,对LLMs理解内容和执行正确操作构成了重大挑战。内容丰富的网页的token长度通常可以达到30k以上。

  • 缺乏高质量的训练跟踪:现有的训练Agent在网络任务的正确推断和自检方面明显缺乏能力。一旦陷入错误循环,它们很难及时纠正问题。

为了应对这些挑战,研究者们设计了AutoWebGLM,这是一个基于开源ChatGLM3-6B模型的网页浏览Agent。与之前的WebGLM相比,AutoWebGLM专注于通过真实浏览器自主完成复杂任务。我们采用高效的数据策略快速构建训练数据集,并使用监督和强化学习方法训练AutoWebGLM,以提高其在网页浏览任务上的性能。

此外,我们使用拒绝采样微调(RFT)技术进行持续学习,使Agent能在特定领域成为专家。我们还开发了基于AutoWebGLM的Chrome扩展(下图,任务是为小孩选择圣诞节礼物),并创建了首个双语(英文和中文)网页浏览评估数据集,以适应不同地区网站的风格差异。

图片

AutoWebGLM框架介绍

如下图,我们通过HTML简化和OCR技术处理网页信息,以便于Agent交互,并启动动作预测。AUTOWEBGLM将这些组件整合,提升了交互和导航精度。为了构建健壮的网页浏览框架,我们定义了观察空间和动作空间,以标准化数据源的转换。

图片

观察空间包括任务描述、简化HTML、当前位置和历史操作记录,旨在提供接近浏览器界面的信息,提升模型的网页理解和操作能力。

动作空间则基于语言模型,定义了一套完整的函数调用(下表),使Agent能够在网页浏览中执行各种操作。我们通过这些设计,旨在提高模型在网页浏览任务中的性能和适应性。

图片

为了应对网页HTML文本的庞大和复杂性,AutoWebGLM框架设计了一种HTML简化算法。这个算法的目标是在保留网页关键信息的同时,去除冗余或干扰元素,以便模型能够更有效地理解和操作网页。简化过程中,必须保留HTML的基本结构和重要内容信息,以便模型能够理解并利用这些信息完成网页浏览任务。算法通过递归计数、最大深度、最大子节点数和最大兄弟节点数等参数,有效地将元素树转换为简洁的表示形式。

混合人工智能方法构建训练数据集AutoWebBench

鉴于实际用户产生的高质量、复杂网页浏览数据稀缺,我们旨在创建一个训练数据集,但面临几个挑战:

  • 任务收集:获取不同网站上多样化的真实用户任务查询是一个重大障碍。

  • 隐私与安全:隐私和安全限制阻碍了直接获取用户浏览器操作序列,同时确认用户任务完成情况也具有挑战性。

  • 目标标注:为每个操作步骤收集用户目标在现实世界数据收集中不切实际。

  • 模型限制:现有模型无法处理跨网站的复杂用户查询,限制了在真实环境中使用自动化方法收集准确浏览轨迹的能力。

为应对这些挑战,我们提出了一种混合人机数据构建方法,并把数据分为两类进行构建(如下图所示):

图片

  1. 网络识别和简单任务操作构建:我们的目标是训练模型准确识别网页结构并执行基本操作。我们收集中英文主流网站的URLs,使用HTML解析器识别可操作组件,并生成简化的HTML。我们还设计任务描述,如网站和组件功能,以帮助模型识别网页结构和交互组件的功能。

  2. 复杂任务操作构建:我们开发了一个数据集,以使模型能够在网页浏览场景中进行规划和推理。每个样本包括一个真实世界的复杂网页浏览任务、完成任务的操作序列和每个步骤的意图。

在上面的基础上,我们构建了AutoWebBench,一个用于评估的复杂任务操作数据集,分为领域内和领域外两部分,以衡量模型在熟悉和陌生环境下的性能。我们为每个分割选择50个浏览轨迹作为测试数据,并进行全面评估以衡量模型操作的准确性。

强化学习与拒绝采样在模型训练中的应用

为了提升模型在网页浏览任务中的表现,我们采取了三个关键步骤进行训练(如下图):

图片

  1. 课程学习:我们实施了监督微调(SFT),并利用课程学习(CL)策略,即从简单任务开始,逐步过渡到复杂任务,以此增强模型对网页的理解和操作执行能力。

  2. 强化学习:在SFT的基础上,我们采用自采样强化学习方法来进一步训练模型,通过多次采样和对比正负样本,以及DPO训练方法,减少操作错误并提升模型的推理能力。

  3. 拒绝采样微调(RFT):最后,我们通过RFT针对特定网页环境进行优化,通过大量采样和奖励信号选择,提高了模型在没有实例的情况下的准确度。

实验设计:AutoWebBench双语基准测试

1. 测试设置与评估指标

AutoWebBench是一个双语(英语和中文)的网页浏览评估数据集,用于测试AutoWebGLM的性能。测试集被分为四个部分:中文、英文、领域内和领域外,以评估模型在熟悉和不熟悉环境中的表现。评估指标为步骤成功率(Step Success Rate, SSR),这允许对模型在执行操作的每一步中的准确性进行评估(下表)。

图片

2. 实验结果与模型性能分析

实验结果显示,AutoWebGLM在多任务训练后,在预测用户操作模式方面表现出色,与用户操作高度一致。与其他基线模型相比(下表),AutoWebGLM在没有足够训练的情况下,能够更准确地学习基于网页内容和任务描述的用户操作。此外,通过对不同数据和训练策略的消融研究,发现复杂任务数据集显著提高了模型性能,而简单任务数据集在与复杂任务数据集联合训练时也显示出显著改进。强化学习和拒绝采样进一步增强了模型在特定领域的性能。

图片

模型训练策略的消融研究

1. 训练数据的影响

我们训练和测试了那些包含原始训练集,并融合了简单任务和复杂任务数据的模型。实验结果显示(下表上半部分),引入复杂任务数据集能显著提升模型的性能。我们假设这是因为复杂任务数据更接近真实世界的操作场景,因此从根本上改善了模型的表现。相比之下,仅包含简单任务的数据集在单独训练时对性能的提升作用有限。但是,当它与复杂任务数据集结合训练时,模型性能却有了显著的提高。我们还发现,如果仅用复杂任务数据集进行训练,可能会导致一些基本的操作错误。这表明,在训练中加入简单任务数据集可以有效减少这类问题的发生。

图片

2. 训练策略的效果对比

我们将SFT(监督微调)、DPO(自采样强化学习)和RFT(拒绝采样微调)增强模型的结果进行了比较(上表下半部分),并发现:(1)与SFT相比,DPO训练有助于模型从错误中学习,进一步提升了模型的性能。(2)RFT使我们的模型能够在不同领域进行自举增强。随着实践的深入,模型在每个领域内的熟练度提高,从而带来了性能上的改进。

错误分析与案例研究

1. 常见错误类型与分布

在AutoWebGLM的实际应用中,我们通过错误分析识别了一些在任务执行过程中偶尔出现的错误类型。这些错误可以大致分为四类:幻觉错误、图形识别不良、任务上下文误解和弹窗干扰。在我们的分析中(下表),幻觉错误占比最大,达到44%,其次是图形识别不良,占比28%,任务上下文误解占比20%,弹窗干扰占比8%。尽管这些错误相对不频繁,但它们在我们持续改进和提高系统能力的努力中至关重要。

图片

2. 典型案例展示与讨论

我们进行了一系列案例研究,涵盖了包括日常使用、休闲放松和学术研究在内的各种基于网页的任务,覆盖了网页需求的典型范围。在大多数情况下,我们的系统都取得了令人满意的结果。

例如,在一个涉及使用社交媒体网站的任务中,模型成功地根据用户指令导航到了正确的页面,并执行了相关的点击和输入操作。然而,在另一个涉及在线购物的任务中,模型由于图形识别不良,错误地点击了一个广告链接,而不是预期的产品链接。这些案例展示了AutoWebGLM在处理真实世界任务时的潜力和局限性,为未来的研究和改进提供了宝贵的见解。

结论与展望

本文提出了AutoWebGLM,这是一个基于高级语言模型的Agent,它在多个自动网页导航基准测试中表现出色。该模型克服了现有LLM的局限,通过控制HTML文本长度和处理开放领域特性来简化网页。我们采用了课程学习、强化学习和拒绝采样微调等策略来提升网页理解和浏览器操作的学习效果。此外,我们还引入了一个独特的双语网页浏览基准,为未来研究打下了基础。这些研究成果在利用LLM开发Agent方面取得了显著进展。

AutoWebGLM作为一种新兴的网络导航Agent,其未来的发展方向包括进一步提升模型的泛化能力,以适应更多样化的网络环境和任务。此外,研究者们可能会探索如何减少模型对人类辅助的依赖,使其能够更独立地完成复杂任务。随着技术的进步,AutoWebGLM有望在网络导航的准确性和效率方面取得更大的突破,从而更好地服务于实际应用。

Agent技术的发展将对我们与技术互动的方式产生深远的影响。随着LLMs在日常任务中的集成,我们可以预见到各种以前难以想象的场景。例如,一个基于LLM的Agent可以在我们早餐时为我们总结在线新闻。这种技术的融合预示着我们与技术互动方式的重大转变,它将优化我们的效率并重新定义机器辅助生产力的边界。随着Agent技术的不断进步,我们可以期待它们在未来为人类带来更多便利和效率的提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/5073.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI小白使用Macbook Pro安装llama3与langchain初体验

1. 背景 AI爆火了2年有余,但我仍是一个AI小白,最近零星在学,随手记录点内容供自己复习。 上次在Macbook Pro上安装了Stable Diffusion,体验了本地所心所欲地生成各种心仪的图片,完全没有任何限制的惬意。今天想使用M…

Kafka客户端工具:Offset Explorer 使用指南

Kafka作为一个分布式流处理平台,在大数据处理和实时数据流应用中扮演着至关重要的角色。管理Kafka的topics及其offsets对于维护系统稳定性和数据一致性至关重要。Offset Explorer是一个强大的桌面应用程序,它使得管理和监控Kafka集群变得简单直观。本文将…

Ftrans文件外发系统 构建安全可控文件外发流程

文件外发系统是企业数据安全管理中的关键组成部分,它主要用于处理企业内部文件向外部传输的流程,确保数据在合法、安全、可控的前提下进行外发。 文件外发系统的主要作用包括: 1、防止数据泄露:通过严格的审批流程和安全策略&…

【JavaWeb】Day61.SpringBootWeb案例——配置文件

配置文件 参数配置化 在我们之前编写的程序中进行文件上传时,需要调用AliOSSUtils工具类,将文件上传到阿里云OSS对象存储服务当中。而在调用工具类进行文件上传时,需要一些参数: - endpoint //阿里云OSS域名 - accessKey…

JAVA基础---Stream流

Stream流出现背景 背景 在Java8之前,通常用 fori、for each 或者 Iterator 迭代来重排序合并数据,或者通过重新定义 Collections.sorts的 Comparator 方法来实现,这两种方式对 大数量系统来说,效率不理想。 Java8 中添加了一个…

【酱浦菌-模拟仿真】python模拟仿真PN结伏安特性

PN结的伏安特性 PN结的伏安特性描述了PN结在外部电压作用下的电流-电压行为。这种特性通常包括正向偏置和反向偏置两种情况。 正向偏置 当外部电压的正极接到PN结的P型材料,负极接到N型材料时,称为正向偏置。在这种情况下,外加的正向电压会…

如何编写测试用例

总结 测试用例需求来源 文档 用户角度 编写测试用例步骤 分析需求 写测试点 对需求的拆分 辅助完成测试用例的编写 编写测试用例 编写测试用例原则 能看懂 能执行 测试结果状…

kubernetes中Pod调度-Taints污点和污点容忍

一、污点的概念 所谓的污点,是给k8s集群中的节点设置的,通过设置污点,来规划资源创建是所在的节点 污点的类型 解释说明PreferNoshedule 节点设置这个污点类型后; 表示,该节点接收调度,但是会降低调度的概…

如何退出远程桌面连接?

远程桌面连接是一种便捷的远程访问方式,可以让用户在任何地方远程访问并控制另一台计算机。但是,在使用远程桌面连接过程中,有时我们需要及时退出连接,以保护数据安全或释放计算资源。本文将介绍如何退出远程桌面连接。 使用Windo…

IC设计数据传输 如何能保障安全高效?

IC(集成电路)设计数据,对于IC设计企业来说,其重要性不言而喻。所以IC设计数据传输过程中,其安全性和效率,也需要有保障。 首先我们来看看IC设计数据为什么重要,其重要性体现在多个方面&#xff…

分布式与一致性协议之Raft算法(二)

Raft算法 什么是任期 我们知道,议会选举中的领导者是有任期的,当领导者任命到期后,需要重新再次选举。Raft算法中的领导者也是有任期,每个任期由单调递增的数字(任期编号)标识。比如,节点A的任期编号是1。任期编号会…

Python基础学习之去除换行符

strip() 方法 strip() 方法用于去除字符串开头和结尾的空白字符,包括换行符(\n)、制表符(\t)和空格等。如果您想从字符串数据中去掉换行符,无论是单独存在的还是与其他空白字符一起,strip() 方…

自动驾驶中的深度学习和计算机视觉

书籍:Applied Deep Learning and Computer Vision for Self-Driving Cars: Build autonomous vehicles using deep neural networks and behavior-cloning techniques 作者:Sumit Ranjan,Dr. S. Senthamilarasu 出版:Packt 书籍…

算法设计与分析4.1 迷宫问题 栈与队列解法、打印矩阵、三壶问题、蛮力匹配

1.ROSE矩阵 实现&#xff1a; 使用算法2 分析&#xff1a; 每半圈元素值的增长规律变换一次 设增量为t&#xff0c;每半圈变换一次t <— -t . 设矩阵边长为i&#xff0c;每半圈的元素个数是2*(i-1)个&#xff0c;hc为记数变量&#xff0c;则1≤hc<2i-1&#xff0c;前1/…

[华为OD]C卷 找座位,在一个大型体育场内举办了一场大型活动,由于疫情防控的需要 100

题目&#xff1a; 在一个大型体育场内举办了一场大型活动&#xff0c;由于疫情防控的需要&#xff0c;要求每位观众的必须间隔至 少一个空位才允许落座。现在给出一排观众座位分布图Q,座位中存在已落座的观众&#xff0c;请计 算出&#xff0c;在不移动现有观众座位的情况…

Linux中ssh登录协议

目录 一.ssh基础 1.ssh协议介绍 2.ssh协议的优点 3.ssh文件位置 二.ssh原理 1.公钥传输原理&#xff08;首次连接&#xff09; 2.ssh加密通讯原理 &#xff08;1&#xff09;对称加密 &#xff08;2&#xff09;非对称加密 3.远程登录 三.服务端的配置 常用的配置项…

vscode 配置与插件记录

vscode插件 python PythonPython DebuggerruffisortPylanceJupyterJupyter KeymapJupyter Slide ShowJupyter Cell TagsautoDocstring - Python Docstring Generator ruff isort pylance autodocsting 在setting.json里这么配置&#xff0c;这样你保存时就会自动format…

Matlab|含sop的33节点配电网优化

目录 1 主要内容 2 部分代码 3 程序结果 4 下载链接 1 主要内容 程序以IEEE33节点为例&#xff0c;分析含sop的配电网优化&#xff0c;包括sop有功约束、无功约束和容量约束&#xff0c;非线性部分通过转换为旋转锥约束进行编程&#xff0c;并且包括33节点配电网潮流及对应…

Re69:读论文 LaMDA: Language Models for Dialog Applications

诸神缄默不语-个人CSDN博文目录 诸神缄默不语的论文阅读笔记和分类 论文名称&#xff1a;LaMDA: Language Models for Dialog Applications ArXiv网址&#xff1a;https://arxiv.org/abs/2201.08239 本文介绍谷歌提出的对话大模型LaMDA&#xff0c;主要关注对各项指标&#x…

智慧能源数据监控平台

随着科技的飞速发展&#xff0c;能源管理已逐渐从传统的粗放型向精细化、智能化转变。在这个转型过程中&#xff0c;HiWoo Cloud平台的智慧能源数据监控平台以其独特的技术优势和创新理念&#xff0c;正引领着能源管理的新潮流。 一、智慧能源数据监控平台的概念 智慧能源数据…