大模型GUI系列论文阅读 DAY2续:《一个具备规划、长上下文理解和程序合成能力的真实世界Web代理》

摘要
预训练的大语言模型(LLMs)近年来在自主网页自动化方面实现了更好的泛化能力和样本效率。然而,在真实世界的网站上,其性能仍然受到以下问题的影响:(1) 开放领域的复杂性,(2) 有限的上下文长度,(3) 在 HTML 结构上的归纳偏差不足。

我们提出 WebAgent,一个由 LLM 驱动的智能代理,能够通过自我学习的方式,在真实网站上按照自然语言指令完成任务。WebAgent 通过将指令提前规划,将其分解为子指令,并将长 HTML 文档提炼为与任务相关的摘要内容,最终通过生成的 Python 代码在网站上执行操作。

我们在 WebAgent 的设计中,结合了 Flan-U-PaLM 进行稳健的代码生成,同时使用 HTML-T5(一种针对长 HTML 文档预训练的新型 LLM)进行规划和摘要。HTML-T5 采用了局部与全局注意力机制,以及结合长跨度去噪目标的混合训练方法。

实验结果表明,我们的模块化方法在真实网站上的任务成功率提升了50%以上。此外,HTML-T5 在各种 HTML 理解任务中表现最佳,在 MiniWoB 网页自动化基准测试上,成功率比先前方法高出 18.7%,并在 Mind2Web(一个离线任务规划评估基准)上达到了**最先进(SoTA)**的性能。

1 引言

大语言模型(LLM)(Brown 等, 2020; Chowdhery 等, 2022; OpenAI, 2023)在多种自然语言任务中展现了卓越的能力,例如算术推理、常识推理、逻辑推理、问答、文本生成(Brown 等, 2020; Kojima 等, 2022; Wei 等, 2022),甚至交互式决策任务(Ahn 等, 2022; Yao 等, 2022b)。近年来,LLM 还成功应用于自主网页导航,通过多步推理和决策,使代理能够控制计算机或浏览器,根据自然语言指令执行操作(Furuta 等, 2023; Gur 等, 2022; Kim 等, 2023)。

然而,真实世界网站的网页自动化仍然面临以下挑战:

  1. 缺乏预定义的操作空间
  2. 真实网站的 HTML 文档远长于模拟环境的观测数据
  3. 缺乏专门用于理解 HTML 文档的领域知识(如图 1 所示)

考虑到真实网站的开放性和指令的复杂性,预先定义合适的操作空间 是一项具有挑战性的任务。此外,尽管已有研究表明,通过指令微调从人类反馈中进行强化学习可以提高 HTML 理解和网页自动化的准确性(Furuta 等, 2023; Kim 等, 2023),但现有架构通常难以处理真实网站的 HTML 文档。

如图 2 所示,真实网站的 HTML 令牌长度远超模拟器,且大多数 LLM 的上下文长度比真实网站的平均 HTML 令牌数要短。直接将如此长的 HTML 文档作为输入成本极高,而使用诸如文本-XPath 对齐(Li 等, 2021b)或文本-HTML 令牌分离(Wang 等, 2022a)等现有技术,也存在一定局限性。为了实现更广泛的任务泛化和模型规模扩展,现有 LLM 往往忽略了针对 HTML 文档的领域知识。


WebAgent 介绍

在本研究中,我们提出了 WebAgent,这是一个由 LLM 驱动的自主智能代理,能够通过自我学习经验,在真实网站上按照用户指令完成任务。

WebAgent 通过在程序空间中结合标准网页操作,完成任务(如图 3 所示),其关键功能包括:

  1. 任务规划:将自然语言指令分解为子指令。
  2. HTML 摘要:根据规划结果,将长 HTML 文档提取为与任务相关的片段。
  3. 网页操作:将子指令和 HTML 摘要转化为可执行的 Python 代码,在真实网站上执行操作。

WebAgent 采用两种 LLM 进行模块化集成:

  • HTML-T5:一个新推出的领域专家语言模型,专为任务规划HTML 摘要而设计。
  • Flan-U-PaLM(Chowdhery 等, 2022; Chung 等, 2022):用于稳健的代码生成。

HTML-T5 采用编码-解码架构,并通过局部和全局注意力机制(Guo 等, 2022)来更好地捕获长 HTML 文档的结构。与模拟环境(平均约 0.5K 令牌)相比,真实网站的 HTML 令牌数量显著更高(7K 至 14K),占用了 LLM 大部分的上下文长度。因此,我们在预处理阶段移除了无关的 HTML 标签(例如 <script><meta>),仅保留必要的属性(例如 idtypevalue)。

HTML-T5 采用长跨度去噪目标(Tay 等, 2022)在来自 CommonCrawl 的大规模 HTML 语料库上进行预训练,以更好地捕捉 HTML 的语法和语义信息。

为了将语言模型代理更好地适配真实网站,我们引入了自我经验监督,即使用脚本化的规划/摘要以及自主生成的程序数据对领域专家语言模型进行微调。


与现有 LLM 代理的比较

现有 LLM 驱动的代理通常采用单一 LLM,并根据不同角色提供不同的提示(Kim 等, 2023; Sun 等, 2023; Zheng 等, 2023)。然而,这种方法不足以处理比模拟环境更复杂的真实世界任务

我们的方法通过自引导的专用语言模型改进了 HTML 理解和操作的泛化能力,并显著优于单一 LLM 代理。在真实网页自动化任务中,WebAgent 将成功率提高了 50%。错误分析表明,将任务规划HTML 摘要相结合的专用语言模型对于任务成功至关重要。

此外,HTML-T5 不仅是 WebAgent 的核心模块,还在独立的网页任务中表现优异。在 MiniWoB++(Liu 等, 2018; Shi 等, 2017)基准测试上,HTML-T5 的成功率比先前的 LLM 代理高 18.7%,并超越了竞争基线,如本地-全局注意力模型(Guo 等, 2022)及其指令微调版本(Chung 等, 2022)。

在 Mind2Web(Deng 等, 2023)这一离线任务规划数据集上,HTML-T5 在 Synapse(Zheng 等, 2023)与 GPT-3.5,以及 MindAct(采用 FLan-T5-XL 和 GPT-4)等方法中取得了**最先进(SoTA)**的性能。


我们的关键贡献

  • 提出 WebAgent:将两个模块化的 LLM 进行自监督整合,以实现真实世界的网页自动化。专用语言模型负责任务规划和 HTML 摘要,而通用语言模型负责生成可执行的 Python 程序。
  • 引入 HTML-T5:一种基于局部-全局注意力机制的新型语言模型,在来自 CommonCrawl 的大规模 HTML 语料库上进行预训练,能够更好地捕获 HTML 的语法和语义信息。

 

2 相关工作

网页自动化

网页自动化是一种序列决策任务,其中代理根据给定指令操作浏览器(Shi 等, 2017),例如通过一系列计算机操作执行表单填写(Diaz 等, 2013)或信息检索(Adolphs 等, 2022)(Li 等, 2020; Mazumder & Riva, 2020; Shvo 等, 2021)。

以往的研究主要通过以下方法实现网页自动化:

  • 强化学习(RL):通过强化学习训练代理完成网页任务(Gur 等, 2019; Humphreys 等, 2022; Jia 等, 2019; Shaw 等, 2023)。
  • 微调 LLM:对大语言模型进行微调,以适应特定的网页自动化任务(Furuta 等, 2023; Gur 等, 2022)。
  • 提示工程(Prompting):使用提示策略指导 LLM 执行网页任务(Kim 等, 2023; Sun 等, 2023; Yao 等, 2022b; Zheng 等, 2023)。

上述研究大多在模拟网站(Shi 等, 2017; Toyama 等, 2021; Yao 等, 2022a)上进行。然而,简化的模拟环境与真实网页环境之间仍存在巨大差距,例如:

  • 真实网站的 HTML 页面平均令牌数大约是模拟环境的 15 倍(如图 2 所示)。
  • 针对特定网站的预定义操作空间假设较强,可能会影响模型对分布外网页或指令的泛化能力

与本研究最相关的工作可能是 MindAct(Deng 等, 2023),其方法通过对微调的语言模型进行 HTML 摘要提取,并使用另一模型以多选问答格式预测网页操作。尽管 MindAct 结合了多个语言模型,但其仅使用 DeBERTa(He 等, 2021)和 Flan-T5(Chung 等, 2022)作为摘要和执行模块,并仅在离线数据集上进行了评估。

相比之下,我们提出的 WebAgent 采用专门设计的 HTML-T5 来处理网页任务,专门用于长 HTML 文档的摘要和规划。同时,WebAgent 结合了微调后的 HTML-T5 进行摘要和规划,以及 Flan-U-PaLM 作为功能强大的代码生成器,使其能够生成开放式网页操作,并在真实在线网站上执行。


程序合成(Program Synthesis)

除了常见的 LLM(Brown 等, 2020; Chowdhery 等, 2022; Touvron 等, 2023),许多研究提出了专注于编程的语言模型(Chen 等, 2021a; Feng 等, 2020; Li 等, 2022; Wang 等, 2021)及其相关基准(Austin 等, 2021; Hendrycks 等, 2021a; Lu 等, 2021)。

另一条研究路径探索了工具增强 LLM(Parisi 等, 2022),通过解码 API 调用(Schick 等, 2023)或 Python 代码片段,交由解释器执行(Gao 等, 2023)。

大多数研究针对静态数据集进行程序合成,而在机器人学(Liang 等, 2023)和游戏(Trivedi 等, 2022; Wang 等, 2023a)领域,也有部分研究尝试让 LLM 生成 Python 或 JavaScript 代码以指挥代理操作。

类似地,我们利用 LLM 的代码生成能力作为网页代理的开放式操作空间,使其能够在真实网站上执行操作。实验表明,LLM 能够根据提供的子指令和 HTML 内容,顺序解码 Python Selenium 代码,从而完成网页自动化任务。

有关文档理解和基于 LLM 任务规划的更多相关工作,请参见附录 B

3 WebAgent

WebAgent 是一种新的架构,结合了两个大语言模型(LLM)以实现高效的真实世界网页自动化。HTML-T5 作为领域专家 LLM,负责预测下一个子指令(任务规划)并生成相关的 HTML 片段(内容摘要)。Flan-U-PaLM(540B)(Chowdhery 等,2022;Chung 等,2022)在 HTML-T5 提供的规划和摘要基础上,被提示生成可执行的 Python 程序(见图 3)。这种模块化的两阶段方法使 WebAgent 能够有效地导航并处理 HTML 文档。


工作流程

用户以自然语言的方式提出请求,例如“搜索公寓”。收到初始请求后,HTML-T5 生成一个 “前往 <URL>” 的子指令,触发 Flan-U-PaLM 生成相应的 Python 程序,导航到指定网站。

新打开页面的原始 HTML 内容将被提取,并与用户指令及之前的规划步骤一起输入到 HTML-T5 中,以预测下一个子指令并识别相关的 HTML 片段进行摘要。接着,Flan-U-PaLM 根据这些子指令和 HTML 片段生成 Python 程序。

该规划、摘要和程序合成的迭代过程将持续进行,直到预测到指定的“结束”指令或达到最大迭代次数。


3.1 HTML-T5

先前研究表明,通用 LLM(如 T5、Flan-T5 和 InstructGPT)在网页环境中表现良好(Furuta 等, 2023; Gur 等, 2022; Kim 等, 2023)。然而,与专门的 Transformer 模型(Li 等, 2021b; Wang 等, 2022a; Zhao 等, 2022)不同,通用 LLM 未能充分利用 HTML 特定的信息,导致对 HTML 内容的理解能力受限。

为了解决这一局限性,我们提出了 HTML-T5,这是一种专为基于 HTML 的网页自动化任务设计的预训练编码-解码语言模型。HTML-T5 巧妙地融合了通用模型和专业模型的特性,以文本到文本的方式处理 HTML,并在编码器中采用局部和全局注意力机制(Ainslie 等, 2020),以捕获长 HTML 文档的层次结构。

HTML-T5 在来自 CommonCrawl 的大规模 HTML 语料库上,使用长跨度去噪目标(long-span denoising objective) 进行预训练,并针对每个下游任务进行微调。在 WebAgent 框架中,我们采用自我经验监督(self-experience supervision) 方法,以使模型与真实网站对齐。


模型架构

与自然语言不同,HTML 文档具有明确的层次结构。其结构包括元素(如 <input><label><button>)及其相关属性(如 classlabelid)。这些元素在局部定义,并在整个 HTML 文档中层次化地组合。

为建模这一层次结构,我们用局部和全局注意力机制(Ainslie 等, 2020)替代了常见的密集注意力(Vaswani 等, 2017)。

  • 局部注意力(Local Attention) 使每个令牌仅关注相邻令牌,
  • 瞬时全局注意力(Transient Global Attention) 允许每个令牌关注超出其局部窗口的内容,通过在每个窗口内的聚合和归一化,形成全局记忆表示。

如图 4 所示,HTML-T5 处理 HTML 叶子元素(绿色)时使用局部注意力,而处理内部元素(紫色)时则使用全局注意力,这种方法自然地适应了 HTML 的层次结构。


长跨度去噪预训练

HTML-T5 的预训练使用跨度去噪目标(span denoising objective),即在 HTML 文档中随机屏蔽一定长度的令牌序列,并使用其余令牌预测屏蔽内容。

与自然语言文本不同,短跨度屏蔽(例如长度 µ = 3)往往会遮盖无意义的内容(如 </, id= 等),信噪比较低。而更长的跨度 可以捕获更有意义的片段(如 <form class="type="submit">)。实验表明,将跨度长度设置为 µ ∈ {8,64} 可优化 HTML 文档的建模(详见第 4.2 节)。

预训练使用的输入序列长度为 4096,输出序列长度为 910,共屏蔽 15% 的输入令牌。在预训练数据集方面,我们从 CommonCrawl 语料库(2019 年 4 月)中收集了 100 个 WARC 文件,并移除了非 Unicode 或仅包含字母数字的 HTML 文档。


3.2 面向真实网站的自我经验监督

为 LLM 提供示例来学习如何理解网站,仍是网页自动化领域的重大挑战。尽管人类可以轻松地遵循网页指令,但手动标注规划、摘要和程序合成的每个步骤是不现实的。

为解决这一问题,我们提出了一种自我经验监督(self-experience supervision)半监督学习方法,该方法仅需最小的人为干预:

  1. 手动编写脚本 生成规划和摘要步骤。
  2. 使用 Flan-U-PaLM 生成相应的 Python 代码。
  3. 通过微调,使 HTML-T5 等领域特定语言模型与这些自我收集的真实世界经验保持一致(Wang 等, 2022b)。

这样,代理能够泛化并适应复杂的真实世界任务。


指令模板

我们维护了一组包含占位符的指令模板,例如:

“请在 <mapwebsite> 网站上,按 <n-th> <transportation> 的方式,从 <start> 到 <goal>。”

指令的值通过从预定义的键值对中随机抽取来填充。


脚本化规划与提示式编程

我们使用基于规则的解析器,将指令分解为子指令序列,并通过正则表达式从 HTML 中提取参考 ID。在每个步骤,Flan-U-PaLM 接收子指令及相关 HTML 片段,并生成可由 Selenium WebDriver 执行的导航程序。

尽管记录的演示成功率各异,但自动化真实世界任务的成功标准仍然具有挑战性。为改进学习体验,我们利用环境反馈来消除关键失败,例如程序执行错误、检索错误和明显的 URL 前缀错误(Ni 等, 2023)。


规划和摘要的微调

WebAgent 的核心组件 HTML-T5 通过以下数据进行微调:

  • 任务指令(如“在纽约,搜索 2 室 2+ 卫的房屋,最高预算 $7500”),
  • 子指令历史记录(如“打开房地产网站,输入‘纽约’,点击搜索”),
  • 原始 HTML 文档。

随后,HTML-T5 生成新的子指令(如“输入 7500 到最高租金”)并提取相关 HTML 片段。

第 4.1 节展示了将 HTML 摘要整合到子指令预测中的重要性,以增强真实世界网页自动化的性能。

 

3.3 基于上下文的程序合成

在真实世界的网站上进行网页自动化面临诸多挑战,主要是由于其开放式操作空间,这与简化的模拟器环境有所不同(Shi 等, 2017; Yao 等, 2022a)。与以往的方法(Gur 等, 2019; Humphreys 等, 2022; Jia 等, 2019; Liu 等, 2018)相比,真实世界的网页代理无法预定义一个固定的操作空间来指定网页上的交互元素。

为了解决这一开放领域的挑战,我们在网页自动化中引入了基于编程的操作范式(act via programming paradigm),利用 LLM 的条件代码生成能力(Chen 等, 2021a; Liang 等, 2023)。

给定少量示例(例如复选框选择、文本输入、点击选项、滚动等),以及 HTML-T5 生成的下一个子指令和提取的 HTML 片段,Flan-U-PaLM(Chowdhery 等, 2022; Chung 等, 2022)能够解码生成可在 Selenium WebDriver(一个浏览器自动化库)上执行的 Python 程序(见图 3)。

这种条件化的程序合成不仅要求 LLM 生成遵循自然语言指令的代码,还必须理解 HTML 元素的语义和功能

以下是 Flan-U-PaLM 生成的 Python 代码示例(子指令作为脚本中的注释):

 

python

复制编辑

# 在搜索框中输入 walnut creek, ca driver.find_element(By.CSS_SELECTOR, '[data-ref="175"]').clear() driver.find_element(By.CSS_SELECTOR, '[data-ref="175"]').send_keys("walnut creek, ca") # 提交搜索 driver.find_element(By.CSS_SELECTOR, '[data-ref="175"]').submit() # 点击公寓选项 driver.find_element(By.CSS_SELECTOR, '[data-ref="572"]').click() # 向下滚动房屋类型 200px driver.execute_script('getScrollParent(document.querySelector("#type-of-housing")).scrollBy({top: 200})')


4 实验结果

为了研究在自监督框架下,模块化 LLM 组合如何克服网页自动化中的开放性长上下文问题,我们在真实网站上执行了指令跟随任务(详见 4.1 节)。此外,在附录 E 中,我们还在 WebSRC(Chen 等, 2021b)基准测试中测试了 WebAgent,该数据集专注于 HTML 结构化文档理解,并与专门的 Transformer 模型(Li 等, 2021b; Zhao 等, 2022)进行了对比。

我们还量化了 HTML-T5 本身在模拟网页基准 MiniWoB++ 以及离线任务规划基准 Mind2Web 上的性能(详见 4.2 节)。


4.1 真实世界网页自动化

评估方法

我们首先在人类监督下评估 WebAgent 在真实网站上的导航性能,测试了以下三类网站:

  1. 房地产网站(房屋平台)——需要长规划(每个任务约 20 个步骤),涉及复杂的表单填写和多个页面跳转(至少 2 页)。
  2. 社交媒体网站(社交网络)——需要较短规划(每个任务约 10 个步骤),但涉及多个页面跳转(至少 4 页),依赖于超链接选择。
  3. 地图网站(地图导航)——任务最简单,规划较短,页面跳转较少。

WebAgent 接收自然语言指令,例如:

  • “请在房地产网站上搜索 Oroville, CA 地区的 1 室 1+ 卫的公寓,适合企业住房。”
  • “请展示 Python 社区中按‘教程’标签筛选的最新帖子。”

WebAgent 通过 HTML-T5 进行规划和摘要,并使用 Flan-U-PaLM 进行编程(如图 5 所示)。

通过自我经验监督,我们在房地产、社交媒体和地图网站上分别收集了 260、230 和 410 个任务实例,用于对 HTML-T5 进行微调。

我们准备了 20 个不同的自然语言指令(完整列表见附录 F),并使用成功率得分作为评估指标:

  • 成功率:指代理是否完全满足指令的所有要求。
  • 得分:表示任务中满足的属性占比。例如,在房地产搜索任务中,要求满足以下属性:
    1. 位置(Oroville, CA),
    2. 适合企业住房,
    3. 一室,
    4. 1+ 卫生间。

如果代理仅满足其中 3 项,得分计算为:60 = 100×3/5100 \times 3/5100×3/5。如果得分达到 100,则视为成功。


实验结果

为进行对比,我们使用了三个基线方法:

  1. 单一 LLM(Flan-U-PaLM) 仅基于提示进行开放式规划(Plan: ),
  2. Flan-U-PaLM+P:使用额外的 LLM 进行任务规划,
  3. Flan-U-PaLM+S:使用额外的 LLM 进行 HTML 摘要。

如果不使用语言模型模块,Flan-U-PaLM 将进行开放式规划,并使用正则表达式从原始 HTML 中提取信息。

表 1 显示:

  • WebAgent 在房地产网站上成功率达到 65%,得分为 87.6%
  • 社交媒体网站上成功率为 70%,得分 85.8%
  • 地图网站上成功率为 80%,得分 93.8%

WebAgent 显著优于仅使用 Flan-U-PaLM 或部分使用 LLM 模块的方法(大多数基线成功率仅为 10%-30%)。

实验结果表明:

  • 自我经验监督显著提高了性能
  • 基于微调 HTML-T5 的闭环规划比基于少样本 LLM 的开放式规划更适合处理开放域网页自动化。

这一趋势在房地产网站上尤为明显,即使使用 Flan-U-PaLM+P 进行长规划,其成功率也仅为 50%。

此外,子指令预测与 HTML 摘要的结合在任务成功中起到了至关重要的作用。


错误分析

我们将失败案例归类为以下三种错误类型(见表 1):

  1. 编程错误:未能正确执行给定的子指令或 HTML 片段。
  2. 规划错误:预测的子指令与用户指令冲突。
  3. 摘要错误:HTML 片段的提取与目标任务不匹配。

改进更强大的规划模块,以自适应和准确地分解指令,将有助于进一步提升 WebAgent 的性能。

4.1 失败原因分析

我们将失败原因归纳为以下三类:

  1. 编程错误(Programming Errors):未能满足给定的子指令或正确处理 HTML 片段。
  2. 规划错误(Planning Errors):预测的子指令与用户指令存在冲突。
  3. 摘要错误(Summarization Errors):未能提取与给定子指令相关的 HTML 片段。

从网站角度来看,房地产网站的失败主要集中在规划阶段,因为任务具有较长的决策路径。而地图网站在混淆起点和目的地时也容易在规划上出错。相较之下,社交媒体网站的失败主要发生在编程阶段,原因在于子指令的歧义或摘要中包含冗余的超链接,导致页面跳转错误或点击无法执行的元素。

从方法角度来看,WebAgent 主要在规划阶段失败(在房地产网站上的失败任务中,70% 的情况是由于错误的规划)。其他基线方法更容易在编程摘要步骤中失败。

这一观察表明,通过自我经验监督,编程和摘要的错误比例已减少,但规划阶段的根本困难仍然存在,因为它需要在长任务序列中保持一致性和准确性,而不会积累错误。


4.2 HTML-T5 的消融实验

实验结果概览:

表 3 显示了在 MiniWoB++(包含 56 项任务)上的平均成功率,我们使用了 12K 个示例来比较 HTML-T5 在各类微调方法中的表现。

  • **HTML-T5-XL(我们的方法)**在成功率方面显著优于先前最佳模型 WebN-T5-XL(Gur 等, 2022),提高了 18.7%
  • HTML-T5-XL 在 347K 个训练示例上微调后,优于 11B 参数的 Flan-T5-XXL,仅使用 3B 参数即可达到 85.6% 的成功率,接近 SOTA(GPT-3.5)。

HTML-T5 在其他基准测试中的表现:

  1. Mind2Web(Deng 等, 2023):一个包含 2K+ 指令的真实世界数据集,涵盖 137 个网站(例如旅游、购物等)。

    • HTML-T5-XL 在元素精度、操作 F1 分数和任务成功率方面,分别比 Flan-T5-XL 或 GPT-4 提高了 5-8%、6-8% 和 4-8%。
    • 结果表明 HTML-T5 在跨任务、跨网站和跨领域泛化方面具有出色的能力。
  2. MiniWoB++(Liu 等, 2018; Shi 等, 2017):用于评估网页自动化能力的标准基准测试。

    • HTML-T5-XL 在 56 项模拟任务上表现优异,成功率超越了 LongT5 和之前的微调方法,验证了 HTML 去噪(denoising)目标比传统的指令微调方法(instruction tuning)更有效。

架构和目标分析:

  • 研究表明,局部与全局注意力机制比传统的密集注意力(dense attention)更适合捕获 HTML 文档的层次结构。
  • 在 MiniWoB++ 56 项任务的实验中,结合局部和全局注意力的模型比仅使用局部注意力的模型提高了 18% 的成功率,而局部注意力仍然比密集注意力高 9%,说明 HTML 中的局部元素和属性关系对网页任务至关重要。
  • 采用**长跨度去噪(µ ∈ {8,64})**目标优于其他配置,如常见的 µ ∈ {3,8,64} + Prefix LM,能够更好地减少无意义的预测,并将 HTML 结构信息注入语言模型。

5 讨论与局限性

模块化方法与专家语言模型

  • 我们证明了将网页自动化拆分为规划、HTML 摘要、代码生成的模块化方法是有效的,并结合领域专家模型与自我经验数据对齐。
  • 这种模块化方法已在 LLM 推理(Xu 等, 2023)、多模态任务(Zeng 等, 2022)和机器人学(Ahn 等, 2022)中得到采用,然而,它可能带来额外的计算成本和延迟。

跨互联网的广泛泛化能力

  • 由于基于 Flan-U-PaLM 的开放式规划最多仅能达到 10-30% 的成功率,我们证明了在真实网站上的自我经验监督对于规划模块至关重要。
  • 在 Mind2Web 数据集上的实验表明,如果有足够的数据,我们的方法可以推广到整个互联网。未来研究可以通过大规模收集示例并使用更大的专家语言模型来进一步提高泛化能力。

程序合成的反馈

  • 我们使用具有 540B 参数的 Flan-U-PaLM 作为程序合成模块,尽管该模型功能强大,但与较小模型相比,难以快速反映错误反馈。
  • 未来研究可以探索如何将反馈整合到更大的语言模型中,以提高程序合成的精确性。

真实世界网页自动化的评估

  • 我们证明了 WebAgent 可以在房地产、社交媒体和地图网站上,遵循复杂且有时存在歧义的指令。
  • 然而,在现实世界中评估自主代理的性能是昂贵的,因此开发最小人工干预的自动评估方法将有助于大规模开发网页代理。

6 结论

我们构建了一个面向真实世界网页自动化的系统,结合了:

  • HTML-T5 进行规划和 HTML 摘要,
  • Flan-U-PaLM 进行基于上下文的程序合成。

我们的 WebAgent 通过自我经验监督,在真实网站上的成功率达到 70-80%,相比单一 LLM 方法提高了 50% 以上,这表明使用多个语言模型分解子问题序列可显著提高任务的成功率。

我们还提出了一种可扩展的 HTML 专用语言模型架构,结合局部与全局注意力机制,并使用长跨度去噪目标来捕获 HTML 文档的层次结构。

HTML-T5 不仅是 WebAgent 的核心,还在多个 HTML 基准测试(如 Mind2Web 和 MiniWoB++)中取得了最佳表现。

我们希望我们的研究能够推动自主网页代理系统的实际部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/67714.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

农业农村大数据应用场景|珈和科技“数字乡村一张图”解决方案

近年来&#xff0c;珈和科技持续深耕农业领域&#xff0c;聚焦时空数据服务智慧农业。 珈和利用遥感大数据、云计算、移动互联网、物联网、人工智能等先进技术&#xff0c;搭建“天空地一体化”监测体系&#xff0c;并创新建设了150的全球领先算法模型&#xff0c;广泛应用于高…

中间件漏洞之redis

目录 前置知识redis持久化存储动态修改配置打redis常用命令 利用弱口令未授权访问写ssh公钥直接写ssrf 绝对路径写shell直接写ssrf 反弹shell直接写ssrf 主从复制防御措施 前置知识 redis持久化存储 RDB Redis DataBase(默认) AOF Append Only File&#xff08;会追加日志文件…

【odbc】odbc连接kerberos认证的 hive和spark thriftserver

hive odbc驱动&#xff0c;以下两种都可以 教程&#xff1a;使用 ODBC 和 PowerShell 查询 Apache HiveHive ODBC Connector 2.8.0 for Cloudera Enterprise spark thriftserver本质就是披着hiveserver的外壳的spark server 完成kerberos认证: &#xff08;1&#xff09;可以…

ESP-Skainet语音唤醒技术,设备高效语音识别方案,个性化交互应用

在当今数字化、智能化飞速发展的时代&#xff0c;物联网&#xff08;IoT&#xff09;与人工智能&#xff08;AI&#xff09;的深度融合正在重塑我们的生活和工作方式。 在智能家居的生态系统中&#xff0c;语音唤醒技术不仅能够为用户提供个性化的服务&#xff0c;还能通过定制…

鸿蒙安装HAP时提示“code:9568344 error: install parse profile prop check error” 问题现象

在启动调试或运行应用/服务时&#xff0c;安装HAP出现错误&#xff0c;提示“error: install parse profile prop check error”错误信息。 解决措施 该问题可能是由于应用使用了应用特权&#xff0c;但应用的签名文件发生变化后未将新的签名指纹重新配置到设备的特权管控白名…

基于STM32的智能门锁安防系统(开源)

目录 项目演示 项目概述 硬件组成&#xff1a; 功能实现 1. 开锁模式 1.1 按键密码开锁 1.2 门禁卡开锁 1.3 指纹开锁 2. 功能备注 3. 硬件模块工作流程 3.1 步进电机控制 3.2 蜂鸣器提示 3.3 OLED显示 3.4 指纹与卡片管理 项目源代码分析 1. 主程序流程 (main…

html学习笔记(1)

一、什么是HTML HTML是HyperText Markup Language的缩写&#xff0c;即超文本标记语言&#xff0c;是一种用于创建网页的标准标记语言。以下是关于HTML的详细介绍&#xff1a; 基本概念 超文本&#xff1a;HTML中的“超文本”指的是网页中可以包含链接&#xff0c;这些链接…

JavaWeb开发(十五)实战-生鲜后台管理系统(二)注册、登录、记住密码

1. 生鲜后台管理系统-注册功能 1.1. 注册功能 &#xff08;1&#xff09;创建注册RegisterServlet&#xff0c;接收form表单中的参数。   &#xff08;2&#xff09;service创建一个userService处理业务逻辑。   &#xff08;3&#xff09;RegisterServlet将参数传递给ser…

【cuda学习日记】3.1 CUDA执行模型--线程束分化

3.1.1 将同用的function放到header文件里 ./common/common.h #define CHECK(call) \{\const cudaError_t error call; \if (error ! cudaSuccess)\{\printf("Error: %s: %d\n", __FILE__, __LINE__);\printf("code :%d reason :%s\n", error , cudaGetEr…

【STM32-学习笔记-15-】MAX7219点阵屏模块

文章目录 MAX7219点阵模块一、MAX7219Ⅰ、 概述Ⅱ、功能特点Ⅲ、引脚功能Ⅳ、典型应用电路Ⅴ、内部组成结构Ⅵ、时序图Ⅶ、寄存器 二、STM32控制点阵屏Ⅰ、程序框图Ⅱ、程序编写①、MAX7219.c②、MAX7219.h③、MAX7219_Img.h④、main.c MAX7219点阵模块 一、MAX7219 Ⅰ、 概述…

Redis数据库笔记——持久化机制

大家好&#xff0c;这里是Good Note&#xff0c;关注 公主号&#xff1a;Goodnote&#xff0c;专栏文章私信限时Free。本文详细介绍Redis的持久化机制&#xff0c;目标是将内存中的数据持久化到磁盘&#xff0c;以保证数据的可靠性和在重启后的恢复能力。 文章目录 持久化机制A…

K8S 集群搭建和访问 Kubernetes 仪表板(Dashboard)

一、环境准备 服务器要求&#xff1a; 最小硬件配置&#xff1a;2核CPU、4G内存、30G硬盘。 服务器可以访问外网。 软件环境&#xff1a; 操作系统&#xff1a;Anolis OS 7.9 Docker&#xff1a;19.03.9版本 Kubernetes&#xff1a;v1.18.0版本 内核版本&#xff1a;5.4.203-…

vue中echarts-中国地图,世界地图显示(echarts5.6版本本地导入)

地图去掉南海诸岛右下角的框显示&#xff08;因为显示的不是现在的10段线&#xff09; 资源里面主要是有个改好的中国地图json其他的无所谓&#xff0c;用现有的json也行&#xff0c;主要是为了解决10段线的问题 引入需要注意 import * as echarts from “./echarts”; 目录…

数据结构(三) 排序/并查集/图

目录 1. 排序 2.并查集 3.图 1.排序: 1.1 概念: 排序就是将数据按照某种规则进行排列, 具有某种顺序. 分为内排序和外排序. 内排序就是: 将数据放在内存中的排序; 外排序是: 数据太多无法在内存中排序的. 1.2 插入排序: 插入排序包含: 直接插入排序和希尔排序. (1) 直接插入…

算法随笔_13: 有效三角形的个数

上一篇:算法随笔_12:最短无序子数组-CSDN博客 题目描述如下: 给定一个包含非负整数的数组 nums &#xff0c;返回其中可以组成三角形三条边的三元组个数。 示例 1: 输入: nums [2,2,3,4] 输出: 3 解释:有效的组合是: 2,3,4 (使用第一个 2) 2,3,4 (使用第二个 2) 2,2,3 算法…

CSS 网络安全字体

适用于 HTML 和 CSS 的最佳 Web 安全字体 下面列出了适用于 HTM L和 CSS 的最佳 Web 安全字体&#xff1a; Arial (sans-serif)Verdana (sans-serif)Helvetica (sans-serif)Tahoma (sans-serif)Trebuchet MS (sans-serif)Times New Roman (serif)Georgia (serif)Garamond (se…

大模型学习笔记 - 第一期 - Milvus向量数据库

大模型学习笔记 - 向量数据库 目录 大模型学习笔记 - 向量数据库传统文字检索(无嵌入)面临的困境1. 用户和商户表述差异2. 不同语种的表述差异3. 不同背景下的音译表述差异 向量检索向量化服务 参考 传统文字检索(无嵌入)面临的困境 1. 用户和商户表述差异 ​ 如果商户维护了…

详细图文解读Transformer模型:《Attention is All You Need》完整版

目录 前言1、Transformer模型《Attention is All You Need》总结2、Transformer整体结构2.1、工作流程 3、Transformer的输入4、Self-Attention&#xff08;自注意力机制&#xff09;4.1、Self-Attention 结构4.2、Q, K, V计算4.3、Self-Attention 的输出4.4、Multi-Head Atten…

Hadoop•用Web UI查看Hadoop状态词频统计

听说这里是目录哦 通过Web UI查看Hadoop运行状态&#x1f407;一、关闭防火墙二、在物理计算机添加集群的IP映射三、启动集群四、进入HDFS的Web UI 词频统计&#x1f9a9;1、准备文本数据2、在HDFS创建目录3、上传文件4、查看文件是否上传成功5、运行MapReduce程序6、查看MapRe…

Ubuntu、Windows系统网络设置(ping通内外网)

一、 虚拟机VMware和Ubuntu系统的网络配置说明 1、虚拟机的网络适配器的模式有三种&#xff1a; 桥接模式NAT模式主机模式 2、虚拟机VMware的网卡配置(如何进行配置界面(虚拟机->设置)) 注意&#xff1a; 1、以上桥接模式(ubuntu有独立IP)、NAT模式(没有独立IP)都可以联…