WebAgent-基于大型语言模型的代理程序

大型语言模型（LLM）可以解决多种自然语言任务，例如算术、常识、逻辑推理、问答、文本生成、交互式决策任务。最近，LLM在自主网络导航方面也取得了巨大成功，代理程序助HTML理解和多步推理的能力，通过控制计算机或浏览互联网进行一系列计算机操作，以满足给定的自然语言指令。

然而，现实世界的网站上的网络导航仍然存在以下问题：

（1）缺乏预定义的操作空间。

（2）HTML观察比模拟器更长。

（3）LLM缺乏HTML领域知识。

考虑到现实世界网站的开放性和指令的复杂性，提前定义适当的操作空间是具有挑战性的。此外，尽管有几项研究认为通过指令微调或根据人类反馈进行强化学习可以改善对HTML的理解和网络导航的准确性，但最近的LLM并不总是具有处理HTML文档的最优设计。大多数LLM的上下文长度与现实网站上HTML的平均标记相比更短，并且没有采用特定的HTML领域知识。

针对上述问题，研究人员引入了WebAgent，这是一个由LLM驱动的代理程序，可以通过组合规范化的网络操作在现实网站上根据用户指令完成导航任务。WebAgent通过将指令分解为规范化的子指令来进行规划，将长HTML文档转化为与任务相关的片段，并通过生成的Python程序对网站进行操作。研究人员将两个LLM组合成WebAgent：Flan-U-PaLM用于基于代码的生成，以及新引入的HTML-T5（一种新型预训练LLM），用于规划和摘要本地长HTML文档。