AUTOCRAWLER : A Progressive Understanding Web Agent for WebCrawler Generation

AUTOCRAWLER:用于生成 WebCrawler 的渐进式理解 Web 代理

Fudan University;Alibaba Holding-Aicheng Technology-Enterprise

Abstract

网络自动化是一项重要技术,它通过自动化常见的网络操作来完成复杂的网络任务,提高效率并减少手动干预。传统的网络自动化方法如wrappers,在适应性和可扩展性上有局限性,而基于大型语言模型(LLMs)的生成式代理在开放世界的环境中表现不佳。本文提出了一种针对垂直信息网页的爬虫生成任务,介绍了一种结合LLMs与爬虫的新范式,以提高爬虫应对多样化和不断变化的网络环境的效率。作者提出了AUTOCRAWLER,这是一种利用HTML的层次结构进行逐步理解的两阶段框架。通过自顶向下和后退操作,AUTOCRAWLER可以从错误的操作中学习并不断修剪HTML,以更好地生成操作。作者通过多种LLMs进行了全面实验,证明了框架的有效性。

1 Introduction

  • 网络自动化通过编程与基于Web的应用程序或网站交互,以执行通常需要人工干预的任务。传统的网络自动化方法主要依赖于wrappers,这些wrappers对网站或网页具有特定的适应性。大型语言模型(LLMs)为生成式代理提供了计划、推理和反思等高级功能,但在处理开放世界任务时,仍存在性能差和可重用性低的问题。
  • 主要贡献
    1. 提出了一种新的web爬虫生成任务,并对其进行分析。
    2. 引入了AUTOCRAWLER,这是一种具有渐进理解能力的两阶段框架。
    3. 实验结果表明,AUTOCRAWLER在爬虫生成任务中表现出色。

2 Preliminaries预备知识

  • 2.1 Task Formulation:爬虫生成任务是生成执行动作序列A的过程,目标是在给定的网页集合中提取目标信息。
  • 2.2 Datasets:使用SWDE、EXTENDED SWDE和DS1三个数据集来测试该任务。
  • 2.3 Evaluation Metrics:提出了可执行性评估来评估动作序列的效果,并采用传统的精确度、召回率和F1分数作为指标。

3 AUTOCRAWLER

  • 3.1 Modeling:将爬虫生成任务建模为动作序列生成任务。
  • 3.2 Progressive Generation:通过自顶向下和后退操作逐步生成动作序列。
  • 3.3 Synthesis:通过在种子网页上执行多个不同的动作序列来选择最终的动作序列。

4 Experiment

  • 4.1 Experimental Settings & Evaluation Metrics:进行了广泛的实验设置,包括使用不同的LLMs、数据集和评估指标。
  • 4.2 Main Results on SWDE:AUTOCRAWLER在执行任务时表现优于其他框架。
  • 4.3 Generate with Golden Label:在提供金标签的情况下,AUTOCRAWLER仍能有效提升模型性能。
  • 4.4 Further Study with AUTOCRAWLER:不同LLMs在生成动作序列的步数上存在差异,性能更强的LLMs生成的步数较少。
  • 4.5 Error Analysis:分析了AUTOCRAWLER在执行任务时的常见错误,包括网页结构缺乏通用性和多值信息丢失。

Conclusion: 文章提出了一个新的网络爬虫生成任务,并介绍了AUTOCRAWLER框架,这是一种结合LLMs和爬虫的新范式。AUTOCRAWLER利用HTML的层次结构进行逐步理解,通过自顶向下和后退操作生成操作序列。通过广泛的实验证明了该框架在网络爬虫生成任务中的有效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/8950.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【优选算法】——双指针——15. 三数之和

目录 1.题目 2.解法(排序双指针): 算法思路: 3.代码实现 1.题目 15. 三数之和 提示 给你一个整数数组 nums ,判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i ! j、i ! k 且 j ! k ,同时还满足…

Clickhouse判断是否在范围中

isIPAddressInRange a表 name range id ------- 美国 ‘172.10.1.1/24’ 1 b表 ip name 172.10.11.2 test 现在去判断b表中的test是在哪个范围 isIPAddressInRange(a.ip, b.range) 判断是否为IPv4还是IPv6 isIPv4String isIPv6String 转换IP toIPv4 toIPv4OrDefault(s…

RT-Thread移植到STM32F407

1、获取RT-Thread源码 首先到rtthread官网下载rt-thread nano后解压 解压后打开后内容如下。 2、系统结构 各文件夹的作用如下: Rt-Thread-nano源码结构 文件夹描述bsp板级支持包components/finshRT-Thread组件docs文档信息include头文件libcpu/arm与arm处理器相…

根文件系统的其他测试

文章目录 一、hello测试程序编写二、程序后台运行1.在后台运行方法2.中文显示测试3.开机自动启动测试 一、hello测试程序编写 💦我们使用 Linux 的目的就是运行我们自己的软件,我们编译的应用软件一般都使用动态库,使用动态库的话应用软件体…

vue 钩子函数updated什么时候触发

触发时机 updated是Vue生命周期钩子函数之一,在组件的数据变化导致虚拟DOM重新渲染并应用到实际DOM之后触发。具体来说,updated会在以下几种情况下被触发: 初始渲染完成后:当组件首次渲染完成并将虚拟DOM渲染到实际DOM之后&#…

获取两个时间之间的月份

工具类 public static List<String> getMonthBetweenDate(Date startDate, Date endDate) {ArrayList<String> result new ArrayList<String>();SimpleDateFormat sdf new SimpleDateFormat("yyyy.MM");//格式化&#xff0c;调整为自己需要的格…

摩菲Murphy显示器显示表 总线编程器维修PV780B

Murphy仪器维修包括&#xff1a;摩菲数字显示器&#xff1b;摩菲监视仪表&#xff1b;摩菲CAN总线控制器等维修 维修故障包括&#xff1a;黑屏、指示灯无显示&#xff0c;触摸屏上电无反应&#xff0c; 上电蓝屏、白屏&#xff0c;通电几分钟后屏幕变为蓝屏&#xff0c;主板故…

班级综合测评|基于Springboot+vue的班级综合测评管理系统(源码+数据库+文档)

目录 基于Springbootvue的“智慧食堂”系统 一、前言 二、系统设计 三、系统功能设计 1 管理员功能模块 2学生功能模块 3教师功能模块 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取&#xff1a; 博主介绍&#xff1a;✌️大…

应用系统集成企业微信的技术方案和最佳实践

本文以springbootvue技术开发的低代码平台为案例&#xff0c;介绍应用系统如何集成企业微信&#xff0c;包括同步企业微信组织用户、单点登录、消息发送等。 在线体验&#xff1a;http://www.yunchengxc.com 1、准备应用 1.1、注册企业微信账号 作为企业微信的企业管理员&a…

铅离子/镉离子绿色荧光探针,具有高特异性高灵敏度

基本信息&#xff1a; 中文名称&#xff1a;铅离子/镉离子绿色荧光探针 英文名称&#xff1a;Leadmium TM Green AM dye 外观&#xff1a;固体或粉末状 规格&#xff1a;10mg、25mg、50mg (可支持定制&#xff09; 纯度&#xff1a;95% 储存条件&#xff1a;-20C避光避湿…

46. UE5 RPG 增加角色受击反馈

在前面的文章中&#xff0c;我们实现了对敌人的属性的初始化&#xff0c;现在敌人也拥有的自己的属性值&#xff0c;技能击中敌人后&#xff0c;也能够实现血量的减少。 现在还需要的就是在技能击中敌人后&#xff0c;需要敌人进行一些击中反馈&#xff0c;比如敌人被技能击中后…

JVM中类加载过程中如何验证文件格式

在JVM中&#xff0c;类加载过程中的验证阶段主要是为了确保加载的Class文件是符合虚拟机规定的Class文件格式&#xff0c;并且没有安全方面的问题。验证阶段主要包括四个部分&#xff1a;文件格式验证、元数据验证、字节码验证和符号引用验证。 关于文件格式验证&#xff0c;这…

正点原子[第二期]Linux之ARM(MX6U)裸机篇学习笔记-10.1-NXP SDK 移植

前言&#xff1a; 本文是根据哔哩哔哩网站上“正点原子[第二期]Linux之ARM&#xff08;MX6U&#xff09;裸机篇”视频的学习笔记&#xff0c;在这里会记录下正点原子 I.MX6ULL 开发板的配套视频教程所作的实验和学习笔记内容。本文大量引用了正点原子教学视频和链接中的内容。…

夸克网盘拉新怎么做?分享网盘拉新攻略!

夸克网盘拉新怎么做&#xff1f;如何通过推广夸克网盘来赚佣金&#xff1f;相信大家应该都使用过夸克网盘&#xff0c;现在夸克网盘的拉新赚佣金活动开展的如火如荼&#xff0c;不少朋友通过夸克网盘拉新赚取收益&#xff0c;真的很香。还有一部分想要赚佣金但是不知道如何操作…

C语言例题39、输入一个正整数,将其反方向逆序输出

#include <stdio.h>void main() {int x;int ge; //个位int result 0;printf("请输入一个正整数&#xff1a;");scanf("%d", &x);while (x > 0) {//解题原理ge x % 10;//每次分解取得个位的数字result result * 10 ge;//个十百千万顺序向左…

给数据库贴标签

要给数据库中的文本贴标签&#xff0c;你需要创建一个新的表格来存储标签&#xff0c;并且与文本表进行关联。以下是一个示例的口语化的创建表格和查询示例&#xff1a; 创建标签表格&#xff1a; CREATE TABLE IF NOT EXISTS labels (标签ID INTEGER PRIMARY KEY,标签名称 T…

libcity 笔记:添加自定义dataset

假设我们把libcity/data/dataset/trajectory_dataset.py复制一份到libcity/data/dataset/dataset_subclass/GeolifeDM_dataset.py&#xff0c;里面内容不变&#xff0c;只是把class的名字换了 那其他需要修改哪些内容&#xff0c;使得这个dataset生效呢 libcity/data/dataset/d…

Python应用:让生活更智能

随着科技的进步&#xff0c;Python已成为一种非常受欢迎的编程语言&#xff0c;它在数据分析、人工智能、Web开发等领域有着广泛的应用。今天&#xff0c;我们将探讨一个Python应用的例子&#xff0c;这个应用将帮助我们更智能地管理日常生活。 应用名称&#xff1a;智能生活助…

福建 | 福建铭发用行动诠释“敢为天下先”的泉州精神

福建铭发 泉州TOP级企业 在福建&#xff0c;提到混凝土搅拌站&#xff0c;铭发是绕不开的一个存在。 他们是当地最早一批建成的商砼企业&#xff0c;也是如今发展规模最大的TOP级企业。 从2007年建站至今&#xff0c;近15年的发展&#xff0c;他们形成了一套铭发特色的企业经…

数据结构与算法|算法总结|滑动窗口篇

之前在用golang二刷代码随想录的时候&#xff0c;遇到209.长度最小的子数组竟然没想到应该用滑动窗口解题&#xff01;怒而猛刷&#xff0c;并结合各个博客和视频总结滑动窗口题型和模板如下 参考资料&#xff1a; 【精心总结滑动窗口代码模板, 直接搞定80道Leetcode算法题】 【…