UNDERSTANDING HTML WITH LARGE LANGUAGE MODELS

UNDERSTANDING HTML WITH LARGE LANGUAGE

MODELS

相关链接:arXiv
关键字:大型语言模型HTML理解Web自动化自然语言处理机器学习

摘要

大型语言模型(LLMs)在各种自然语言任务上表现出色。然而,它们在HTML理解方面的能力——即解析网页的原始HTML,对于自动化基于Web的任务、爬取和浏览器辅助检索等应用——尚未被充分探索。我们为HTML理解模型(经过微调的LLMs)提供了深入分析,并在三个任务上评估了它们的能力:(i)HTML元素的语义分类,(ii)HTML输入的描述生成,以及(iii)HTML页面的自主Web导航。尽管之前的工作已经为HTML理解开发了专门的架构和训练程序,但我们展示了在标准自然语言语料库上预训练的LLMs可以非常好地转移到HTML理解任务上。例如,经过微调的LLMs在语义分类上的准确率比仅在任务数据集上训练的模型高出12%。此外,当在MiniWoB基准数据上进行微调时,LLMs使用的数据量比之前最好的监督模型少192倍,成功完成任务的数量增加了50%。我们评估的LLMs中,我们展示了基于T5的模型由于其双向编码器-解码器架构而成为理想的选择。为了促进对LLMs进行HTML理解的进一步研究,我们创建并开源了一个从CommonCrawl中提取并自动标记的大规模HTML数据集。

核心方法

本文提出的核心方法包括:

  1. 自主Web导航:评估模型如何在多页网站中导航,作为顺序决策问题。
  2. 语义分类:要求模型将给定的HTML元素分类到一组类别中,如地址、电子邮件、密码等。
  3. 描述生成:给定一个HTML片段,模型需要生成自然语言描述。

实验说明

实验结果数据展示了在不同任务上微调LLMs的性能。数据集包括MiniWoB、注释购物网站页面和CommonCrawl。实验使用了不同大小和架构的预训练LLMs,包括编码器-解码器和解码器-仅模型。实验结果表明,预训练的LLMs在所有任务上都表现出色,特别是在数据效率上比从零开始训练的模型有显著提升。

任务数据集模型准确率/成功率
自主Web导航MiniWoBWebN-T5-3B51.8% 成功率
语义分类注释购物网站WebC-T5-3B87.7% 准确率
描述生成CommonCrawlWebD-T5-3B84.0% 准确率

结论

我们提出了用于HTML理解的规范任务和微调LLMs。通过一系列架构、数据集大小和基线的全面评估和分析,我们得出了主要结论。我们发现,预训练对于性能至关重要,可以减少标记数据需求,提高样本效率高达200倍;模型架构是第二重要的因素,基于T5的模型在所有任务上表现最佳;在给定模型训练和推理性能的情况下,应评估模型大小,因为模型大小与性能呈亚线性相关。最后,提出的HTML理解任务突出了当前LLMs的相对短上下文窗口限制,为未来研究提供了可能性,这些研究将纳入或消除此限制。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/778279.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【JS笔记】JavaScript语法 《基础+重点》 知识内容,快速上手(六)

面向对象OOP 首先,我们要明确,面向对象不是语法,是一个思想,是一种 编程模式面向: 面(脸),向(朝着)面向过程: 脸朝着过程 》 关注着过程的编程模…

shell脚本发布docker springboot项目示例

docker、git、Maven、jdk8安装略过。 使git pull或者git push不需要输入密码操作方法 约定: 路径:/opt/springbootdemo, 项目:springbootdemo, 打包:springbootdemo.jar, docker容器名字&#x…

Netty 代理TCP 转发集群方案

使用 Netty 自定义协议连接物联网设备,业务增大之后,势必需要使用集群方案。 #nginx负载均衡 Nginx 1.9 已经支持 TCP 代理和负载均衡,并可以通过一致性哈希算法将连接均匀的分配到所有的服务器上。 修改配置文件 http{ … } stream{ ups…

Android ImageView以及实现截图

实现效果 截图前 截图后 代码 package cn.jj.huaweiad;import android.annotation.SuppressLint; import android.graphics.Bitmap; import android.os.Bundle; import android.os.Handler; import android.util.Log; import android.view.View; import android.view.ViewGro…

硬件项目中的turn-key 是啥意思?案例应用

在硬件项目中,turn-key是指一种工程项目模式,即交钥匙工程。这种模式通常由独立的第三方软件厂商直接与芯片厂商合作,基于芯片厂商的硬件方案和协议,集成成熟的上层软件和应用,并整套提供给电子产品生产厂商。这种模式…

LLM之RAG实战(三十五)| 使用LangChain的3种query扩展来优化RAG

RAG有时无法从矢量数据库中检索到正确的文档。比如我们问如下问题: 从1980年到1990年,国际象棋的规则是什么? RAG在矢量数据库中进行相似性搜索,来查询与国际象棋规则问题相关的相关文档。然而,在某些情况下&#xff0…

Ioc容器创建 和 读取组件的测试类

A接口 package com.atguigu.Ioc_03;public interface A {void dowork(); }HappyComponent.java package com.atguigu.Ioc_03;public class HappyComponent implements A {// 默认包含无参的构造方法Overridepublic void dowork() {System.out.println("我是:…

平台介绍-搭建赛事运营平台(3)

上文介绍了品牌隔离的基本原理,就是通过不同的前端和微服务来实现。但是确实很多功能是类似的,所以从编程角度还是有些管理手段的。 前端部分:前端部分没有什么特别手段,就是两个独立的项目工程,分别维护。相同的部分复…

I.MX6ULL_Linux_驱动篇(55)linux 网络驱动

网络驱动是 linux 里面驱动三巨头之一, linux 下的网络功能非常强大,嵌入式 linux 中也常常用到网络功能。前面我们已经讲过了字符设备驱动和块设备驱动,本章我们就来学习一下linux 里面的网络设备驱动。 嵌入式网络简介 网络硬件接口 首先…

LeetCode_Java_字符串相加(题目+思路+代码)

415.字符串相加 给定两个字符串形式的非负整数 num1 和num2 ,计算它们的和并同样以字符串形式返回。 你不能使用任何內建的用于处理大整数的库(比如 BigInteger), 也不能直接将输入的字符串转换为整数形式。 思路: 1…

如何降低 BlueNRG-LPS 的开机峰值电流

1. 前言 BlueNRG 系列存在开机瞬间会出现很大的峰值电流的现象,预计有 20ma 左右。针对此现象,经常有客户询问该峰值电流会不会导致设备工作异常?会不会导致电池使用寿命缩短(考虑到一般纽扣电池能承受的峰值电流大概在 15ma 左右…

深度剖析MySQL锁:解开数据库并发控制的神秘面纱

MySQL 锁是 MySQL 数据库管理系统中为了实现并发控制和数据一致性的机制。在多用户并发访问数据库时,锁可以确保多个事务在对同一数据进行操作时不会相互干扰,以防止数据不一致的现象发生。 一、锁分类 MySQL支持多种类型的锁,主要包括…

NGINX安装Stream模块

一.前言 Stream模块是Nginx的一个核心模块,它提供了一种处理TCP和UDP流量的方式。它可以将传入的TCP或UDP流量代理到后端服务器,实现负载均衡和反向代理的功能。它可以根据自定义的规则将流量转发到不同的后端服务器,实现高可用性和性能优化…

定时器的原理和应用

#include<reg51.h> unsigned char s[]{0x3F,0x06,0x5B,0x4F,0x66,0x6D,0x7D,0x07,0x7F,0x6F}; unsigned char count0,num0; void inittimer() {TMOD0x01;//0000 0001TH0(65536-50000)/256; //定时50ms50000us 2562^8 初值向右边移动8位TL0(65536-50000)%256;ET01;//开启定…

让Unity的协程变得简单

作者简介: 高科,先后在 IBM PlatformComputing从事网格计算,淘米网,网易从事游戏服务器开发,拥有丰富的C++,go等语言开发经验,mysql,mongo,redis等数据库,设计模式和网络库开发经验,对战棋类,回合制,moba类页游,手游有丰富的架构设计和开发经验。 (谢谢…

多源统一视频融合可视指挥调度平台VMS/smarteye系统概述

系统功能 1. 集成了视频监控典型的常用功能&#xff0c;包括录像&#xff08;本地录像、云端录像&#xff08;录像计划、下载计划-无线导出&#xff09;、远程检索回放&#xff09;、实时预览&#xff08;PTZ云台操控、轮播、多屏操控等&#xff09;、地图-轨迹回放、语音对讲…

windows 下用使用api OCI_ConnectionCreate连接oracle报错 TNS:无法解析指定的连接标识符

背景&#xff0c;两台服务器系统一样&#xff0c;oracle版本一样&#xff0c;其中一台服务器在运行程序的时候报错 TNS:无法解析指定的连接标识符 但是PL/SQL可以正常连接&#xff0c;怀疑是oracle配置文件的原因 tnsnames.ora配置文件大概作用&#xff1a;是Oracle客户端的网…

实时数仓之实时数仓架构(Hudi)

目前比较流行的实时数仓架构有两类&#xff0c;其中一类是以FlinkDoris为核心的实时数仓架构方案&#xff1b;另一类是以湖仓一体架构为核心的实时数仓架构方案。本文针对FlinkHudi湖仓一体架构进行介绍&#xff0c;这套架构的特点是可以基于一套数据完全实现Lambda架构。实时数…

springboot整合nacos(配置中心)

使用com.alibaba.boot配置nacos,一定要在bootstrap.yml内配置nacos的相关配置,而不是application.yml sprinboot整合nacos官网,例如pom的依赖是(注意:需要用上nacos的账号密码必须需要nacos-config-spring-boot-starter版本是0.2.6以上,使用nacos-config-spring-boot-st…

基于 StarRocks 的风控实时特征探索和实践

背景 金融风控特征是在金融领域中用于评估和管理风险的关键指标。它们帮助金融机构识别潜在风险&#xff0c;降低损失&#xff0c;并采取措施规避风险。例如&#xff0c;用户最后一次授信提交时间就是一个重要的金融风控特征。 金融风控实时特征场景是一个典型的大数据实时业务…