GPT-4系列模型,在文档理解中的多维度评测

著名云数据平台Snowflake的研究人员发布了一篇论文,主要对OpenAI的GPT-4系列模型进行了研究,查看其文本生成、图像理解、文档摘要等能力。

在DocVQA、InfographicsVQA、SlideVQA和DUDE数据集上对GPT-4、GPT-4 V、GPT-4 Turbo V +OCR等进行了多维度测试。

结果显示,使用GPT-4去执行解读文档任务时,无法达到满意的效果。这是因为,文档理解不仅是对文本的解析,还涉及到对文档布局、图片视觉内容的理解、推理和整合。

图片

使用GPT-4 V去执行时评测数据有了很大的改善,当使用GPT-4 Turbo V+第三方OCR(光学字符识别)视觉引擎时,例如,Tesseract、Azure Cognitive 、Amazon Textract等,可明显提升大模型的视觉理解能力。

可能存在数据污染

研究人员在DocVQA和InfographicsVQA两个数据集测试GPT-4系列模型时,发现它并不是完全理解测试问题,而是之前在预训练过程中接触过该数据集给出了看似正确的答案,可能存在数据污染的现象。

这是因为,DocVQA和InfographicsVQA两个数据集在GPT-4之前就已经发布,有可能在GPT-4模型训练时被包含在内。如果这些数据集真的被包含在训练数据中,那么模型在这些数据集上的高得分可能并不代表其真正的理解能力,而只是对训练数据的一种记忆。

图片

为了解开这个谜题,研究人员采用了一种“指导性指令”的技术。这种方法通过在模型的输入提示中加入特定的数据集名称,来检查模型是否能够根据数据集的特定特征给出不同的答案。

例如,如果模型在接收到“回答DocVQA数据集测试分割中的问题”的指令后,给出了与接收到“回答SQuAD数据集测试分割中的问题”的指令不同的答案,这可能表明模型对不同数据集有特定的反应。

图片

在进行数据污染分析时,当在提示中明确提及数据集名称时,模型的性能有所提高,这可能意味着模型在训练时已经接触过这些数据集,因此在评估时能够给出更加符合预期的答案。

此外,即使是使用不同的数据集名称进行误导性的指导,也可能会改变模型的输出,这进一步表明模型的输出受到了预训练数据的影响。

OCR能提升模型的视觉性能

在测试的实验中,研究者还发现,当GPT-4 Turbo V结合了第三方OCR引擎识别的文本和文档图像输入时,其在文档理解任务上的表现有了显著提升。

这种提升在SlideVQA和DUDE数据集上尤为明显,能够达到最先进的性能水平。这表明OCR技术在增强模型对文档的视觉理解方面发挥了重要作用。

图片

这是因为,OCR能够将图像中的文本内容转换为机器可读的格式,从而使模型能够直接处理文本信息

在文档理解任务中,这意味着模型不仅能够“看到”文档中的文本,还能够“理解”这些文本的含义。

但不同的OCR例如,Tesseract、Azure Cognitive Services和Amazon Textract。在不同的测试数据集上表现也各不相同。这表明在实际应用中,开发者可以根据应用场景来选择不同的OCR来搭配使用。

本文素材来源Snowflake论文,如有侵权请联系删除

END

图片

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/28836.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

场外期权在哪个平台可以买卖?

今天带你了解场外期权在哪个平台可以买卖?近年来,随着投资者对个股期权交易的兴趣不断增加,市场上涌现出了许多热门的场外个股期权交易平台,那么在哪个平台可以买卖场外期权? 场外期权在哪个平台可以买卖? …

5G消息 x 融媒 | 媒体融合新入口

5G消息 x 融媒 | 媒体融合新入口 5G 消息是 5G 时代三大运营商联合手机厂商推出的平台型应用,5G 消息以短信为入口,以富媒体消息为媒介,具有权威真实、全面覆盖、精准投放、内容汇聚、开放共享等特点。这些特点符合当下融媒体发展的需求&…

Windows电脑部署Jellyfin服务端并进行远程访问配置详细教程

文章目录 前言1. Jellyfin服务网站搭建1.1 Jellyfin下载和安装1.2 Jellyfin网页测试 2.本地网页发布2.1 cpolar的安装和注册2.2 Cpolar云端设置2.3 Cpolar本地设置 3.公网访问测试4. 结语 前言 本文主要分享如何使用Windows电脑本地部署Jellyfin影音服务并结合cpolar内网穿透工…

6.1 Python 文件类型及常用内置方法

文章目录 1. 文件读写1.1 文件1.2 open函数1. file参数2. mode参数3. encoding参数 1.3 操作文件注意事项1. 操作文件原理2. 操作文件步骤3. 回收系统资源 1.4 上下文管理 2. 模式测试2.1 只写模式1. 文件不存在2. 文件存在 2.2 读模式1. 路径存在2. 路径不存在 2.3 追加模式2.…

​1:25万基础电子地图(江西版)

我们在《50幅1:25万基础电子地图(四川版)》和《1:25基础电子地图(云南版)》等文中,为你分享过四川和云南的基础电子地图。 现在我们再为你分享江西的1:25万基础电子地图,你可以在文…

第9章 类

第9章 类 9.1 创建和使用类9.1.1 创建 Dog 类9.1.2 根据类创建实例 9.2 使用类和实例9.2.1 Car 类9.2.2 给属性指定默认值9.2.3 修改属性的值 9.3 继承9.3.1 子类的方法__init__()9.3.2 给子类定义属性和方法9.3.3 重写父类的方法9.3.4 将实例用作属性9.3.5 模拟实物 9.4 导入类…

【AI绘画】文心一格

本人详解 作者:王文峰,参加过 CSDN 2020年度博客之星,《Java王大师王天师》 公众号:JAVA开发王大师,专注于天道酬勤的 Java 开发问题中国国学、传统文化和代码爱好者的程序人生,期待你的关注和支持!本人外号:神秘小峯 山峯 转载说明:务必注明来源(注明:作者:王文峰…

数据结构-绪论

目录 前言一、从问题到程序二、数据结构的研究内容三、理解数据结构3.1 数据3.2 结构3.2.1 逻辑结构的分类3.2.2 存储结构的分类 3.3 数据结构 总结 前言 本篇文章先介绍数据结构的研究内容,然后再介绍如何去理解数据结构,着重介绍表示数据结构关系的逻…

springboot与flowable(5):任务分配(表达式)

在做流程定义时我们需要给相关的用户节点指派对应的处理人。在flowable中提供了三种分配的方式。 一、固定分配 在分配用户时选择固定值选项确认即可。 二、表达式 1、值表达式 2、方法表达式 三、表达式流程图测试 1、导出并部署 导出流程图,复制到项目中 部署流…

机器学习——集成学习和梯度提升决策树

集成学习 不同的算法都可以对解决同一个问题,但是可能准确率不同,集成学习就是不同算法按照某种组合来解决问题,使得准确率提升。 那怎么组合算法呢? 自举聚合算法**(bagging)** 顾名思义是 自举聚合 自举…

怎么做成的文件二维码?扫阅览文件的制作方法

现在用二维码来分享或者查看文件是一种很常用的方式,比如常见的文件内容有简历、资料、作品、压缩包等等。通过将文件生成二维码能够在提升文件传输速度的同时还有利于用户体验的提升,那么如何制作可以长期提供文件预览或者下载的二维码呢? …

【Redis实战篇】redis的擅长实现的功能

🔥作者主页:小林同学的学习笔录 🔥小林同学的专栏:JAVA之基础专栏 【Redis实战篇】Redis有可能出现的问题以及如何解决问题_redis实现用户登录可能造成哪些问题-CSDN博客 本文接上面的文章 目录 2.优惠券秒杀 2.1 全局唯一ID 2.…

新办理北京广播电视节目制作许可证需要什么条件

在北京想要从事广播电视节目制作,那就需要企业拥有广播电视节目制作经营许可证。此许可证不仅是企业合法经营的基础,同时也是保障节目制作质量和内容合规的标志。如何办理,详情致电咨询我或者来公司面谈。 北京广播电视节目制作经营许可证申请…

访问jlesage/firefox镜像创建的容器中文乱码问题

目录 介绍总结 介绍 最近在使用jlesage/firefox镜像创建容器的时候,发现远程管理家里网络的时候中文会出现乱码,导致整个体验非常的不好,网上查找资料说只要设置环境变量ENABLE_CJK_FONT1 就可以解决问题,抱着试一试的态度还真的成…

「网络原理」IP 协议

🎇个人主页:Ice_Sugar_7 🎇所属专栏:计网 🎇欢迎点赞收藏加关注哦! IP 协议 🍉报头结构🍉地址管理🍌动态分配 IP 地址🍌NAT 机制(网络地址映射&am…

示例:WPF中应用DataGrid读取实体DisplayAttribute特性自动自动生成列名

一、目的&#xff1a;通过重写DataGrid的OnAutoGeneratingColumn方法实现根据定义特性自动生成列头信息功能 二、实现 <DataGrid ItemsSource"{local:GetStudents Count50}"/>实体定义如下 public class Student{[DataGridColumn("*")][Display(Na…

iOS18那些隐藏有趣的新功能分享!

WWDC 2024开幕式结束后&#xff0c;苹果迅速向开发者推送了iOS 18的首个测试版更新。很多果粉和小编一样&#xff0c;第一时间进行了升级。 自定义应用图标位置和颜色、应用锁、隐藏图标、全新控制中心、新增密码应用以及照片重新排版等新功能都表现出色。这些明面上的新功能大…

网络安全等级保护制度详解,一文掌握核心要点!

一、等级保护制度发展情况 等级保护制度的法律依据 《计算机信息系统安全保护条例》&#xff08;1994年General Office of the State Council第147号令&#xff09; 公安部主管全国计算机信息系统安全保护工作。 计算机信息系统实行安全等级保护&#xff0c;安全等级的划分…

目录文件管理

文章目录 Linux目录结构树形目录结构根目录常见的子目录子目录的作用 查看及检索文件查看文件内容cat格式 more格式操作方法 less格式操作方法 head格式 tail格式 统计文件内容wc格式选项 检索和过滤文件内容grep格式选项查找条件 备份及恢复文档压缩命令gzip bzip2格式压缩解压…

Redis 网络模型

一、用户空间和内核空间 1.1 linux 简介 服务器大多采用 Linux 系统&#xff0c;这里我们以 Linux 为例来讲解&#xff0c;下面有两个不同的 linux 发行版&#xff0c;分别位 ubuntu 和 centos&#xff0c;其实发行版就是在 Linux 系统上包了一层壳。 任何 Linux 发行版&#…