Docmatix:突破性的文档视觉问答数据集

Docmatix:突破性的文档视觉问答数据集

1. 数据集概述

1.1 规模与创新

  • 数据规模
    • 240万张图像
    • 950万个问答对
    • 来自130万份PDF文档
    • 较现有数据集扩大240倍
  • 应用领域:文档视觉问答(DocVQA)
  • 可访问性:通过HuggingFace平台开放获取

2. 技术实现流程

2.1 数据获取与预处理

  • OCR处理
    • 使用PDFA OCR数据集
    • 基础数据包含210万份PDF文档
    • 进行文本转录处理
  • 图像转换
    • PDF文档转图像
    • 统一分辨率:150 dpi
    • 每个PDF文档对应一行数据

2.2 问答对生成

  • 核心模型:采用Phi-3-small模型
  • 生成策略
    • 基于文档转录内容生成问答
    • 平均每页生成4对问答
    • 强调问题多样性
  • 质量控制
    • 剔除15%被识别为幻觉的问答对
    • 确保答案的人性化特质
    • 最小化问题重复率

3. 优化与改进

3.1 提示工程优化

  • 目标导向
    • 引导模型基于文档具体信息提问
    • 确保问题的独特性
    • 减少问题重复现象
  • 质量保证
    • 优化问答生成的提示模板
    • 保持答案的自然流畅性
    • 维持问题的多样化特征

4. 性能评估与实验

4.1 实验设置

  • 评估模型:Florence-2模型
  • 对比实验方案
    • 基准组:仅使用DocVQA数据集训练
    • 实验组:Docmatix预训练(20%图像+4%问答对) + DocVQA微调

4.2 实验结果

  • 性能提升
    • 使用Docmatix预训练后性能提升约20%
  • 模型对比
    • 0.7B参数Florence-2模型
    • 8B参数Idefics2模型
    • 性能差距仅5%,但模型体积显著减小

5. 重要意义

  • 规模突破:建立了目前最大规模的DocVQA数据集
  • 效率提升:即使使用较小比例的数据也能获得显著性能提升
  • 模型优化:证明了小型模型在适当训练后可以接近大型模型的性能

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/65479.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Doris使用注意点

自己学习过程中整理,非官方 dws等最后用于查询的表可以考虑使用row存储加快查询,即用空间换时间duplicate key的选择要考虑最常查询使用适当使用bloomfilter 加速查询适当使用aggregate 模式降低max,avg,min之类的计算并加快查询,比如加速明细和汇总的一体化查询使用ALTER…

Kubernetes之NodeSelector与NodeName实战

目录 目标 版本 官网 概述 实战 NodeName实战 NodeSelector实战 目标 通过配置NodeSelector与NodeName实现Pod运行(或优先运行)在我们期望的节点之上。了解这两种实现方法的区别。 版本 Kubernets v1.25.0 官网 将Pod分配给节点https://kubernet…

【docker系列】打造个人私有网盘zfile

1. 介绍 是一个适用于个人的在线网盘(列目录)程序,可以将你各个存储类型的存储源,统一到一个网页中查看、预览、维护,再也不用去登录各种各样的网页登录后管理文件 2. 需要环境 2.1 硬件需求 CPU:至少1核 内存:推荐…

系统思考—冰山模型

“卓越不是因机遇而生,而是智慧的选择与用心的承诺。”—— 亚里士多德 卓越,从来不是一次性行为,而是一种习惯。正如我们在日常辅导中常提醒自己:行为的背后,隐藏着选择的逻辑,而选择的根源,源…

麒麟信安参展南京软博会,支持信创PC的新一代云桌面及全行业解决方案备受瞩目

12月20日至22日,由中国软件行业协会、江苏省软件行业协会等单位联合主办的2024中国(南京)软件产业博览会在南京国际博览中心隆重开幕。本届博览会以“软件驱动未来,数字闪耀金陵”为主题,吸引了各界目光,省…

【PLL】电荷泵锁相环各个环路参数意义

电荷泵锁相环(CPPLL)在模拟锁相环占据主导, 因为在环路中实现了积分器,而没有有缘放大器即:type 2锁相环可以使用无源RC滤波器实现,简化了PLL设计。 简单CPPLL 与C1串联电阻R1形成零点。 电容累积相位误差,提供积分路…

Java 网络原理 ①-IO多路复用 || 自定义协议 || XML || JSON

这里是Themberfue 在学习完简单的网络编程后,我们将更加深入网络的学习——HTTP协议、TCP协议、UDP协议、IP协议........... IO多路复用 ✨在上一节基于 TCP 协议 编写应用层代码时,我们通过一个线程处理连接的申请,随后通过多线程或者线程…

考研互学互助系统|Java|SSM|VUE| 前后端分离

【技术栈】 1⃣️:架构: B/S、MVC 2⃣️:系统环境:Windowsh/Mac 3⃣️:开发环境:IDEA、JDK1.8、Maven、Mysql5.7 4⃣️:技术栈:Java、Mysql、SSM、Mybatis-Plus、VUE、jquery,html 5⃣️数据库…

Java网约车项目实战实现抢单功能详解

在网约车项目中,抢单功能是非常关键的一部分,它决定了司机能否及时响应乘客的订单,提高整个平台的运营效率。本文将详细介绍如何使用Java来实现网约车项目的抢单功能,并提供一个完整的代码示例,以便读者能够直接运行和参考。 一、项目背景与需求分析 1.项目背景 随着移…

SpringBoot使用外置的Servlet容器(详细步骤)

嵌入式Servlet容器:应用打成可执行的jar 优点:简单、便携; 缺点:默认不支持JSP、优化定制比较复杂.; 外置的Servlet容器:外面安装Tomcat---应用war包的方式打包; 操作步骤: 方式一&…

【每日学点鸿蒙知识】初始化BigInt、包体积瘦身、Tabs嵌套Grid、老年化适配、Release打包失败

1、HarmonyOS 在一个类中,怎么初始化一个BigInt类型的属性? 可以通过BigInt关键字来初始化,如: let a BigInt(1); let b BigInt("2"); 关于Uint8Array与string互转,示例: // string 转Uint8…

Unity中的LayoutGroup与LayoutElement的实战应用

在开发中遇到过一个问题,首先我们是在4k分辨率下开发的,界面要求如下 我们以第二行为例子,第二行有3个界面,其中中间的界面是比较长的 面板中使用Vertical和Horizontal排列,并且勾选了ControlChildSize和ChildForceEx…

反应力场的生成物、反应路径分析方法

关注 M r . m a t e r i a l , \color{Violet} \rm Mr.material\ , Mr.material , 更 \color{red}{更} 更 多 \color{blue}{多} 多 精 \color{orange}{精} 精 彩 \color{green}{彩} 彩! 主要专栏内容包括: †《LAMMPS小技巧》: ‾ \textbf…

“自动驾驶第一股” 图森未来退市转型:改名 CreateAI、发布图生视频大模型 “Ruyi”

12 月 19 日,自动驾驶公司图森未来(TuSimple)宣布启用全新品牌 CreateAI,并发布多项在生成式 AI 领域的进展。 CreateAI 宣布获著名武侠 IP《金庸群侠传》正版授权,将开发一款大型武侠开放世界 RPG 游戏。 新的 Creat…

FreeRTOS实战——一、基于HAL库项目的FreeRTOS移植步骤

FreeRTOS实战——一、基于HAL库项目的移植步骤 文章目录 FreeRTOS实战——一、基于HAL库项目的移植步骤前言一、下载和移植FreeRTOS二、系统文件配置2.1 FreeRTOSConfig.h中添加如下3个配置:2.2 修改stm32f1xx_it.c 前言 废话不多说,在FreeRTOS基础&…

编程初学者使用 MariaDB 数据库反射生成

编程初学者使用 MariaDB 数据库反射生成 数据库反射生成,是动词算子式通用代码生成器提供的高级功能,可以利用已有的数据库,反射生成相应数据库的前端和后端项目。此功能自动化程度很高,并且支持完善的元数据和数据编辑&#xff…

yolov6算法及其改进

yolov6算法及其改进 1、YOLOV6简介2、RepVGG重参思想3、YOLOv6架构改进3.1、Backbone方面3.2、SPP改进3.3、Neck改进3.4、Head改进 4、正负样本匹配与损失函数4.1、TaskAligned样本匹配4.2、VFL Loss分类损失函数4.3、SIOU损失函数4.4、DFL损失函数 1、YOLOV6简介 YOLOv6设计主…

Redis字符串底层结构对数值型的支持常用数据结构和使用场景

字符串底层结构 SDS (Simple Dynamic Strings) 是 Redis 中用于实现字符串类型的一种数据结构。SDS 的设计目标是提供高效、灵活的字符串操作,同时避免传统 C 字符串的一些缺点。 struct sdshdr {int len; // 已使用的长度int free; // 未使用的长度char bu…

面试241228

面试可参考 1、cas的概念 2、AQS的概念 3、redis的数据结构 使用场景 不熟 4、redis list 扩容流程 5、dubbo 怎么进行服务注册和调用,6、dubbo 预热 7如何解决cos上传的安全问题kafka的高并发高吞吐的原因ES倒排索引的原理 spring的 bean的 二级缓存和三级缓存 spr…

小程序配置文件 —— 13 全局配置 - window配置

全局配置 - window配置 这里讲解根目录 app.json 中的 window 字段,window 字段用于设置小程序的状态栏、导航条、标题、窗口背景色; 状态栏:顶部位置,有网络信号、时间信息、电池信息等;导航条:有一个当…