Docmatix:突破性的文档视觉问答数据集
1. 数据集概述
1.1 规模与创新
- 数据规模:
- 240万张图像
- 950万个问答对
- 来自130万份PDF文档
- 较现有数据集扩大240倍
- 应用领域:文档视觉问答(DocVQA)
- 可访问性:通过HuggingFace平台开放获取
2. 技术实现流程
2.1 数据获取与预处理
- OCR处理:
- 使用PDFA OCR数据集
- 基础数据包含210万份PDF文档
- 进行文本转录处理
- 图像转换:
- PDF文档转图像
- 统一分辨率:150 dpi
- 每个PDF文档对应一行数据
2.2 问答对生成
- 核心模型:采用Phi-3-small模型
- 生成策略:
- 基于文档转录内容生成问答
- 平均每页生成4对问答
- 强调问题多样性
- 质量控制:
- 剔除15%被识别为幻觉的问答对
- 确保答案的人性化特质
- 最小化问题重复率
3. 优化与改进
3.1 提示工程优化
- 目标导向:
- 引导模型基于文档具体信息提问
- 确保问题的独特性
- 减少问题重复现象
- 质量保证:
- 优化问答生成的提示模板
- 保持答案的自然流畅性
- 维持问题的多样化特征
4. 性能评估与实验
4.1 实验设置
- 评估模型:Florence-2模型
- 对比实验方案:
- 基准组:仅使用DocVQA数据集训练
- 实验组:Docmatix预训练(20%图像+4%问答对) + DocVQA微调
4.2 实验结果
- 性能提升:
- 使用Docmatix预训练后性能提升约20%
- 模型对比:
- 0.7B参数Florence-2模型
- 8B参数Idefics2模型
- 性能差距仅5%,但模型体积显著减小
5. 重要意义
- 规模突破:建立了目前最大规模的DocVQA数据集
- 效率提升:即使使用较小比例的数据也能获得显著性能提升
- 模型优化:证明了小型模型在适当训练后可以接近大型模型的性能