LLM中表格处理与多模态表格理解

文档处理中不可避免的遇到表格,关于表格的处理问题,整理如下,供各位参考。

问题描述

RAG中,对上传文档完成版式处理后进行切片,切片前如果识别文档元素是表格,那么则需要对表格进行处理。一般而言,表格处理分成三个部分:

  • TD任务,Table Detection,表格识别
  • TSR任务,Table Structure Recognition,表格结构识别
  • TCD任务,Table Content Recognition,表格内容识别

在这里插入图片描述
表格检测任务是识别文档中的表格元素;表格结构识别则是理解表格的布局和结构;而表格内容识别则是提取表格中的具体数据。这些任务共同构成了表格处理的完整流程。目前主要的思路是通过识别到表格,将表格转化为结构化文本信息,比如HTML或者Markdown,再利用LLM对结构化文本的泛化能力进行分析和处理。
然而,在现实世界的一些场景中,获取高质量的文本表格表示可能比较困难,而表格图像则更容易获取。因此,如何直接使用直观的视觉信息来理解表格是一个关键且迫切的挑战。
在这里插入图片描述

多模态表格理解的思路

多模态表格理解指的是结合文本、图像等多种模态信息来理解表格内容。在文本表格表示难以获取的情况下,如何利用直观的视觉信息来理解表格是一个很好的研究方向。为了解决多模态表格理解问题,构建了一个名为MMTab的大规模数据集,涵盖了广泛的表格图像、指令和任任务,为多模态表格理解提供了丰富的实验场景。MMTab数据集的设计思路和数据构造方式,为研究者提供了新的视角和工具,以应对多模态表格理解中的各种挑战。
《Multimodal Table Understanding》,代码放在:https://github.com/SpursGoZmy/Table-LLaVA

在这里插入图片描述

1、其数据构造的方式:

比较有趣的是做的数据增强方案:

其一,表格级别增强(Table-level augmentations):现实世界的表格具有不同的结构和样式。为了使模型能够处理各种样式的表格,设计了脚本来渲染具有三种不同样式的表格图像:网页风格(Web-page,占比70.8%)、Excel风格(占比19.4%)和Markdown风格(占比9.8%)。还考虑细粒度的调整,如字体类型和单元格颜色。

其二,指令级别增强(Instruction-level augmentations):用户对于同一任务的指令可能会有所不同。为了提高模型对这种变化的鲁棒性,作者使用GPT-4生成新的指令模板和关于JSON输出格式的描述,基于几个手动注释的示例进行少量样本(few-shot)学习。生成的指令模板如果包含语法错误或与原始任务偏离,将被过滤掉。

其三,任务级别增强(Task-level augmentations):尽管收集的14个公共数据集突出了9个学术表格任务,这些任务需要基于表格的推理能力,但现有的多模态大型语言模型(MLLMs)是否真的理解基本的表格结构仍然是一个问题。 为了进一步加强MLLMs对基本表格结构的理解能力,设计了6个表格结构理解任务,例如表格大小检测(TSD)任务。

除了上述策略,作者还将同一表格的单轮样本结合起来,构成了37K多轮对话样本。
在这里插入图片描述

2、数据的具体统计,包括用于微调的数据集以及测试

MMTab数据集包括150K样本用于预训练,232K样本用于指令微调,以及45K和4K样本分别用于内部和外部评估。

数据集中包含了105K张表格图像,这些图像覆盖了广泛结构(例如,具有平坦结构的简单表格以及具有合并单元格和分层标题的复杂表格)。数据集中的表格图像不仅结构多样,还具有不同的风格(网页、Excel、Markdown表格)和来自不同领域的数据(如维基百科和财务报告)。
在这里插入图片描述

3、benchmark的计算方式

在这里插入图片描述

4、进行对应的微调路线

论文中开发了一个通用的表格MLLM Table-LLaVA,使用MMTab-instruct数据集,该数据集包含了多种与表格相关的任务,例如问题回答(TQA)、事实验证(TFV)、文本生成(T2T)等,模型基于之前提出的LLaVA-1.5模型。
在这里插入图片描述

总结

多模态表格处理是一种集成了视觉、文本和结构化数据等多种信息源的技术,旨在更全面地理解和解析表格内容。随着深度学习、大型语言模型等技术的不断进步,多模态表格理解的性能将得到显著提升。

1、多模态表格处理需要强大的视觉识别能力,以识别和解析表格的视觉布局,包括行列、单元格合并等。涉及到图像处理和模式识别技术,如使用深度学习模型来检测表格边界和单元格结构。
2、文本理解是多模态处理的另一关键方面。表格中的文本信息需要通过自然语言处理技术来提取和理解,包括实体识别、关系抽取和语义分析等,以捕捉表格中的数据和它们之间的联系。
3、结构化数据的整合对于多模态表格处理同样重要。将视觉识别的表格结构与文本内容相结合,转化为结构化的数据库格式,可以进一步促进数据的分析和应用。
4、多模态表格处理还应考虑到数据的多样性和复杂性。不同的表格可能来自不同的来源,具有不同的格式和风格。因此,处理系统需要具备高度的灵活性和适应性,以应对各种不同的输入。

此外,随着数据集的不断丰富和完善,模型的泛化能力和适应性也将得到加强。多模态表格处理的未来发展方向可能包括更深层次的语义理解、更智能的数据融合策略,以及更广泛的应用场景,如自动化报告生成、智能数据分析等。

参考资料:

文档表格结构识别技术与数据总结:兼看多模态表格理解基准设计及数据构建思路
《A Study on Reproducibility and Replicability of Table Structure Recognition Methods》
《Deep Learning for Table Detection and Structure Recognition: A Survey》
《TableVLM: Multi-modal Pre-training for Table Structure Recognition》
《Improving Table Structure Recognition with Visual-Alignment Sequential Coordinate Modeling》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/29001.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JupyterLab使用指南(二):JupyterLab基础

第2章 JupyterLab基础 2.1 JupyterLab界面介绍 JupyterLab的用户界面非常直观和灵活。它包括文件浏览器、工作区、多标签页、命令面板和侧边栏等功能。以下是各个部分的详细介绍: 2.1.1 文件浏览器 文件浏览器位于界面左侧,用于导航和管理文件。你可…

计算机网络:网络层 - 虚拟专用网 VPN 网络地址转换 NAT

计算机网络:网络层 - 虚拟专用网 VPN & 网络地址转换 NAT 专用地址与全球地址虚拟专用网 VPN隧道技术 网络地址转换 NAT网络地址与端口号转换 NAPT 专用地址与全球地址 考虑到 IP 地址的紧缺,以及某些主机只需要和本机构内部的其他主机进行通信&…

cbsd创建ubuntu jail 时下载系统慢的问题解决

下载时速度慢 使用cbsd创建ubuntu jail的时候 cbsd jconstruct-tui 提示: no base dir in: /usr/jails/basejail/base_amd64_amd64_jammy Select base sources:0 .. CANCELa .. build b .. extract c .. pkg d .. repo 选了pkg没找到 fetch: https://pkg.convec…

【减法网络】Minusformer:通过逐步学习残差来改进时间序列预测

摘要 本文发现泛在时间序列(TS)预测模型容易出现严重的过拟合。为了解决这个问题,我们采用了一种去冗余的方法来逐步恢复TS的真实值。具体来说,我们引入了一种双流和减法机制,这是一种深度Boosting集成学习方法。通过将信息聚合机制从加法转…

【第16章】Vue实战篇之跨域解决

文章目录 前言一、浏览器跨域二、配置代理1.公共请求2.代理配置 总结 前言 前后端项目分离衍生出浏览器跨域问题,开发之前我们通过配置代理解决这个问题。 一、浏览器跨域 浏览器的跨域问题主要是由于浏览器的同源策略导致的。同源策略是浏览器的一个安全功能&…

OpenGL3.3_C++_Windows(11)

git submodule项目子模块 Git Submodule (子模块的代码并不直接存储在父仓库中,而是通过一个指针来维护)克隆含有子模块的仓库时,使用git管理Git Clone (复制一份完整的Git仓库到本地)若仓库包含子模块&am…

【设计模式-12】代理模式的代码实现及使用场景

 代理模式是一种应用很广发的结构性设计模式,它的设计初衷就是通过引入新的代理对象,在客户端和目标对象之间起到中介的作用,从而实现控制客户端对目标对象的访问,比如增强或者阉割某些能力。 1. 概述 代理模…

《优化接口设计的思路》系列:第1篇—什么是接口缓存

一、缓存的定义: 缓存是一种存储数据的技术,用于提高数据访问的速度和效率。缓存通常存储在内存中,因为内存访问速度远快于磁盘和网络。数据接口通常会使用缓存技术,以降低对后端数据存储和处理的压力,提高系统性能。…

⭐ ▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch3 贝尔曼最优公式 【压缩映射定理】

PPT 截取必要信息。 课程网站做习题。总体 MOOC 过一遍 1、视频 学堂在线 习题 2、过 电子书,补充 【下载:本章 PDF 电子书 GitHub 界面链接】 [又看了一遍视频] 3、总体 MOOC 过一遍 习题 学堂在线 课程页面链接 中国大学MOOC 课程页面链接 B 站 视频链…

c++qt合并两张灰度图像

需求:将两张尺寸相同的灰度图像进行合并,合并后的图像,每个像素点灰度值为两张原图对应像素点灰度值之和。若超过255,则最大为255。 方法一: 将图像读取为cv::Mat,再调用opencv的cv::add方法,进…

【ai】初识pytorch

初识PyTorch 大神的例子运行: 【ai】openai-quickstart 配置pycharm工程 简单例子初识一下Pytorch 好像直接点击下载比较慢? 大神的代码 在这个例子中,首先定义一个线性模型,该模型有一个输入特征和一个输出特征。然后定义一个损失函数和一个优化器,接着生成一些简单的线性…

Golang内存模型与分配机制

简述 mheap为堆,堆和进程是一对一的;mcentral(小mheadp),mcahe(GMP的P私有),分配内存顺序由后向前。 在解决这个问题,Golang 在堆 mheap 之上,依次细化粒度&a…

前端构建工具用得好,构建速度提升 10 倍

今天来盘点一下前端构建工具。 Turbopack Turbopack,由Vercel开源,是下一代高性能的JavaScript应用构建工具,目前用于 Next.js 中。Turbopack旨在通过革新JavaScript应用的打包流程来显著提升应用性能,它专注于缩短加载时间&…

Python工具箱系列(五十三)

​​水印 水印是一种常见的图片处理需求。当既需要展示,又需要保护知识产权时,就需要使用文字或者图片来打水印。下面的代码展示了文字水印与图片水印的过程。 ​--javascripttypescriptbashsqljsonhtmlcssccppjavarubypythongorustmarkdown from pat…

游戏找不到steam_api64.dll无法继续执行代码的解决方法

在电脑使用过程中,我们可能会遇到一些错误提示,其中之一就是“steam_api64.dll丢失”。那么,steam_api64.dll到底是干嘛的?为什么会丢失?对电脑有什么具体影响?如何解决这个问题?本文将为您详细…

Python基础教程(九):Lambda 函数

💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 💝&#x1f49…

vivado NODE、PACKAGE_PIN

节点是Xilinx部件上用于路由连接或网络的设备对象。它是一个 WIRE集合,跨越多个瓦片,物理和电气 连接在一起。节点可以连接到单个SITE_, 而是简单地将NETs携带进、携带出或携带穿过站点。节点可以连接到 任何数量的PIP,并且也可以…

基于QT5.12.7的VTK8.2下的VS2015 X64源码编译以及测试

有一段时间没更新博客了,最近在考虑使用VTK作为软件的后处理显示,相比于OSG,VTK在后处理上集成了很多优秀的算法,使用起来比较方便,而且后处理一般不需要太多的交互,所以VTK是一个不错的选择。 之前对VTK了…

【多视图感知】BEVFormer: Learning Bird’s-Eye-View Representation

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers 论文链接:http://arxiv.org/abs/2203.17270 代码链接:https://github.com/fundamentalvision/BEVFormer 一、摘要 本文提出了一种名为BEVFormer的新框架&am…

智慧班牌系统源码,智慧校园云平台系统,基于小程序原生开发的智慧校园小程序源码

智慧班牌系统,也被称为电子班牌系统,是一款专为学校打造的信息化产品,用于加强学校班级文化建设和班级风采展示。该系统通过整合学校对外宣传、日常互动交流、教师教学办公、课外学习延伸、智能硬件接入等各种服务,为老师、家长、…