智能文档处理:解析文档场景下多模态大模型的应用与研究前沿

在这里插入图片描述

解析文档场景下多模态大模型的应用与研究前沿

  • 一、TextIn 文档解析技术
    • 1. 现有大模型文档解析问题
    • 2. 文档解析技术背景
    • 3. TextIn 文档解析技术架构
    • 4. 版面分析关键技术 Layout-engine
  • 二、TextIn 文本向量化技术
  • 三、TextIn.com Text Intelligence

一、TextIn 文档解析技术

在这里插入图片描述

  hello,大家好我是恒川,今天我来给大家安利一个非常好用的网站TextIn,它的第一个核心技术是这个文档解析,现存的文档解析存在一些问题,比如表格、无线表无法解析以及阅读顺序的解析错乱的问题,包括扫描版文档以及文档编码的问题等。下面我给大家举几个例子。

1. 现有大模型文档解析问题

在这里插入图片描述
  我们将ChatGPT里面输入了一个PDF,这个PDF显示精氨酸在40度的温度下,它的溶解度是31.9,但ChatGPT并没有将这个PDF进行准确的解析,所以他的回答是错误的。

  我们再举一个例子。
在这里插入图片描述
  在这个文档的致谢的过程中,我们来问他文中的致谢提到了哪四类感谢对象,实际上他的感谢对象也是错误的,那这个的原因都是在于本身这个文档的解析,阅读顺序错误导致的一些问题,那像这样的一个编码问题依然是存在这个大模型的,无论是训练还是应用的过程之中。

2. 文档解析技术背景

在这里插入图片描述
  在我们的日常生活中,那我们有什么样的一个诉求呢?在探索多模态大模型在不同应用领域的应用中,如文档智能分析、智能搜索、阅读顺序还原准确、支持论文和多种排版文档等。
  接下来我要通过具体案例来展示这些模型在实际应用中的效果和潜力。PDF word在扫描文件时,我们希望在训练和应用的部分可以将这个整体的一个阅读顺序进行还原,包括他的表格、段落、公式和标题相关的一些元素识别准确。以及识别的速度和多样的排版的支持,那我们来看一下在多模态大模型的预训练中,我们需要处理哪些文档?

文档示例
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  比如这个书籍,或像论文以及产品说明书。

文档解析Pipeline
在这里插入图片描述
  这是一整套的文档解析。分为三个部分,那第一个部分呢,就是将一个多页的文档进行了拆分,并且将其中的电子文档扫描到经过不同的解析引擎,最终形成的一个文档基础的一个特征。第二部分,要将基础文档表中的表格、眉页、目录、文字、图形等等,来做文档的一个绑定分析。以及跨越合并和它几点关系之间的处理,最终的目的是将一个多元异构的不同格式的文档输出成一个有顺序的文档(称之为大模型),那最后一部分就是文档的重建会输出成一个markdown,那简单来说就是他们将一个多种格式,多种版面的PDF最终输出成了一个大模型,能够理解为一个顺序的markdown形式。

  接下来给大家举些例子,就是它的技术难点在哪里?
在这里插入图片描述
  第一个部分是可以看到有元素的印章的遮盖和遮盖文字本身的一个呈现(如上图),那包括页面也有不同的形式以及双栏,三栏和跨页相关的内容。

在这里插入图片描述

  还有一些文档,它的阅读顺序是需要一个准确的排序的,比如像左边(如上图)的这张图,它的顺序先是上面的全栏,在三栏下的每一个是上下的顺序的阅读。那我们来看右边多栏和插入表格的影响,它的顺序是要先将上半部分的双栏进行一和二的阅读,再进行三和四无线表的阅读,最终五和六的双栏。

在这里插入图片描述

  在表格的部分,其实在有线表已经解决不错的情况下,在无线表格的一个解决,包括无线表中我们的三线表合并单元格的一个情况,那这个部分在论文或在报告中都是经常会出现的。
在这里插入图片描述

  也包括在公式的整体识别和表格内的这个公式的一个识别。

3. TextIn 文档解析技术架构

  那整体我们的技术架构是怎么样的?

在这里插入图片描述
  为了解决这些问题,将一个基于数据和基于测评的一个基建,在上方的算法层,是将一个文档的多页拆成单页。同时,将其中的每一个独立的元素进行文档解析,检测以及图像文字的识别。完成了元素的基础表中识别之后,会进行整个文档的一个解析,它包含这个文档类型的判断,包括表当中的一个整合以及整个的版面相关的一个还原,最终还原成了一个完整的阅读顺序。

4. 版面分析关键技术 Layout-engine

  其中的关键技术,我在这里展示两个部分,第一部分是将一个电子档和扫描档经过不同的物理和逻辑版面的分析,最终拿到所有的这个元素,比如有段落、有公式、有图像以及有相关的页眉、页脚、目录,然后再整合成一个可以被大模型顺利阅读的顺序,这一块内容(如下图)右边就是一个典型的一个输出,里面每个内容都有它的类型。

在这里插入图片描述

  那第二部分呢,其实是大家现在大模型训练中一个重要的部分,它是一个目录树的梳理,因为目录树是一个文档中它结构化的第一层,也是最重要的一层,他们设计了一个文档处理引擎来准确的区分它的子标题、子段落以及主标题和表格的标题。
的方向

  那我们可以看见这样技术的一个展示(如下图),像这样的一个双栏,它是可以比较准确从左边到右边的一个顺序输出。

在这里插入图片描述

  我们将这样的一个横栏,再加两双栏进行了一个准确的输出(如下图)。
在这里插入图片描述

  那第三部分我们可以看非对称的双栏,大概左边占三分之二,右边是占三分之一,而且有图有表,也是进行了一套左边的三分之二的顺序输出,然后进行右边的一个输出,可以看到表格是在这个下方的区域(如下图)。

在这里插入图片描述

  双栏和表格也是比较顺畅的进行了一个准确的输出(如下图)。

在这里插入图片描述
  也包括无线表格(如下图)以及单元格的合并(如下图)。

在这里插入图片描述
在这里插入图片描述

  最终的输出形式是在markdown形式之下,所以整个的大模型也是可以来进行一个训练和应用。

  那我们可以看到层级目录已经进行了准确的一个识别(如下图)。

在这里插入图片描述

在这里插入图片描述
  从这里我们可以看到(如上图),我在开头举的几个例子,ChatGPT-4在直接解析PDF回答的过程中是回答失败的。但我们将这个PDF转化成markdown的一个内容,并且以TextIn上传到这个ChatGPT-4后,它便回答的非常清楚,就31.9的这个溶解度。
  那第二个问题也准确将整个致谢做了一个回答(如下图)。
在这里插入图片描述

  第三部分就是将整个编码错误的PDF也进行了准确的识别和输出。
在这里插入图片描述

二、TextIn 文本向量化技术

在这里插入图片描述

  这是TextIn的第二个核心技术,它主要是文本向量化的工作,也是我们在文本应用的部分,这个地方他们做了一个TextIn acge_text_embedding的一个模型(如下图),这块就不详细讲了,如果大家感兴趣,可以在huggingface去看,里面有技术的介绍,以及如何直接引用这个库。

在这里插入图片描述

三、TextIn.com Text Intelligence

在这里插入图片描述

  合合信息目前也做了一个站点,TextIn是一个缩写,就是这个部分,欢迎访问 TextIn.com,加速多模态大模型研究与应用。
  大家也可以去免费的体验,如果大家有更多更高量的一个需求。我们可以扫下边的这个二维码,可以给到大家更多的这个版面分析相关的一个讨论,TextIn希望在大模型的训练应用的过程中,能够帮助到大家,将更高信息量、更高质量的一些文档相关信息可以用在我们的这个大模型的训练和应用之中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/12750.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【driver6】debugfs,性能优化,

文章目录 1.内核调试手段:debugfs.h中api建立目录/sys/kernel/debug2.性能优化:裸磁盘无法使用,一般都刷文件系统。驱动加上要考虑磁盘io,内存占用,cpu使用情况3.Valgrind内存泄漏排查案例:4.cpu瓶颈&#…

英语学习笔记10——Look at ...

Look at … 看…… 词汇 Vocabulary fat adj. 胖的,丰富的 n. 脂肪 例句:他是个胖男孩。    He is a fat boy. 搭配:fat cat 有钱人,土豪 woman n. 女人 girl n. 女孩 madam n. 女士 man n. 男人 boy n. 男孩 sir n. 先生 …

云飞云共享云桌面如何降低电脑投入成本?

云飞云共享云桌面作为一种创新的云计算解决方案,以其独特的优势在业界赢得了众多认可。其中,它极大地降低了电脑投入成本,为企业和个人用户带来了实实在在的经济效益。那么,云飞云共享云桌面是如何实现这一点的呢? 设…

Python 机器学习 基础 之 监督学习/分类问题/回归任务/泛化、过拟合和欠拟合 基础概念说明

Python 机器学习 基础 之 监督学习/分类问题/回归任务/泛化、过拟合和欠拟合 基础概念说明 目录 Python 机器学习 基础 之 监督学习/分类问题/回归任务/泛化、过拟合和欠拟合 基础概念说明 一、简单介绍 二、监督学习 三、分类问题 四、回归任务 五、泛化、过拟合和欠拟合…

全面提升数据采集效率:IP代理产品的应用与评估详解

全面提升数据采集效率:IP代理产品的应用与评估详解 文章目录 全面提升数据采集效率:IP代理产品的应用与评估详解背景应用场景:平台首页信息抓取准备评测素材详细的产品使用和评测流程产品介绍亮数据的IP代理服务亮数据的爬虫工具及采集技术 注…

2024网上可申请离婚,无需对方同意!

🎃很多客户决定离婚之后却因为不了解离婚流程没准备好所需材料,导致离婚失败,或者无故被对方e意拖延,无计可施,无可奈何! 🎃别怕,2024年离婚新规定已发布,离婚变的简单了…

OpenAI新模型GPT-4o“炸裂登场” 响应速度堪比真人 关键还免费!

GPT-4o模型基于来自互联网的大量数据进行训练,更擅长处理文本和音频,并且支持50种语言。更值得一提的是,GPT-4o最快可以在232毫秒的时间内响应音频输入,几乎达到了人类的响应水平。 GPT-4o有多“炸裂”?核心能力有三 G…

点量云流3D应用线上展厅云推流方案分享

展厅是企业对外展示宣传的窗口,不论企业还是政fu单位、博物馆、科技馆,展厅都可以给用户一个更直观的感受。而随着技术的发展,展厅展示的内容也从最初的图文、视频,扩展更多文件类型,比如PPT\PDF文件以及3D应用数字孪生…

【文末附gpt升级方案】腾讯混元文生图大模型开源:中文原生Sora同款DiT架构引领新潮流

在人工智能与计算机视觉技术迅猛发展的今天,腾讯再次引领行业潮流,宣布其旗下的混元文生图大模型全面升级并对外开源。这次开源的模型不仅具备强大的文生图能力,更采用了业内首个中文原生的Sora同款DiT架构,为中文世界的视觉生成领…

uniapp使用地图开发app, renderjs使用方法及注意事项

上次提到uniapp开发地图app时得一些问题,最后提到使用renderjs实现app中使用任何地图(下面将以腾讯地图为例,uniapp中写app时推荐使用得是高德地图,无法使用腾讯地图(renderjs方式除外))。 1、…

泰盈科技IPO终止:客户集中度高,业绩未达目标,高管薪酬较高

近日,上海证券交易所披露的信息显示,泰盈科技集团股份有限公司(下称“泰盈科技”)及其保荐人中金公司撤回上市申请文件。因此,上海证券交易所决定终止对该公司首次公开发行股票并在主板上市的审核。 据贝多财经了解&am…

企智汇项目管理软件有哪些优势?

一款非常好用、高效的软件——企智汇软件有哪些优势呢? 首先,我们来看看它的界面设计。企智汇软件界面简洁直观,用户可以轻松地使用各种功能,不需要学习复杂的操作流程。而且,软件还提供了多种配色方案和主题&#xf…

嵌入式学习72-复习(字符设备驱动框架)

编辑 drivers/char/Kconfig 为了在make menuconfig是能够显示出我们写的驱动程序 make menuconfig 编辑 drivers/char/Makefile 才是真正把编写好的源文件加入到编译中去 make modules cp drivers/char/first_driver.ko ~/nfs/rootfs/

什么是ARP攻击,怎么做好主机安全,受到ARP攻击有哪些解决方案

在数字化日益深入的今天,网络安全问题愈发凸显其重要性。其中,ARP攻击作为一种常见的网络攻击方式之一,往往给企业和个人用户带来不小的困扰。ARP协议是TCP/IP协议族中的一个重要协议,负责把网络层(IP层)的IP地址解析为数据链路层…

Spring Boot集成activiti快速入门Demo

1.什么事activiti? Activiti是一个工作流引擎,可以将业务系统中复杂的业务流程抽取出来,使用专门的建模语言BPMN2.0进行定义,业务流程按照预先定义的流程进行执行,实现了系统的流程流activiti进行管理,减少业务系统由于流程变更进行系统升级改造的工作量,从而提高系…

做抖店的门槛高吗?一个月的时间能入门吗?基础问题解答如下

我是王路飞。 抖店,依旧是普通人做抖音最好的渠道,没有之一,依旧值得我们all in。 这是我对2024年抖音小店的看法和态度, 那么做抖店的门槛高吗?新手用一个月的时间能做到入门吗?投入和回报的数据是多少…

OpenAI 推出革命性新模型 GPT-4o:全能AI的新纪元

GPT-4o 模型的推出预示着人工智能领域的又一次飞跃,它将如何改变我们的世界? 在人工智能的快速发展浪潮中,OpenAI 再次站在了技术革新的前沿。2024年5月14日,OpenAI 宣布了其最新旗舰模型 GPT-4o,这不仅是一个简单的版…

【C++小语法技巧】命名空间和输入输出

在使用C语言编程过程中,C语言的要求之严格,编程过程之繁琐,大同小异的重复性工作,令C之父使用C语言编程时也深受其扰,于是乎C兼容C小语法诞生了 一、命名空间域(解决C语言中命名冲突) 1.定义命…

C语言之旅:文件操作

目录 一什么是文件 1.1程序文件: 1.2数据文件: 1.3文件名 二.文件的打开与关闭 2.1流和标准流 2.2 文件指针 2.3文件的打开与关闭 三.文件的顺序读写 3.1顺序读写函数介绍 fgetc fputc fgets fputs 四.文件的随机读写 4.1 fseek 4.2 ftell…

【案例教程】土地利用/土地覆盖遥感解译与基于CLUE模型未来变化情景预测

查看原文>>>土地利用/土地覆盖遥感解译与基于CLUE模型未来变化情景预测 土地利用/土地覆盖数据是生态、环境和气象等领域众多模型的重要输入参数之一。基于遥感影像解译,可获取历史或当前任何一个区域的土地利用/土地覆盖数据,用于评估区域的生…