多模态产品在智能文档处理应用的展望------以TextIn模型为例

  • 前言
  • 发展现状
  • TextIn 文档解析技术
  • 文本向量化
  • 展望
  • 合合信息

前言

   第十四届视觉与学习青年学者研讨会(VALSE 2024)于5月5日-7日在山城重庆渝北区悦来国际会议中心举办。大会聚焦计算机视觉、模式识别、多媒体和机器学习等领域的国际前沿和热点方向。大会中,合合信息智能创新事业部研发总监常扬做了"文档解析与向量化技术加速多模态大模型训练与应用"专题汇报,主要讲解TextIn文档解析技术和高精度文本向量化模型的技术特征。下面为大家分享一下这次报告的主要内容。

发展现状

   目前已有的文档解析技术依然面临诸多挑战。例如表格(特别是无线表)无法解析或结果错乱的问题,无法按照阅读顺序解析的问题,或是无法解析扫描版或图片版文档,又或是文档的编码出错误。这一问题严重影响到了大语言模型的训练与输出。因此我们需要文档解析技术能够阅读顺序还原准确、元素识别准确,尤其是表格、段落、公式、标题、识别速度快、支持论文等多种排版文档。

   通常的做法是建立一个独立的文档解析Pipeline,判断文档类型并进行预处理。它主要分为三个部分:

  • 第一个部分将不同类型的文档解析为基础文档表征。

  • 第二个部分将基础文档表征进行处理,如版面分析、跨页合并、节点关系处理,将多元异构不同格式文档输出为可理解的顺序文档。

  • 最后一个部分,将结果输出为markdown。
    在这里插入图片描述

   建立文档解析Pipeline的难点在于版面检测。文档元素可能存在遮盖重叠,元素本身形式五花八门,同时文档的版式众多,特别是多栏文档,阅读顺序本就不一样,在插入表格后,情况会变得更为复杂。此外表格造成的困难也是巨大的,无线表格和合并表格使内容难以定位。另外公式的使用也会为识别工作带来挑战。

TextIn 文档解析技术

针对上述问题,合合信息发布了TextIn 相关模型。它采用了四层技术架构:底层是围绕数据相关的基建层;上方的算法层将文档拆分为单页的同时,对每个独立的元素进行解析检测和图像文字的识别;得到文档基础表征后,会进入到应用层,进行文档类型判断,表征整合以及版面的还原,最终还原为一个正常阅读顺序的文本,并通过接入层分发至其他应用。

在这里插入图片描述

   这其中包括两部分核心技术。第一部分是版面分析算法框架。它能够选取合适的流程,将电子档或扫描档解析为独立的元素,再整合成为遵循大模型可理解的阅读顺序的输出。

在这里插入图片描述

   第二部分是文档树引擎。通过目录树准确地识别主标题、子标题、子段落、表格标题。

在这里插入图片描述

   归功于这两样核心技术,TextIn在双栏、非对称双栏、含表格双栏、无线表格、合并表格层级目录文档的解析上都有出色表现。

在这里插入图片描述在这里插入图片描述
其他模型TextIn模型

文本向量化

   除了文本解析技术,TextIn在文本向量化领域也尤为突出。近日,TextIn acge_text_embedding 文本向量化模型在 C-MTEB榜单排名第一。同时TextIn模型在多个方面都展现出了明显的优势。相比于传统的预训练或微调垂直领域模型,TextIn模型不仅支持通用分类模型的构建,还能提升长文档信息抽取的精度。此外,该模型的应用成本相对较低,使得大模型能够在多个行业中快速创造价值,推动科技创新和产业升级。在文档问答或知识库问答应用领域都有较强的发展前景。

在这里插入图片描述

展望

   合合信息的研究成果为各行业提供了实用的解决方案。合合信息开发出了高效、准确的图像处理算法和工具,为各种应用场景提供了优化的解决方案。这些成果广泛应用于金融、制造业、医疗等领域,极大地提升了效率和精度,并为各行业的发展带来了实际效益。希望合合信息能够持续进行深入的研究探索和技术创新,不断取得更多突破,推动人工智能技术的应用和智能产业的发展。

合合信息

   上海合合信息科技股份有限公司致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案为全球企业和个人用户提供创新的数字化、智能化服务。它开发的深受全球用户喜爱的C端产品全球累计用户下载超23亿,累计月活约 1.3亿。其中名片全能王和扫描全能王免费版在App Store排行榜上名列前茅。本次合合信息提供了TextIn的专题网站和讨论交流群,感兴趣的小伙伴不要错过!

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/11322.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

限流算法(令牌桶漏桶计数器)

📝个人主页:五敷有你 🔥系列专栏:Spring⛺️稳中求进,晒太阳 业务重的三种情况:突发流量、恶意流量、业务本身需要 限流: 是为了保护自身系统和下游系统不被高并发流量冲垮,导致系统雪崩…

数据中心--AI时代的“炼油厂”

数据中心正在成为AI时代的“炼油厂”! 众所周知,AI的高歌猛进催生了对数据的海量处理需求。为了满足蓬勃的算力需求,全球开启了新一轮的数据中心建设热潮,数据中心业务正在以指数级的速度疯狂扩张。 此番情景,和第二…

Git系列:git grep 被忽视的操作细节

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

java面试题(常见集合)

算法复杂度分析 时间复杂度分析 时间复杂度分析:来评估代码的执行耗时的 大O表示法:不具体表示代码真正的执行时间,而是表示代码执行时间随数据规模增长的变化趋势 空间复杂度 空间复杂度的全称是渐进空间复杂度,表示算法占用…

webpack5以下的项目,前端引入node的path模块需要额外配置

webpack5以下的项目,前端import * as path from path时需要额外配置,这里以vue.config.js为例 刚开始引入时报错 其实就是在打包前端项目的时候,将path模块替换成 path-browserify 模块,所以还需要安装 path-browserfify 模块 …

【Linux】磁盘文件

思维导图 学习目标 了解磁盘的物理结构和存储结构,并将其存储结构进行抽象!! 一、了解一下磁盘及其物理结构 1.1 计算机只认识二进制 什么是二进制??0,1是被规定出来的,在计算机里面我们用高低…

Excel Module: Iteration #1 EasyExcel生成下拉列表模版时传入动态参数查询下拉数据

系列文章 EasyExcel生成带下拉列表或多级级联列表的Excel模版自定义校验导入数据(修订) 目录 系列文章前言仓库一、实现1.1 下拉元数据对象1.2 构建下拉元数据的映射关系1.3 框架方式1.3.1 框架实现1.3.2 框架用例模版类加载下拉业务导出接口 1.4 EasyExcel方式1.4.1 EasyExce…

灵活QinQ

拓扑图 配置 sysname AR1 # interface GigabitEthernet0/0/0.10dot1q termination vid 10ip address 12.1.1.1 255.255.255.0 arp broadcast enable # interface GigabitEthernet0/0/0.20dot1q termination vid 20ip address 21.1.1.1 255.255.255.0 arp broadcast enable # …

重学SpringBoot3-SPI机制

更多SpringBoot3内容请关注我的专栏:《SpringBoot3》 期待您的点赞👍收藏⭐评论✍ 重学SpringBoot3-SPI机制 什么是 SPI?Spring Boot 中的 SPI 机制spring.factories 文件自动配置的实现启动流程中的作用 SPI实际应用步骤 1: 新建模块步骤 2:…

(超详细讲解)实现将idea的java程序打包成exe (新版,可以在没有java的电脑下运行,即可以发给好朋友一起玩)

目录 实现打包到exe大概步骤 工具准备 1.将java程序文件打包成jar文件 2.准备好jre文件 3.使用exe4j软件打包好 4.最终打包 实现打包到exe大概步骤 1.打包需要满足的条件:将java文件转成jar文件的工具exe4j、 以及需要满足jdk1.8以上(因安装exe4…

Embedding技术学习

可能很多人并没有关注Embedding技术,但实际上它是GPT非常重要的基础,准备的说,它是GPT模型中理解语言/语义的基础。 【解释什么是Embedding】 对于客观世界,人类通过各种文化产品来表达,比如:语言&#x…

如何快速提取出一个文件里面全部指定类型的文件的全部路径

首先,需要用到的这个工具: 度娘网盘 提取码:qwu2 蓝奏云 提取码:2r1z 打开工具,切换到第五个模块,文件批量复制模块(快捷键:Ctrl5) 点击右边的“搜索添加”按钮&#…

unordered系列关联式容器底层哈希结构的介绍,哈希表的模拟实现(哈希冲突的解决方法采用闭散列线性探测)

目录 前言 unordered系列关联式容器之所以处理数据的效率比较高,是因为底层使用了哈希结构,哈希结构的优点是:不经过任何比较,一次直接从表中得到要搜索的元素,通过某种函数(hashFunc)使元素的存储位置与它的关键码之…

mapreduce | 自定义Partition分区(案例2)

1.需求 统计每个手机号消费总金额,按照消费金额降序排序,最终联通、电信、移动分别写入不同的文件。 130、131、132(联通) 133(电信) 135、136、137、138、139 (移动) 手机号,消费记…

全局变量在函数中的使用:Python 编程技巧解析

在Python编程中,全局变量是一种在程序的多个部分中共享数据的机制。全局变量在函数中使用时,需要特别注意其作用域和访问方式。本文将详细讲解如何在函数中使用全局变量,并提供示例代码,帮助初学者深入理解这一概念。 基本原理 …

AI作画涉及的深度学习算法

AI作画中使用的深度学习算法多种多样,这些算法主要基于神经网络的结构和训练方式,以生成和改进艺术作品。以下是一些在AI作画中常用的深度学习算法: 生成对抗网络(GANs, Generative Adversarial Networks)&#xff1a…

Linux —— 线程

Linux —— 线程 什么是线程Linux如何实现线程Winodws如何实现线程使用一下线程pthread_create函数原型参数说明返回值 如何解决 ps -aL 查看线程线程为什么轻量 我们今天进入线程的学习: 什么是线程 我们先来了解一个笼统的概念:简单来说,…

计算机发展史故事【12】

芯片计算机 众所周知,所谓286、386、486 个人电脑等名称的起源,在于它们采用了英特尔公司研制的微处理器X86 系列芯片286、386 和486。然而,这种以数字为电脑命名的奇特现象,却来源于霍夫博士等人发明的世界上第一个微处理器芯片…

动态路由-链路状态路由协议ospf案例

实验拓扑和要求如图 ospf实验 1.设置各个接口地址 2.测试ar5到ar6的连通性 3.配置ospf协议,routerid,area, 详细的网络信息,等待网络收敛后, 查看ospf信息,路由表信息,再次测试连通性 注意区域…

防火墙技术基础篇:网络地址转换(NAT):防火墙技术的核心机制

防火墙技术基础篇:网络地址转换(NAT):防火墙技术的核心机制 网络地址转换(NAT)是现代网络架构中不可或缺的一个组成部分,尤其在防火墙技术的实现中扮演着重要角色。本文旨在全面解读NAT的工作机…