CCIG 2024:大模型技术及其前沿应用论坛深度解析

一、CCIG论坛介绍

中国图象图形大会(CCIG 2024)是一场备受瞩目的学术盛会,近期在陕西省西安市曲江国际会议中心举行。这次会议以“图聚智生,象合慧成”为主题,由中国图象图形学学会主办,旨在汇聚图像图形领域的专家学者和产业界同仁,共同探讨和展示最新的研究成果和未来发展趋势。

大会不仅邀请了众多知名学者和企业专家,还设置了25场学术论坛、7场特色论坛和2场企业论坛。

二、大模型技术及其前沿应用论坛

在众多论坛中,“大模型技术及其前沿应用论坛”尤为引人注目。

该论坛由CSIG文档图像分析与识别专业委员会组织,聚焦于大模型技术的最新进展及其在不同领域的前沿应用。

论坛邀请了学术界和产业界的领军人物,共同探讨大模型技术如何推动计算机视觉、自然语言处理、基础科学研究及行业应用的跨界融合与技术发展。

其中,合合信息智能创新事业部研发总监常扬发表了主题演讲,介绍了合合信息在智能文档处理及大数据领域的最新进展和应用,另外,常扬详细介绍了合合信息的TextIn文档解析技术,包括其在大模型训练和应用中的关键作用。

他指出,随着大模型的不断发展,文档解析技术需要不断提升,以满足大规模数据处理和高质量数据获取的需求。同时,他还展示了合合信息在文档解析技术上的最新研究成果和应用案例。

2.1 智能文档解析技术及其在大模型训练与应用中的作用

在人工智能和大数据时代,文档解析技术的重要性日益凸显。特别是对于大模型(如GPT-4和LLAMA2)的训练和应用,准确高效的文档解析至关重要。

合合信息的TextIn智能文档解析技术通过先进的图像处理和自然语言处理算法,显著提升了文档解析的精度和效率,为大模型的训练和应用提供了强有力的支持。

2.2 文档解析技术的背景和挑战

大模型训练面临的挑战

在大模型训练过程中,高质量的训练数据是至关重要的。然而,随着模型规模的不断扩大,训练所需的Token数也急剧增加。

例如,LLAMA2需要2万亿Token,而GPT-4更是高达13万亿Token。面对如此巨大的数据需求,高质量预训练数据的获取成为一个瓶颈。

文档解析的需求

为了满足大模型的训练需求,必须高效获取更多高质量的文档数据,这就要求文档解析技术不仅能够准确识别文档中的各种元素(如表格、段落、公式、标题等),还要能够处理复杂的版面布局(如双栏、三栏、文表混合等)。

此外,对于大模型应用场景,文档解析还需保证快速准确的转换速度,以还原文档的阅读顺序,避免混乱语序。

2.3文档解析解决方案

在应对文档解析过程中遇到的多重技术挑战,包括元素间的遮盖重叠、复杂版式(如双栏、跨页、三栏等)的高效处理,以及无线表格和合并单元格的精准识别等难题时,合合信息公司推出了TextIn文档解析技术。该技术对多文档元素的精准识别、版面布局的深入分析以及高性能算法的运用,成功攻克了上述技术难点。

三、TextIn智能文档解析技术

TextIn文档解析技术的核心在于其能够处理各种格式和版式的文档,包括书籍、教材、论文和企业文档等。

这项技术通过以下几个关键步骤实现高效的文档处理:

3.1核心技术和算法

TextIn文档解析技术采用了一系列先进的算法框架,包括图像预处理、版面分析和文档解析等。

图像预处理算法介绍

图像预处理是图像处理过程中至关重要的一步,其目的是对原始图像进行必要的处理,以使其更适合后续的分析和处理。在文档解析中,图像预处理算法主要用于增强文档图像的质量,以提高后续的OCR识别准确率。

常用的图像预处理算法包括:

  • 图像去噪
  • 图像增强
  • 图像矫正
  • 图像分割

另外,在文档解析中,图像增强算法包括:

  • 锐化:用于增强图像的边缘和细节,以使其更易于识别。常用的锐化算法包括拉普拉斯算子、Sobel算子等。
  • 区域提取:用于提取文档图像中的感兴趣区域,如文本区域、表格区域等。常用的区域提取算法包括阈值分割、边缘检测等。
  • 干扰去除:用于去除文档图像中的干扰信息,如手指、印章、阴影等。常用的干扰去除算法包括形态学滤波、区域滤波等。

图像增强:

通过增强锐化、区域提取和干扰去除(如手指去除、形变矫正、阴影去除、摩尔纹去除等)来提升文档图像的质量。

其算法框架如图所示

形变矫正:
  • 用于矫正图像的几何畸变,如倾斜、拉伸等。常用的图像矫正算法包括仿射变换、透视变换等。
  • 使用DocUNet形变矫正网络和边缘填充结果,实现文档图像的形变矫正和图像恢复。

干扰去除是用的U2net卷积背景提取+干扰去除模块去除摩尔纹等,最终达到去除干扰的效果

算法效果:

版面分析算法介绍

版面分析是文档解析的关键步骤之一,其目的是识别文档中的不同元素,如文本块、表格、图片、印章等,并分析这些元素之间的关系。版面分析算法主要包括以下三个方面:

  • 物理版面分析
  • 文档布局分析
  • 逻辑版面分析
物理版面分析:

物理版面分析侧重于文档图像的视觉特征,主要任务是将相关性高的文字聚合到一个区域,如段落或表格。常用的物理版面分析算法包括:

  • 基于连通性分析的算法:该类算法通过分析文本区域之间的连通性来识别文本块。例如,可以使用标记连接算法、区域生长算法等来识别文本块。
  • 基于空间关系分析的算法:该类算法通过分析文本区域之间的空间关系来识别文本块。例如,可以使用基于欧几里得距离的算法、基于方向关系的算法等来识别文本块。
  • 基于字体特征分析的算法:该类算法通过分析文本区域的字体特征来识别文本块。例如,可以使用基于字体大小的算法、基于字体样式的算法等来识别文本块。

主要任务是将相关性高的文字聚合到一个区域,如段落或表格。

文档布局分析:

文档布局分析是物理版面分析的进一步扩展,其目的是识别文档的整体布局结构,包括文本块、表格、图片、印章等元素的排列方式。

具体采用的是目标检测任务建模,使用基于回归的单阶段检测模型,识别文档中的各种布局方式。

下面详细介绍一下:

1. 目标检测任务建模

目标检测任务建模是将文档布局分析转换为目标检测任务的过程。在文档布局分析中,目标可以是文本块、表格、图片、印章等文档元素。目标检测任务的目标是识别文档图像中的所有目标,并确定每个目标的位置和类别。

常用的目标检测任务建模方法包括:

  • 基于区域建议的双阶段检测模型:该类模型首先生成候选区域,然后对候选区域进行分类和回归。代表性的模型包括R-CNN、Fast R-CNN、Faster R-CNN等。
  • 基于回归的单阶段检测模型:该类模型直接在图像上预测目标的位置和类别。代表性的模型包括YOLO系列、SSD系列、RetinaNet等。
  • 在文档布局分析中,由于文档图像中的目标通常具有规则的形状和大小,因此基于回归的单阶段检测模型通常能够获得更高的效率和精度。

基于回归的单阶段检测模型

  • 基于回归的单阶段检测模型通常由以下几个部分组成:
  • 特征提取器:用于提取图像的特征。常用的特征提取器包括卷积神经网络(CNN)、池化层等。
  • 预测器:用于预测目标的位置和类别。常用的预测器包括全连接层、回归层等。
  • 损失函数:用于衡量模型的预测结果与真实结果之间的差距。常用的损失函数包括IOU损失、Smooth L1损失等。

在文档布局分析中,常用的基于回归的单阶段检测模型包括:

  • YOLO:YOLO(You Only Look Once)是一种实时的目标检测模型,其特点是速度快、精度高。YOLOv5是YOLO系列的最新版本,其性能得到了进一步提升。
  • SSD:SSD(Single Shot MultiBox Detector)是一种基于VGG16网络的单阶段检测模型,其特点是易于实现、精度高。
  • RetinaNet:RetinaNet是一种基于特征金字塔的单阶段检测模型,其特点是精度高、鲁棒性强。

3. 识别文档中的各种布局方式

有效地识别文档中的各种布局方式,包括

  • 单栏文本:文档中的文本从左到右排列,没有明显的段落划分。
  • 多栏文本:文档中的文本分为多个栏,每栏文本从上到下排列。
  • 表格:文档中的表格由行和列组成,每个单元格包含一个或多个文本。
  • 图片:文档中插入的图片。
  • 印章:文档中盖印的印章。

通过识别文档中的各种布局方式,可以为后续的文档理解和处理奠定基础。

以下是一些采用目标检测任务建模,使用基于回归的单阶段检测模型,识别文档中的各种布局方式的应用案例:

  • 文档自动整理:可以根据文档的布局方式,自动将文档中的文本、表格、图片等元素进行整理。
  • 文档信息抽取:可以根据文档的布局方式,自动抽取文档中的关键信息,如姓名、日期、金额等。
  • 文档问答:可以根据文档的布局方式,自动理解文档的内容,并回答用户的提问。

可以说,采用目标检测任务建模,使用基于回归的单阶段检测模型,是一种高效、准确的文档布局分析方法,下面是一个实例说明。

逻辑版面分析:

逻辑版面分析侧重于文档的语义信息,主要任务是理解文档的结构和内容。常用的逻辑版面分析算法包括:

  • 基于规则的算法:该类算法通过定义预先设定的规则来识别文档的结构和内容。例如,可以使用基于文本格式的规则、基于文本内容的规则等来识别文档的结构和内容。
  • 基于机器学习的算法:该类算法利用机器学习技术来训练模型,以识别文档的结构和内容。例可以使用支持向量机、条件随机场等机器学习算法来识别文档的结构和内容。

它主要侧重于语义特征,主要任务是根据语义将不同文字块建模,通过语义层次关系形成树状结构。

3.2 文档解析结果

解析示例-解析pdf

可以看到,针对PDF的解析结果,这个解析结果是很不错的。

解析示例-复杂表格解析

解析复杂表格,也是没问题的。

3.3成果与影响

TextIn文档解析技术的应用已经在行业里产生了重要影响。其母公司合合信息的C端产品在App Store上的商务类和效率类免费应用下载量排行榜中位列第一

此外,Textin还提供了每周7000页的免费额度,以及公有云API,鼓励开发者和用户使用TextIn文档解析技术。

3.4应用场景

大模型训练

在大模型训练场景中,TextIn文档解析技术可高效获取更多高质量的训练语料,特别是对于上百页PDF文档的快速转换和正确还原阅读顺序,极大地提升了训练数据的质量和数量。

大模型应用

在大模型应用场景中,TextIn文档解析技术可确保文档元素识别的高精准度和高效率,为文档问答、知识库问答等应用提供强有力的支持。

通过准确解析文档中的各种元素和版面布局,提升了大模型在文档问答中的精度和效率。

四、结论

TextIn文档解析技术的成功不仅体现在其高效的文档处理能力上,更在于其对大模型训练与应用的深远影响。

随着技术的不断进步和应用的深入,TextIn文档解析技术有望在未来的人工智能领域发挥更大的作用,推动整个行业的发展。

合合信息的这一创新突破,无疑为大模型训练与应用提供了强有力的支持,为人工智能的未来开辟了新的可能性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/22398.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ABAP 长文本编辑器弹窗控件

前言 用户想在ALV上编辑长文本,但是ALV只有128个字符肯定是不够用的,所以需要用一个长文本编辑器来输入,本来想自己写的,发现有标准的函数,还挺好用的 代码 在用户双击ALV字段时,触发下述form&#xff0…

使用Rufus工具制作Ubuntu To Go——很详细

一、准备工作 准备工具: 1、下载Rufus(主角)软件 2、准备一个U盘或硬盘(小白128G足够,装Ubuntu系统) 3、下载Ubuntu系统镜像文件 1、下载软件Rufus 先来看一下官网介绍: Rufus 是一款格式化和创建 USB 启动盘的辅助工…

“GPT-4o深度解析:技术演进、能力评估与个人体验综述“

文章目录 每日一句正能量前言对比分析模型架构性能应用场景用户体验技术创新社区和生态系统总结 技术能力语言生成能力语言理解能力技术实现总结 个人感受关于GPT-4o的假设性观点:关于当前语言模型的一般性观点: 后记 每日一句正能量 又回到了原点&#…

“智能分析赋能等保:大数据技术在安全审计记录中的应用“

智能分析技术在信息安全领域,尤其是等保(等级保护)合规性方面,发挥了关键作用。特别是结合大数据技术,安全审计记录的处理和分析能力得到了显著增强。以下几点阐述了大数据技术是如何赋能等保安全审计的: …

【Python】 Python中的functools.wraps:装饰器的优雅包装

基本原理 在Python中,装饰器是一种非常强大的工具,它允许我们以一种非常灵活的方式修改或增强函数的行为。装饰器本质上是一个函数,它接收一个函数作为参数,并返回一个新的函数。然而,当我们使用装饰器时,…

【笔记】Sturctured Streaming笔记总结(Python版)

目录 相关资料 一、概述 1.1 基本概念 1.2 两种处理模型 (1)微批处理 (2)持续处理 1.3 Structured Streaming和Spark SQL、Spark Streaming关系 二、编写Structured Streaming程序的基本步骤 三、输入源 3.1 File源 &a…

Docker 基础使用 (1) 使用流程概览

文章目录 Docker 软件安装Docker 镜像仓库Docker 仓库指令Docker 镜像指令Docker 容器指令Docker 使用实例 —— 搭建 nginx 服务nginx 概念nginx 使用用 docker 启动 nginx Docker 基础使用(0)基础认识 Docker 基础使用 (1) 使用流程概览 Docker 基础使…

f-stack和DPDK

GPT-4 (OpenAI) f-stack和DPDK(数据平面开发套件)都是与高性能网络处理相关的技术。它们的目的是提高数据包的处理速度,优化网络I/O的性能。以下是对这两者的简要解释: 1. **DPDK (Data Plane Development Kit):** DPDK 是一个…

【软件安全国产化替代解决方案】亮相2024澳门万讯论坛

近日,2024万讯论坛在澳门成功举办。本次论坛由万讯电脑科技主办,旨在引进国内尖端科技厂商,提供全方位的信创解决方案,分享信创化过程中所面临的挑战及阶段性转换经验。开源网安作为拥有软件安全领域全链条产品的厂商,…

【网络安全的神秘世界】安装burpsuite

🌝博客主页:泥菩萨 💖专栏:Linux探索之旅 | 网络安全的神秘世界 | 专接本 java下载地址 burpsuite安装包 安装java 双击打开java安装包——>下一步 在java文件夹下创建jdk和jre文件夹(不一定是C盘,根…

云原生下的数据协调艺术:etcd存储系统解析

目录 一、分布式存储简介 二、etcd介绍 三、etcd架构 四、etcd集成实践 一、分布式存储简介 随着云原生与容器化技术的兴起,分布式系统的复杂性大大增加。分布式系统面临一系列问题,比如部署复杂、响应时间慢、运维复杂等,其中最根本的问…

【Redis数据库】命令操作

文章目录 一、连接命令二、键命令 🌈你好呀!我是 山顶风景独好 💕欢迎来到我的博客,很高兴能够在这里和您见面! 💕希望您在这里可以感受到一份轻松愉快的氛围! 💕这里不仅可以获得有…

Arduino_ESP32_控制舵机运行【2024年】版

介绍 吧下面代码复制进去就可以使用了。 当然肯定不只是esp32基本上所有的Arduino都可以使用 然后接线的话信号线接到18号io口 然后其他的接电源正负极 图示 代码教程 #include <Arduino.h>// 定义舵机控制引脚 const int servoPin 18;// 定义舵机角度对应的脉宽范围 …

算法金 | 再见,PCA 主成分分析!

​大侠幸会&#xff0c;在下全网同名[算法金] 0 基础转 AI 上岸&#xff0c;多个算法赛 Top [日更万日&#xff0c;让更多人享受智能乐趣] 1. 概念&#xff1a;数据降维的数学方法 定义 主成分分析&#xff08;PCA&#xff09;是一种统计方法&#xff0c;通过正交变换将一组可…

RTOS笔记--任务状态与调度

任务状态 freertos中的任务分为四个状态&#xff1a;就绪状态&#xff08;ready&#xff09;、运行状态&#xff08;running&#xff09;、阻塞状态&#xff08;blocked&#xff09;、暂停状态&#xff08;suspended&#xff09; 完整的任务状态转换图&#xff1a; 在使用vTas…

24V转3V的高效解决方案-AH8610.sot23-6

24V转3V的高效解决方案-AH8610.sot23-6 ### 引言 随着电子设备向小型化、高性能和高效率发展&#xff0c;对电源管理芯片的要求也越来越高。AH8610.sot23-6是一款专为小型化电源转换设计的同步降压开关芯片&#xff0c;它能够将24V的输入电压转换为3V输出&#xff0c;适用于US…

风管静压箱的作用及选型

1.压力的种类 动压—由风速而产生的压力&#xff1b;空调厂家设计时均已经考虑&#xff0c;无需计算。静压—垂直作用于风管壁面的压力&#xff0c;用于克服风管阻力&#xff1b;所以&#xff0c;对于风管机组有零静压和带静压之分&#xff0c;零静压指静压为0Pa&#xff0c;不…

数学建模笔记

数学建模 定义角度 数学模型是针对参照某种事物系统的特征或数量依存关系&#xff0c;采用数学语言&#xff0c;概括地或近似地表述出的一种数学结构&#xff0c;这种数学结构是借助于数学符号刻画出来的某种系统的纯关系结构。从广义理解&#xff0c;数学模型包括数学中的各…

数据库开发-Mysql03

目录 1. 多表查询 1.1 概述 1.1.1 数据准备 1.1.2 介绍 1.1.3 分类 1.2 内连接 1.3 外连接 1.4 子查询 1.4.1 介绍 1.4.2 标量子查询 1.4.3 列子查询 1.4.4 行子查询 1.4.5 表子查询 1.5 案例 2. 事务 2.1 介绍 2.2 操作 2.3 四大特性 3. 索引 3.1 介绍 3…

实验室类管理平台LIMS系统的ui设计实例

实验室类管理平台LIMS系统的ui设计实例