目录
- 背景
- 当前大模型训练和应用面临的问题
- 训练Token耗尽
- 训练语料质量要求高
- LLM文档问答应用中文档解析不精准
- 合合信息的文档解析技术
- 1. 具备多文档元素识别能力
- 2. 具备版面分析能力
- 3. 高性能的文档解析
- 4. 高精准、高效率的文档解析
- 文档多板式部分示例
- 文档解析典型技术难点
- 元素重叠、本身多样性、复杂板式示例
- 单行、行内、表格内公式示例
- 合合信息提出的文档解析技术解决方案
- 文档图像预处理算法框架
- 图像文档弯曲矫正算法
- 图像文档干扰去除算法
- 版面分析算法框架
- 物理版面分析 - 文档布局分析
- 逻辑版面分析 - 语义结构分析
- 版面分析算法的发展
- Textln 文档解析效果
- 总结
背景
2024年5月24日-26日于西安召开中国图象图形大会(CCIG 2024),此次大会由中国图象图形学学会主办,空军军医大学、西安交通大学和西北工业大学承办,南京理工大学、陕西省图象图形学学会、陕西省生物医学工程学会协办,陕西省科学技术协会支持。包括于起峰院士、郑海荣院士、焦李成教授、王大轶研究员和虞晶怡教授在内的多位知名学者将作主旨报告,带来前沿的学术分享。大会期间将举办25场学术论坛、7场特色论坛和2场企业论坛,汇聚2000余名专家学者,构建开放创新、交叉融合的交流平台。
在此盛会上,合合信息的智能创新事业部研发总监常扬发表演讲。常扬老师分享了合合信息在文档解析技术方面的最新研究成果,探讨如何利用这些技术加速大模型的训练和应用。文档解析技术在大模型发展中扮演着至关重要的角色,尤其是在应对训练Token耗尽、语料质量要求高和解析不精准等挑战,高效获取高质量数据的方法,包括文档元素识别、版面正确解析和转化速度快等关键技术。本文将对常扬老师的演讲进行详细展开。
当前大模型训练和应用面临的问题
训练Token耗尽
大模型(如GPT-4、BERT等)在训练过程中需要处理大量的文本数据,这些数据被分解成更小的单位,称为Tokens。每个Token代表一个词、词的一部分或一个标点符号。随着模型变得越来越复杂,对数据的需求也随之增加,训练Token的耗尽成为一个主要问题。这意味着模型在训练过程中会消耗大量的Tokens,如果Tokens不足,模型的训练效果会受到限制。
训练语料质量要求高
高质量的训练语料是确保大模型性能的关键。低质量或噪声数据可能会导致模型学习到错误的信息,从而影响其性能。高质量语料需要具备准确性、丰富性和多样性,确保模型能够理解和生成高质量的语言。
LLM文档问答应用中文档解析不精准
在大模型的应用中,如文档问答(Document QA)系统,文档解析的精准度至关重要。文档解析不精准会导致模型无法正确理解文档内容,影响问答的准确性和用户体验。例如,当文档中的表格、公式、图表等复杂元素不能被正确解析时,模型可能会提供错误或不完整的答案。
合合信息的文档解析技术
合合信息在文档解析技术方面进行了深入的研究和开发,其核心研究方向包括多文档元素识别、版面分析和高性能的文档解析技术。这些技术不仅提高了文档解析的精度和效率,还为大模型的训练和应用提供了有力的支持。
1. 具备多文档元素识别能力
多文档元素识别能力是指系统能够识别并区分文档中不同类型的元素,如表格、段落、公式、标题等。每种元素在文档中都有其特定的结构和语义,准确识别这些元素是文档解析的基础。
技术实现:
- 深度学习模型:利用卷积神经网络(CNN)和循环神经网络(RNN)等深度学习模型,训练系统识别不同的文档元素。
- 特征提取:通过图像处理技术提取表格线条、段落边界、公式符号等特征,以提高识别的准确性。
- 标注数据集:构建大型标注数据集,包含多种文档元素的标注信息,用于模型训练和验证。
应用场景: - 文档自动化处理:在办公自动化、电子档案管理等场景中,实现自动化的文档分类和元素提取。
- 教育和科研:识别学术论文中的图表和公式,辅助科研数据的整理和分析。
2. 具备版面分析能力
版面分析能力是指系统能够正确解析文档的版式布局,识别文档中的栏、节、段等布局结构。复杂的文档版式,如双栏、三栏和文表混合布局,给解析带来极大挑战。
技术实现:
- 物理版面分析:使用基于回归的单阶段检测模型(如Faster R-CNN、YOLO)检测文档中的物理布局元素(如栏、节)。
- 逻辑版面分析:通过语义分析技术,理解文档的语义结构和层次关系,将不同的文字块组织成段落、列表等语义单元。
- 混合方法:结合物理和逻辑版面分析方法,提升对复杂文档版式的解析能力。
应用场景: - 出版和印刷:解析书籍、报纸、杂志等出版物的版面结构,优化排版和印刷流程。
- 档案数字化:对纸质档案进行数字化处理,保持原始版面布局,提高数字档案的可读性和可用性。
3. 高性能的文档解析
高性能的文档解析技术能够快速处理和转化大规模文档,尤其是上百页的PDF文档,确保还原正确的阅读顺序,避免混乱的语序。
技术实现:
- 并行处理技术:利用多线程和分布式计算技术,加快大规模文档的解析速度。
- 优化算法:优化文档解析算法,提高处理效率,减少时间消耗。
- 硬件加速:借助GPU加速技术,进一步提升文档解析的性能。
应用场景: - 大数据处理:在金融、法律、医疗等领域,快速解析和处理大量文档,提高数据处理效率。
- 实时应用:在实时文档问答和即时信息提取等应用中,提供快速、准确的文档解析服务。
4. 高精准、高效率的文档解析
文档解析的精准度和效率是衡量技术性能的重要指标。合合信息的文档解析技术能够提供高精准、高效率的解析结果,适用于大模型的训练和应用场景。
技术实现:
- 精细化模型训练:通过精细化的模型训练和调优,提高文档解析的准确性。
- 错误纠正机制:引入错误检测和纠正机制,自动识别和修正解析过程中的错误。
- 用户反馈系统:利用用户反馈信息,持续优化和改进解析算法。
应用场景: - 大模型训练:在大模型训练过程中,提供高质量的训练数据,提升模型性能。
- 知识库问答:在知识库问答系统中,快速准确地解析文档内容,提供高质量的问答服务。
文档多板式部分示例
文档解析典型技术难点
在文档解析过程中,技术难点众多,涉及文档元素的遮盖重叠、复杂版式、多样的文档元素、页眉页脚、多栏布局与表格、无线表格与合并单元格,以及各种公式的识别和处理。以下是对这些技术难点的详细列举。
- 元素遮盖重叠:文档中的各种元素(如文字、表格、公式等)可能会相互遮挡或重叠,给解析带来挑战。
- 复杂版式:文档可能采用双栏、跨页、三栏等复杂的版式布局,需要准确识别和分析这些版式结构。
- 元素本身的多样性:不同类型的文档元素(如标题、段落、表格、公式等)具有不同的特点,需要针对性地进行识别和分析。
- 页眉页脚的复杂形式:页眉页脚的形式可能多种多样,需要准确识别并区分。
- 多栏布局及其与表格的影响:多栏布局以及多栏中插入表格会对文档解析带来额外的挑战。
- 无线表格与合并单元格:无线表格与合并单元格的识别。
- 各种公式:单行公式、行内公式、表格内公式等
元素重叠、本身多样性、复杂板式示例
元素重叠、本身多样性、复杂板式示例
单行、行内、表格内公式示例
合合信息提出的文档解析技术解决方案
文档图像预处理算法框架
主要包括以下几点
- 区域提取: 提取文档区域
- 干扰去除: 去除手指、阴影、摩尔纹等干扰
- 形变矫正: 包括倾斜透视矫正、弯曲矫正等
- 图像恢复: 阴影去除、摩尔纹去除
- 图像增强: 增强锐化等操作
图像文档弯曲矫正算法
- 形变文档图像建模
- 使用偏移场来建模形变文档图像
- 通过DocUNet网络进行形变矫正
- 空间变换
- 根据偏移场信息对图像进行空间变换,完成弯曲矫正
- 边缘填充
- 使用Inpainting技术对矫正后的图像进行边缘填充
图像文档干扰去除算法
- 文档图像预处理
- 使用U2net卷积网络进行背景提取
- 通过信息融合和干扰去除模块去除摩尔纹、光照影响等干扰
- 干扰去除算法效果
- 可以有效去除手指、阴影等干扰,提高文档图像的质量
文档图像预处理算法整体效果如下
版面分析算法框架
物理版面分析 - 文档布局分析
- 使用基于回归的单阶段检测模型,如FasterRCNN、YOLO等,对文档中的各种布局元素进行检测和定位。
- 检测模型可以对文档中的栏(column)、节(section)等布局要素进行识别。
逻辑版面分析 - 语义结构分析
逻辑版面分析算法主要关注文档的语义结构和布局关系,通过建立层级概念和建模布局关系,实现对文档逻辑结构的分析和理解。将不同的文字块根据语义关系建模,形成文档的层次结构,如页(page)、段落(paragraph)、列表(list)等。
版面分析算法的发展
合合信息在近期的研究发现,真实世界的文档布局类型非常丰富,无法简单地用单栏、双栏等类别来定义。
例如下面列举的,目录,报纸,试卷等。所以判别式的技术路线,可以处理好大部分的文档,还无法真正对真实世界中各式各样的文档进行良好的版面分析。
近年来的开放词汇目标检测(OVD),视觉语义对齐(Alignment)等工作,以及生成式模型等前沿进展,都会给版面分析带来新的研究思路。
Textln 文档解析效果
总结
常扬老师在CCIG 2024大会上的演讲深入探讨了合合信息在文档解析技术方面的突破性进展。这些技术不仅解决了大模型训练和应用中的诸多挑战,还大大提升了文档解析的效率和精度。通过先进的图像预处理、版面分析和语义结构分析,合合信息为大模型在文档问答、知识库问答等应用场景中的表现提供了坚实的技术支持。期待这些创新技术能够为未来的研究和产业应用带来更多可能性。