什么是文档智能？微软亚研最新《文档智能：数据集、模型和应用》综述

来源：专知

微软亚洲研究院最新《文档智能：数据集、模型和应用》综述

文档智能是指通过计算机进行自动阅读、理解以及分析商业文档的过程,是自然语言处理和计算机视觉交叉领域的一个重要研究方向。近年来,深度学习技术的普及极大地推动了文档智能领域的发展,以文档版面分析、文档信息抽取、文档视觉问答以及文档图像分类等为代表的文档智能任务均有显著的性能提升。该文对于早期基于启发式规则的文档分析技术、基于统计机器学习的算法以及近年来基于深度学习和预训练的方法进行简要介绍,并展望了文档智能技术的未来发展方向。

http://jcip.cipsc.org.cn/CN/abstract/abstract3331.shtml

文档智能(DocumentAI,orDocumentIntelligence)是近年来一项蓬勃发展的研究课题,同时也是实际的工业界需求,主要是指对于网页、数字文档或扫描文档所包含的文本以及丰富的排版格式等信息,通过人工智能技术进行理解、分类、提取以及信息归纳的过程。由于布局和格式的多样性、低质量的扫描文档图像以及模板结构的复杂性,文档智能成为一项非常具有挑战性的任务并获得相关领域的广泛关注。随着数字化进程的加快,文档、图像等载体的结构化分析和内容提取成为关乎企业数字化转型成败的关键一环,自动、精准、快速的信息处理对于生产力的提升至关重要。以商业文档为例,不仅包含了公司内外部事务的处理细节和知识沉淀,还有大量行业相关的实体和数字信息。人工提取这些信息不仅耗时、费力、精度低,而且可复用性也不高, 因此,文档智能技术应运而生。文档智能技术深层次地结合了人工智能和人类智能,在金融、医疗、保险、能源、物流等多个行业均有不同类型的应用。例如,在金融领域,其可以实现财报分析和智能决策分析,为企业战略的制定和投资决策提供科学、系统的数据支撑;在医疗领域,其可以实现病例的数字化, 提高诊断的精准度,并通过分析医学文献和病例的关联性,定位潜在的治疗方案。在财务领域,其可以实现发票和采购单的自动化信息提取,将大量非结构化文档进行自动结构化转换,并支撑大量下游业务场景,节省大量人工处理时间开销。

在过去的30年中, 文档智能的发展大致经历了三个阶段, 从简单的规则启发式方法逐渐进化至神经网络的方法。20世纪90年代初期,研究人员大多使用基于启发式规则的方法进行文档的理解与分析,通过人工观察文档的布局信息,总结归纳一些处理规则,对固定布局信息的文档进行处理。然而,传统基于规则的方法往往需要较大的人力成本,而且这些人工总结的规则可扩展性不强,因此研究人员开始采用基于统计学习的方法。2000年以来,随着机器学习技术的发展和进步,基于大规模标注数据驱动的机器学习模型成了文档智能的主流方法,它通过人工设计的特征模板,利用有监督学习的方式在标注数据中学习不同特征的权重,以此来理解、分析文档的内容和布局。然而,虽然传统的文档理解和分析技术基于人工定制的规则或少量标注数据进行学习,这些方法虽然能够带来一定程度的性能提升,但由于定制规则和可学习的样本数量不足,其通用性往往不尽如人意,而且针对不同类别文档的分析迁移成本较高,这距离文档智能技术的实用化和产业化还有相当一段距离。近年来,随着深度学习技术的发展,以及大量无标注电子文档的积累,文档分析与识别技术进入了一个全新的时代。图1是在当前深度学习框架下文档智能技术的基本框架,其中不同类型的文档通过内容提取工具 (HTML/ XML抽取、PDF解析器、光学字符识别 OCR 等)将文本内容、位置布局信息和视觉图像信息组织起来, 利用大规模预训练的深度神经网络进行分析,最终完成各项下游应用任务,包括文档版面分析、文档信息抽取、文档视觉问答以及文档图像分类等。深度学习技术的出现,特别是以卷积神经网络(CNN)、图神经网络(GNN)以及 Transformer架构[1]为代表预训练技术的出现,彻底改变了传统机器学习需要大量人工标注数据的前提,更多地依赖大量无标注数据进行自监督学习,进而通过“预训练-微调”模式来解决文档智能相关的应用任务,取得了显著性突破。

尽管深度学习极大地提高了文档智能技术的准确性,但是在实际应用中仍然有很多问题亟待解决。首先,受限于当前大规模预训练模型输入长度的限制,文档智能预训练模型通常需要将文档截断为几个部分,分别输入模型进行处理,这对于复杂长文档的多页跨页处理带来了极大的挑战。其次,由于实际场景中的扫描文档图像质量参差不齐,特别是人工标注的训练数据往往质量较高,而业务场景的文档图像由于扫描设备的清晰度、纸张褶皱和摆放位置的随意性,导致了性能不佳,因而需要利用更多数据增强技术来帮助现有模型提升性能。此外,当前文档智能各项任务通常是独立训练的,不同任务之间的关联性还未被有效地利用。例如,文档信息抽取和文档视觉问答有某些共性的语义表示,可以利用多任务学习框架更好地解决这类问题。最后,基于预训练的文档智能模型在实际应用中也遇到了计算资源和训练样本不足的问题,探索基于小模型的深度学习架构和模型压缩技术,以及少样本学习 (Few-shot Learning)和零样本学习 (Zero-shot Learning)技术也是当前重要的研究方向,并具有很大的实用价值。

接下来,我们首先将介绍当前主流的文档智能模型框架、任务和数据集,随后将分别重点介绍早期基于启发式规则的文档分析技术、基于传统统计机器学习的算法模型,以及近年来基于深度学习,特别是基于多模态预训练技术的文档智能模型和算法, 最后我们将展望文档智能技术的未来发展方向。

1 主流文档智能模型框架、任务及数据集

1.1 基于卷积神经网络的文档版面分析模型

近年来,卷积神经网络在计算机视觉领域取得了巨大的成功,特别是基于大规模标注数据集ImageNet 和 COCO 的有监督预训练模型 ResNet [2]在图像分类、物体检测以及场景分割任务上都带来了极大的性能提升。具体来讲,随着多阶段检测模型 Faster R-CNN [3]和 MaskR-CNN [4]等以及单阶段检测模型SSD [5]和 YOLO [6]的普及,目标检测在计算机视觉中几乎成了已解决问题。文档版面分析本质上可以看作一种文档图像的物体检测任务,文档中的标题、段落、表格、插图等基本单元就是需要检测和识别的物体。

1.2 基于图神经网络的文档信息抽取模型

信息抽取是从非结构化文本中提取结构化信息的过程,其作为一个经典和基础的自然语言处理问题已经得到广泛研究。传统的信息抽取聚焦于如何从纯文本中提取实体与关系信息,却较少对视觉富文本进行研究。视觉富文本数据是指语义结构不仅由本文内容决定,也有与排版、表格结构、字体等视觉元素有关的文本数据。视觉富文本数据在生活中随处可见,例如,收据、证件、保险单等。

1.3 基于Transformer结构的通用文档理解预训练模型

很多情况下,文档中文字的位置关系蕴含着丰富的语义信息。例如,表单通常是以键值对(KeyvaluePair)的形式展示的。通常情况下,键值对的排布通常是左右或者上下形式,并且有特殊的类型关系。类似地,在表格文档中,表格中的文字通常是网格状排列,并且表头一般出现在第一列或第一行。通过预训练,这些与文本天然对齐的位置信息可以为下游的信息抽取任务提供更丰富的语义信息。对于富文本文档,除了文字本身的位置关系之外,文字格式所呈现的视觉信息同样可以帮助下游任务。对文本级(Token-level)任务来说,文字大小、是否倾斜、是否加粗,以及字体等富文本格式能够体现相应的语义。通常来说,表单键值对的键位(Key)通常会以加粗的形式给出。对于一般文档来说,文章的标题通常会放大加粗呈现、特殊概念名词会以斜体呈现等。对文档级(Document-level)任务来说,整体的文档图像能提供全局的结构信息,例如,个人简历的整体文档结构与科学文献的文档结构是有明显的视觉差异的。这些模态对齐的富文本格式所展现的视觉特征可以通过视觉模型抽取,结合到预训练阶段,从而有效地帮助下游任务。

2 基于启发式规则的文档分析技术

基于启发式规则的文档分析技术大致可分为自顶向下、自底向上和混合模式三种方式。自顶向下方式将文档图片作为整体逐步将其划分为不同区域,以递归方式进行切割,直至区域分割至预定义的标准,通常为块或列。自底向上以像素或组件为基本元素单位,对基本元素进行分组、合并以形成更大的同质区域。自顶向下方式在特定格式下的文档中能够更快、更高效地分析文档。而自底向上方式虽需要耗费更多的计算时间,但通用性更强,可覆盖更多不同布局类型的文档。混合方式则将其两者相结合以尝试产生更好的效果。本节从自顶向下和自底向上两种角度出发,介绍基于 Projection Profile、ImageSmearing、ConnectedComponents等方式的文档分析技术。

3 基于统计机器学习的文档分析技术

传统的文档分析过程通常分为两阶段:①将文档图片切割,得到多个不同候选区域;②对区域进行属性分类,将其判别为文本、图像等规定类。基于机器学习的方法也通常从这两个角度入手,部分研究工作尝试使用机器学习算法参与文档的切割,其余则尝试在已生成的区域上构造特征,使用机器学习算法对区域进行分类。此外,由于统计机器学习技术带来的性能上的提升,较多基于统计机器学习的方法在表格检测任务中被尝试使用,因表格检测是文档分析的一个重要子任务,本节也会对其进行一些介绍。因此与前文基于技术角度的阐述方式不同的是,从下文开始将会从文档分析中的任务角度来对其发展情况做出介绍。

4 基于深度学习的文档智能技术

近年来,深度学习方法已经成为许多机器学习问题的解决范式。在众多研究领域,深度学习方法被证明是十分有效的。最近,预训练模型的流行也进一步发掘了深度神经网络的性能。而文档智能领域的发展也体现出同样的趋势。本节中我们将现存的模型分为针对特定任务的深度学习模型和支持多种下游任务的通用预训练模型进行介绍。

5 未来发展方向

商业文档的自动阅读和分析具有明显的应用价值,是自然语言处理和计算机视觉交叉领域的一个重要研究方向。因此我们分别从自然语言处理、计算机视觉以及多模态融合的角度来梳理一下文档智能的未来发展方向。

从自然语言处理的角度出发,近年来以BERT [128] 为代表的大规模自监督预训练成为自然语言处理的主流研究方向。与此同时,在大规模预训练模型基础上,以 GPT-3 [129] 为代表的提示学习 (Prompt Learning)研究方法;为文本预训练模型的应用给出一种新型的范式,能够达到低计算量与性能调优的平衡,受到了广泛关注。GPT-3 通过上下文学习 (In-contextLearning)的方法在零样本(Zero-shot) 和少样本(Few-shot)学习中展现出与 BERT 完全不同的结论和性能,因此应该探究在文档智能领域大模型的性质,以及如何利用大模型进行文档智能下游任务的微调,例如 Parameter-efficient相关的方法也是非常重要的。

文档智能中有大量以文档图片为载体的信息抽取和问答任务,如表单/发票理解等。由于这些任务所需的数据,人工标注代价很高,对自监督预训练模型有很强的需求。除此之外,如何降低模型参数微调(Fine-tuning)计算量也是这些任务亟待解决的问题,因此文档图像的提示学习技术也是未来十分重要的一个研究方向。从计算机视觉的角度出发,以 ViT 视觉 Transformer [119]为代表的大规模预训练技术近年来也成为计算机视觉的主流研究方向。由于文档图像理解领域不存在类似ImageNet这种大规模人工标注数据集,但无标注的文档图像却大量存在,因此自监督文档图像预训练模型对于文档智能领域的发展至关重要。文档智能领域中图像理解任务大多与版面分析相关,如光学字符识别(OCR)、文档对象识别,特别是表格识别等。传统的研究方法通常依赖任务相关的标注数据来解决,相信随着视觉自监督预训练模型的发展和成熟,对于标注数据的依赖会越来越小。

作为自然语言处理和计算机视觉的交叉领域, 文档智能更多地应用了多模态融合技术。以 LayoutLM [15]为代表的多模态文档智能预训练模型成为文档智能的主流研究方向。当前多模态融合主要采用将不同模态的信息通过跨模态对齐任务进行联合学习和预训练,取得了不错的效果。文档智能领域中的多数任务都会同时利用文本信息和图像信息,因此如何挖掘文本与图像之间的关联成为文档智能理解的重要任务。与此同时,不同模态之间的互补性也将决定文档智能任务的精确度和可扩展性。展望未来,除了解决文档多页跨页、训练数据质量参差不齐、多任务关联性较弱以及少样本零样本学习等问题,还应该特别关注文字检测识别 OCR 技术与文档智能技术的结合,因为文档智能下游任务的输入通常来自于自动文字检测和识别算法,文字识别的准确性往往对于下游任务有很大的影响。此外,如何将文档智能技术与现有人类知识以及人工处理文档的技巧相结合,也是未来值得探索的一个研究课题。

6 结语

信息处理是数字化转型的基础和前提,如今对处理能力、处理速度和处理精度也都有越来越高的要求。以商业领域为例,电子商业文档就涵盖了采购单据、行业报告、商务邮件、销售合同、雇佣协议、商业发票、个人简历等大量繁杂的信息。机器人流程自动化(RoboticProcessAutomation,RPA)行业正是在这一背景下应运而生,其利用人工智能技术帮助大量人工从繁杂的电子文档处理任务中解脱出来,并通过一系列配套的自动化工具提升生产力, RPA 的关键核心之一就是文档智能分析技术。过去的20年间,文档智能分析技术主要经历了三个阶段,从最初的基于启发式规则,过渡到基于统计机器学习的方法,到近来基于深度学习的方法,极大地提升了分析性能和准确率。与此同时我们也观察到, 以 LayoutLM 为代表的大规模自监督通用文档智能预训练模型也越来越多地受到人们的关注和使用,逐步成为构建更为复杂算法的基本单元,后续研究工作也层出不穷,促使文档智能领域加速发展。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”