什么是文档智能?微软亚研最新《文档智能:数据集、模型和应用》综述

4956cbf7530b68537ffc1bb26181856f.jpeg

来源:专知

微软亚洲研究院最新《文档智能:数据集、模型和应用》综述

a8a127de6260708e271d11fafd08b789.jpeg

文档智能是指通过计算机进行自动阅读、理解以及分析商业文档的过程,是自然语言处理和计算机视觉交叉领域的一个重要研究方向。近年来,深度学习技术的普及极大地推动了文档智能领域的发展,以文档版面分析、文档信息抽取、文档视觉问答以及文档图像分类等为代表的文档智能任务均有显著的性能提升。该文对于早期基于启发式规则的文档分析技术、基于统计机器学习的算法以及近年来基于深度学习和预训练的方法进行简要介绍,并展望了文档智能技术的未来发展方向。

http://jcip.cipsc.org.cn/CN/abstract/abstract3331.shtml

文档智能(DocumentAI,orDocumentIntelligence)是近年来一项蓬勃发展的研究课题,同时也 是实际的工业界需求,主要是指对于网页、数字文档 或扫描文档所包含的文本以及丰富的排版格式等信 息,通过人工智能技术进行理解、分类、提取以及信 息归纳的过程。由于布局和格式的多样性、低质量 的扫描文档图像以及模板结构的复杂性,文档智能 成为一项非常具有挑战性的任务并获得相关领域的 广泛关注。随着数字化进程的加快,文档、图像等载 体的结构化分析和内容提取成为关乎企业数字化转 型成败的关键一环,自动、精准、快速的信息处理对 于生产力的提升至关重要。以商业文档为例,不仅 包含了公司内外部事务的处理细节和知识沉淀,还 有大量行业相关的实体和数字信息。人工提取这些 信息不仅耗时、费力、精度低,而且可复用性也不高, 因此,文档智能技术应运而生。文档智能技术深层 次地结合了人工智能和人类智能,在金融、医疗、保 险、能源、物流等多个行业均有不同类型的应用。例 如,在金融领域,其可以实现财报分析和智能决策分 析,为企业战略的制定和投资决策提供科学、系统的 数据支撑;在医疗领域,其可以实现病例的数字化, 提高诊断的精准度,并通过分析医学文献和病例的 关联性,定位潜在的治疗方案。在财务领域,其可以 实现发票和采购单的自动化信息提取,将大量非结 构化文档进行自动结构化转换,并支撑大量下游业务场景,节省大量人工处理时间开销。 

在过去的30年中, 文档智能的发展大致经历了三个阶段, 从简单的规则启发式方法逐渐进化至神经网络的方法。20世纪90年代初期,研究人员大多使用基于启发式规则的方法进行文档的理解与分 析,通过人工观察文档的布局信息,总结归纳一些处 理规则,对固定布局信息的文档进行处理。然而,传 统基于规则的方法往往需要较大的人力成本,而且 这些人工总结的规则可扩展性不强,因此研究人员 开始采用基于统计学习的方法。2000年以来,随着 机器学习技术的发展和进步,基于大规模标注数据 驱动的机器学习模型成了文档智能的主流方法,它 通过人工设计的特征模板,利用有监督学习的方式 在标注数据中学习不同特征的权重,以此来理解、分 析文档的内容和布局。然而,虽然传统的文档理解 和分析技术基于人工定制的规则或少量标注数据进 行学习,这些方法虽然能够带来一定程度的性能提 升,但由于定制规则和可学习的样本数量不足,其通 用性往往不尽如人意,而且针对不同类别文档的分 析迁移成本较高,这距离文档智能技术的实用化和 产业化还有相当一段距离。近年来,随着深度学习 技术的发展,以及大量无标注电子文档的积累,文档 分析与识别技术进入了一个全新的时代。图1是在 当前深度学习框架下文档智能技术的基本框架,其 中不同 类 型 的 文 档 通 过 内 容 提 取 工 具 (HTML/ XML抽取、PDF解析器、光学字符识别 OCR 等)将 文本内容、位置布局信息和视觉图像信息组织起来, 利用大规模预训练的深度神经网络进行分析,最终 完成各项下游应用任务,包括文档版面分析、文档信 息抽取、文档视觉问答以及文档图像分类等。深度 学习技术的出现,特别是以卷积神经网络(CNN)、 图神经网络(GNN)以及 Transformer架构[1]为代 表预训练技术的出现,彻底改变了传统机器学习需 要大量人工标注数据的前提,更多地依赖大量无标 注数据进行自监督学习,进而通过“预训练-微调”模 式来解决文档智能相关的应用任务,取得了显著性 突破。

cf2f15039ff89a1bb46d7e758f124b59.jpeg

尽管深度学习极大地提高了文档智能技术的准 确性,但是在实际应用中仍然有很多问题亟待解决。首先,受限于当前大规模预训练模型输入长度的限 制,文档智能预训练模型通常需要将文档截断为几 个部分,分别输入模型进行处理,这对于复杂长文档 的多页跨页处理带来了极大的挑战。其次,由于实 际场景中的扫描文档图像质量参差不齐,特别是人 工标注的训练数据往往质量较高,而业务场景的文 档图像由于扫描设备的清晰度、纸张褶皱和摆放位 置的随意性,导致了性能不佳,因而需要利用更多数 据增强技术来帮助现有模型提升性能。此外,当前 文档智能各项任务通常是独立训练的,不同任务之 间的关联性还未被有效地利用。例如,文档信息抽 取和文档视觉问答有某些共性的语义表示,可以利 用多任务学习框架更好地解决这类问题。最后,基 于预训练的文档智能模型在实际应用中也遇到了计 算资源和训练样本不足的问题,探索基于小模型的 深度学习 架 构 和 模 型 压 缩 技 术,以 及 少 样 本 学 习 (Few-shot Learning)和 零 样 本 学 习 (Zero-shot Learning)技术也是当前重要的研究方向,并具有很 大的实用价值。

接下来,我们首先将介绍当前主流的文档智能 模型框架、任务和数据集,随后将分别重点介绍早期 基于启发式规则的文档分析技术、基于传统统计机器学习的算法模型,以及近年来基于深度学习,特别 是基于多模态预训练技术的文档智能模型和算法, 最后我们将展望文档智能技术的未来发展方向。

1 主流文档智能模型框架、任务及数据集

1.1 基于卷积神经网络的文档版面分析模型 

近年来,卷积神经网络在计算机视觉领域取得了 巨大的成功,特别是基于大规模标注数据集ImageNet 和 COCO 的有监督预训练模型 ResNet [2]在图像分 类、物体检测以及场景分割任务上都带来了极大的 性能提升。具体来讲,随着多阶段检测模型 Faster R-CNN [3]和 MaskR-CNN [4]等以及单阶段检测模 型SSD [5]和 YOLO [6]的普及,目标检测在计算机视 觉中几乎成了已解决问题。文档版面分析本质上可 以看作一种文档图像的物体检测任务,文档中的标 题、段落、表格、插图等基本单元就是需要检测和识 别的物体。

afca5e265f36ff22c81495ff79fdc4b2.jpeg

1.2 基于图神经网络的文档信息抽取模型 

信息抽取是从非结构化文本中提取结构化信息 的过程,其作为一个经典和基础的自然语言处理问 题已经得到广泛研究。传统的信息抽取聚焦于如何 从纯文本中提取实体与关系信息,却较少对视觉富 文本进行研究。视觉富文本数据是指语义结构不仅 由本文内容决定,也有与排版、表格结构、字体等视 觉元素有关的文本数据。视觉富文本数据在生活中 随处可见,例如,收据、证件、保险单等。

b65a5d65161a549de5d2d1da3cd7c32a.jpeg

1.3 基于Transformer结构的通用文档理解预训练模型

很多情况下,文档中文字的位置关系蕴含着丰 富的语义信息。例如,表单通常是以键值对(KeyvaluePair)的形式展示的。通常情况下,键值对的 排布通常是左右或者上下形式,并且有特殊的类型 关系。类似地,在表格文档中,表格中的文字通常是 网格状排列,并且表头一般出现在第一列或第一行。通过预训练,这些与文本天然对齐的位置信息可以 为下游的信息抽取任务提供更丰富的语义信息。对 于富文本文档,除了文字本身的位置关系之外,文字 格式所呈现的视觉信息同样可以帮助下游任务。对 文本级(Token-level)任务来说,文字大小、是否倾 斜、是否加粗,以及字体等富文本格式能够体现相应 的语义。通常来说,表单键值对的键位(Key)通常 会以加粗的形式给出。对于一般文档来说,文章的 标题通常会放大加粗呈现、特殊概念名词会以斜体 呈现等。对文档级(Document-level)任务来说,整 体的文档图像能提供全局的结构信息,例如,个人简 历的整体文档结构与科学文献的文档结构是有明显 的视觉差异的。这些模态对齐的富文本格式所展现 的视觉特征可以通过视觉模型抽取,结合到预训练 阶段,从而有效地帮助下游任务。

deb66bdfc37dbd731ca93a6365ff5afc.jpeg

2 基于启发式规则的文档分析技术 

基于启发式规则的文档分析技术大致可分为自 顶向下、自底向上和混合模式三种方式。自顶向下 方式将文档图片作为整体逐步将其划分为不同区 域,以递归方式进行切割,直至区域分割至预定义的 标准,通常为块或列。自底向上以像素或组件为基 本元素单位,对基本元素进行分组、合并以形成更大 的同质区域。自顶向下方式在特定格式下的文档中 能够更快、更高效地分析文档。而自底向上方式虽 需要耗费更多的计算时间,但通用性更强,可覆盖更多不同布局类型的文档。混合方式则将其两者相结 合以尝试产生更好的效果。本节从自顶向下和自底向上两种角度出发,介 绍 基 于 Projection Profile、ImageSmearing、ConnectedComponents等方式的文档分析技术。

3 基于统计机器学习的文档分析技术 

传统的文档分析过程通常分为两阶段:①将文 档图片切割,得到多个不同候选区域;②对区域进行 属性分类,将其判别为文本、图像等规定类。基于机 器学习的方法也通常从这两个角度入手,部分研究 工作尝试使用机器学习算法参与文档的切割,其余 则尝试在已生成的区域上构造特征,使用机器学习 算法对区域进行分类。此外,由于统计机器学习技术带来的性能上的提升,较多基于统计机器学习的 方法在表格检测任务中被尝试使用,因表格检测是 文档分析的一个重要子任务,本节也会对其进行一 些介绍。因此与前文基于技术角度的阐述方式不同 的是,从下文开始将会从文档分析中的任务角度来 对其发展情况做出介绍。

4 基于深度学习的文档智能技术 

近年来,深度学习方法已经成为许多机器学习 问题的解决范式。在众多研究领域,深度学习方法 被证明是十分有效的。最近,预训练模型的流行也 进一步发掘了深度神经网络的性能。而文档智能领 域的发展也体现出同样的趋势。本节中我们将现存 的模型分为针对特定任务的深度学习模型和支持多 种下游任务的通用预训练模型进行介绍。

5 未来发展方向 

商业文档的自动阅读和分析具有明显的应用价 值,是自然语言处理和计算机视觉交叉领域的一个 重要研究方向。因此我们分别从自然语言处理、计 算机视觉以及多模态融合的角度来梳理一下文档智 能的未来发展方向。 

从自然语言处理的角度出发,近年来以BERT [128] 为代表的大规模自监督预训练成为自然语言处理的 主流研究方向。与此同时,在大规模预训练模型基 础上,以 GPT-3 [129] 为 代 表 的 提 示 学 习 (Prompt Learning)研究方法;为文本预训练模型的应用给出 一种新型的范式,能够达到低计算量与性能调优的 平衡,受 到 了 广 泛 关 注。GPT-3 通 过 上 下 文 学 习 (In-contextLearning)的方法在零样本(Zero-shot) 和少样本(Few-shot)学习中展现出与 BERT 完全 不同的结论和性能,因此应该探究在文档智能领域 大模型的性质,以及如何利用大模型进行文档智能下 游任务的微调,例如 Parameter-efficient相关的方法 也是非常重要的。 

文档智能中有大量以文档图片为载体的信息抽 取和问答任务,如表单/发票理解等。由于这些任务 所需的数据,人工标注代价很高,对自监督预训练模 型有很强的需求。除此之外,如何降低模型参数微 调(Fine-tuning)计算量也是这些任务亟待解决的问 题,因此文档图像的提示学习技术也是未来十分重 要的一个研究方向。从计算机视觉的角度出发,以 ViT 视觉 Transformer [119]为代表的大规模预训练技术近年来也成 为计算机视觉的主流研究方向。由于文档图像理解 领域不存在类似ImageNet这种大规模人工标注数 据集,但无标注的文档图像却大量存在,因此自监督 文档图像预训练模型对于文档智能领域的发展至关 重要。文档智能领域中图像理解任务大多与版面分 析相关,如光学字符识别(OCR)、文档对象识别,特 别是表格识别等。传统的研究方法通常依赖任务相 关的标注数据来解决,相信随着视觉自监督预训练 模型的发 展 和 成 熟,对 于 标 注 数 据 的 依 赖 会 越 来 越小。

作为自然语言处理和计算机视觉的交叉领域, 文 档 智 能 更 多 地 应 用 了 多 模 态 融 合 技 术。以 LayoutLM [15]为代表的多模态文档智能预训练模型 成为文档智能的主流研究方向。当前多模态融合主 要采用将不同模态的信息通过跨模态对齐任务进行 联合学习和预训练,取得了不错的效果。文档智能 领域中的多数任务都会同时利用文本信息和图像信 息,因此如何挖掘文本与图像之间的关联成为文档 智能理解的重要任务。与此同时,不同模态之间的互补性 也 将 决 定 文 档 智 能 任 务 的 精 确 度 和 可 扩 展性。展望未来,除了解决文档多页跨页、训练数据质 量参差不齐、多任务关联性较弱以及少样本零样本 学习等问题,还应该特别关注文字检测识别 OCR 技术与文档智能技术的结合,因为文档智能下游任 务的输入通常来自于自动文字检测和识别算法,文 字识别的准确性往往对于下游任务有很大的影响。此外,如何将文档智能技术与现有人类知识以及人 工处理文档的技巧相结合,也是未来值得探索的一 个研究课题。

6 结语 

信息处理是数字化转型的基础和前提,如今对 处理能力、处理速度和处理精度也都有越来越高的 要求。以商业领域为例,电子商业文档就涵盖了采 购单据、行业报告、商务邮件、销售合同、雇佣协议、 商业发票、个人简历等大量繁杂的信息。机器人流 程自动化(RoboticProcessAutomation,RPA)行业 正是在这一背景下应运而生,其利用人工智能技术 帮助大量人工从繁杂的电子文档处理任务中解脱出 来,并通过一系列配套的自动化工具提升生产力, RPA 的关键核心之一就是文档智能分析技术。过 去的20年间,文档智能分析技术主要经历了三个阶 段,从最初的基于启发式规则,过渡到基于统计机器 学习的方法,到近来基于深度学习的方法,极大地提 升了分析性能和准确率。与此同时我们也观察到, 以 LayoutLM 为代表的大规模自监督通用文档智 能预训练模型也越来越多地受到人们的关注和使 用,逐步成为构建更为复杂算法的基本单元,后续研 究工作也层出不穷,促使文档智能领域加速发展。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

196d76156a8ce108dd44cde14e121326.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481762.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一种基于伪标签半监督学习的小样本调制识别算法

一种基于伪标签半监督学习的小样本调制识别算法 人工智能技术与咨询 来源:《西北工业大学学报》,作者史蕴豪等 摘 要:针对有标签样本较少条件下的通信信号调制识别问题,提出了一种基于伪标签半监督学习技术的小样本调制方式分类…

Intelligent Computing首期论文发表了哪些前沿研究?

来源:之江实验室Intelligent Computing创刊首期论文中,牛津大学计算机系主任、谷歌DeepMind-Oxford合作负责人Michael Wooldridge教授发表了关于人工智能未来发展趋势和关键技术的前瞻性观点论文;蚁群智能创始人、比利时布鲁塞尔自由大学Marc…

基于深度卷积神经网络的目标检测研究综述

基于深度卷积神经网络的目标检测研究综述 人工智能技术与咨询 来自《光学精密工程》 ,作者范丽丽等 摘要:作为计算机视觉中的基本视觉识别问题,目标检测在过去的几十年中得到了广泛地研究。目标检测旨在给定图像中找到具有准确定位的特定对…

Yann LeCun开怼谷歌研究:目标传播早就有了,你们创新在哪里?

来源:机器之心在昨日的学术圈,图灵奖得主Yann LeCun对谷歌的一项研究发起了质疑。前段时间,谷歌 AI在其新研究《LocoProp: Enhancing BackProp via Local Loss Optimization》中提出了一种用于多层神经网络的通用层级损失构造框架LocoProp&am…

基于深度学习的场景分割算法研究综述

基于深度学习的场景分割算法研究综述 人工智能技术与咨询 来自《计算机研究与发展》 ,作者张 蕊等 摘 要 场景分割的目标是判断场景图像中每个像素的类别.场景分割是计算机视觉领域重要的基本问题之一,对场景图像的分析和理解具有重要意义,…

DeepMind 首席科学家 Oriol Vinyals 最新访谈:通用 AI 的未来是强交互式元学习

整理:李梅编辑:陈彩娴自 2016 年 AlphaGo 在围棋中击败人类以来,DeepMind 的科学家一直致力于探索强大的通用人工智能算法,Oriol Vinyals 就是其中之一。Vinyals 于 2016 年加入 DeepMind,目前任首席科学家&#xff0c…

卷积神经网络结构优化综述

卷积神经网络结构优化综述 人工智能技术与咨询 来源:《自动化学报》 ,作者林景栋等 摘 要 近年来,卷积神经网络(Convolutional neural network,CNNs)在计算机视觉、自然语言处理、语音识别等领域取得了突飞猛进的发展,其强大的特征学习能力引起了国内…

梅勒妮·米切尔 | 复杂性科学将如何颠覆我们对世界的认知?

来源:哲学人作者:梅勒妮米切尔(Melanie Mitchell) 波特兰州立大学计算机科学教授,圣塔菲研究所(Santa Fe Institute)外聘教授和科学委员会成员1894年,物理学家、诺贝尔奖得主阿尔伯…

基于三维激光点云的目标识别与跟踪研究

基于三维激光点云的目标识别与跟踪研究 人工智能技术与咨询 来源:《汽车工程》 ,作者徐国艳等 [摘要] 针对无人车环境感知中的障碍物检测问题,设计了一套基于车载激光雷达的目标识别与跟踪方法。为降低计算量&#…

北大谭营教授:推动CICC城市大脑专委会的发展建议

2022年7月16日,中国指挥与控制学会(CICC)城市大脑专业委会在北京正式成立。在成立大会上也举办了城市大脑前沿学术研讨会,新当选的专委会顾问、主任委员、副主任委员发表了最新研究成果和观点,对城市大脑的未来发展进行…

战斗机嵌入式训练系统中的智能虚拟陪练

战斗机嵌入式训练系统中的智能虚拟陪练 人工智能技术与咨询 来源:《航空学报》 ,作者陈斌等 摘 要:智能化“实虚”对抗是现代先进战斗机嵌入式训练系统的重要功能需求。自主空战决策控制技术在未来空战装备发展中扮演关键角色。将当前的功…

理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远...

来源:AI科技评论作者:Boaz Barak编译:黄楠编辑:陈彩娴上世纪九十年代,斯坦福大学的知名生物信息学教授 Rob Tibshirani 曾拟了一个词汇表,将机器学习与统计学中的不同概念作了简单而粗暴的对应关系&#xf…

基于并行附加特征提取网络的SSD地面小目标检测模型

人工智能技术与咨询 来源:《电子学报》 ,作者李宝奇等 摘 要: 针对SSD原始附加特征提取网络(Original Additional Feature Extraction Network,OAFEN)中stride操作造成图像小目标信息丢失和串联结构产生的多尺度特征之间冗余度较大的问题&a…

细胞分裂时染色体出现了什么令人惊讶的物理性质?Nature这篇新研究详细讲解...

来源:生物通来自奥地利科学院分子生物技术研究所Gerlich小组的研究人员发现了一种分子机制,该机制在人类细胞分裂时赋予染色体特殊的物理特性,使它们能够精确忠实地传递给后代。研究结果发表在《自然》杂志上。细胞分裂早期有丝分裂染色体(紫…

人人皆可免费造芯?谷歌开源芯片计划已释放90nm、130nm和180nm工艺设计套件

来源:AI前线整理:钰莹这是世界首个开源 PDK,目前已经提供 130nm、90nm 以及 180nm 的工艺设计套件,这些数字听起来没有 3nm 那么让人兴奋,但在物联网的众多硬件设计中被广泛应用。谷歌联手 GlobalFoundries&#xff0c…

面向关系数据库的智能索引调优方法

面向关系数据库的智能索引调优方法 人工智能技术与咨询 来源:《软件学报》 ,作者邱 涛等 摘 要:数据库索引是关系数据库系统实现快速查询的有效方式之一.智能索引调优技术可以有效地对数据库实例进行索引调节,从而保持数据库高效的查询性能.现有的方法…

中国电信张东:数据治理与城市感知网的建设与运营

2022年7月16日,中国指挥与控制学会(CICC)城市大脑专业委会在北京正式成立。在成立大会上也举办了城市大脑前沿学术研讨会,新当选的专委会顾问、主任委员、副主任委员发表了最新研究成果和观点,对城市大脑的未来发展进行…

【前沿技术】270多起车祸,特斯拉Autopilot和自动驾驶被诉虚假宣传

来源:智能研究院「虚假的自动驾驶」(fake self driving),一名网友这样评论道。在自动驾驶领域,特斯拉依靠其 Autopilot 成为业界追赶的标杆。但有时,特斯拉在产品和功能宣传时并不是那么地实事求是。近日&a…

面向区块链的高效物化视图维护和可信查询

面向区块链的高效物化视图维护和可信查询 人工智能技术与咨询 来源:《软件学报》 ,作者蔡 磊等 摘 要:区块链具有去中心化、不可篡改和可追溯等特性,可应用于金融、物流等诸多行业.由于所有交易数据按照交易时间顺序存储在各个区块,相同类型的交易数据…

合力远洋候国军:Web3.0的机遇与挑战

2022年8月6日, 中国指挥与控制学会CICC)“百名专家、百场讲座”第九讲邀请到合力远洋候国军做了主题为Web3.0的机遇与挑战“”的学术讲座。本次讲座也是CICC城市大脑专委会组织的第二期城市大脑系列学术报告。在报告中,候国军师深入解析了什么是Web3.0以…