MSRA-万字综述 直击多模态文档理解

8f5573b718066ffbe740626405d1b86a.png

文 | 付奶茶

随着最近几年多模态大火的,越来越多的任务都被推陈出新为多模态版本。譬如,传统对话任务,推出了考虑视觉信息的多模态数据集;事件抽取,也推出视频形式的多模态版本;就连 grammar induction(语法归纳),也有了多模态版的(详见 NAACL'2021 best paper)。

然而,多模态大火虽是最近的事情,但它并不是近两年才有的什么新技术如果是想要对这一领域有比较深的研究,甚至想要做出工作、有所创新,那仅仅了解多模态最近两年几个大火的多模态模型显然是不足够的

事实上,有些任务已经天生就是多模态很多年了。早在多模态成为焦点之前,就已经默默被研究二十来年了。比如,智能文档(Document AI)技术。所谓智能文档技术,也就是自动理解、分析业务文档技术文档内容可包含文字、图片、视频等多种形式。由于理解多模态形式的多模态形式文的需求其实广泛长期存在,所以智能文档技术很多年来都是几个大厂的研究重点之一。近年来,深度学习技术的普及也更好地推动了例如文档布局分析、可视化信息提取、文档可视化问答、文档图像分类等智能文档算法的发展。近期,微软亚研院发表了一篇综述,简要回顾了一些有代表性的DocumentAI的模型、任务和基准数据集。小编认为这篇概述的总结体系非常扎实,是值得细细阅读的多模态相关综述,故与各位分享。

论文标题:
Document AI: Benchmarks, Models and Applications

论文链接:
https://arxiv.org/abs/2111.08609

0c7f71dfb4b6a3f01a4a342cb0c725bf.pngDocument AI 发展历程cd337e54fea95bddfb52c0022105ee7d.png

作者概述智能文档的发展大致经历了以下三个阶段:

第一阶段: 启发式阶段

20世纪90年代初,研究人员主要使用基于规则的启发式(Heuristic rule-based document layout analysis)来理解和分析文档,通过手动观察文档的布局信息,从而总结出一些启发式规则。启发式规则方法主要使用固定的布局信息来处理文档.方法较为固定,定制的规则可扩展性较差,通用性较差。

基于启发式规则的文档的布局分析大致分为三种方式:
(1)自顶向下:文档图像逐步划分到不同的区域,递归执行切割直到该区域被划分为预定义的标准,通常是块或列。例如projection profile,采用X-Y cut算法对文档进行剪切,通常用于文本区域和行距固定的结构化文本,对特定格式的文档进行更快、更有效的分析.但其对边界噪声敏感,对倾斜文本的处理效果不佳。
(2)自底向上:使用像素或组件作为基本单元,将其分组并合并成一个更大的同质区域,自底向上方法虽然需要更多的计算资源,但更通用,可以覆盖更多具有不同布局类型的文档。
(3)混合策略:将自上而下和自下而上相结合,例如Okamoto & Takahashi使用分隔符和空格来切割块,并将内部组件进一步合并到每个块中的文本行中,进而解析文档的布局。

第二阶段:机器学习阶段

  • 直到从2000年来 随着机器学习技术的发展,以机器学习模型逐渐成为文档处理的主流方法。研究者设计功能模板以了解不同功能的权重,进而理解和分析文档的内容和布局。

基于机器学习的文档分析过程通常分为两个阶段:
1)对文档图像进行分割,获得多个候选区域;
2)对文档区域进行分类和区分,如文本块和图像。

尽管带注释的数据被用于监督学习,并且以前的方法可以带来一定程度的性能改进,但是由于缺乏定制规则和训练样本数量,通用性仍然不令人满意。此外,不同类型文档的迁移和适应成本相对较高,这使得以前的方法不适合广泛的商业应用。

第三阶段:深度学习阶段

随着深度学习的发展和大量未标注电子文档的积累,可以通过工具HTML/XML提取、PDF解析器、OCR等提取不同类型的文档中的内容,其文本内容、布局信息和基本图像信息等基本组织良好,然后对大规模深度神经网络进行预训练和微调,以完成各种下游文档AI任务.包括文档布局分析、视觉信息提取、文档视觉问答和文档图像分类等。现有的基于深度学习的智能文档模型主要分为两大类:

  • 针对特定任务的深度学习模型

  • 支持各种下游任务的通用预训练模型

bee2703a39e28fca55349b3007ab8eb7.pngDocumentAI的主要任务6055c63297342046bacc0c9675fe37d4.png

Document AI在我们现实的应用场景主要有以下四类任务:

ad7b407412fb82fa659b1ea619f34a2d.png

Document Layout Analysis

该任务主要是对文档布局中的图像、文本、表格、图等位置关系进行自动分析、识别、理解的过程.主要分为两个主任务:Visual analysis 与Semantic analysis.Visual analysis为视觉元素的分析,主要目的是检测文档的结构,确定相似区域的边界,而Semantic analysis为语义分析检测区域识别特定的文档元素,例如标题、段落、表格等。

Visual Information Extraction

该任务从文档中的大量非结构化内容中提取实体及关系.对于视觉丰富的文档建模为计算机视觉问题,通过语义分割或文本框检测来进行信息提取,将文档图像视为像素网格,将文本特征添加到视觉特征图中。根据文本信息的粒度,该任务从字符级发展到单词级,再发展到上下文级。

Document Visual Question Answering

该任务为通过判断识别文本的内部逻辑来回答关于文档的自然语言问题。文档VQA中的文本信息在任务中起着至关重要的作用,现有的有代表性的方法都是以文档图像的OCR获取的文本作为输入。获得文档文本后,将VQA任务建模为不同的问题.主流方法将其建模为机器阅读理解(MRC)问题,根据问题从给定文档中提取文本片段作为相应的答案。

24a2fa7ba8f83243b377f5436ee2fd11.png

Document Image Classification

该任务是对文档图像进行分析和识别,并将其划分为不同类别的过程,如科学论文、简历、发票、收据等。最早文档图像分类问题的方法与自然图像分类方法基本一样,例如基于CNN的文档图像分类方法使用经过ImageNet训练的Alexnet作为初始化对文档图像进行模型适配。

下图为作者整理的四大Task的Benchmark:

753f9e886997d56c4b81af3ce5a8485b.png

5da79ba6bd4c937e77d4fb76ce06ad1f.pngDocument AI 主流模型c38f1bc1ac74d9f9bb08ec3cb539eb5f.png

Documents layout analysis  with convolutional neural networks

文档布局分析可以看作是对文档图像进行目标检测的任务。将文档中的标题、段落、表格、图表等基本单元是需要检测和识别的对象。Yang等人将文档布局分析作为像素级的分割任务,利用卷积神经网络进行像素分类,取得了较好的效果.

4bfc2ecc037888f6c6c4516e2924d809.png

Visual information extraction with graph networks

对于视觉信息丰富的文档的结构不仅仅由文本内容的结构决定,与布局、排版、格式、表/图结构等视觉元素同样相关.例如收据、证书、保险文件等.Liu等人提出的利用图卷积神经网络建模视觉元素丰富的文档,首先通过OCR系统获得一组Text Blocks,每一个Text Block包含其在图像中与文本内容的坐标信息,将其构成一个完全连通的有向图,即每个Text Blocks构成一个节点,通过Bi-LSTM获取节点的初始特征,边的初始特征是相邻文本块与当前文本块之间的相对距离以及这两个文本块的长宽比。对“节点-边缘-节点”三元特征集进行卷积,实验表明,视觉信息发挥了主要作用,增加了文本识别相似语义的能力,对视觉信息也起到一定的辅助作用。

5e3a934da2b581a5b6b281099b17c53a.png

General-purpose multimodal pre-training with the transformer

文本块的空间关系通常包含丰富的语义信息。例如,在表格中本块通常以网格布局排列,标题通常出现在第一列或第一行。不同文档类型之间的布局不变性是通用预训练的一个关键属性。通过预训练与文本自然对齐的位置信息可以为下游任务提供更丰富的语义信息。对于视觉信息丰富的文档,其视觉信息如字体类型、大小、样式等明显的视觉差异,其可以通过视觉编码器提取出来,结合到预训练阶段,从而有效地改善下游任务。为了利用布局和视觉信息,2020年Xu提出通用文档预训练模型LayoutLM,在已有预训练模型的基础上,增加了2-Dposition embedding 和image embedding.首先根据OCR得到的文本边界框得到文本在文档中的坐标。将对应的坐标转换为虚坐标后,模型计算出x、y、w、h四个embedding sublayers对应的坐标表示,最终的二维位置嵌入是四个子层的embedding之和。在imageembedding 中,模型将每个文本对应的边框作为Faster R-CNN,提取相应的局部特征。特别是,由于[CLS]符号用于表示整个文档的语义,因此模型还使用整个文档的image作为image embedding以保持多模态对齐,Layout模型在三个下游任务,表单理解,票据理解,文档图像分类,都取得了显著的准确率提升。

LayoutLM的两个自监督预训练任务: Task1:Masked Visual-Language : 随机mask除了2D postionembedding,以及其他文本的text embdedding,让模型预测mask的  token. Task2:Multi-Label Document Classification: 在给定一组扫描文档的情况下,利用文档标签对训练前的过程进行监督,使模型能够对来自不同领域的知识进行聚类,生成更好的文档级表示.该模型的相关实验表明,利用布局和视觉信息的预训练可以有效地转移到下游任务中。

7991b5eb1a1643577ab0ab141cec1f29.png

af96c39351eceff34543af91120ed298.png小结a9a1292a3807358821f675b12046e159.png

除了这篇文章介绍的之外LayoutLM等经典模型,最近DocumentAI的研究工作中几个后起之秀也非常值得关注。例如LayouLM后出现的LayoutLMv2以及LayoutXML,将跨模态对齐的思路贯彻在模型训练的过程中。不仅仅利用文本和布局信息,将图像信息也融合到文档多模态的框架内。除此之外,跨模态文档理解模型ERINE-Layout,提出阅读顺序预测和细粒度图文匹配两个与训练任务,除了跨模态予以对齐能力外,增加了布局理解能力。我们可以看到,在预训练时代下,DocumentAI正在逐渐向“多模态文档理解”方向前进,从模态之间的对齐到预测,DocumentAI将会怎样找寻可以建模的更多元素,挖掘视觉与文本、布局之间的精细关系,变得更加值得期待了。

卖萌屋相关阅读:《别再搞纯文本了!多模文档理解更被时代需要!》

44207402bd79dcbbca414e76a52713f4.png萌屋作者:付奶茶

新媒体交叉学科在读Phd,卖萌屋十级粉丝修炼上任小编,目前深耕多模态,希望可以和大家一起认真科研,快乐生活!

作品推荐

  1. 在斯坦福,做 Manning 的 phd 要有多强?

  2. 史上最大多模态图文数据集发布!

597477808bd0d1122583336436be8338.png后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

7c2e0dc91149d29718f48482dbaa5017.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477747.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 991. 坏了的计算器(逆向思考)

1. 题目 在显示着数字的坏计算器上,我们可以执行以下两种操作: 双倍(Double):将显示屏上的数字乘 2;递减(Decrement):将显示屏上的数字减 1 。 最初,计算器…

Spring Cloud Alibaba基础教程:Sentinel使用Apollo存储规则

上一篇我们介绍了如何通过Nacos的配置功能来存储限流规则。Apollo是国内用户非常多的配置中心,所以,今天我们继续说说Spring Cloud Alibaba Sentinel中如何将流控规则存储在Apollo中。 使用Apollo存储限流规则 Sentinel自身就支持了多种不同的数据源来…

评测 | CCKS2022-面向数字商务的知识图谱比赛重磅上线,奖金等你来拿!

转载公众号 | 夕小瑶的卖萌屋CCKS 2022面向数字商务的知识图谱评测赛题介绍阿里巴巴商品数据规模庞大,商品知识图谱为海量异构的商品数据的组织、管理和利用提供了有效的方式。商品数据模态丰富,动态性高,数据存在噪声,这些都对商…

安利几个优质NLP开源项目!搜索、问答、情感分析…

自然语言处理技术在各行业有着广泛的应用,然而长久以来,其落地并不是一帆风顺的。针对这些棘手的问题,百度飞桨深耕产业界,选取NLP领域三大高频场景——检索、问答、情感分析,推出面向真实应用场景的系统功能&#xff…

Spring Cloud Alibaba基础教程:Sentinel使用Nacos存储规则

通过上一篇《使用Sentinel实现接口限流》的介绍,相信大家对Sentinel已经有了初步的认识。在Spring Cloud Alibaba的整合封装之下,接口限流这件事情可以非常轻易的整合到我们的Spring Cloud应用中。但是,通过上篇的整合,依然还不能…

LeetCode 539. 最小时间差(哈希)

1. 题目 给定一个 24 小时制(小时:分钟)的时间列表,找出列表中任意两个时间的最小时间差并已分钟数表示。 示例 1: 输入: ["23:59","00:00"] 输出: 1备注: 列表中时间数在 2~20000 之间。 每个时间取值在 0…

论文浅尝 | Seq2Seq 知识图谱补全与问答

笔记整理:李行,天津大学硕士论文题目:Sequence-to-Sequence Knowledge Graph Completion and Question Answering链接:https://arxiv.org/pdf/2203.10321.pdf动机知识图嵌入 (KGE) 模型用低维嵌入向量表示知识图 (KG) 的每个实体和…

刀功:谈推荐系统特征工程中的几个高级技巧

前言记得我入算法这一行的第一份工作面试的时候,最终的boss面的面试官是前微软工程院的副院长。面试进行得很顺利,不免向前院长卖弄一番,谈了谈我对算法的理解。我说算法工程师就好比厨师,模型是灶上功夫,而数据预处理…

Spring Cloud Alibaba基础教程:使用Sentinel实现接口限流

最近管点闲事浪费了不少时间,感谢网友libinwalan的留言提醒。及时纠正路线,继续跟大家一起学习Spring Cloud Alibaba。 Nacos作为注册中心和配置中心的基础教程,到这里先告一段落,后续与其他结合的内容等讲到的时候再一起拿出来说…

【报名开启】CCKS2022技术评测任务五“开放知识图谱问答”

转载公众号 | 图谱学苑CCKS2022评测任务五:开放知识图谱问答评测在线报名通道正式开启请通过扫描下方二维码或点击文末阅读原文填写报名信息欢迎大家踊跃报名参赛任务五:开放知识图谱问答任务描述:在互联网软硬件相关技术飞速发展的今天&…

年末回顾:2021年 AI 领域十大研究趋势及必读论文

编 | 小轶,Yimin_饭煲在本文中,我们将梳理近百篇的最新深度学习论文,以总结出“2021 年十大 AI 研究趋势”。AI 领域的论文可谓层出不穷。这篇文章或许能帮助你跟踪总体趋势和重要研究。下文中提及的部分工作可能并不发表于 2021 年&#xff…

LeetCode 445. 两数相加 II(链表大数加法)

1. 题目 给定两个非空链表来代表两个非负整数。数字最高位位于链表开始位置。它们的每个节点只存储单个数字。将这两数相加会返回一个新的链表。 你可以假设除了数字 0 之外,这两个数字都不会以零开头。 进阶: 如果输入链表不能修改该如何处理?换句话…

Spring Cloud Alibaba到底坑不坑?

之前我发过一篇《说说我为什么看好Spring Cloud Alibaba》,然后这两天有网友给我转了这篇文章《坑爹项目spring-cloud-alibaba,我们也来一个》,问我的看法是怎么样的,聊天时候简单说了一下。今天在家休息,抽空整理一下…

聚焦信息抽取前沿难题,CCKS-千言通用信息抽取竞赛报名启动

转载公众号 | 百度NLP信息抽取旨在将非结构化文本中的信息进行结构化,是自然语言处理的基础技术和重要研究领域,一直受到学术界和工业界广泛关注。传统的信息抽取任务与评测通常针对特定的文本领域和单一的抽取任务,难以评估相关技术与方法在…

我有文章了,但也不想搞学术了

文 | 微调源 | 知乎又到了年底,跟大家简单唠唠2021年的收获(和失去)。在2020年的总结文章里(阿调x2020:爱、学术、钱与系统[1]),我最大的困扰可能是读博一年多却没什么主要成果的痛苦。好消息是…

LeetCode 829. 连续整数求和(数学)

1. 题目 给定一个正整数 N,试求有多少组连续正整数满足所有数字之和为 N? 示例 1: 输入: 5 输出: 2 解释: 5 5 2 3,共有两组连续整数([5],[2,3])求和后为 5。示例 2: 输入: 9 输出: 3 解释: 9 9 4 5 2 3 4示例 3: 输入: 15 输出: 4 解释: 15…

说说我为什么看好Spring Cloud Alibaba

最近对《Spring Cloud Alibaba基础教程》系列的催更比较多,说一下最近的近况:因为打算Spring Boot 2.x一起更新。所以一直在改博客Spring Boot专题页和Git仓库的组织。由于前端技术太过蹩脚,花了不少时间。大家不用担心,这个系列不…

【报名开启】CCKS2022技术评测任务七“化学元素知识图谱构建及应用”

任务描述:随着AI技术的发展和普及,药物研发也逐渐进入到AI时代,擅长处理大数据的AI深度学习技术,就成为近年来大家关注的焦点。化合物的性质预测的主要目的在于及时发现理化性质不达标的化合物,以降低候选化合物进入临…

LeetCode 12/13 罗马数字与整型互转(哈希,贪心)

文章目录1. 罗马数字转整型解题2. 整数转罗马数字解题1. 罗马数字转整型 罗马数字包含以下七种字符: I, V, X, L,C,D 和 M。字符 数值 I 1 V 5 X 10 L 50 …

Facebook 推出多模态通用模型 FLAVA,吊打 CLIP 平均十个点!

文 | 子龙编 | 智商掉了一地厉害了!作者将单一模型运用于三个不同领域的不同任务,结构简单且训练直观,还能有着出色的表现。自Transformer横空出世,从NLP到CV,再到今天的多模态,无数基于Transformer的模型被…