SPTS Single-Point Text Spotting
ABSTRACT
- 现有的场景文本识别(即,端到端文本检测和识别)方法依赖于昂贵的边界框注释(例如,文本行,词级或字符级边界框)。我们首次证明,训练场景文本识别模型可以通过对每个实例的单点进行极低成本的标注来实现。我们提出了一种端到端的场景文本识别方法,将场景文本识别作为一个序列预测任务来处理。给定图像作为输入,我们将所需的检测和识别结果表述为离散令牌序列,并使用自回归 Transformer 来预测序列。该方法简单有效,可在广泛使用的基准测试中获得最先进的结果。最重要的是,我们证明了性能对点注释的位置不是很敏感,这意味着它比需要精确位置的边界框更容易被注释甚至自动生成。我们相信,这种开创性的尝试表明,场景文本识别应用的规模比以前可能的要大得多。代码可在https://github.com/shannanyinxiang/SPTS上获得。
- Accepted by ACM MM 2022 论文地址:[2112.07917] SPTS: Single-Point Text Spotting (arxiv.org)
- 文本由于采用的基于单点标注来完成端到端任务可预见的会使得训练消耗很大的计算资源以及推理速度较慢等,如何能保证减轻数据集标注压力的同时获得很好的推理速度以及较少的资源消耗可能是一个值得深入的问题。
INTRODUCTION
- 在过去的几十年里,人们见证了现代光学字符识别(OCR)算法能够从复杂场景的图片中读取文本内容,这是一个令人难以置信的发展,引起了学术界和工业界的极大兴趣。现有方法的局限性,特别是它们在任意形状的场景文本上较差的性能,已经被反复发现。这可以从曲线形状、各种字体、扭曲等情况下的糟糕预测趋势中看出。
- 近年来,OCR界的研究重点从水平文本和多方向文本向任意形状文本发展,标注格式从水平矩形到四边形,再到多边形。规则边界框容易涉及噪声的事实在以往的工作中已经得到了很好的研究(见下图),证明了字符级和多边形标注可以有效提升模型的性能。
-
LabelMe工具测量了不同的注释样式及其时间成本(对于示例图像中的所有文本实例)。绿色区域是阳性样本,而红色虚线框是可能包含的噪声。单点注释的时间成本比字符级注释快50倍以上。
- 此外,人们已经做出了许多努力来开发更复杂的表示,以适应任意形状的文本实例(见下图)。例如,text Dragon利用字符级边界框来生成中心线,从而能够预测局部几何属性,ABCNet将多边形注释转换为贝塞尔曲线,以表示弯曲的文本实例。Text Snake 通过一系列以对称轴为中心的有序磁盘来描述文本实例。然而,这些新颖的表示主要是由专家基于先验知识精心设计的,严重依赖于高度定制的网络架构(例如,指定的感兴趣区域(RoI)模块),并且消耗更昂贵的注释(例如,字符级注释),限制了它们在实际应用中的泛化能力。
-
Some recent representations of text instances.
- 为了降低数据标注的成本,一些研究人员探索了用弱监督的方式训练粗糙标注的OCR模型。这些方法主要可以分为两类,即(1)将标签引导到更细的粒度;(2)使用部分标注进行训练。前者通常从字或行级注释派生字符级标签;因此,这些模型可以在不引入间接成本的情况下享受众所周知的特征级监督的优势。后者致力于用更少的训练样本获得有竞争力的表现。然而,这两种方法仍然依赖于昂贵的边界框注释。
- 阻止用更简单的注释格式(如单点注释)替换边界框的一个潜在问题是,大多数文本观测者依赖于类似 roi 的采样策略来提取共享的主干特征。例如,Mask Text Spotter需要在RoI内进行掩码预测;ABCNet提出BezeirAlign, TextDragon引入RoISlide统一检测和识别头。在本文中,受最近基于序列的目标检测器Pix2Seq的成功启发,我们证明了文本观测者可以用单点(也称为指示点)进行训练(见上图e)。由于这种简洁的标注形式,可以显著节省标注时间,例如,对于上图所示的样本图像,与标注字符级边界框相比,标注单点只需要不到五十分之一的时间,特别是对于小而模糊的文本实例来说,这是非常曲折的。选择点标注的另一个激励因素是可以开发一个干净高效的OCR管道,抛弃复杂的后处理模块和采样策略;因此,roi引入的模糊性(见图中红色虚线区域)可以得到缓解。据我们所知,这是OCR社区中第一次尝试将边界框简化为单点监督信号。本工作的主要贡献总结如下:
- 我们首次证明了文本观测者可以通过简单而有效的单点表示进行监督。这种简单的标注范例可以大大降低标注成本,使将来访问大规模OCR数据成为可能。
- 我们提出了一种新的基于transformer的场景文本识别器,将文本识别作为一种语言建模任务。给定一个输入图像,我们的方法预测一个包含检测和识别结果的离散标记序列。得益于这种简洁的流水线,基于先验知识设计的复杂后处理和采样策略可以被丢弃,在灵活性和通用性方面显示出巨大的潜力。
- 为了评估所提出方法的有效性,我们在四个广泛使用的OCR数据集上进行了大量的实验和实验,即ICDAR 2013、ICDAR 2015、Total-Text和SCUT-CTW1500,包括水平文本和任意形状的文本。结果表明,与现有方法相比,所提出的SPTS可以达到最先进的性能。
Related Work
- 在过去的几十年里,人们提出了使用不同标注风格的各种场景文本数据集,重点关注各种场景,包括矩形描述的水平文本(图1a),以四边形表示的多方向文本(图1b),以及多边形标记的任意形状文本(图1d)。这些形式的注释促进了相应OCR算法的发展。例如,早期的工作通常使通用目标检测器适应场景文本识别,其中通过RoI模块在检测头和识别头之间共享特征映射。这些方法遵循为通用对象检测设计的采样机制,并利用矩形来表示文本实例,因此在非水平目标上表现较差。后来,一些方法通过修改规则区域建议网络(RPN),将矩形包围框替换为四边形,生成定向建议,使多定向文本的性能更好。近年来,随着曲面场景文本数据集的出现,OCR界的研究兴趣转向了更具挑战性的任意形状文本。
- 一般来说,解决任意形状文本识别任务有两种被广泛采用的解决方案,即基于分割的方法[Mask TextSpotter v3,MANGO,Towards unconstrained end-to-end text spotting,PAN++]和基于回归的方法[TextDragon,ABCNet,All You Need Is Boundary: Toward Arbitrary-Shaped Text Spotting]。前者首先预测掩码来分割文本实例,然后对文本区域内的特征进行采样和分组,以便进一步识别。例如,Mask TextSpotterv3提出了一种分割建议网络(Segmentation Proposal Network, SPN)来代替常规的RPN来准确地解耦相邻的文本实例,从而显著提高了性能。此外,基于回归的方法通常将文本实例参数化为一系列坐标,然后学习预测它们。例如,ABCNet将多边形转换为Bezier曲线,显著提高了对弯曲场景文本的处理性能。Wang等首先对文本实例的边界点进行定位,然后将Thin-Plate-Spline校正后的特征输入到识别分支中,在任意形状的实例上显示出良好的准确率。此外,Xing等人通过使用字符级注释来提高文本识别性能,其中字符边界框和类型分割图同时被预测,从而实现了令人印象深刻的性能。尽管上述方法采用了不同的表示来描述文本实例,但它们实际上都是从矩形、四边形或多边形边界框中的一个派生出来的。这种标注必须由人类仔细标记,因此成本相当高,限制了训练数据集的规模。
- 在本文中,我们提出了单点文本识别(SPTS),据我们所知,这是第一个完全不依赖于边界框注释的场景文本识别器。具体来说,每个文本实例都由一个单点表示(见图e),成本很低。这个点不需要精确标记的事实进一步证明了以弱监督方式学习的可能性,大大降低了标记成本。
METHODOLOGY
- 尽管整个网络可能是端到端的优化,但大多数现有的文本识别算法将问题视为两个子任务,即文本检测和识别。自定义模块如BezierAlign , RoISlide和roimask需要桥接检测和识别模块,其中主干特征被裁剪并在检测和识别头之间共享。在这种类型的设计下,识别和检测模块是高度耦合的。例如,由于第一次迭代的检测结果不够好,通常在训练阶段从ground-truth bounding box中裁剪特征馈送到识别头;因此,识别结果在测试阶段容易受到检测到的边界框的干扰。
- 最近,Pix2Seq率先将通用对象检测问题作为语言建模任务,基于一个直观的假设,即如果深度模型知道目标是什么和在哪里,则可以教它通过所需的序列来告诉结果。由于简洁的管道,具有不同属性(如位置坐标和对象类别)的标签可以集成到单个序列中,从而实现端到端的可训练框架,而不需要特定于任务的模块(例如,区域提案网络和RoI池层),因此可以适应文本定位任务。受此启发,我们提出了单点文本识别(SPTS)。与Pix2Seq不同,Pix2Seq仅用于对象检测,并且仍然需要所有实例的边界框,我们的SPTS将文本检测和识别作为端到端序列预测任务来处理,使用单点位置和文本注释。与现有的文本识别方法相比,SPTS采用了一种更加简单和简洁的管道,将输入的图像转换成包含位置和识别结果的序列,真正实现了文本检测和识别任务的同时进行。
- 具体而言,如下图所示,每个输入图像首先由CNN和Transformer编码器进行顺序编码,以提取视觉和上下文特征。然后,捕获的特征由Transformer解码器解码,其中标记以自动回归的方式进行预测。与以前的算法不同,我们进一步将边界框简化为文本实例的中心,位于第一个字符左上角的角点,或者文本实例中的随机点,如图所示。得益于这种简单而有效的表示,可以避免基于先验知识精心设计的模块,例如基于分割的方法中使用的分组策略和基于框的文本定位器中配备的特征采样块。因此,识别精度不会受到检测结果差的限制,显著提高了模型的鲁棒性。
-
拟议的特别防范措施的整体框架。视觉和上下文特征首先由一系列CNN和Transformer编码器提取。然后,特征被自动回归解码成包含定位和识别信息的序列,该序列随后被翻译成点坐标和文本转录。训练只需要一个点级别的注释。
Sequence Construction
- 序列可以携带具有多个属性的信息,这一事实自然支持文本定位任务,其中文本实例可以同时进行本地化和识别。为了用序列表示目标文本实例,需要将连续描述(例如,边界框)转换为离散空间。为此,如下图所示,我们按照Pix2Seq构建目标序列;我们的方法的不同之处在于,我们进一步将边界框简化为单点,并使用变长转录而不是单标记对象类别。
-
Pipeline of the sequence construction.
- 具体来说,文本实例中心点的连续坐标在 [ 1 , n b n s ] [1,n_{bns}] [1,nbns] 之间统一离散为整数,其中 n b n s n_{bns} nbns 控制离散程度。例如,长边为800像素的图像,只需要 n b n s = 800 n_{bns}= 800 nbns=800 就可以实现零量化误差。请注意,文本实例的中心点是通过取上中点和下中点的平均值得到的,如图a所示。
-
不同位置的指示点(红色)。
- 到目前为止,文本实例可以用三个部分组成的序列来表示,即[x,y,t],其中(x,y)是离散坐标,𝑡 是转录文本。值得注意的是,转录本质上是离散的,即每个字符代表一个类别,因此可以很容易地附加到序列中。但是,与具有相对固定词汇表的通用对象检测不同(每个𝑡代表一个对象类别,例如行人),𝑡可以是我们任务中任意长度的任何自然语言文本,从而导致目标序列的长度可变,这可能进一步导致不对齐问题,并可能消耗更多的计算资源。为了消除此类问题,我们将文本填充或截断为固定长度𝑙𝑡𝑟,其中< pad >令牌用于填补较短文本实例的空缺。此外,与其他语言建模方法一样,将和令牌插入到序列的头部和尾部,分别表示序列的开始和结束。
- 因此,给定一个包含 n t i n_{ti} nti 文本实例的图像,构建的序列将包括 ( 2 + l t r ) × n t i (2 +l_{tr})×n_{ti} (2+ltr)×nti 离散令牌,其中文本实例将随机排序,遵循之前的工作。假设有 n c l s n_{cls} ncls 个字符类别(例如,97个英文字符和符号),用于标记序列的字典的词汇表大小可以计算为 n b n s + n c l s + 3 n_{bns}+n_{cls}+3 nbns+ncls+3 ,其中额外的三个类别用于, 和标记。经验上,我们在实验中将 l t r l_{tr} ltr 和 n b n s n_{bns} nbns 分别设置为25和1000。并且,将 n t i n_{ti} nti 的最大值设置为60,这意味着包含超过60个文本实例的序列将被截断。
Model Training
-
根据所构建的序列,Transformer 解码器的输入输出序列如下图所示。由于训练SPTS是为了预测令牌,所以只需要在训练时最大化似然损失,可以写成:
-
m a x i m i z e ∑ i = 1 L w i l o g P ( s ˉ ∣ I , s 1 : i ) , ( 1 ) maximize\sum_{i=1}^Lw_ilogP(\bar s|I,s_{1:i}),(1) maximizei=1∑LwilogP(sˉ∣I,s1:i),(1)
-
-
其中 I 是输入图像, s ˉ \bar s sˉ 是输出序列,s是输入序列,𝐿是序列的长度, w i w_i wi 是𝑖-th标记的可能性的权重,它被经验地设置为1。
-
解码器的输入和输出序列。
Inference
- 在推理阶段,SPTS自动回归预测令牌,直到序列令牌结束。预测的序列随后将被分成多个片段,每个片段包含2 +𝑙𝑡𝑟标记。然后,可以很容易地将标记转换为点坐标和转录,从而产生文本定位结果。此外,对相应段中所有令牌的可能性进行平均并分配为置信度分数以过滤原始输出,从而有效地消除冗余和假阳性预测。
EXPERIMENTS
- 我们报告了四个广泛使用的基准测试的实验结果,包括水平数据集ICDAR 2013、多方向数据集ICDAR 2015和任意形状数据集TotalText和SCUT-CTW1500。
Datasets
- 曲线合成数据集150k。通过对合成样本进行预训练,可以提高文本识别器的性能。根据之前的工作,我们使用由SynthText工具箱生成的150k合成图像,其中包含大约三分之一的弯曲文本和三分之二的水平实例。
- ICDAR 2013包含229个训练样本和233个测试样本,而图像主要是在受控环境中捕获的,其中感兴趣的文本内容明确地集中在水平方向。
- ICDAR 2015由偶然捕获的1000张训练图像和500张测试图像组成,其中包含在模糊、扭曲等变化强烈的复杂背景下呈现的多方向文本实例。
- Total-Text 包括1255张训练图像和300张测试图像,每张图像中至少有一个曲线样本,并在词级上用多边形边界框进行标注。
- SCUT-CTW1500 是另一个广泛使用的基准,用于识别任意形状的场景文本,分别涉及1,000和500张图像进行训练和测试。文本实例在文本行级别由多边形标记。
Evaluation Protocol
-
现有的文本定位任务评估协议包括两个步骤。首先,计算ground-truth (GT)与detection box之间的交集over union (IoU)分数;只有当IoU分数大于指定的阈值(通常设置为0.5)时,方框才匹配。然后,将每个匹配的边界框内的识别内容与GT转录进行比较;只有当预测文本与GT相同时,它才会有助于端到端准确性。然而,在该方法中,每个文本实例都由一个单点表示;因此,基于IoU的评估度量不能用于度量性能。同时,比较基于边界盒的方法和基于点的SPTS的定位性能可能是不公平的,例如,直接将边界盒内的点视为真阳性可能会高估检测性能。为此,我们提出了一个新的评估指标,以确保与现有方法进行相对公平的比较,该指标主要考虑端到端准确性,因为它反映了检测和识别性能(故障检测通常会导致错误的识别结果)。具体如下图所示,我们修改了文本实例匹配规则,将IoU度量替换为距离度量,即选择与GT盒中心点距离最近的预测点,并使用与现有基准测试相同的全匹配规则测量识别结果。只有一个置信度最高的预测点与基本GT相匹配;其他的则被标记为假阳性。
-
基于点的评估度量的说明。菱形是预测的点,圆圈代表 ground-truth。
-
为了探索所提出的评估协议是否能够真实地代表模型的精度,下表比较了ABCNetv1和ABCNetv2在Total-Text和SCUT-CTW1500上的端到端识别精度,即常用的基于IoU的边界框度量和所提出的基于点的度量。结果表明,基于点的评价方案可以很好地反映性能,其中基于盒的评价值与基于点的评价值之间的差异不超过0.5%。例如,在两个指标下,ABCNetv1模型在SCUTCTW1500数据集上分别获得了53.5%和53.0%的分数。因此,在接下来的实验中,我们使用基于点的度量来评估所提出的SPTS。
-
基于点的度量和基于盒的度量评估端到端识别性能的比较。使用官方代码复制结果。
Implemented Details
- 该模型首先在包含Curved Synthetic dataset 150k、MLT-2017、ICDAR 2013、ICDAR 2015和Total-Text的组合数据集上进行150 epoch的预训练,由AdamW进行优化,初始学习率为5 × 10−4,学习率线性衰减为1 × 10−5。预训练后,模型在每个目标数据集的训练分割上再进行200次微调,固定学习率为1 × 10−5。整个模型在32个NVIDIA V100 gpu上进行分布式训练,批处理大小为32个。注意,有效批大小为64,因为在一个小批中对每个图像执行两个独立的增强,如下[Pix2Seq,Augment your batch: Improving generalization through instance repetition]。
- 此外,我们采用ResNet-50作为骨干网络,而Transformer编码器和解码器都由6层8头组成。关于Transformer的架构,我们采用了Pre-LN Transformer。在训练过程中,输入图像的短尺寸随机调整为640到896(间隔为32)的范围,同时保持长侧小于1600像素。采用随机裁剪和旋转进行数据增强。在推理阶段,我们按照之前的工作,将短边的大小调整为1000,同时保持长边的长度小于1824像素。
Ablation Study
-
指征点位置的消融研究。在本文中,我们提出将边界框简化为一个单点。直观地说,边界框所包围区域中的所有点都应该能够表示目标文本实例。为了探讨差异,我们进行了消融研究,使用三种不同的策略获得指示点,即通过平均上下中点获得的中心点,左上角和盒子内的随机点。值得注意的是,我们在这里使用相应的ground-truth来计算距离矩阵来评估性能,即左上角使用到ground-truth左上角点的距离,中央使用到ground-truth中心点的距离,随机使用到ground-truth多边形的最近距离。结果如下表所示,其中中央、左上角和随机的结果在两个数据集上都很接近。这表明,性能对点注释的位置不太敏感。
-
指征点位置的消融研究。
-
不同表示之间的比较。在序列构建过程中,通过将点坐标修改为边界框的位置,可以很容易地将SPTS扩展到生成边界框。在这里,我们通过使用文本实例的不同表示来探索影响。具体来说,研究了三种变体,包括贝塞尔曲线边界框(SPTS-Bezier)、矩形边界框(SPTSRect)和指示点(SPTS-point)。由于我们在这里只关注端到端性能,为了尽量减少检测结果的影响,每种方法都使用相应的表示来匹配评估中的GT框。也就是说,单点模型(原始SPTS)使用第3.2节介绍的评估指标,即点之间的距离;SPTS-Rect的预测与多边形标注的限定矩形匹配;SPTS-Bezier采用匹配多边形框的原始度量。
-
如下表所示,spts点在Total-Text和SCUT-CTW1500数据集上都获得了最佳性能,大大优于其他两种表示。这样的实验结果表明,一个低成本的标注,即指示点,能够为文本标记任务提供监督。SPTS-Bezier和SPTS-Rect性能较低的原因可能是较长的序列(例如,具有二进制操作的SPTS-Bezier n p = 16 n_p= 16 np=16 vs.二进制操作的SPTS-Bezier n p = 2 n_p=2 np=2)。SPTS-Point的存在使它们难以收敛;因此,在相同的训练计划下,SPTS-Bezier和SPTS-Rect不能达到相当的精度。
-
对比不同形状的边界框。通过不同的表示来描述文本实例的位置所需的参数数。
Comparison with Existing Methods on Scene Text Benchmarks
-
Horizontal-Text数据集。下表将提出的SPTS与广泛使用的 ICDAR 2013基准上的现有方法进行了比较。我们的方法对所有三个词汇都实现了最先进的结果。值得注意的是,所提出的SPTS仅使用单点进行训练,而其他方法则使用更昂贵的边界框进行全面训练。
-
ICDAR 2013的端到端识别结果。“S”、“W”和“G”分别代表对“Strong”、“Weak”和“Generic”词汇的识别。强词典、弱词典和通用词典分别意味着每个图像包含100个单词的小词典、一个包含整个测试集中所有单词的词典和一个大词典。
-
笔迹的数据集。ICDAR 2015数据集的定量结果如下表所示。所提出的SPTS和最先进的方法之间仍然存在性能差距,这表明我们的方法在ICDAR 2015数据集中经常出现的小文本中存在一些局限性。由于序列是直接从整个图像的特征中解码出来的,没有专门的RoI操作,所以我们的方法很难处理微小的文本。
-
2015年ICDAR的端到端识别结果。“S”、“W”和“G”分别代表对“Strong”、“Weak”和“Generic”词汇的识别。
-
任意形状的数据集。我们进一步将我们的方法与包含任意形状文本的现有基准方法进行比较,包括Total-Text和SCUT-CTW1500。如下表所示,SPTS仅使用极低成本的点注释就能实现最先进的性能。
-
全文本端到端识别结果。“None”表示没有词典。“Full”表示我们使用测试集中出现的所有单词。
-
此外,下表显示,在具有挑战性的SCUT-CTW1500数据集上,我们的方法在很大程度上优于最先进的方法,这进一步确定了我们方法的潜力。
-
SCUT-CTW1500端到端识别结果。“None”表示没有词典。“Full”表示我们使用测试集中出现的所有单词。ABCNet*意味着使用github检查点 https://github.com/aim-uofa/AdelaiDet/blob/master/configs/BAText/README.md。
-
总之,在几个广泛使用的基准测试中,与以前的文本定位器相比,所提出的SPTS可以实现最先进的性能。特别是在Total-Text和SCUT-CTW1500这两个曲线数据集上,所提出的SPTS比最近提出的一些方法的性能要好得多。我们的方法能够在任意形状的文本上获得更好的准确率的原因可能是:(1)所提出的SPTS抛弃了基于先验知识设计的特定任务模块(如RoI模块);因此,识别精度与检测结果解耦,即即使检测位置发生移位,SPTS也能获得可接受的识别结果。然而,其他方法的识别头部严重依赖于检测结果,这是其端到端精度较差的主要原因。一旦文本实例不能完全定位,它们的识别头就无法工作。(2)虽然以前的模型是端到端训练的,但它们的检测和识别分支之间的交互是有限的。具体来说,输入到识别模块的特征是在训练时基于真实位置采样,而不是在推理阶段从检测结果中采样,导致特征不对齐,这在弯曲文本实例中要严重得多。然而,通过以序列建模的方式处理定位任务,所提出的SPTS消除了这些问题,从而在任意形状的数据集上表现出更强的鲁棒性。SPTS在四个测试数据集上的可视化结果如下图所示。
-
定性结果对场景文本基准。图片选自Total-Text(第一行)、SCUT-CTW1500(第二行)、ICDAR 2013(第三行)和ICDAR 2015(第四行)。放大以获得最佳视角。
Extensions of SPTS
-
无点文本定位。实验表明,检测和识别可能已经解耦。在此基础上,我们进一步证明了即使没有单点注释的监督,SPTS也可以收敛。通过从构建的序列中去除指示点的坐标,得到无点文本定位(NPTS)模型。下图显示了NPTS的定性结果,这表明模型可能已经学会了仅仅基于转录就隐式地找出文本位置的能力。
-
NPTS模型在几个场景文本基准上的定性结果。图像选自Total-Text(第一行)、SCUTCTW1500(第二行)、ICDAR 2013(第三行)和ICDAR 2015(第四行)。放大以获得最佳视角。
-
SPTS和NPTS模型的端到端识别结果对比如下表所示。第3.2节中描述的评估指标适用于NPTS,其中预测点和GT点之间的距离矩阵被预测和GT转录之间的编辑距离矩阵所取代。尽管SPTS与NPTS之间存在明显的差距,但NPTS取得的初步成果仍然令人惊讶和非常鼓舞人心,值得今后进一步研究。
-
SPTS和NPTS模型端到端识别结果的比较。
-
单点目标检测。为了证明SPTS的通用性,我们在Pascal VOC目标检测任务上进行了实验,其中模型使用中心点和相应的类别进行训练。所有其他设置都与文本定位实验相同。验证集上的一些初步定性结果如下图所示。结果表明,单点注释可以为一般目标检测提供极低成本的注释。
-
在单点监督下,Pascal VOC 2012验证集的定性目标检测结果。
LIMITATION
- 该框架的一个限制是训练过程需要大量的计算资源。例如,当使用32张NVIDIA V100 GPU卡对模型进行分布式训练时,160k场景文本预训练的150次epoch和微调的200次epoch大约需要63小时。此外,由于采用自回归解码方式,在使用一个NVIDIA V100 GPU的ICDAR 2013上,推理速度仅为1.0 fps。
- SPTS的另一个限制是它不能很好地处理极小文本点,因为SPTS的特征表示能力不能达到提取有效极小文本特征的高分辨率。这个问题值得今后进一步研究。
CONCLUSION
- 我们提出SPTS,据我们所知,这是一种开创性的方法,它只使用极低成本的单点标注来处理场景文本识别。这一成功的尝试揭示了一些全新的见解,挑战了该领域传统的方框注释的必要性。SPTS是一个基于自回归Transformer的框架,它可以简单地将结果生成为顺序令牌,从而可以避免复杂的后处理或单独的采样阶段。基于这样一个简洁的框架,大量的实验证明了SPTS在各种数据集上的最新性能。我们进一步表明,我们的方法具有扩展到无点文本识别和通用目标检测任务的潜力。
Appendix
A TINY TEXT SPOTTING
- 正如第3.5.2节和第4节所讨论的,所提出的SPTS不能准确识别微小文本,因为它直接基于低分辨率的高级特征来预测序列,没有RoI操作。特别是在ICDAR 2015数据集上,我们的方法和最先进的方法之间仍然存在性能差距(65.8 vs. 74.2)。定量地,如果在评估时忽略面积小于3000(调整大小后)的文本,ICDAR 2015上通用词汇的F-measure将从65.8显著提高到73.5。此外,目前ICDAR 2015上最先进的方法通常在测试过程中采用更大的图像尺寸。例如,在Mask TextSpotterV3中,测试图像的短边被调整为1440像素,而长边则小于4000像素。如下表所示,较大测试规模下的SPTS在ICDAR 2015上的表现要比较小测试规模下的要好得多,说明微小文本识别是未来值得研究的重要问题。
-
2015年ICDAR的端到端识别结果。“S”、“W”和“G”分别代表对“Strong”、“Weak”和“Generic”词汇的识别。粗体表示最先进的技术,下划线表示次好。
B ORDER OF TEXT INSTANCES
- 如2.1节所述,文本实例按照 Pix2Seq 构建的序列随机排序。在本节中,我们将进一步研究文本实例顺序的影响。不同排序策略在Total-Text和SCUT-CTW1500上的性能如下表所示。“Area”和“Dist2ori”表示文本实例分别按面积和到最左边原点的距离降序排序。“Top-down”表示文本实例从上到下排列。可以看出,SPTS采用的随机顺序获得了最好的性能,这可能是由于在不同的迭代中对同一幅图像构建了不同的序列,从而提高了鲁棒性。
-
序列构建中文本实例不同排序策略的消蚀研究。
C FURTHER DISCUSSION ON THE REPRESENTATION OF TEXT INSTANCES
- 在第3.4.2节中,消融实验表明,用于描述文本实例位置的参数较少的spts-point优于SPST-Rect和SPTS-Bezier。SPTS-Rect和SPTS-Bezier所需的较长的序列可能使它们难以收敛。在表3中,使用与SPTS-Point相同的训练计划,得到SPTS-Rect和SPTSBezier的结果。为了进一步探索它们的潜力,我们将2× epoch的SPTS-Bezier训练与下表中的SPTS-Point进行了比较。通常,由于更详细的注释,SPTS-Bezier应该比SPTS-Point执行得更好。然而,可以看出,2× epoch的SPTSBezier并没有明显优于1× epoch的SPTSBezier,仍然不如1× epoch的SPTS-Point。原因可能是 Transformer 与更长的解码序列的收敛难度急剧增加。可能需要更多的训练数据和 epoch 来解决这个问题。
-
进一步比较文本实例的不同表示。