LayoutLMv1

近年来,预训练技术在各种NLP任务中得到了成功的验证。尽管NLP应用程序广泛使用预训练模型,但它们几乎只关注文本级操作,而忽略了对文档图像理解至关重要的布局和样式信息。在本文中,我们提出了LayoutLM来联合建模文本和布局信息在扫描文档图像之间的交互,这有利于大量的现实世界的文档图像理解任务,如从扫描文档中提取信息。此外,我们还利用图像特征将单词的视觉信息合并到LayoutLM中。据我们所知,这是第一次在文档级预训练的单一框架中共同学习文本和布局。它在几个下游任务中实现了新的最先进的结果,包括表单理解(从70.72到79.27)、收据理解(从94.02到95.24)和文档图像分类

•信息系统→商业智能;•计算方法→信息提取;转让学习;•应用计算→文档分析。

1 INTRODUCTION

文档AI或文档智能是一个相对较新的研究主题,涉及自动阅读、理解和分析业务文档的技术。业务文档是提供与公司内部和外部事务相关的详细信息的文件,如图1所示。它们可能是数字化的,以电子文件的形式出现,也可能是书面或印刷在纸上的扫描形式。商业文档的一些常见示例包括采购订单、财务报告、商业电子邮件、销售协议、供应商合同、信件、发票、收据、简历等等。商业文件对公司的效率和生产力至关重要。业务文档的确切格式可能会有所不同,但信息通常以自然语言表示,并且可以以各种方式组织,从纯文本、多列布局到各种表格/表单/图形。由于布局和格式的多样性,扫描文档图像的质量差以及模板结构的复杂性,理解商业文档是一项非常具有挑战性的任务。

如今,许多公司通过手工从业务文档中提取数据,这既耗时又昂贵,同时还需要手工定制或配置。每种类型文档的规则和工作流通常都需要硬编码,并在更改特定格式或处理多种格式时进行更新。为了解决这些问题,文档人工智能模型和算法被设计为自动分类、提取和结构化业务文档中的信息,加速自动化文档处理工作流。当代的文档人工智能方法通常建立在深度神经网络上,从计算机视觉的角度或自然语言处理的角度,或两者的结合。早期的尝试通常集中在检测和分析文档的某些部分,例如表格区域。[7]首先提出了一种基于卷积神经网络(CNN)的PDF文档表检测方法。之后[21,24,29]还利用了更先进的Faster R-CNN模型[19]或Mask R-CNN模型[9],进一步提高了文档布局分析的准确性。此外,[28]提出了一个端到端、多模态、全卷积网络,利用预训练的NLP模型中的文本嵌入,从文档图像中提取语义结构。最近,[15]引入了一种基于图卷积网络(GCN)的模型,将文本信息和视觉信息结合起来,从商业文档中提取信息。尽管这些模型在深度神经网络的文档人工智能领域取得了重大进展,但这些方法大多面临两个局限性:(1)它们依赖于少数人类标记的训练样本,而没有充分探索使用大规模无标记训练样本的可能性。(2)他们通常利用预训练的CV模型或NLP模型,但不考虑文本和布局信息的联合训练。因此,研究文本和布局的自我监督预训练如何在文档人工智能领域有所帮助是很重要的。

为此,我们提出了LayoutLM,一种简单而有效的文本和布局预训练方法,用于文档图像理解任务。受BERT模型[4]的启发,输入文本信息主要由文本嵌入和位置嵌入表示,LayoutLM进一步增加了两种类型的输入嵌入:(1)二维位置嵌入,表示标记在文档中的相对位置;(2)在文档中嵌入扫描的令牌图像。LayoutLM的体系结构如图2所示。我们添加这两种输入嵌入是因为二维位置嵌入可以捕获文档中标记之间的关系,同时图像嵌入可以捕获一些外观特征,如字体方向、类型和颜色。此外,我们采用了LayoutLM的多任务学习目标,包括掩膜视觉语言模型(MVLM)损失和多标签文档分类(MDC)损失,这进一步加强了文本和布局的联合预训练。在这项工作中,我们的重点是基于扫描文档图像的文档预训练,而数字生成的文档挑战性较小,因为它们可以被认为是不需要OCR的特殊情况,因此不在本文的范围之内。具体来说,LayoutLM是在IIT-CDIP测试集1.02[14]上进行预训练的,该测试集包含超过600万个扫描文档和1100万个扫描文档图像。扫描的文件种类繁多,包括信件、备忘录、电子邮件、文件夹、表格、手写、发票、广告、预算、新闻文章、演示文稿、科学出版物、问卷调查、简历、科学报告、说明书等,是大规模自我监督预培训的理想选择。我们选择三个基准数据集作为下游任务来评估预训练的LayoutLM模型的性能。首先是用于空间布局分析和形式理解的fundd dataset3[10]。第二个是用于扫描收据信息提取的SROIE数据。第三种是用于文档图像分类的RVL-CDIP数据集5[8],由16类40万张灰度图像组成。实验表明,在这些基准数据集上,预训练的LayoutLM模型显著优于几种SOTA预训练模型,证明了在文档图像理解任务中对文本和布局信息进行预训练的巨大优势。

本文的贡献总结如下:

•首次在单一框架中对扫描文档图像中的文本和布局信息进行预训练。图像功能也被用来实现新的最先进的结果。
•LayoutLM使用遮罩视觉语言模型和多标签文档分类作为训练目标,在文档图像理解任务中显著优于几种SOTA预训练模型。
•代码和预训练模型可在https://aka.ms/layoutlm公开获取更多下游任务。

2 LAYOUTLM

在本节中,我们将简要回顾BERT模型,并介绍如何在LAYOUTLM框架中扩展以联合建模文本和布局信息。

图1:不同布局和格式的业务文档扫描图像


图2:flayoutlm的示例,其中二维布局和图像嵌入集成到原始BERT架构中。LayoutLM嵌入和Faster R-CNN的图像嵌入一起完成下游任务。

2.1 BERT模型

BERT模型是一种基于注意力的双向语言建模方法。实验证明,BERT模型能够有效地从具有大规模训练数据的自监督任务中转移知识。BERT的架构基本上是一个多层双向变压器编码器。它接受一系列令牌并堆叠多层以生成最终表示。详细地说,给定一组使用wordpiece处理的标记,输入嵌入通过将相应的词嵌入、位置嵌入和段嵌入相加来计算。然后,这些输入嵌入通过多层双向Transformer传递,该Transformer可以通过自适应注意机制生成上下文化表示。在BERT框架中有两个步骤:预训练和微调。在预训练过程中,模型使用两个目标来学习语言表示:掩模语言建模(mask language Modeling, MLM)和下一个句子预测(Next Sentence Prediction, NSP),其中MLM随机屏蔽一些输入标记,目标是恢复这些被屏蔽的标记,NSP是一个以一对句子作为输入并分类它们是否为两个连续句子的二元分类任务。在微调中,使用特定于任务的数据集以端到端方式更新所有参数。BERT模型已成功应用于一组NLP任务中。

2.2 The LayoutLM Model

尽管类bert模型在一些具有挑战性的NLP任务中成为了最先进的技术,但它们通常只对任何类型的输入利用文本信息。当涉及到视觉丰富的文档时,有更多的信息可以编码到预训练的模型中。因此,我们建议利用文档布局中视觉上丰富的信息,并将它们与输入文本对齐。基本上,有两种类型的特性可以大大改善视觉丰富的文档中的语言表示,它们是:

文档布局信息。很明显,单词在文档中的相对位置对语义表示有很大的影响。以表单理解为例,给定表单中的一个键(例如,“Passport ID:”),其对应的值更可能在其右侧或下方,而不是在左侧或上方。因此,我们可以将这些相对位置信息嵌入到二维位置表示中。基于Transformer内部的自关注机制,将2-D位置特征嵌入到语言表示中将更好地使布局信息与语义表示保持一致。

视觉信息。与文本信息相比,视觉信息是文档表示的另一个重要特征。通常,文档包含一些可视信号来显示文档段的重要性和优先级。视觉信息可以用图像特征表示,并有效地用于文档表示。对于文档级视觉特征,整个图像可以表示文档的布局,这是文档图像分类的基本特征。对于单词级视觉特征,粗体、下划线和斜体等样式也是序列标记任务的重要提示。因此,我们认为将图像特征与传统的文本表示相结合可以为文档带来更丰富的语义表示。

2.3模型架构

为了利用现有的预训练模型并适应文档图像理解任务,我们使用BERT架构作为主干,并添加两个新的输入嵌入:二维位置嵌入和图像嵌入。

二维位置嵌入。与位置嵌入在序列中模拟单词位置不同,二维位置嵌入旨在模拟文档中的相对空间位置。为了表示扫描文档图像中元素的空间位置,我们将文档页面视为具有顶左原点的坐标系统。在此设置中,边界框可以精确定义为(x0, y0, x1, y1),其中(x0, y0)对应于边界框中左上角的位置,(x1, y1)代表右下角的位置。我们增加了四个位置嵌入层和两个嵌入表,其中表示相同维度的嵌入层共享相同的嵌入表。这意味着我们在嵌入表X中查找x0和x1的位置嵌入,并在表Y中查找y0和y1。

ImageEmbedding。为了利用文档的图像特征并使图像特征与文本对齐,我们在语言表示中添加了图像嵌入层来表示图像特征。更详细地说,使用OCR结果中每个单词的边界框,我们将图像分成几个部分,它们与单词具有一对一的对应关系。我们使用Faster R-CNN[19]模型中的这些图像片段作为标记图像嵌入来生成图像区域特征。对于[CLS]令牌,我们还使用Faster R-CNN模型使用整个扫描文档图像作为感兴趣区域(ROI)来生成嵌入,以使需要[CLS]令牌表示的下游任务受益。

2.4预训练LayoutLM任务

任务#1:屏蔽视觉语言模型。受mask语言模型的启发,我们提出了以二维位置嵌入和文本嵌入为线索学习语言表示的蒙面视觉语言模型(MVLM)。在预训练过程中,我们随机屏蔽一些输入标记,但保留相应的二维位置嵌入,然后训练模型来预测给定上下文的被屏蔽标记。这样,LayoutLM模型不仅可以理解语言上下文,还可以利用相应的二维位置信息,从而弥合了视觉和语言模式之间的差距。

任务#2:多标签文档分类。对于文档图像理解,许多任务需要模型生成高质量的文档级表示。由于IIT-CDIP测试集包括每个文档图像的多个标签,我们还在预训练阶段使用多标签文档分类(MDC)损失。给定一组扫描的文档,我们使用文档标签来监督预训练过程,以便模型可以聚类来自不同领域的知识并生成更好的文档级表示。由于MDC损失需要每个文档图像的标签,而这些标签对于较大的数据集可能不存在,因此在预训练期间它是可选的,将来可能不会用于预训练较大的模型。我们将在第3节中比较MVLM和MVLM MDC的性能。

2.5 Fine-tuning LayoutLM

预先训练的LayoutLM模型在三个文档图像理解任务上进行了微调,包括表单理解任务、收据理解任务和文档图像分类任务。对于表单和收据理解任务,LayoutLM预测每个令牌的{B, I, E, S, O}标记,并使用顺序标记来检测数据集中的每种类型的实体。对于文档图像分类任务,LayoutLM使用[CLS]令牌的表示来预测类标签。

3 EXPERIMENTS

3.1 Pre-training Dataset

预训练模型的性能在很大程度上取决于数据集的规模和质量。因此,我们需要一个大规模的扫描文档图像数据集来预训练LayoutLM模型。我们的模型是在IIT-CDIP测试集1.0上进行预训练的,该测试集包含超过600万个文档,其中包含超过1100万个扫描文档图像。此外,每个文档都有存储在XML文件中的相应文本和元数据。文本是通过对文档图像应用OCR产生的内容。元数据描述文档的属性,例如唯一标识和文档标签。虽然元数据包含错误和不一致的标签,但这个大规模数据集中扫描的文档图像非常适合用于预训练我们的模型。

3.2微调数据集

fundd数据集。我们在fundd数据集上评估了我们的方法,用于在噪声扫描文档中进行表单理解。这个数据集包括199个真实的、完全注释的、扫描的表单,有9707个语义实体和31485个单词。这些形式被组织成一个相互连接的语义实体列表。每个语义实体包括一个唯一标识符、一个标签(即问题、答案、标题或其他)、一个边界框、一个与其他实体的链接列表和一个单词列表。数据集分为149个训练样本和50个测试样本。我们采用单词级F1分数作为评价指标。SROIE数据集。我们还在SROIE数据集上评估了我们的模型,用于收据信息提取(任务3)。该数据集包含626个用于训练的收据和347个用于测试的收据。每个收据都组织为带有边界框的文本行列表。每张收据都标有四种类型的实体:{公司、日期、地址、总数}。评估指标是F1分数中实体识别结果的精确匹配。TheRVL-CDIPDataset。RVL-CDIP数据集由16类400,000张灰度图像组成,每类25,000张图像。有32万张训练图像,4万张验证图像和4万张测试图像。图像被调整大小,因此它们的最大尺寸不超过1000像素。这16个类包括{信件、表格、电子邮件、手写、广告、科学报告、科学出版物、说明书、文件夹、新闻文章、预算、发票、演示文稿、问卷、简历、备忘录}。评估指标是总体分类精度。

3.3 Document Pre-processing

为了利用每个文档的布局信息,我们需要获得每个令牌的位置。然而,预训练数据集(IIT-CDIP测试集)只包含纯文本,而缺少相应的边界框。在这种情况下,我们重新处理扫描的文档图像以获得必要的布局信息。与IIT-CDIP Test Collection中的原始预处理一样,我们通过对文档图像应用OCR来处理数据集。不同之处在于,我们既获得了被识别的单词,也获得了它们在文档图像中的对应位置。借助开源OCR引擎Tesseract6,我们可以轻松地获得识别和二维位置。我们以hOCR格式存储OCR结果,这是一种标准规范格式,它使用分层表示清晰地定义了单个文档图像的OCR结果。

3.4 Model Pre-training

我们用预训练的BERT基模型初始化LayoutLM模型的权重。具体来说,我们的BASE模型具有相同的架构:一个具有768个隐藏尺寸的12层Transformer和12个注意头,其中包含大约113M个参数。因此,我们使用BERT基模型初始化模型中除了二维位置嵌入层之外的所有模块。对于LARGE设置,我们的模型有一个24层的Transformer,包含1,024个隐藏大小和16个注意头,它由预训练的BERT LARGE(lager)模型初始化,包含大约343M个参数。根据[4],我们选择15%的输入令牌(token)进行预测。我们在80%的时间里用[MASK]代币替换这些被屏蔽的代币,在10%的时间里用随机代币替换,在10%的时间里用不变的代币替换。然后,利用交叉熵损失预测相应的令牌。

此外,我们还添加了具有四个嵌入表示(x0, y0, x1, y1)的二维位置嵌入层,其中(x0, y0)对应于边界框中左上角的位置,(x1, y1)代表右下角的位置。考虑到文档布局在不同的页面大小中可能会有所不同,我们将实际坐标缩放为“虚拟”坐标:将实际坐标缩放为从0到1000的值。此外,我们还使用ResNet-101模型作为Faster R-CNN模型的骨干网络,该模型在Visual Genome数据集上进行预训练[12]。我们在8个NVIDIA Tesla V100 32GB gpu上训练我们的模型,总批量大小为80个。Adam优化器使用初始学习率为5e-5和线性衰减学习率调度。BASE模型在11M个文档上完成一个历元(epoch)需要80小时,而LARGE模型完成一个历元需要近170小时。

3.5针对任务的微调

我们在三个文档图像理解任务上评估LayoutLM模型:表单理解、收据理解和文档图像分类。我们遵循典型的调优策略,并在特定于任务的数据集上以端到端方式更新所有参数。

形式的理解。这项任务需要提取和构建表单的文本内容。它旨在从扫描的表单图像中提取键值对。更详细地说,该任务包括两个子任务:语义标记和语义链接。语义标注是将词聚合为语义实体并为其分配预定义标签的任务。语义连接是预测语义实体之间关系的任务。在这项工作中,我们关注的是语义标注任务,而语义链接不在研究范围之内。为了在这个任务上对LayoutLM进行微调,我们将语义标记视为一个序列标记问题。我们将最终的表示传递到一个线性层,然后是一个softmax层来预测每个令牌的标签。该模型训练100个epoch, batch size为16,学习率为5e-5。

收据的理解。该任务需要根据扫描的收据图像填充几个预定义的语义槽。例如,给定一组收据,我们需要填写特定的栏位(例如,公司、地址、日期和总数)。与需要标记所有匹配实体和键值对的表单理解任务不同,语义槽的数量是用预定义的键固定的。因此,模型只需使用序列标记方法预测相应的值即可。

文档图像分类。给定一个视觉丰富的文档,此任务旨在预测每个文档图像的相应类别。与现有的基于图像的方法不同,我们的模型不仅包括图像表示,还包括使用LayoutLM中的多模态架构的文本和布局信息。因此,我们的模型可以更有效地结合文本、布局和图像信息。为了在这个任务上微调我们的模型,我们将LayoutLM模型的输出和整个图像嵌入连接起来,然后是一个用于类别预测的softmax层。我们对模型进行了30个epoch的微调,批量大小为40,学习率为25 -5。

3.6结果

形式的理解。我们在fundd数据集上评估表单理解任务。实验结果如表1所示。我们将LayoutLM模型与两个SOTA预训练的NLP模型:BERT和RoBERTa[16]进行比较。BERT BASE模型在F1中达到0.603,而LARGE模型达到0.656。与BERT相比,RoBERTa在这个数据集上的表现要好得多,因为它是使用更大的数据和更多的epoch进行训练的。由于时间限制,我们对LayoutLM给出了4种设置,分别是500K文档页6页、1M 6页、2M 6页和11M 2页。可以观察到,LayoutLM模型实质上优于现有的SOTA预训练基线。在BASE架构下,使用11M训练数据的LayoutLM模型在F1中达到了0.7866,远远高于参数大小相似的BERT和RoBERTa。此外,我们还在预训练步骤中添加了MDC损失,它确实对fundd数据集带来了实质性的改进。最后,LayoutLM模型在同时使用文本、布局和图像信息时达到了0.7927的最佳性能。此外,我们还在fundd数据集上对不同数据和时代的LayoutLM模型进行了评估,结果如表2所示。对于不同的数据设置,我们可以看到,随着预训练步骤中训练的epoch越多,整体精度单调增加。此外,随着更多的数据被输入LayoutLM模型,准确性也得到了提高。由于fundd数据集只包含149张用于微调的图像,结果证实文本和布局的预训练对于扫描文档的理解是有效的,特别是在资源设置较低的情况下。

 

此外,我们比较了LayoutLM模型的不同初始化方法,包括从头开始,BERT和RoBERTa。表3中的结果显示,用RoBERTaBASE初始化的LayoutLMBASE模型在F1中比BERTBASE高出2.1点。对于LARGE设置,使用RoBERTaLARGE初始化的layoutllarge模型比BERTLARGE模型进一步提高了1.3个点。未来我们会用RoBERTa作为初始化来预训练更多的模型,特别是LARGE的设置。

收据的理解。我们使用SROIE数据集评估收据理解任务。结果如表4所示。由于我们在SROIE中只测试关键信息提取任务的性能,因此我们希望消除错误OCR结果的影响。因此,我们使用ground truth OCR对训练数据进行预处理,并使用基线模型(BERT & RoBERTa)和LayoutLM模型运行一组实验。结果表明,使用11M张文档图像训练的layoutllarge模型F1得分为0.9524,明显优于竞赛排行榜第一名。该结果还验证了预训练的LayoutLM不仅在域内数据集(FUNSD)上表现良好,而且在域外数据集(如SROIE)上表现优于几个强基线。

文档图像分类。最后,我们使用RVL-CDIP数据集评估文档图像分类任务。文档图像不同于其他自然图像,因为文档图像中的大部分内容都是各种样式和布局的文本。传统上,经过预训练的基于图像的分类模型比基于文本的模型表现得更好,如表5所示。我们可以看到BERT或RoBERTa的表现都不如基于图像的方法,说明文本信息不足以完成这项任务,它仍然需要布局和图像特征。我们通过使用LayoutLM模型来解决这个问题。结果表明,即使没有图像特征,LayoutLM仍然优于基于图像的单一模型方法。在整合图像嵌入后,LayoutLM的准确率达到了94.42%,明显优于几种SOTA基线的文档图像分类。可以观察到,我们的模型在“电子邮件”类别中表现最好,而在“表单”类别中表现最差。我们将进一步研究如何利用预训练的LayoutLM和图像模型,以及在LayoutLM模型的预训练步骤中涉及图像信息。

4.相关工作

文献分析与识别(DAR)的研究可以追溯到20世纪90年代初。主流的方法可以分为三类:基于规则的方法、传统的机器学习方法和深度学习方法。

4.1基于规则的方法

基于规则的方法[6,13,18,23]包含两种分析方法:自底向上和自顶向下。自下而上的方法[5,13,23]通常检测黑色像素的连通分量作为文档图像中的基本计算单元,文档分割过程是通过不同的启发式方法将它们组合成更高层次的结构,并根据不同的结构特征对其进行标记。Docstrum算法[18]是最早成功的基于连通成分分析的自下而上算法之一。它将连接的组件分组在一个极性结构上,从而得出最终的分割。[23]使用不同组件之间的特殊距离度量来构建物理页面结构。他们通过使用启发式算法和路径压缩算法进一步降低了时间复杂度。自顶向下的方法通常递归地将页面拆分为列、块、文本行和标记。[6]提出用所有像素中的黑色像素替换基本单元,该方法使用递归的X-Y切割算法对文档进行分解,建立X-Y树,使复杂的文档更容易分解。尽管这些方法在某些文档上表现良好,但它们需要大量的人力来找出更好的规则,而且有时无法推广到来自其他来源的文档。因此,在DAR研究中利用机器学习方法是必然的。

4.2机器学习方法

随着传统机器学习的发展,统计机器学习方法[17,22]在过去十年已经成为文档分割任务的主流。[22]将文档的布局信息视为解析问题,基于基于语法的损失函数全局搜索最优解析树。他们利用机器学习方法来选择特征,并在解析过程中训练所有参数。同时,人工神经网络[17]已被广泛应用于文献分析和识别。大部分的努力都致力于识别孤立的手写和印刷字符,并取得了广泛认可的成功成果。除了人工神经网络模型,支持向量机和GMM[27]也被用于文档布局分析任务。对于机器学习方法来说,设计手工制作的特征通常很耗时,而且很难获得高度抽象的语义上下文。此外,这些方法通常依赖于视觉线索,而忽略了文本信息。

4.3深度学习方法

最近,深度学习方法已经成为许多机器学习问题的主流和事实上的标准。从理论上讲,它可以通过多层神经网络的叠加来拟合任意函数,并在许多研究领域得到了验证。[28]将文档语义结构提取任务视为逐像素分类问题。他们提出了一个考虑视觉和文本信息的多模态神经网络,而这项工作的局限性在于他们只使用网络来辅助启发式算法对候选边界框进行分类,而不是端到端方法。[26]提出了一种用于移动和云服务的轻量级文档布局分析模型。该模型使用图像的一维信息作为参考,并将其与使用二维信息的模型进行比较,在实验中达到了相当的精度。[11]使用了一个完全卷积的编码器-解码器网络来预测分割掩码和边界框,该模型明显优于基于顺序文本或文档图像的方法。[24]将上下文信息纳入Faster R-CNN模型,该模型涉及文章内容的固有局域性,以提高区域检测性能。现有的深度学习方法通常面临两个局限性:(1)模型通常依赖于有限的标记数据,而留下大量未标记的数据。(2)目前的深度学习模型通常利用预训练的CV模型或NLP模型,但没有考虑文本和布局的联合预训练。LayoutLM解决了这两个限制,与以前的基线相比,实现了更好的性能。

5结论及未来工作

我们提出了LayoutLM,一个简单而有效的预训练技术,在一个框架中包含文本和布局信息。LayoutLM以Transformer体系结构为主干,利用多模态输入,包括令牌嵌入、布局嵌入和图像嵌入。同时,该模型可以很容易地基于大规模未标记的扫描文档图像进行自监督训练。我们在三个任务上评估LayoutLM模型:表单理解、收据理解和扫描文档图像分类。实验表明,LayoutLM在这些任务中大大优于几个SOTA预训练模型。对于未来的研究,我们将研究具有更多数据和更多计算资源的预训练模型。此外,我们还将使用带有文本和布局的LARGE架构来训练LayoutLM,并在预训练步骤中涉及图像嵌入。此外,我们将探索新的网络架构和其他自我监督的训练目标,这可能会进一步释放LayoutLM的力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/45333.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

webstorm问题解决:无法识别 @

问题解决tsconfig.json 问题 本地的 vite.config.ts 已经配置 路径 但是,我用webstorm 上识别不了 解决 新增文件tsconfig.json,添加 baseUrl 和 paths 的配置,以告诉 TypeScript 和 WebStorm 如何解析路径别名 tsconfig.json {&quo…

2006-2021年 291个地级市资源错配指数、劳动和资本相对扭曲指数do文件和结果

资源错配指数:衡量生产要素配置效率的关键指标 资源错配指数(Misallocation Index)是一个衡量资源配置效率的指标,它反映了生产要素是否得到了合理配置,以及是否达到了生产效率的最优状态。一个较高的资源错配指数意味…

斐讯N1盒子刷入Armbian并安装Docker拉取网络下行流量教程

一直在跑PCDN,目前主推八米云跟点心云,八米单价比点心更高,业务都一样,直播业务。 两种刷机教程我也发下。 八米云:点此跳转 点心云:点此跳转 最近各运营商对PCDN打击力度加大,需求拉取下行流量…

2024最新修复微信公众号无限回调系统源码下载 免授权开心版

2024最新修复微信公众号无限回调系统源码下载 免授权开心版 微信公众平台回调比较麻烦,还不能多次回调,于是搭建一个多域名回调的源码很有必要。 测试环境:Nginx1.24PHP7.2MySQL5.6 图片:

uiautomator2 多种方式键盘输入

最近做了一个爬虫项目,在向文本框输入的时候,使用了多种方法(包含:send_keys、set_text)等多种方法都无效,最终选择了以下方案得到完美解决。 # 切换输入法 d.set_fastinput_ime(True) op_user_modify d(…

【git】:初识Git 和 Git 的安装

目录 学习 Git 的目标 Git 安装 Linux-centos Linux-ubuntu Windows 学习 Git 的目标 技术目标 掌握 Git 企业级应用,深刻理解Git操作过程与操作原理,理解工作区,暂存区,版本库的含义 掌握 Git 版本管理,自由进⾏…

药监局瑞数后缀补环境教学

声明 本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! (联系看首页) 前言 之前用…

vue + echart 饼形图

图表配置: import { EChartsOption, graphic } from echarts import rightCircle from /assets/imgs/index/right_circle.png export const pieOption: EChartsOption {title: {text: 100%,subtext: 游客加量,left: 19%,top: 42%,textStyle: {fontSize: 24,color:…

部署大语言模型并对话

在阿里云的https://developer.aliyun.com/adc/scenario/b105013328814fe995c0f091d708d67d 选择函数计算 设置服务器配置 复制公网地址 这个地址不能直接 在返回应用,创建应用LLM 对话页面 Open WebUI 点击下面的创建应用 部署完成后访问域名 打开访问地址

SpringBoot新手快速入门系列教程十:基于Docker Compose,部署一个简单的项目

前述: 本篇教程将略过很多docker下载环境配置的基础步骤,如果您对docker不太熟悉请参考我的上一个教程:SpringBoot新手快速入门系列教程九:基于docker容器,部署一个简单的项目 使用 Docker Compose 支持部署 Docker 项…

SQL优化之深分页

SQL优化之深分页 我们都知道,大型项目中的SQL语句,应该尽量避免深分页。 那么问题就来了: 深分页的性能差在哪?什么方案能避免深分页呢? 什么是深分页 深分页,即SQL查询过程中,使用的页数过…

3.Softmax回归

回归和分类 回归估计一个连续值 分类预测一个离散类别 Softmax回归实际是一个分类问题 从回归到多类分类 对类别进行一位有效编码 y [ y 1 , y 2 , ⋯ , y n ] T y[y_1,y_2,\cdots,y_n]^T y[y1​,y2​,⋯,yn​]T,如果是第i类,则值为1,否则为0 使用…

用户对生活的需求,是三翼鸟创新的起点

这两天又长知识了,学到了一个网络新梗:City不City。 它源自于一种新的打卡方式,用于表达对某个城市的态度或感受。比如你跟朋友在城市游荡时,就可以随口问句City不City啊?通常被释义为“洋不洋气”“ 时髦不时髦”。 …

部署YUM仓库及NFS共享功能

目录 一、YUM仓库服务 1、YUM仓库概述 2、准备安装源 2.1、软件仓库的提供方式 2.2、 RPM软件包的来源 3、YUM主配置文件 4、软件卸载 5、YUM源的提供方式 5.1、配置本地YUM源仓库 5.2、配置ftp源 5.2.1、服务端配置 5.2.2、客户端配置 二、NFS共享存储 1、NFS基…

Git 删除包含敏感数据的历史记录及敏感文件

环境 Windows 10 Git 2.41.0 首先备份你需要删除的文件(如果还需要的话),因为命令会将本地也删除将项目中修改的内容撤回或直接提交到仓库中(有修改内容无法提交) 会提示Cannot rewrite branches: You have unstaged …

YOLOv10训练自己的数据集(交通标志检测)

YOLOv10训练自己的数据集(交通标志检测) 前言相关介绍前提条件实验环境安装环境项目地址LinuxWindows 使用YOLOv10训练自己的数据集进行交通标志检测准备数据进行训练进行预测进行验证 参考文献 前言 由于本人水平有限,难免出现错漏&#xff…

【C++题解】1156 - 排除异形基因

问题:1156 - 排除异形基因 类型:数组基础 题目描述: 神舟号飞船在完成宇宙探险任务回到地球后,宇航员张三感觉身体不太舒服,去了医院检查,医生诊断结果:张三体内基因已被改变,原有…

头歌资源库(24)插入加号

一、 问题描述 二、算法思想 可以使用动态规划来解决这个问题。 首先将数字串拆分为多个数字,用一个数组nums来存储每个数字。例如,数字串79846会被拆分为数组[7, 9, 8, 4, 6]。 然后定义一个二维数组dp,其中dp[i][j]表示在前i个数字中插入…

Java异常体系、UncaughtExceptionHandler、Spring MVC统一异常处理、Spring Boot统一异常处理

概述 所有异常都是继承自java.lang.Throwable类,Throwable有两个直接子类,Error和Exception。 Error用来表示程序底层或硬件有关的错误,这种错误和程序本身无关,如常见的NoClassDefFoundError。这种异常和程序本身无关&#xff0…

【算法】二叉树-迭代法实现前后中序遍历

递归的实现就是:每一次递归调用都会把函数的局部变量,参数值和返回地址等压入调用栈中,然后递归返回的时候,从栈顶弹出上一次递归的各项参数,这就是递归为什么可以返回上一层位置的原因 可以用栈实现二叉树的前中后序遍历 1. 前序…