摘要
信息提取(IE)旨在从简单的自然语言文本中提取结构知识。最近,生成型大型语言模型(LLMs)在文本理解和生成方面表现出了显著的能力。因此,已经提出了许多基于生成范式将LLM集成到IE任务中的工作。为了对IE任务的LLM工作进行全面的系统回顾和探索,在这项研究中,我们调查了该领域的最新进展。我们首先根据各种IE子任务和技术对这些作品进行分类,然后对最先进的方法进行实证分析,发现使用LLM的IE任务的新兴趋势。基于全面的综述,我们确定了一些技术见解和有前景的研究方向,值得在未来的研究中进一步探索。我们维护一个公共存储库,并持续更新GitHub上的相关作品和资源(LLM4IE存储库)。
关键字
信息抽取,大型语言模型,综述
一、简介
信息提取(IE)是自然语言处理(NLP)中的一个关键领域,它将纯文本转换为结构化知识(例如,实体,关系和事件),并作为广泛的下游任务的基本要求,如知识图构建[1],知识推理[2]和问题回答[3]。典型的IE任务包括命名实体识别(NER),关系提取(RE)和事件提取(EE)[4,5,6,7]。然而,执行IE任务本身就是一项挑战。这是因为IE涉及从各种来源提取信息,并处理复杂和不断变化的领域需求[8]。与传统的NLP任务不同,IE包含广泛的目标,如实体提取,关系提取等。在IE中,提取目标表现出复杂的结构,其中实体表示为跨度结构(字符串结构),关系表示为三元结构[4]。此外,为了有效地处理不同的信息提取任务,有必要采用多个独立的模型。这些模型针对每个特定任务单独训练,不共享任何资源。然而,这种方法有一个缺点:管理大量的信息提取模型在构建和训练所需的资源方面变得昂贵,如注释语料库。
大型语言模型(LLM)的出现,如GPT-4 [9],极大地推动了NLP领域的发展,因为它们在文本理解和生成方面具有非凡的能力[10,11,12]。使用自回归预测的预训练LLM允许它们捕获文本语料库中的固有模式和语义知识[13,14,15,16、17、18、19]。这增强了LLM执行零次和少次学习的能力,使它们能够一致地对各种任务进行建模,并作为数据增强的工具[20,21,22]。此外,LLM可以作为复杂任务规划和执行的智能代理,利用记忆检索和各种工具来提高效率并成功完成任务[23,24,25,26,27]。因此,最近对采用LLM生成结构信息而不是从纯文本中提取结构信息的生成IE方法[28]的兴趣激增。这些方法已被证明在现实世界的场景中比区分方法更实用[29,30],因为它们可以处理包含数百万个实体的模式而不会显着降低性能[31]。
一方面,LLM吸引了研究人员的极大关注,以探索其在IE的各种场景和任务中的潜力。除了在个别IE任务中表现出色外,LLM还具有以通用格式有效建模所有IE任务的卓越能力。这是通过捕捉任务间的依赖性与指导性提示,并实现一致的性能[4,5,32,33,34,35,36]。另一方面,最近的工作已经显示了LLM的突出概括,不仅通过微调从IE训练数据中学习[33,33,37,38,39],而且还在少数甚至零拍摄场景中提取信息,仅依赖于上下文示例或指令[40,41,42,43,44]。
然而,现有的综述[8,45,46]并没有为上述两组研究工作提供对这些领域的全面探索:1)满足多种任务的通用框架和 2)针对训练数据有限的场景的尖端学习技术。社区迫切需要更深入地分析如何将LLM更适当地应用于IE任务,以提高IE字段的性能。这是因为在学习和理解知识方面,将LLM应用于IE仍然存在挑战和问题[47]。这些挑战包括自然语言输出和结构化形式之间的不一致[6],LLM中的幻觉问题[48],上下文依赖性,高计算资源需求[49],更新内部知识的困难[50]等。
图1 LLM已被广泛探索用于生成IE。这些研究包括各种IE技术,为单个子任务设计的专门框架,以及能够同时解决多个子任务的通用框架
在本综述中,我们提供了一个全面的探索LLM的生成式IE,如图1所示。为了实现这一目标,我们主要使用两种分类法对现有方法进行分类:(1)众多IE子任务的分类法,其目的是对可以单独或统一提取的不同类型的信息进行分类;(2)IE技术的分类法,其对利用LLM进行生成式IE的各种新方法进行分类,特别是在低资源场景下。此外,我们提出了一个专门针对IE技术在各个领域中的应用进行的研究全面的审查。我们还讨论了旨在评估和分析用于IE的LLM性能的研究。根据以上划分,我们构建了一个相关研究的分类系统,如图2所示。我们还比较了几种有代表性的方法,以更深入地了解它们的潜力和局限性,并对未来的发展方向进行了有见地的分析。据我们所知,这是第一次对LLM的生成式IE进行调查。
图2 使用LLM的生成IE研究的分类。由于篇幅所限,有些论文被省略了。
本综述的其余部分组织如下:我们首先介绍了生成IE的定义和所有子任务的目标在第2节。然后,在第3节中,我们介绍了每个任务和通用IE的代表性模型,并比较了它们的性能。在第4节中,我们总结了IE LLM的不同学习技术。此外,我们在第五节介绍了针对特定领域的工作,并在第六节介绍了最近的研究,评估和分析了LLMs在IE任务上的能力。最后,我们提出了未来的研究的潜在的研究方向在第7节。在第8节中,我们提供了最常用的LLM和数据集统计的全面总结,以供研究人员参考。
二、生成式IE的分类
在本节中,我们提供了判别式和生成式IE的正式定义,并总结了IE子任务,如[46]所述。本调查主要关注命名实体识别(NER),关系提取(RE)和事件提取(EE)[5,32]的任务,因为这些任务在IE论文中受到最多关注。示例如图3所示。
图3不同IE任务的示例
(1)对于判别模型,目标是最大化数据的可能性。这涉及到考虑一个带注释的句子和一个可能重叠的三元组的集合。
另一种区分方法涉及使用针对每个位置i的顺序加标签来生成标签。对于由n个单词组成的句子x,基于“BIESO”(开始、内部、结束、单个、外部)表示法模式来注释n个不同的标签序列。在模型的训练期间,目标是通过利用每个位置处的隐藏向量
来最大化目标标签序列的对数似然:
(2)这三种类型的IE任务可以以生成的方式制定。给定输入文本(例如,句子或文档)与个标记的序列
、提示符
和目标提取序列
,目标是最大化自回归公式中的条件概率:
其中提供LLM的参数,这些参数可以被冻结或可训练。在LLM时代,一些作品提出了在
上附加额外的提示或指令
,以增强LLM任务的可理解性[5]。即使输入文本
保持不变,每个任务的目标序列也会有所不同:
- 命名实体识别(NER)包括两个任务:实体识别和实体类型化。前一个任务涉及标识实体的范围,后一个任务侧重于为这些已标识的实体分配类型。
- 关系提取(RE)在不同的作品中可能具有不同的设置。我们按照文献[4,5]使用三个术语对其进行分类:(1)关系分类是指对两个给定实体之间的关系类型进行分类;(2)关系三元组是指识别关系类型和相应的头尾实体跨度;(3)关系严格是指给出正确的关系类型,跨度和头尾实体的类型。
- 事件提取(EE)可以分为两个子任务[151]:(1)事件检测(在某些作品中也称为事件触发器提取)旨在识别和分类最清楚地代表事件发生的触发词和类型。(2)事件论元抽取的目的是从句子中识别和分类事件中具有特定角色的论元。
三、不同信息提取任务的LLM
在本节中,我们首先介绍IE子任务的相关LLM技术,包括NER(§3.1),RE(§3.2)和EE(§3.3)。我们还进行了实验分析,以评估各种方法在三个子任务的代表性数据集上的性能。此外,我们将通用IE框架分为两类:自然语言(NL-LLM)和代码语言(Code-LLM),以讨论它们如何使用统一的范式(§3.4)对三个不同的任务进行建模。
3.1命名实体识别
nNER是IE的重要组成部分,可以看作是RE和EE的前身或子任务。这也是其他自然语言处理任务中的一项基本任务,因此引起了研究人员的极大关注,以探索低密度脂蛋白时代的新可能性[47,90,91,92,93,94,95,108,122,124,125,126,164,165,172,173,177,179,182]。考虑到序列标注和生成模型之间的差距,GPT-NER[42]将NER转化为生成任务,并提出了一种自验证策略来纠正将空输入错误标记为实体的问题。谢等人。[63]提出了一种无需训练的自改进框架,该框架利用LLM对未标注语料库进行预测,从而得到伪句示范,从而提高零射击净入学率的LLM的性能。
表1显示了从原始论文中获得的五个主要数据集的NER比较。我们可以观察到:
表1 命名实体识别(鉴定和分型)的LLM与Micro-F1指标(%)的比较
†表示该模型是有区别的。我们展示了一些普适的和判别的模型,以供比较。IE技术包括跨域学习(CDL)、零触发提示(ZS Pr)、上下文学习(ICL)、监督微调(SFT)、数据增强(DA)。单位。表示该模型是否具有普适性。上。5表示OntoNotes 5.0。数据集和主干的详细信息见第8节。所有后续表格的设置都与此格式一致。
- 1)在少数提示和零提示设置的模型仍然有一个巨大的性能差距背后的SFT和DA。
- 2)尽管主干之间的差异很小,但在ICL范式下,方法之间的性能差异很大。例如,GPT-NER在每个数据集上与其他方法的F1值差距至少为6%,最高可达19%。
- 3)与ICL相比,SFT后不同模型之间的性能只有微小的差异,即使它们的主干中的参数可能相差数百倍。
- 4)使用SFT范式训练的模型的性能在数据集之间表现出更大的可变性,特别是对于通用模型。例如,YAYI-UIE [155]和KnowCoder [160]在CoNLL 03上的表现分别优于其他模型至少2.89%和1.22%,而与GENIA上的最佳模型相比,分别下降了7.04%和5.55%。我们假设,这种差异可能是由于这些模型在主要来自新闻和社交媒体领域的不同数据集上进行训练,而GENIA在训练集中只占一小部分,因为它属于生物医学领域;因此,不同领域之间的分配差距很大,最终影响到业绩成果。此外,通用模型需要同时训练多种的子任务,这不可避免地加剧了这种分配差距。
- 5)相反,EnTDA [58]在所有数据集上表现出异常的稳定性并优于其他方法,从而证实了DA范式在解决特定任务时的鲁棒性。
3.2关系抽取
RE在IE中也起着重要的作用,如第2节所述,IE在不同的研究中通常有不同的设置。如[187]所示,为了解决由于在预防调整数据集中RE的发生率较低而导致的LLM在RE任务上的性能较差问题,QA 4 RE [98]引入了一个框架,通过将RE任务与QA任务对齐来增强LLM的性能。GPT-RE [99]结合了任务感知表示和丰富的表达使用推理逻辑来改进实体和关系之间的低相关性以及无法解释输入-标签映射。由于大量预定义的关系类型和不受控制的LLM,Li等人。[161]提出将LLM与自然语言推理模块集成以生成关系三元组,增强文档级关系数据集。
如表2和表3所示,我们统计发现,由于学习多任务之间的依赖关系,通用IE模型通常可以更好地解决更困难的关系严格问题[4,33],而特定于任务的方法可以解决更简单的RE子任务(例如关系分类)。此外,与NER相比,很明显,RE模型之间的性能差异更加明显,从而突出了LLM在解决RE任务方面的潜力。
表2 关系提取的LLM与“relationstrict”[4] Micro-F1度量的比较(%)。†表示该模型是有区别的
表3 用于关系分类的LLM与Micro-F1度量的比较(%)
3.3事件抽取
事件可以定义为特定事件或在给定上下文中发生的事件。最近,许多研究[135,138]旨在通过使用LLM提取事件触发器和参数来理解事件并捕获它们的相关性,这对于各种推理任务至关重要[199]。例如,Code4Struct [41]利用LLM将文本转换为代码来处理结构化预测任务,使用编程语言功能通过结构和代码之间的对齐来引入外部知识和约束。考虑到在扩展的上下文中不同论点之间的相互关系,PGAD [137]采用文本扩散模型来创建各种上下文感知的提示表示,通过识别多个角色特定的参数跨度查询并将其与上下文协调来增强事件级和文档级事件参数提取。
从表4中最近的研究结果可以看出,目前绝大多数方法都是基于SFT范式,只有少数方法使用LLM进行零次或少次学习。此外,生成式方法的性能远远优于判别式方法,特别是在参数分类任务的度量方面,表明生成式LLM在EE中具有巨大的潜力。
表4 ACE 05上事件提取的Micro-F1值比较。评估任务包括:触发器标识(Trg-I)、触发器分类(Trg-C)、自变量标识(Arg-I)以及自变量分类(Arg-C)†表示该模型是有区别的。
3.4通用信息抽取
不同的IE任务差异很大,具有不同的优化目标和特定于任务的模式,需要单独的模型来处理不同IE任务、设置和场景的复杂性[4]。如图2所示,许多工作仅仅集中在IE的子任务上。然而,LLM的最新进展导致了几项研究中提出了一个统一的生成框架[5,32]。该框架旨在对所有IE任务进行建模,捕获IE的共同能力并学习多个任务之间的依赖关系。Uni-IE的提示格式通常可分为基于自然语言的LLM(NL-LLM)和基于代码的LLM(代码-LLM),如图4所示。
图4 通用IE的NL-LLM和Code-LLM的提示比较。基于NL和基于代码的方法都试图构建一个通用的模式,但它们在提示格式和利用LLM生成功能的方式方面有所不同。此图取自[5]和[6]。
NL-LLMs:
基于自然语言的方法将所有的IE任务统一在一个通用的自然语言模式中。比如说,UIE [4]提出了一个统一的文本到结构生成框架,该框架对提取结构进行编码,并通过结构化提取语言捕获常见的IE功能。InstructUIE [5]通过构建用于微调LLM的专家编写的指令来增强UIE,以一致地建模不同的IE任务并捕获任务间的依赖性。此外,ChatIE [40]探索了使用LLM(如ChatGPT [200])进行零射击提示,将任务转换为多轮问答问题。
Code-LLMs:
另一方面,基于代码的方法通过生成具有通用编程模式的代码来统一IE任务[41]。Code 4UIE [6]提出了一种通用的检索扩充代码生成器框架,它利用Python类来定义模式,并使用上下文学习来生成从文本中提取结构知识的代码。此外,CodeKGC [159]利用了代码中固有的结构知识,并采用了模式感知提示和理性增强生成来提高性能。为了使LLM能够遵循现成的指导方针,GoLLIE [32]通过与注释指导方针保持一致,增强了对不可见IE任务的零命中能力。
一般来说,NL-LLM接受了广泛的文本训练,可以理解和生成人类语言,这使得提示和说明更加简洁,更容易设计。然而,NL_LLM可能会产生不自然的输出,由于IE任务的独特语法和结构[159],与训练数据不同。代码作为一种形式化的语言,具有跨不同模式准确表示知识的内在能力,这使得它更适合于结构预测[6]。但是基于代码的方法通常需要大量的文本来定义Python类(参见图4),这反过来限制了上下文的样本大小。通过表1、表2和表4中的实验比较,我们可以观察到,对于大多数数据集,SFT后的Uni-IE模型在NER、RE和EE任务中优于特定任务模型。
3.5 任务总结
在本节中,我们探讨了IE中的三个主要任务及其相关的子任务,以及统一这些任务的框架[4]。一个关键的观察结果是生成LLM在NER中的应用越来越多[67,178],这已经取得了显着的进步,并且仍然是IE中高度活跃的研究领域。相比之下,关系提取和事件提取等任务的应用相对较少,特别是对于严格关系提取[39]和仅检测事件提取[128]。这种差异可能归因于NER的关键重要性,其在各种下游任务中的实用性,以及其相对简单的结构化输出,这有助于大规模的监督微调[1]。
此外,一个值得注意的趋势是IE任务的统一模型的出现,利用现代大型模型的一般文本理解能力[4,6,156]。一些研究已经提出了统一的生成框架,捕获跨IE任务的共同能力,并学习它们之间的依赖关系。这些统一的方法可以大致分为自然语言的方法和基于代码的方法,每种方法都有不同的优点和局限性。表1、表2、表3和表4中总结的实验结果表明,通用IE模型通常在更复杂的严格关系提取任务上表现更好,因为它们能够学习多个任务之间的依赖关系。此外,生成方法在事件提取任务中的表现明显优于判别方法,特别是在参数分类中,突出了生成LLM在这一领域的巨大潜力。
四、生成式IE中LLM的4种技术
在本节中,我们根据技术对最近的方法进行分类,包括数据增强(第4.1节,指通过使用LLM对现有数据应用各种转换来增强信息),提示设计(第4.2节,指使用特定于任务的指令或提示来指导模型的行为)。Zero-shot学习(§4.3,指的是在没有针对特定IE任务的任何训练示例的情况下生成答案),约束解码生成(§4.4,指的是在遵守特定约束或规则的情况下生成文本的过程),少镜头学习(§4.5,指的是通过训练或上下文学习从少量标记的示例中泛化),监督微调(第4.6节,指的是使用标记数据在IE任务上进一步训练LLM),以突出用于使LLM适应IE的常用方法。
4.1数据增强
数据增强涉及生成有意义的和多样化的数据,以有效地加强培训示例,同时避免引入不切实际的、误导性的和偏移的模式。最近强大的LLM在数据生成任务中也表现出了卓越的性能[201,202,203,204,205],这吸引了许多研究人员使用LLM为IE生成合成数据的注意力[44,61,101,127,161,162,163]。根据其技术的不同,可以大致分为四种策略,如图5所示。
图5 数据增强方法的比较
数据标注
该策略直接使用LLM生成带标签的结构数据。例如,Zhang等人[61]提出了LLMaAA,通过在主动学习循环中使用LLMs作为注释器来提高准确性和数据效率,从而优化注释和训练过程。AugURE [101]采用句内对扩充和跨句对抽取来增强无监督RE中正对的多样性,并引入了句对的边缘损失。Li等人[161]解决了从长上下文中提取文档级关系的难题,并提出了一种自动化注释DocRE的一种推理方法,它将LLM与自然语言推理模块相结合,以生成关系三元组。
知识检索
该策略有效地从用于IE的LLM中检索相关信息,这类似于检索扩充生成(RAG)[206]。PGIM [167]提出了一个多模态NER的两阶段框架,该框架利用ChatGPT作为隐式知识库,以启发式方式检索辅助知识,从而实现更高效的实体预测。Amalvy等人[59]提出通过生成合成上下文检索训练数据集并训练神经上下文检索器来提高长文档的NER。Chen等人。[166]专注于多模态NER和RE的任务,并展示了他们通过采用一系列包含不同方面的CoT提示来增强常识推理技能的方法,包括名词,句子和多模态输入。此外,他们还采用了数据增强技术,如样式、实体和图像操作,以进一步提高性能。
反向生成
该策略鼓励学习者通过利用作为输入提供的结构化数据来生成自然的文本或问题,这与学习者的培训范式相一致。例如,SynthIE [168]表明,LLM可以通过反转任务方向为复杂任务创建高质量的合成数据,并训练优于以前基准的新模型。星星[100]不是依赖于限制可推广性和可扩展性的地面事实目标,而是从有效的触发器和参数生成结构,然后通过设计细粒度的指令,错误识别和迭代修订来生成LLM的段落。为了解决在保留实体的同时保持文本连贯性的难题,EnTDA [58]提出了一种涉及操纵原始文本的实体列表的方法。此操作包括添加、删除、替换或交换实体。并进一步引入分集波束搜索来增强实体到文本生成过程中的分集。
用于微调的合成数据集
这个策略涉及到通过查询LLM来生成一些数据以进行预调优。通常情况下,这些数据是由一个更强大的模型生成的,用于微调对话中的指令,然后提取到一个更小的模型中,使其也能够获得更强的零触发能力[64,67,84]。例如,UniversalNER [64]探索了以任务为中心的指令调整的目标蒸馏,以训练在开放式NER中表现出色的学生模型,该模型使用ChatGPT作为教师模型,并将其蒸馏成较小的UniversalNER模型。GNER [67]提出了负面实例的整合,通过引入上下文信息和改进标签边界来增强现有方法。作者使用Pile-NER训练了他们的模型,Pile-NER是一个数据集,包括13 K个不同实体类别的大约240 K个实体,这些实体从Pile语料库中采样[207],并使用ChatGPT进行处理以生成实体。结果表明,在不可见实体域中,零触发性能得到了改善。
4.2提示设计
提示工程是一种用于增强LLM能力而不改变其网络参数的技术[49,208,209,210,211,212]。它需要利用任务特定的指令,称为提示,来指导模型的行为[13,213,214]。快速设计的实践已在各种应用中证明是成功的[215,216,217,218]。毫无疑问,有效的提示设计对于提高LLM在IE任务上的表现也起着至关重要的作用。在本节中,我们将根据不同的策略对提示设计方法进行分类,并详细解释这些技术背后的潜在动机:
问答(QA)
LLM使用基于对话的方法[219,220]进行预调,与IE任务的结构化预测要求相比,这会产生差距。因此,最近已经努力采用QA提示方法来增强LLM并更无缝地促进所需结果的生成[40,90,96,98,108]。例如,QA 4 RE [98]发现LLM往往在RE上表现不佳,因为用于训练它们的预防调整数据集具有较低的RE任务发生率,因此建议将RE重新定义为多项选择QA,以利用预防调整数据集中QA任务的较高流行率。Li等人。[96]分析了现有RE提示的局限性,并提出了一种称为summarize-andask提示的新方法,该方法使用LLM递归地将零拍摄RE输入转换为有效的QA格式。它还显示出在提取超过搭接关系,有效应对非以上关系的挑战。ChatIE [40]提出了一个两阶段框架,将零镜头IE任务转换为多轮QA问题。框架最初识别不同类型的元素,然后对每个识别的元素类型执行顺序IE过程。每个阶段都采用了多轮次QA流程,其中使用模板和先前提取的信息构建提示。
思想链(CoT)
CoT [221]是一种与LLM一起使用的提示策略,通过提供逐步和连贯的推理链作为指导模型响应生成的提示来增强其性能。CoT提示近年来得到了关注[222],并且正在进行研究探索其对IE任务的有效性[43,91,166,169,170,171]。LLtNER [43]将LLM与基于LtNER的逻辑学和实体定义相结合。它提示LLM根据提供的实体类型定义生成潜在实体及其解释的列表。Bian等人。[171]提出了一种使用LLM改善生物医学NER的两步法。他们的方法涉及利用CoT使LLM能够以逐步的方式处理生物医学NER任务,将其分解为实体跨度提取和实体类型确定。Yuan等人。[170]还提出了CoT提示作为两阶段方法来指导ChatGPT执行时态RE任务的时态关系推理。
自我完善
虽然COT技术可以部分地引出LLM的推理能力,但LLM仍不可避免地会产生事实错误。因此,已经有一些努力[63,73,144]采用LLM进行迭代自我验证和自我改进,旨在纠正结果。例如,Xie等人[63]提出了一个无需训练的自我提升框架,该框架包括三个主要步骤。首先,LLM对未标注语料进行预测,通过自一致性生成自标注数据集。其次,作者探索了不同的策略来选择可靠的注释。最后,在推理过程中,从可靠的自标注数据集中检索出示例,用于上下文学习。ProgGen [73]涉及引导LLM在特定领域内进行自我反思,从而生成领域相关属性,有助于创建富含属性的训练数据。此外,ProgGen采用了一种主动策略,通过预先生成实体术语并围绕这些实体构建NER上下文数据,从而规避了LLM在处理复杂结构时所面临的挑战
4.3 Zero-shot学习
零触发学习的主要挑战包括确保模型可以有效地推广到它没有训练过的任务和领域,同时还要将LLM的预训练范式与这些新任务相匹配。由于嵌入了大量的知识,LLM在看不见的任务的零射击场景中显示出令人印象深刻的能力[40,223]。为了在IE任务中实现LLM的零射击跨域泛化,已经提出了几项工作[5,32,64]。这些工作为各种IE任务和领域建模提供了一个通用框架,并引入了创新的培训提示,例如,指令[5]和指南[32],用于学习和捕获已知任务的任务间依赖性,并将其推广到未知任务和域。对于跨类型泛化,BART-Gen [130]引入了一个文档级神经模型,将EE任务框定为条件生成,从而提高对未知事件类型的性能和强大可移植性。
另一方面,为了提高LLM在零镜头提示下的能力(不需要微调),QA4RE [98]和ChatIE [40]提出将IE转换为多轮问答问题,以便将其与QA任务对齐,这是解释调整数据集的主要任务。Li等人。[96]集成了思想链方法,并提出了总结和询问提示,以解决确保黑盒LLM输出可靠性的挑战[62]。
4.4约束解码生成
LLM是预先训练的模型,最初是在预测序列中的下一个令牌的任务上训练的。这种预训练使研究人员能够利用这些模型的优势来完成各种NLP任务[8,224]。然而,LLM主要是为生成自由形式的文本而设计的,并且可能在只有有限的输出集有效的结构化预测任务上表现不佳。
为了应对这一挑战,研究人员探索了使用约束生成来更好地解码[4,123,174,175]。自回归LLM中的约束解码生成是指在遵守特定约束或规则的同时生成文本的过程[225,226,227]。例如,Geng等人。[174]提出使用语法约束解码作为控制LM生成的解决方案,确保输出遵循给定的结构。作者引入了依赖于输入的语法来增强灵活性,允许语法依赖于输入,并为不同的输入生成不同的输出结构。与以前的方法不同,Zaratiana等人。[123]引入了一种新的方法,通过生成一个线性图来提取实体和关系,其中节点表示文本跨度,边表示关系三元组。他们使用了一个Transformer编码器/解码器体系结构,该体系结构具有指向机制和动态的跨度和关系类型词汇表,以捕获结构特征和边界,同时将输出建立在原始文本中
4.5 Few-shot学习
Few-shot学习只能访问有限数量的标记示例,导致过度拟合和难以捕获复杂关系等挑战[228]。幸运的是,与小型预训练模型相比,扩大LLM的参数为它们提供了惊人的泛化能力,使它们能够在少量设置中实现出色的性能[43,91]。Paolini等人[33]提出了增强自然语言框架之间的翻译; Lu等人[4]提出了文本到结构生成框架; Chen等人[60]提出了NER的协作域前缀调优。这些方法已经实现了最先进的性能,并证明了在少数拍摄设置的有效性。尽管LLM取得了成功,但由于序列标记和文本生成模型之间的差异,它们在免训练IE中面临挑战[187]。为了克服这些限制,GPT-NER [42]引入了自我验证策略,而GPT-RE [99]增强了任务感知表示并将推理逻辑纳入丰富的演示中。这些方法有效地展示了如何利用GPT进行上下文学习。CODEIE [36]和CodeKGC [159]表明,与NL-LLM相比,将IE任务转换为具有代码风格提示和上下文示例的代码生成任务会导致上级性能。这是因为代码样式的提示提供了更有效的结构化输出表示,使它们能够有效地处理了自然语言中的复杂依赖关系。
4.6 监督微调
使用所有训练数据来微调LLM是最常见和最有前途的方法[88,110,111,113,129,141,143,229,230,231,232,233],它允许模型捕获数据中的潜在结构模式,并很好地推广到看不见的样本。例如,DEEPRECT [151]在一组任务不可知的语料库上引入了结构预训练,以增强对语言模型的结构理解。UniNER [64]探索了有针对性的蒸馏和以任务为中心的教学调整,以训练学生模型用于广泛的应用,如NER。GIELLM [34]使用混合数据集对LLM进行微调,收集这些数据集是为了利用相互强化效应来提高多个任务的性能。
4.7 技术总结
数据增强[61,101]是一个广泛探索的方向,因为它在提高模型性能方面具有潜力。LLM拥有广泛的隐含知识和强大的文本生成能力,使其非常适合数据注释任务[222]。然而,虽然数据增强可以扩展训练数据集并提高模型泛化能力,但它们也可能引入噪声。例如,知识检索方法可以提供关于实体和关系的额外上下文,丰富提取过程。然而,噪声可能会降低提取信息的整体质量[94,167]。
另一方面,设计有效的提示仍然是利用LLM(如GPT-4)的重大挑战。虽然QA对话和CoT [104]策略等方法可以增强LLM的IE功能,但纯粹基于人工智能的方法仍然落后于较小模型的监督微调。监督微调[5,64,67],包括跨域和少量学习,通常会产生更好的性能,这表明将用于数据注释的大规模LLM与使用额外数据的监督微调相结合可以优化性能并降低手动注释成本[68,95,164]。总之,虽然使用LLM的各种IE技术提供了明显的优势,但它们也带来了挑战。正确地结合这些策略可以显著增强IE任务。
五、在特定领域的应用
不可否认的是,LLM在从一些特定领域提取信息方面具有巨大的潜力,例如多模态[57,94,166,167],多语言[83,133,163],医学[85,91,162,163,171,172,179,183,184,185,186,187,188,189,234,235],科学[47,80,180,181,182],天文[164,173],历史[126,189],和法律的[78,89,115]。此外,我们在表5中提供了统计数据。例如,Chen等人。[166]介绍了一种条件提示蒸馏方法,该方法通过将文本图像对与LLM的思想链知识相结合来增强模型的推理能力,从而显着提高了多模态NER和多模态RE的性能。Tang等人。[162]探索了LLM在临床文本挖掘领域的潜力,并提出了一种新型训练方法,该方法利用合成数据来提高性能并解决隐私问题。Dunn等人。[180]提出了一种序列到序列的方法,通过使用GPT-3从复杂的科学文本中联合NER和RE,证明了其在材料化学中提取复杂的科学知识有效性。Shao等人[173]探索了使用LLM从天体物理学期刊文章中提取天文知识实体。传统的方法遇到的困难,如体力劳动和有限的普遍性。为了解决这些问题,作者提出了一种包含五个提示元素和八个组合提示的提示策略,旨在专门针对天体标识符和望远镜名称作为感兴趣的实验对象。Gonz 'alez等人。[189]研究了ChatGPT在NER任务中的表现,特别是在历史文本上。该研究不仅将ChatGPT与其他最先进的基于语言模型的系统进行了比较,还深入研究了在这种零触发设置中遇到的挑战。研究结果揭示了历史文本中实体识别的局限性,包括与注释指南,实体复杂性,代码转换和提示的特异性有关的问题。
表5 特定领域的研究统计
六、 评价与分析
尽管LLM在各种自然语言处理任务中取得了巨大成功[236,237],但它们在信息提取领域的表现仍有改进的空间[193]。为了缓解这个问题,最近的研究已经探索了LLM在IE的主要子任务方面的能力,即,[2019 - 12 - 19][2019 - 09 - 19][2019 - 11 - 19][2019 - 09 - 11][2019 - 09 - 11][2019 - 019] 19 - 019 01:考虑到LLM的上级推理能力,Xie等人[190]提出了四种NER的推理策略,旨在模拟ChatGPT在零射击NER上的潜力。Wadhwa等人。[169]探索了LLM在RE中的使用,发现GPT 3的几次提示可以达到接近SOTA的性能,而Flan-T5可以通过GPT-3生成的思维链风格解释来改进。对于EE任务,Gao等人。[191]表明,由于需要复杂的指令和缺乏鲁棒性,ChatGPT仍然在努力解决这个问题。
沿着这条路线,一些研究人员通过同时评估多个IE子任务对LLM进行了更全面的分析。Li等人。[195]评估了ChatGPT在IE上的整体能力,包括性能,可解释性,校准和忠诚度。他们发现ChatGPT在标准IE设置中的表现大多比基于BERT的模型差,但在OpenIE设置中表现出色。此外,Han等人。[193]引入了一种软匹配策略以进行更精确的评估,并将“未注释的跨度”确定为主要错误类型,突出了数据注释质量的潜在问题。
七、未来方向
针对生成式IE的LLM的开发仍处于早期阶段,并且存在许多改进的机会。
通用IE
“以前的生成式IE方法和基准测试通常是针对特定领域或任务量身定制的,限制了它们的可推广性[51]。尽管最近提出了一些使用线性线性插值法的统一方法[4],但它们仍然受到一定的限制(例如,长上下文输入和结构化输出的未对准)。因此,进一步开发能够灵活适应不同领域和任务的通用IE框架(如集成任务特定模型的见解以辅助构建通用模型)是一个很有前景的研究方向。
低资源IE
在资源有限的情况下,具有LLM的生成式IE系统仍然会遇到挑战[195]。有必要进一步探索在语境中学习法,特别是在改进范例的选择方面。未来的研究应优先发展稳健的跨领域学习技术[5],如领域适应或多任务学习,以利用来自资源丰富领域的知识。此外,还应探索使用LLM的有效数据注释策略。
IE的提示设计
设计有效的指令被认为对LLM的性能有着十分重要的影响[224,238]。提示设计的一个方面是构建可以更好地与LLM的预训练阶段(例如,代码生成)[6]。另一个方面是优化提示以用于更好的模型理解和推理(例如,Chain-of-Thought)[96],通过鼓励逻辑学习者进行逻辑推理或可解释的生成。此外,研究人员还可以探索交互式提示设计(如多圈QA)[98],其中LLM可以迭代地对自动生成的提取进行改进或提供反馈。
开放IE
开放的IE设置对IE模型提出了更大的挑战,因为它们不提供候选标签集,并且仅仅依赖于模型理解任务的能力。LLM凭借其知识和理解能力,在一些Open IE任务中具有显著优势[64]。然而,在更具挑战性的任务中,仍然存在表现不佳的情况[28],这需要研究人员进一步探索。
8、基准和骨干
8.1代表性数据集
表6 一些代表性IE数据集的总结
在本节中,我们分别介绍了NER、RE和EE的代表性数据集,并在表6中对每个数据集进行了简要总结,以帮助读者更好地理解这些任务。
CoNLL 03
CoNLL 03 [239]是NER的代表性数据集,包括1,393篇英语新闻和909篇德语新闻。语料库的英文部分来源于路透社策划的共享任务数据集。该数据集包含四种不同实体类型的注释:PER(人员)、LOC(位置)、ORG(组织)和MISC(包括所有其他类型的实体)。
CoNLL 04
CoNLL 04 [240]是用于RE任务的众所周知的基准数据集,包括从新闻文章中提取的句子,每个句子包含至少一个实体-关系三元组。它有四种实体(PER、ORG、LOC、OTH)和五种关系(Kill、Work For、Live In、OrgBased In、Located In)。
ACE 05
自动内容提取05 [241]被广泛认可并用于IE任务。它作为一种有价值的资源,用于评估自动化系统在从各种文本源(包括新闻文章、采访、报告等)中提取结构化信息方面的功效。此外,该数据集涵盖了广泛的流派,包括政治、经济、体育等。特别是对于ACE 05中的EE任务,它包含599个新闻文档,这些文档封装了33个不同的事件类型和22个参数角色。
8.2性能指标评测
如表7所示,我们编制了一个涵盖各个领域和任务的基准测试的综合集合,为研究人员提供了一个有价值的资源,他们可以根据需要查询和参考。此外,我们还总结了我们的开源存储库(LLM4IE存储库)中每个数据集的下载链接。
表7 信息提取常用数据集统计
* 表示数据集是多模态的。#是指类别或句子的数量。表中的数据部分引用自InstructUIE [192]
8.3骨干
我们简要介绍了一些在生成式信息抽取领域中常用的主干,如表8所示
表8 生成式信息提取的公共主干
我们标记了常用的基本版本和大版本,以便更好地参考。
九、结论
在本次调查中,我们首先介绍了IE的子任务,并讨论了一些通用的框架,目的是使用LLM统一所有IE任务。另外的理论和实验分析为这些方法提供了有见地的探索。然后,我们深入研究了将LLM应用于IE的不同IE技术,并展示了它们在特定领域提取信息的潜力。最后,我们分析了当前的挑战,并提出了潜在的未来方向。我们希望这项调查可以为研究人员提供一个有价值的资源,以探索更有效地利用LLM 来解决 IE。