本文对生成式IE的LLM进行了全面的探索。使用两种分类法对现有的代表性方法进行分类:
(1)众多IE子任务的分类法,旨在对可以使用llm单独或统一提取的不同类型的信息进行分类;
(2)学习范式分类法,对利用llm生成IE的各种新方法进行分类。
Preliminaries of Generative IE
这种生成式IE调查主要涵盖了NER、RE和EE的任务。这三种类型的IE任务以生成方式制定。给定一个输入文本其序列为n个标记X = [,…],],prompt P,目标提取序列Y = [,…], ],目标是在自回归公式中最大化条件概率:
其中θ为llm的参数,llm可以被冻结或训练。在LLM时代,有几种任务提出在X后面附加额外的提示或指令P,以增强LLM任务的可理解性。
命名实体识别(NER)包括两个任务:实体识别和实体分类。前一个任务关注于识别实体的跨度(“Steve”),后一个任务关注于为这些已识别的实体分配类型(“PERSON”)。
关系提取(RE)在不同的任务中可能有不同的设置。(1)关系分类是指对两个给定实体之间的关系类型进行分类;(2)关系三元组是指识别关系类型和对应的头尾实体跨度;(3)关系严格是指给出正确的关系类型、跨度和头尾实体的类型。
事件提取(EE)可分为两个子任务:
(1)事件检测(Event Detection)(在某些作品中也称为事件触发提取(Event Trigger Extraction)),目的是识别和分类最清楚地代表事件发生的触发词和类型。
(2)事件参数提取(Event Arguments Extraction)旨在从句子中识别和分类在事件中扮演特定角色的参数。
Information Extraction Tasks
Named Entity Recognition
Relation Extraction
Event Extraction
Universal Information Extraction
NL-LLMs:基于自然语言的方法将所有IE任务统一在一个通用的自然语言模式中。例如,UIE 提出了一个统一的文本到结构生成框架,该框架对提取结构进行编码,并通过结构化提取语言捕获常见的IE功能。InstructUIE通过为微调llm构建专家编写的指令来增强UIE,以一致地建模不同的IE任务并捕获任务间依赖性。此外,ChatIE 探索了在零次提示中使用GPT3和ChatGPT 等llm,将任务转化为多回合问答问题。
Code-LLMs:基于代码的方法通过使用通用编程模式生成代码来统一IE任务。Code4UIE 提出了一个通用的检索增强代码生成框架,它利用Python类定义模式,并使用上下文学习来生成代码,从文本中提取结构知识。此外,CodeKGC 利用代码中固有的结构知识,并采用模式感知提示和理性增强生成来提高性能。为了使llm能够立即遵守指导方针,GoLLIE提出了通过微调llm以使其与注释指导方针保持一致来提高未见过的IE任务的零射门性能。
Future Directions
Universal IE
以前的生成式IE方法和基准通常是针对特定领域或任务量身定制的,限制了它们的通用性。虽然最近已经提出了一些使用llm的统一方法,但它们仍然存在一定的局限性(例如,长上下文输入和结构化输出的不对齐)。因此,进一步开发能够灵活适应不同领域和任务的通用IE框架是一个很有前途的研究方向(例如整合特定任务模型的见解来帮助构建通用模型)。
Low-Resource IE
具有llm的生成式IE系统在资源有限的情况下仍然面临挑战。基于总结,有必要进一步探索LLM的情境学习,特别是在改进示例选择方面。未来的研究应优先发展稳健的跨领域学习技术,如领域适应或多任务学习,以利用来自资源丰富领域的知识。此外,还应该探索使用llm的高效数据注释策略。
Prompt Design for IE
设计有效的指令被认为对llm的绩效有显著影响。提示设计的一个方面是构建可以更好地与LLM的预训练阶段保持一致的输入和输出对。另一方面是通过鼓励LLM进行逻辑推理或可解释的生成来优化提示,以获得更好的模型理解和推理。此外,研究人员可以探索交互式提示设计(如多回合QA) ,LLM可以迭代地对生成的提取进行优化或自动提供反馈。
Open IE
open IE设置对IE模型提出了更大的挑战,因为它们不提供任何候选标签集,并且仅仅依赖于模型理解任务的能力。LLM凭借其知识和理解能力,在一些Open IE任务中具有显著优势然而,在更具挑战性的任务中仍然存在表现不佳的情况,这需要研究人员进一步探索。