论文浅尝 | 通过基于动态文档知识图谱增强的大语言模型故事理解

笔记整理：许方舟，天津大学硕士，研究方向为知识图谱

链接：https://ojs.aaai.org/index.php/AAAI/article/view/21286

1. 动机

基于大型 Transformer 的语言模型在需要叙事理解的各种任务上取得了令人难以置信的成功，包括故事完成、回答有关故事的问题以及无中生有地生成故事。然而，由于有限上下文窗口的限制，这些语言模型很难生成或理解超过数千个标记的故事。为了减轻有限上下文窗口带来的文档长度限制，该篇论文引入了一种新颖的架构，该架构通过外部动态知识图谱增强了故事处理。

2. 亮点

（1）设计与大型语言模型有效交互的架构，为语言模型提供丰富的事实提示，以增强故事理解；

（2）引入 LF-SQuAD 和 LF-QUOREF，这两个新颖的评估任务旨在衡量长篇故事的理解能力；

（3）引入新的故事完成度评估指标，与 BLEU 等之前的指标不同，该指标不假设人工编写的响应是唯一正确答案；

3. 概念及模型

方法包含三个步骤：

（1）知识图谱构建，构建一个包含从自然语言文档D中提取的关键信息的知识图谱G；

（2）从知识图谱中检索事实，从与某个文档理解任务T相关的G个事实中检索；

（3）提示形成，其中包括将知识图谱事实合成为自由形式的文本，以及将这些事实与故事文本的一个片段和一些框架文本拼接形成提示P。

如上图所示就是一个例子，首先从文本中提取“霍比特人”的相关知识图谱，构建图谱的方法利用OpenIE+中的工具进行。之后根据提问“霍比特人住在哪里”对构建完成的知识图谱进行节点-关系抽取，抽取到与问题相关的事实节点，其中抽取通过Sentence-Bert得到的嵌入相似度进行实现。最后通过这些事实节点注入到Prompt中提示GPT-3进行答案的生成。提示模板如下图所示：

4. 实验

本文使用两种自动方法来评估增强提示的功效。给定语言模型 L、提示 p 和人工编写的补全 c，第一个评估方法是生成新的补全 ^ c =generate(L; p) 并测量 c 和 ^ c 之间的 BLEU 分数。该方法是目前故事完成度的典型评估方法，但它依赖于错误的假设，即c是“正确答案”，并且c和^c之间增加的n-gram重叠与生成质量相关。实际上，有许多不同的方法可以适当地完成任何给定的故事部分，并且大多数方法与 c 几乎没有 n 语法重叠。此外，^c 是由语言模型随机生成的，因此很难复制 BLEU 结果。为了克服 BLEU 评估的这些问题，本文引入了第二个故事完成度评估指标：困惑度（PPL）。给定与上面相同的 L、p 和 c，使用语言模型来测量给定 p 或 P P L = L( c j p) 的 c 的困惑度。

问答实验的结果见表 1，故事完成结果见表 2。对于问答，本文的提示构建系统在两个数据集和使用所有三种语言模型上都优于传统提示，并且结果具有统计显着性 (= 0.01 ）在大多数情况下。LF-SQuAD 的平均文档长度比 LF-QUOREF 更长，这既说明了 LFQUOREF 具有更高的整体准确性，也说明了我们的系统相对于 LF-SQuAD 的基线具有更高的性能。这强调了通过语言模型回答长格式问题的难度，并验证了我们的系统在定义任务上的性能。

对于故事完成，我们的提示在所有三种语言模型的 PPL 指标上都优于传统提示，包括使用 GPT-2 和 XLNet 的显着改进。