文章目录
- 前言
- 0、论文摘要
- 一、Introduction
- 1.1目标问题
- 1.2相关的尝试
- 1.3本文贡献
- 二.相关工作
- 三.本文方法
- 四 实验效果
- 4.1数据集
- 4.2 对比模型
- 4.3实施细节
- 4.4评估指标
- 4.5 实验结果
- 4.6 细粒度分析
- 五 总结
- 思考
前言
HG-News: News Headline Generation Based on a Generative Pre-Training Model(2108)
0、论文摘要
自从神经网络方法应用于文本摘要以来,神经标题生成模型最近取得了很好的成果。在本文中,我们关注新闻标题的生成。我们提出了一种基于生成预训练模型的新闻标题生成模型。在我们的模型中,我们提出了一个丰富的特征输入模块。我们提出的标题生成模型仅包含结合了指针机制和n-gram语言特征的解码器,而其他生成模型则使用编码器-解码器架构。对新闻数据集的实验表明,我们的模型在新闻标题生成领域取得了可比的结果。
一、Introduction
1.1目标问题
文本摘要的目的是浓缩文档,同时浓缩的内容保留原始文档的核心含义。文本摘要方法包括抽取式摘要和抽象式摘要。标题生成是一个抽象摘要子任务,也称为句子摘要。为了生成压缩长文本或短文本信息的标题,我们需要对标题生成进行研究。
我们专注于神经标题生成(NHG)的任务。人工神经网络用于解决文本生成任务。使用神经网络的方法在标题生成任务上显示出了有希望的结果,该任务使用端到端模型对源文档进行编码,然后将其解码为新闻标题。之前的大部分工作都涉及单个文档摘要,而本文仅涉及标题生成。神经标题生成的开创性工作是[1],它使用编码器-解码器框架来生成句子级摘要。随着循环神经网络(RNN)[2]的发展,[3]采用了注意力编码器-解码器模型来进行句子摘要。
为了更好地表示语义,提出了转换器[4]。然后,使用变压器进行抽象摘要[5],但与注意力序列到序列模型相比,结果没有改善。 OpenAI 证明,当在新数据集上进行训练时,语言模型开始在没有任何显式监督的情况下学习自然语言处理任务。 OpenAI提出的模型称为GPT-2[6]。 Rothe 开发了一种基于 Transformer 的序列到序列模型,其中包含用于序列生成任务 [9] 的预训练 BERT [7]、GPT-2 和 RoBERTa [8] 检查点。为了证明 GPT-2 对于标题生成任务的有效性,我们没有利用预训练模型的检查点,而只是使用 GPT-2 模型的结构。由于大多数文本摘要数据集都是用英语编写的,[10]提出了一个大规模的短文本摘要数据集。目前,整个摘要生成模型使用编码器-解码器架构来生成摘要。我们将尝试仅使用解码器来解决标题生成任务。在本文中,我们对新闻数据集进行了实验。我们仅使用解码器模型和指针机制来完成标题生成任务,并将 n-gram 语言信息合并到解码器中。在我们的模型中,我们提出了一个丰富的特征输入模块。此外,我们将基于注意力序列的实验结果与我们的模型进行了比较。
1.2相关的尝试
1.3本文贡献
总之,我们的贡献如下:
二.相关工作
神经标题生成将任务概念化为序列到序列问题或编码解码问题。编码器将源单词序列映射到分布式表示,并且解码器在给定源序列的分布式表示和先前生成的目标单词的情况下逐字生成目标标题。
第一个将神经网络应用于文本摘要的工作是[1]。基于注意力的文本摘要模型 [1] 通过循环神经网络 [3] 得到增强。 [14]的工作还采用了注意力序列到序列架构。 [14]中使用的编码器是双向GRU-RNN [15],它融合了词性、名称实体和TF-IDF的特征,解码器是单向GRU-RNN [15]。为了解决词汇外问题,他们还提出了切换生成器指针模型。胡等人。 [10]提出了一个大规模短文本摘要数据集,并利用注意力序列到序列模型在该数据集上进行了实验,但实验结果并不好。为了解决不准确和重复生成事实细节的问题,[13]提出使用指针生成器网络[16]和覆盖机制来解决这些问题。为了产生流畅的摘要,[5]建议使用内容选择器来确定源文档的哪一部分应包含在摘要中。他们使用双向长短期记忆(BiLSTM)[17]和变压器作为编码器和解码器进行了实验。 [18]的工作将抽象方法与提取方法结合起来,并使用强化学习方法来桥接这两种方法之间的不可微计算。 [19]首先使用强化学习选择显着句子,然后将所选句子重写为摘要。 [20]的方法使用卷积序列到序列模型和抽象摘要,取得了抽象摘要领域最先进的结果。
最近,新闻标题生成领域有很多研究[21]-[27]。论文[21]提出了一种尼泊尔新闻标题生成方法。在模型中,他们使用 GRU 作为编码器和解码器。但他们使用蓝色分数作为评价标准。 Alexey 和 Ilya 针对俄罗斯新闻标题生成任务微调了两个基于 Transformer 的预训练模型 [22]。在[23]中,他们提出了一种基于 RNN 的孟加拉新闻标题生成模型。论文[24]提出了多标题生成模型,并提出了多源Transformer解码器。论文[25]实现了一个基于LSTM的缅甸新闻标题生成模型。在论文[26]中,他们提出了一种模型 Transformer(XL)-CC 来生成标题,并在 NYT 数据集和中文 LSCC 新闻数据集上进行了实验。吴等人。 [27]在新闻推荐数据集上提出了NewsBERT模型。 [11] 展示了预训练 bert 模型如何在文本中有效应用
总结。上面讨论的所有标题生成模型都采用传统的编码器-解码器架构,而我们的模型尝试仅使用解码器。仅带有解码器的生成模型可以达到与编码器-解码器模型相当的结果。我们在英文数据集和中文数据集上进行了实验。
三.本文方法
四 实验效果
4.1数据集
4.2 对比模型
4.3实施细节
4.4评估指标
4.5 实验结果
4.6 细粒度分析
五 总结
我们在本文中提出了一种新闻标题生成模型。生成模型不再是具有编码器-解码器结构的框架。我们的一代模型只有解码器。我们模型中的注意力机制是多头注意力,它可以获得输入标记的语义表示并获得输入标记上的注意力分布。在我们的新闻标题生成模型中,有一个丰富的特征输入模块,它将情感特征和词性特征合并到我们的模型中。我们还提出了一种指针生成模型来解决短文本生成任务中的词汇外问题。我们还将 n-gram 语言特征合并到隐藏状态中。在编码器解码器模型中生成新单词时,目标单词的最后一个标记仅关注源标记。在仅具有解码器的模型中,目标词的当前标记不仅关注源标记,而且还关注生成的标记。我们模型中的解码过程就像人类阅读过程一样,这使得我们的模型有效。在新闻标题生成数据集上的实验结果表明,我们提出的模型取得了可比较的结果。然而,新闻标题生成任务也存在一些问题;例如,无法完全避免词汇外问题,模型生成的单词有时不正确。未来,我们将提高特征表示能力和单词生成的准确概率。