NLP论文阅读记录 - 2022 W0S | 基于Longformer和Transformer的提取摘要层次表示模型

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
    • 1.3本文贡献
  • 二.相关工作
  • 三.本文方法
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结
  • 思考


前言

在这里插入图片描述

A Hierarchical Representation Model Based on Longformer and Transformer for Extractive Summarization(22)

0、论文摘要

自动文本摘要是一种在保留原文主要思想的同时对文档进行压缩的方法,包括抽取式摘要和抽象式摘要。提取文本摘要从原始文档中提取重要句子作为摘要。文档表示方法对于生成摘要的质量至关重要。为了有效地表示文档,我们提出了一种用于提取摘要的分层文档表示模型 Long-Trans-Extr,该模型使用 Longformer 作为句子编码器,使用 Transformer 作为文档编码器。 Longformer 作为句子编码器的优点是,该模型可以输入多达 4096 个 token 的长文档,并增加相对少量的计算。所提出的模型 Long-Trans-Extr 在三个基准数据集上进行评估:CNN(有线电视新闻网)、DailyMail 以及 CNN/DailyMail 组合。它在 CNN/DailyMail 上达到 43.78 (Rouge-1) 和 39.71 (Rouge-L),在 CNN 数据集上达到 33.75 (Rouge-1)、13.11 (Rouge-2) 和 30.44 (Rouge-L)。它们是非常有竞争力的结果,此外,它们表明我们的模型在长文档(例如 CNN 语料库)上具有更好的性能。

一、Introduction

1.1目标问题

自1958年Luhn[1]开始自动文摘研究以来,该领域取得了巨大的成就。文本摘要可以分为两类:即抽象摘要和提取摘要。抽象摘要[2]在理解原文语义的基础上提炼其思想和概念,实现语义重构。尽管更类似于人类的逻辑,但由于自然语言生成技术的限制,抽象摘要仍然面临着对原文进行连贯、语法和概括的摘要的巨大挑战。提取式摘要方法从文档中提取关键句子以生成摘要。首先对输入文档进行编码,然后计算文档中句子的分数。根据得分对句子进行排序,选择得分高的句子形成摘要。

1.2相关的尝试

1.3本文贡献

这项研究的重点是提取摘要,因为它不仅可以在新闻文章中生成语义和语法正确的句子,而且计算速度比抽象摘要更快。目前,生成式摘要方法和提取式摘要方法在处理长文本时都存在一些困难,这是由编码器网络的计算复杂性造成的。最近的研究表明,Transformer [3] 在自然语言处理领域无论是实验结果还是计算复杂度都优于 LSTM [4]。然而,即使具有并行计算能力的Transformer也无法处理长文本,导致文本摘要方法仅限于短文本。对于长文本,通常有两种处理方法:(1)直接丢弃超出的部分。这种方法实现起来比较简单,但是对最终总结的质量影响很大。 (2) 将长文本分为几个较短的文本跨度并一一处理它们。这种处理的结果是,不同的文本跨度无法相互交互,因此,大量信息不可避免地丢失。当然,还可以添加其他机制来增强文本跨度之间的交互,但这些新机制实现起来很复杂,通常是特定于任务的,并且不通用。

总之,我们的贡献如下:
(1)本研究提出了分层文档表示方法,采用Longformer作为句子编码器,Transformer作为文档编码器对输入文本进行编码。与 CNN(卷积神经网络)或 LSTM(长短期记忆)作为编码器不同[5-7],由于采用 Longformer 作为句子编码器,该模型可以处理长文档,最多 4096 个标记,并且使得直接对长文本进行编码成为可能。
(2)编码器同时采用全局注意力和局部注意力[8],这不仅保证了关键令牌不丢失全局信息,而且降低了计算复杂度。
(3)所提出的分层模型在CNN/DailyMail数据集[10]上实现了最好的Rouge-1和Rouge-L[9],并且实现了最先进的Rouge-1、Rouge2和Rouge-L在长文本数据集 CNN 上。最好的 Rouge-1 和 Rouge-L 是在短文本数据集 DailyMail 上实现的。实验结果表明,Longformer 作为句子编码器,在长文档上具有良好的性能。

二.相关工作

自动文本摘要包括抽象摘要和提取摘要。近年来,深度学习技术为文摘研究提供了新的思路。在相关文献中,Cho 等人。 [11] 和 Sutskever 等人。 [12]提出了广泛研究的序列到序列(seq2seq)模型,该模型由编码器和解码器组成。其基本思想是利用输入序列的全局信息来推断相应的输出序列。拉什等人。 [13]首先将上述模型应用于文本摘要任务。
在提取摘要中,一个重要的问题是如何从原始文档中提取重要的句子。一些研究基于统计方法[14,15]。随着深度神经网络在自然语言处理中的成功,抽取式摘要取得了比传统机器学习更好的效果。基于神经网络的提取摘要模型的核心是编码器-解码器结构。对于编码器,采用CNN、RNN(循环神经网络)和LSTM来捕获文档的上下文信息[16-18]。然而,使用上述模型,通常很难捕获长距离依赖关系,特别是在长文档的情况下。随着BERT的成功,变压器被发现可以有效地捕获输入的序列信息。 Liu和Lapata [19]提出了一种基于BERT的句子级编码器,它能够对文档进行编码并获得其句子的表示。然后,他们使用 Transformer 对这些句子表示进行编码。张等人。 [20]提出了用于文档编码的HIerachical BERT(HIBERT),并使用未标记的数据对其进行了预训练。首先,他们将未标记数据的 HIBERT 应用于句子预测任务,然后对句子进行分类。王等人。 [21]提出了基于GNN(图神经网络)的HSG,添加细粒度语义节点来辅助句子提取。对于解码器,通常使用多层感知器(MLP)或LSTM来输出句子的分数。
由于神经网络的复杂性,上述方法在处理长文档时存在困难。为了降低复杂性,研究人员提出了不同的方法:Wu 和 Hu [22] 以及 Al-Sabahi 等人。 [16]限制文档的最大句子长度和句子数量;钟等人。 [23] 和纳拉扬等人。 [17]分别截取文档的前512个和600个单词作为输入。张等人。 [20]限制句子的长度并将长文档分成短文档。让模型拥有更长的输入序列最直接有效的方法就是降低复杂度网络的。研究人员已经进行了一些研究[24,25]。贝尔塔吉等人。 [8]提出了Longformer网络。 Longformer从Transformer的注意力机制出发,改进了三种注意力模式,以降低网络的复杂度:(1)滑动窗口注意力; (2)扩大窗口注意力; (3)滑动窗口注意力+全局注意力。作者在问答系统、共指分析等任务上的实验表明,“局部注意力+全局注意力”模型可以在降低计算复杂度的前提下取得良好的性能。与 Transformer 相比,Longformer 的计算复杂度从 O(n2) 降低到 O(n),其中 n 是输入序列的长度。受上述工作的启发,本文采用 Longformer 在提取摘要模型中对文本进行编码,以接受更长的文本输入

三.本文方法

四 实验效果

4.1数据集

介绍了CNN

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

在本研究中,我们提出了一种 Long-Trans-Extr 提取摘要模型,该模型使用 Longformer 作为句子编码器,Transformer 作为文档编码器,最后使用 MLP 分类器来决定是否应该提取文档中的句子或不是。该模型解决了以往模型难以处理长文档的问题。它使句子表示和文档表示能够注意到更长的文本信息,而无需增加太多的计算和内存。实验结果表明,在相同的解码器条件下,我们的模型在 CNN/DailyMail 数据集上优于其他模型,并且在长 CNN 数据集上取得了最好的结果。

思考

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/621739.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GPT-4技术报告的解读(一)

OpenAI在技术报告中介绍了GPT-4,这是一个大型多模态模型,能够接受图像和文本输入,并生成文本输出。GPT-4基于Transformer架构构建,在经过大规模预训练后能预测文档中的下一个令牌,并通过后期的强化学习从人类反馈&…

Cuda编程——使用share memory优化矩阵乘法

在上一篇文章:第一个Cuda程序,矩阵相乘代码,我们设计了一种并行的矩阵乘法程序,效果和使用CPU计算的一样,但时间有了很大的降低,然而,这只是最基本的一种方法,事实上我们完全可以让程…

服务器网络安全防护措施有哪些?

由于服务器发挥着至关重要的作用,因此存储在服务器上的机密数据和信息非常具有价值。如今有一种流行的说法,“数据就是新的石油”。 如果不确定如何保护服务器安全,或者不确定是否已涵盖所有基础知识,那么可以了解下面提供一些可…

Pandas实战100例 | 案例 10: 应用函数 - 使用 `apply`

案例 10: 应用函数 - 使用 apply 知识点讲解 Pandas 的 apply 函数是一个非常强大的工具,允许你对 DataFrame 中的行或列应用一个函数。这对于复杂的数据转换和计算非常有用。你可以使用 apply 来执行任意的函数,这些函数可以是自定义的,也…

Unity游戏图形学 Shader结构

shader结构 shader语言 openGL:SLG跨平台 >GLSL:openGL shaderlauguge DX:微软开发,性能很好,但是不能跨平台 >HLSL:high level shader language CG:微软和Nvidia公司联合开发&#xff…

open3d相关操作总结

open3d其实有很多交互式命令,在运行程序打开了open3d渲染的窗口后,鼠标点击窗口,按H就会弹出,交互命令的帮助,如下图所示: 其中比较常用的有: Q :退出当前窗口 H:打印帮…

5 - 异常处理

目录 1. 总览 1.1 Exception 与 Error 1.2 checked unchecked 异常 1)使用 try-catch 进行捕获 2)使用 throws 关键字抛出 1.3 throw 与 throws 1)throw 2)throws 3)区别 1.4 try-catch-finally 2. try wit…

Airflow大揭秘:如何让大数据任务调度变得简单高效?

介绍:Airflow是一个开源的、用于创建、调度和监控数据管道的工作流平台。这个平台使用Python编写,并通过有向无环图(Directed Acyclic Graph, DAG)来管理任务流程,使得用户不需要知道业务数据的具体内容,只…

Python爬虫学习笔记(一)---Python入门

一、pycharm的安装及使用二、python的基础使用1、字符串连接2、单双引号转义3、换行4、三引号跨行字符串5、命名规则6、注释7、 优先级not>and>or8、列表(list)9、字典(dictionary)10、元组(tuple)11…

SDRAM小项目——写模块

写模块跟着视频看了一个多星期,一开始始终有点弄不清楚,现在记录一下理解的过程。 阅读文档信息: 首先阅读文档信息,了解SDRAM写过程的状态转换和时序图 SDRAM整体状态流程如图所示: 在SDRAM整体系统中&#xff0c…

【算法小课堂】动态规划

动态规划 动态规划相信大家都知道,动态规划算法也是新手在刚接触算法设计时很苦恼的问题,有时候觉得难以理解,但是真正理解之后,就会觉得动态规划其实并没有想象中那么难。网上也有很多关于讲解动态规划的文章,大多都…

Java--业务场景:在Spring项目启动时加载Java枚举类到Redis中(补充)

文章目录 前言步骤测试结果 前言 通过Java–业务场景:在Spring项目启动时加载Java枚举类到Redis中,我们成功将Java项目里的枚举类加载到Redis中了,接下来我们只需要写接口获取需要的枚举值数据就可以了,下面一起来编写这个接口吧。 步骤 在…

mysql-bin日志清理,并设置expire_logs_days时间,mysql占用空间过大问题

mysql-bin日志清理,并设置expire_logs_days时间,mysql占用空间过大问题 文章目录 问题查看mysql配置参数解决全局修改参数清理日志规则手动清理my.cnf 外传 问题 最近发现生产环境的服务器磁盘空间吃紧,查下到底是哪里占用的空间比较大&…

leetcode238:除自身以外数组的乘积

文章目录 1.使用除法(违背题意)2.左右乘积列表3.空间复杂度为O(1)的方法 在leetcode上刷到了这一题,一开始并没有想到好的解题思路,写篇博客再来梳理一下吧。 题目要求: 不使用除法在O(n)时间复杂度内 1.使用除法&am…

Tomcat Notes: URL Mapping

This is a personal study notes of Apache Tomcat. Below are main reference material. - YouTube Apache Tomcat Full Tutorial,owed by Alpha Brains Courses. https://www.youtube.com/watch?vrElJIPRw5iM&t801s 1、URL Mapping To Resources1.1、What w…

新一代数字原住民:市场痛点与“繁”思维应对之道

随着科技的迅速发展,尤其是互联网的普及,新一代数字原住民经营者已经逐渐成为市场的主力军。不同于传统的消费者,有着独特的消费习惯和心理需求。企业要在这激烈的市场竞争中获得优势,深入了解这一群体的特征和心理、行为&#xf…

有趣的事,讲给有趣的人听

哈哈哈,今天不写技术了,今天分享一下生活,技术我们什么时候都可以学,但是生活更值得我们现在就去更好的体验! 两年多的涤生大数据,认识了形形色色的小伙伴,陆续沟通下来6000多人,彼时…

数据库锁表原因、排查、解决

一.场景 场景1场景2二.原因三.排查四.解决方案 一.场景 场景1 锁表通常发生在DML( insert 、update 、delete ) A操作进行全量数据同步,对整个表的粒度进行上锁,导致B操作只能等待A操作完成才能进入插入数据。此时就出现了锁表…

Pandas实战100例 | 案例 14: 数据透视表 - 使用 `pivot_table`

案例 14: 数据透视表 - 使用 pivot_table 知识点讲解 数据透视表是一种常见的数据汇总工具,用于按照一个或多个键对数据进行分类汇总。Pandas 的 pivot_table 函数提供了一种快速创建数据透视表的方法。你可以指定行索引、列索引,以及用于聚合的数据和…

Elasticsearch windows开箱即用【记录】

一、准备工作 安装ES之前要在本机安装好JDK,对应的兼容性见官网链接:https://www.elastic.co/cn/support/matrix ES官网链接:https://www.elastic.co/cn/, 我本机安装的是JDK8,测试使用的是7.3.0版本的ES和Kibana。 1、首先去…