NLP论文阅读记录 - 2021 | WOS 基于多头自注意力机制和指针网络的文本摘要

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
    • 1.3本文贡献
  • 二.问题定义和解决问题的假设
    • 问题定义
    • 解决问题的假设
  • 三.本文方法
    • 3.1 总结为两阶段学习
      • 3.1.1 基础系统
    • 3.2 重构文本摘要
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结
  • 思考


前言

在这里插入图片描述

Text summarization based on multi-head self-attention mechanism and pointer network(21)

0、论文摘要

现有的文本摘要方法主要依靠人工标记的标准摘要与原始文本之间的映射来进行特征提取,往往忽略了原始文档的内部结构和语义特征信息。因此,现有模型提取的文本摘要存在语法结构错误、语义偏离原文的问题。本文试图增强模型对源文本固有特征信息的关注,使模型能够更准确地识别文档的语法结构和语义信息。
因此,本文提出了一种基于多头自注意力机制和软注意力机制的模型。通过在模型编码阶段引入改进的多头自注意力机制,训练模型使正确的摘要语法和语义信息获得更高的权重,从而使生成的摘要更加连贯和准确。同时采用指针网络模型,改进覆盖机制,解决生成摘要时的词汇外和重复问题。本文使用CNN/DailyMail数据集来验证本文提出的模型,并使用ROUGE指标来评估模型。
实验结果表明,与其他模型相比,本文的模型提高了生成摘要的质量。

一、Introduction

1.1目标问题

当前,互联网时刻产生大量文本数据,文本信息过载问题日益严重。需要对各类文本进行降维,因此自动文本摘要的任务应运而生。自动文本摘要[1]是自然语言处理的一个重要研究领域。自动文本摘要从原文中提取一段内容或生成一段新内容来总结原文的主要信息。也就是说,对原始数据进行压缩和提炼最终文本为用户提供了简洁的内容描述。它帮助用户节省了大量的时间,用户可以从摘要中获取文本的所有关键信息点,而无需阅读整个文档。近年来,文本摘要已被应用于生活的许多方面,例如生成报告摘要和自动生成新闻标题[2-5]。目前,自动文本摘要的研究方向可分为抽取式文本摘要[6,7]和抽象式文本摘要[8]。提取文本摘要从原始文本中提取关键句子和关键词以生成摘要。这种方法可能会产生不连贯的摘要并且对字数的控制不佳。效果完全取决于原文的类型。抽象文本摘要是通过重写原始文本内容来生成的,使得生成的摘要能够包含新的词典或短语,更加灵活。因此,本文重点关注抽象文本摘要。
最近,有研究人员使用seq2seq(sequence-tosequence)模型进行抽象文本摘要研究[9-11],模拟人们阅读文档的思维过程,首先提取原文信息全局化,然后总结原文的主要思想。曹等人。 [12] 和 Sutskever 等人。 [13]提出了一种由编码器和解码器组成的序列到序列模型来解决机器翻译问题。巴达瑙等人。 [14]逐渐将序列到序列模型应用于抽象文本摘要。拉什等人。 [15]提出在DUC-2004[16]和Gigaword上使用序列到序列模型和注意力机制生成抽象文本摘要,并使用CNN对原始文本进行编码。该模型具有提取文本信息并生成文本摘要的能力。然而,生成的摘要有一些偏离原文的主要信息并且超出了词汇范围。然后,乔普拉等人。 [17]使用相同的编码器对原始文档进行编码,但他们使用循环神经网络作为解码器,该模型极大地提高了摘要生成的效果。纳拉帕蒂等人。 [18]提出使用关键词和注意力机制来提取原文并对原文进行编码。周等人。文献[19]提出采用选择性编码对原文进行编码,从而增强了原文的信息提取。
在使用序列到序列模型的过程中,研究人员发现该模型可以从原始文本中提取信息,但该模型生成的文本摘要存在词汇外和单词重复问题。为了解决生成摘要中的词汇外问题,Gu 等人。 [20]使用复制机制直接复制原文中的重要单词而不是词汇外的单词来生成摘要。参见等人。 [21]利用覆盖机制和指针生成网络模型为词汇外和单词重复提供了解决方案。覆盖机制可以避免在生成摘要时在同一位置给予多个高注意力权重值,并且可以有效减少摘要生成中的重复单词问题。指针生成网络在序列到序列模型的基础上引入了指针网络[22]。在指针生成网络中,生成摘要时会生成两个概率。即当前单词从词汇表中生成的概率以及在指针处被复制的概率。该网络用于学习两个概率之间的权重。指针生成网络可以有效地适应提取器和抽象网络[23],并已被用于许多抽象生成任务[24,25]。周等人。 [26]继续提出SeqCopyNet来增强生成摘要的可读性,并将完整的输入句子序列复制到摘要中。 [27]使用词义歧义来改进基于查询的文本摘要。王等人。 [28] 和梁等人。 [29]使用强化学习引入文本摘要。 [30]使用包括主编码器和辅助编码器的双编码模型。
一些研究者利用传统的软注意力机制提取原文的关键信息[31],但无法提取原文内部的各种语义和语法信息,导致语法结构错误和语义偏离原文的问题文本。瓦斯瓦尼等人。 [32]提出了一种变压器模型,其中使用新的自注意力机制模型来提取输入文本的信息。实验表明,自注意力机制可以快速提取稀疏数据的重要特征。它已广泛应用于自然语言处理任务中[33-35]。自注意力机制是注意力机制的改进,减少了对外部信息的依赖,更好地捕捉数据或特征的内部相关性。自注意力机制利用注意力机制来计算每个单词与所有其他单词之间的关联,以便模型能够学习不同表示子空间中的相关信息。文本摘要经历了如何提取原始文本信息,如何生成摘要,同时缓解生成摘要过程中出现的未登录词和重复问题。然而,在提取原文信息的过程中,学习原文本身的语义、语法结构和确定关键信息仍然需要研究。并进一步考虑降低单词重复率。因此,这是一个不完善的 Seq2Seq 模型的研究空白[36]。在该模型中,解决了序列到序列模型中出现的问题,并解决了研究的不足。表 1 详细阐述了先前作者的贡献。
本文的其余部分组织如下。第二部分介绍自动文本摘要的问题定义和假设。第三部分详细描述了文中提出的方法。第四部分介绍了本文的基线、数据集、实验和结果分析。最后,文章在第五部分结束。

1.2相关的尝试

1.3本文贡献

总之,我们的贡献如下:

二.问题定义和解决问题的假设

问题定义

随着近年来深度学习的快速发展,序列到序列模型被广泛应用于机器翻译、问答、文本摘要等序列问题。然而,序列到序列模型存在许多问题,例如词汇外问题,这会产生重复问题[15]。为了解决这些问题,See 等人。 [21]提出了指针生成网络,增加了指针网络以及基于注意力机制的对seq2seq模型的覆盖机制,以缓解使用seq2seq带来的问题。指针生成网络采用传统的软注意力机制,无法提取原文内部的各种语义和语法信息,导致生成的摘要中存在语法结构错误和与原文语义偏差的问题。因此,本文认为有必要学习原文的语义和语法结构,确定关键信息。由于长文本摘要的特殊性和多样性,输入的文章通常是具有多个子空间的多个句子。如果模型只关注一个空间,一些信息将会丢失。同时,人们注意到自注意力机制在提取原始文本的关键特征方面还不够。在重现指针生成网络时,发现随着预测摘要长度的增加,覆盖机制的效果逐渐减弱。因此,本研究试图增强原始文本的提取和编码。另外,进一步减少单词的重复率。

解决问题的假设

三.本文方法

3.1 总结为两阶段学习

3.1.1 基础系统

3.2 重构文本摘要

四 实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

本文提出了两种基于注意力机制的模型,即MSAPN和MDAPN。两种模型都使用改进的多头自注意力机制来获取原始文本内部的语义和语法信息,从而使生成的摘要文本摘要与文本的语义和语法信息具有相似的含义。此外,这两个模型都使用指针网络和改进的覆盖机制来减少重复内容和词外问题。
实验结果表明,MSAPN模型在ROUGE Recall分数上优于传统的指针生成网络,但在ROUGE Precision分数上效果不佳。为此,提出的MDAPN模型结合门控机制,使得模型的ROUGE指标优于指针生成网络,能够有效包含更多的原始文本信息,生成的摘要更加完整。
然而,MDAPN模型的F1得分值低于现有模型。因此,未来可以通过考虑预训练[43]模型和强化学习[29]来扩展模型,从而提高模型的F1分数。
该模型引入预训练模型来提高文本信息的提取,并通过强化学习减少训练和预测中的暴露偏差,进一步提高摘要的生成。此外,希望未来提出的模型能够应用于不同领域[44]。

思考

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/636339.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python222网站实战(SpringBoot+SpringSecurity+MybatisPlus+thymeleaf+layui)-帖子详情页实现

锋哥原创的SpringbootLayui python222网站实战: python222网站实战课程视频教程(SpringBootPython爬虫实战) ( 火爆连载更新中... )_哔哩哔哩_bilibilipython222网站实战课程视频教程(SpringBootPython爬虫实战) ( 火…

PiflowX组件-OracleCdc

OracleCdc组件 组件说明 Oracle CDC连接器允许从Oracle数据库读取快照数据和增量数据。 计算引擎 flink 组件分组 cdc 端口 Inport:默认端口 outport:默认端口 组件属性 名称展示名称默认值允许值是否必填描述例子hostnameHostname“”无是Or…

解决一个mysql的更新属性长度问题

需求背景: 线上有一个 platform属性,原有长度为 varchar(10),但是突然需要填入一个11位长度的值;而偏偏这个属性在线上100张表中有50张都存在,并且名字各式各样,庆幸都包含 platform;例如 platf…

JavaSE核心基础-方法-笔记

1.方法概述 将一些代码抽取出来,放到单独的代码块中,形成方法,可以反复调用。 2.方法的定义格式以及解释 格式: 修饰符 返回值类型 方法名 (参数列表){ //方法主…

非科班转码的秋招复盘:地理信息科学GIS专业到后端研发、软件开发

本文介绍地理信息科学(GIS)专业的2024届应届生,在研三上学期期间,寻找后端研发、软件开发等IT方向工作的非科班转码秋招情况。 首先,这篇文章一开始写于2023年年底,当时为了参加一个征文活动,所…

Python爬虫的9个具体应用场景案例分析与具体应用。

文章目录 前言一、新闻采集二、数据挖掘三、网站监测四、舆情分析五、爬虫定制化开发六、数据采集与处理七、网络安全八、网络营销九、自动化测试关于Python技术储备一、Python所有方向的学习路线二、Python基础学习视频三、精品Python学习书籍四、Python工具包项目源码合集①P…

嵌入式学习-网络编程-Day6

嵌入式学习-网络编程-Day6 一、思维导图 二、作业 1.基于UDP的网络聊天室(2024.1.21号前上交) 项目需求: 1.如果有用户登录,其他用户可以收到这个人的登录信息 2.如果有人发送信息,其他用户可以收到这个人的群聊信…

LabVIEW振动数据采集与分析系统

在这个项目中, LabVIEW软件配合精确的硬件组件,以实现高效的振动数据采集和复杂信号分析。硬件方面,系统采用了PCB振动加速度传感器的高灵敏度传感器,以及NI9234型号的数据采集卡,确保了数据采集的高精度和可靠性。软件…

Leetcode刷题-(6~10)-Java+Python+JavaScript

算法题是程序员的基本功,也是各个大厂必考察的重点,让我们一起坚持写算法题吧 遇事不决,可问春风,春风不语,即是本心。 我们在我们能力范围内,做好我们该做的事,然后相信一切都事最好的安排就…

2024年对我懒这件事的弥补

一、回顾、前言 时光飞逝转眼2023年就“溜”走了,还记得我最后一次发博客是在2023.7.12 距离现在已经n天了,原因尽是懒! 拜拜,我继续偷懒去咯。 咳咳,显然这不可能,当然为了弥补大家我这个大好人也是憋…

前端包管理工具

一、代码共享方案 npm 进行发布上传 npmregistrynpm 进行安装 二、npm 包管理工具 2.1 介绍 安装 node 的时候自动安装 node package manager:Node 包管理工具 可以通过 npm 安装说明已经上传到这个仓库里面了 npm 官网查看是否有发布:npmjs.org …

JAVAEE出街 网络编程(一)

网络编程 一. 网络编程二. 客户端与服务器2.1 一问一答2.2 一问多答2.3 多问一答2.4 多问多答 三. TCP与UDP的特点 一. 网络编程 网络编程本质上就是学习传输层给应用层提供的API,把数据交给传输层,通过一层层的封装将数据通过网卡传输出去。 二. 客户端…

html5实现好看的年会邀请函源码模板

文章目录 1.设计来源1.1 邀请函主界面1.2 诚挚邀请界面1.3 关于我们界面1.4 董事长致词界面1.5 公司合作方界面1.6 活动流程界面1.7 加盟支持界面1.8 加盟流程界面1.9 加盟申请界面1.10 活动信息界面 2.效果和源码2.1 动态效果2.2 源码目录结构 源码下载 作者:xcLei…

《WebKit 技术内幕》之四(4): 资源加载和网络栈

4.实践:高效的资源使用策略 4.1 DNS和TCP连接 DNS解析和TCP连接占用大量的时间,可以从以下几个方面优化: 减少连接的重定向,有些网页中使用了大量的重定向,可能还会有很多次重定向,这不仅要求浏览器建立…

使用 FFmpeg 轻松调整视频的大小/缩放/更改分辨率

在此 FFmpeg 教程中,我们学习使用 FFmpeg 的命令行工具更改视频的分辨率(或调整视频的大小/缩放)。 更改视频的分辨率(也称为调整大小或缩放)是视频编辑、处理和压缩中非常常见的操作。对于 ABR 视频流尤其如此&#…

HCIP BGP选路实验

拓扑图&IP划分如下: 第一步,配置IP&环回地址 以R1为例,R2~R8同理 interface GigabitEthernet 0/0/0 ip address 12.0.0.1 24 interface LoopBack 0 ip address 10.0.0.1 24 第二步:对AS200网段配置OSPF协议 以R2为例&a…

[C#]C# winform部署yolov8目标检测的openvino模型

【官方框架地址】 https://github.com/ultralytics/ultralytics 【openvino介绍】 OpenVINO(Open Visual Inference & Neural Network Optimization)是由Intel推出的,用于加速深度学习模型推理的工具套件。它旨在提高计算机视觉和深度学…

【使用 UCF101 数据集】C3D 模型准备与模型训练

一、前言 本文章将对 C3D 模型进行解析,对里面的模型结构进行详解,最后使用UCF101 数据集对该模型进行实战,在进行推理时能够正确识别出未知视频中里面正确的类别。 二、目录 三、相关内容 四、详细介绍 【使用 UCF101 数据集】C3D 模型准…

HCIA——20应用层:C/S、P2P、peer

学习目标: 计算机网络 1.掌握计算机网络的基本概念、基本原理和基本方法。 2.掌握计算机网络的体系结构和典型网络协议,了解典型网络设备的组成和特点,理解典型网络设备的工作原理。 3.能够运用计算机网络的基本概念、基本原理和基本方法进行…

基于LabVIEW的压力传感器测试系统

摘要 现在各类压力传感器已广泛应用于各种工业自控环境,对压力传感器的研究 及应用,既可以体现一个国家的科技发展水平,又可以提升国家的综合国力,还 可以在丰富、方便和智能化人们的生活方面做出重要的贡献。而针对不同仪器组 成…