NLP论文阅读记录 - 2021 | WOS HG-News:基于生成式预训练模型的新闻标题生成

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
    • 1.3本文贡献
  • 二.相关工作
  • 三.本文方法
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结
  • 思考


前言

在这里插入图片描述

HG-News: News Headline Generation Based on a Generative Pre-Training Model(2108)

0、论文摘要

自从神经网络方法应用于文本摘要以来,神经标题生成模型最近取得了很好的成果。在本文中,我们关注新闻标题的生成。我们提出了一种基于生成预训练模型的新闻标题生成模型。在我们的模型中,我们提出了一个丰富的特征输入模块。我们提出的标题生成模型仅包含结合了指针机制和n-gram语言特征的解码器,而其他生成模型则使用编码器-解码器架构。对新闻数据集的实验表明,我们的模型在新闻标题生成领域取得了可比的结果。

一、Introduction

1.1目标问题

文本摘要的目的是浓缩文档,同时浓缩的内容保留原始文档的核心含义。文本摘要方法包括抽取式摘要和抽象式摘要。标题生成是一个抽象摘要子任务,也称为句子摘要。为了生成压缩长文本或短文本信息的标题,我们需要对标题生成进行研究。
我们专注于神经标题生成(NHG)的任务。人工神经网络用于解决文本生成任务。使用神经网络的方法在标题生成任务上显示出了有希望的结果,该任务使用端到端模型对源文档进行编码,然后将其解码为新闻标题。之前的大部分工作都涉及单个文档摘要,而本文仅涉及标题生成。神经标题生成的开创性工作是[1],它使用编码器-解码器框架来生成句子级摘要。随着循环神经网络(RNN)[2]的发展,[3]采用了注意力编码器-解码器模型来进行句子摘要。
为了更好地表示语义,提出了转换器[4]。然后,使用变压器进行抽象摘要[5],但与注意力序列到序列模型相比,结果没有改善。 OpenAI 证明,当在新数据集上进行训练时,语言模型开始在没有任何显式监督的情况下学习自然语言处理任务。 OpenAI提出的模型称为GPT-2[6]。 Rothe 开发了一种基于 Transformer 的序列到序列模型,其中包含用于序列生成任务 [9] 的预训练 BERT [7]、GPT-2 和 RoBERTa [8] 检查点。为了证明 GPT-2 对于标题生成任务的有效性,我们没有利用预训练模型的检查点,而只是使用 GPT-2 模型的结构。由于大多数文本摘要数据集都是用英语编写的,[10]提出了一个大规模的短文本摘要数据集。目前,整个摘要生成模型使用编码器-解码器架构来生成摘要。我们将尝试仅使用解码器来解决标题生成任务。在本文中,我们对新闻数据集进行了实验。我们仅使用解码器模型和指针机制来完成标题生成任务,并将 n-gram 语言信息合并到解码器中。在我们的模型中,我们提出了一个丰富的特征输入模块。此外,我们将基于注意力序列的实验结果与我们的模型进行了比较。

1.2相关的尝试

1.3本文贡献

总之,我们的贡献如下:

二.相关工作

神经标题生成将任务概念化为序列到序列问题或编码解码问题。编码器将源单词序列映射到分布式表示,并且解码器在给定源序列的分布式表示和先前生成的目标单词的情况下逐字生成目标标题。
第一个将神经网络应用于文本摘要的工作是[1]。基于注意力的文本摘要模型 [1] 通过循环神经网络 [3] 得到增强。 [14]的工作还采用了注意力序列到序列架构。 [14]中使用的编码器是双向GRU-RNN [15],它融合了词性、名称实体和TF-IDF的特征,解码器是单向GRU-RNN [15]。为了解决词汇外问题,他们还提出了切换生成器指针模型。胡等人。 [10]提出了一个大规模短文本摘要数据集,并利用注意力序列到序列模型在该数据集上进行了实验,但实验结果并不好。为了解决不准确和重复生成事实细节的问题,[13]提出使用指针生成器网络[16]和覆盖机制来解决这些问题。为了产生流畅的摘要,[5]建议使用内容选择器来确定源文档的哪一部分应包含在摘要中。他们使用双向长短期记忆(BiLSTM)[17]和变压器作为编码器和解码器进行了实验。 [18]的工作将抽象方法与提取方法结合起来,并使用强化学习方法来桥接这两种方法之间的不可微计算。 [19]首先使用强化学习选择显着句子,然后将所选句子重写为摘要。 [20]的方法使用卷积序列到序列模型和抽象摘要,取得了抽象摘要领域最先进的结果。
最近,新闻标题生成领域有很多研究[21]-[27]。论文[21]提出了一种尼泊尔新闻标题生成方法。在模型中,他们使用 GRU 作为编码器和解码器。但他们使用蓝色分数作为评价标准。 Alexey 和 Ilya 针对俄罗斯新闻标题生成任务微调了两个基于 Transformer 的预训练模型 [22]。在[23]中,他们提出了一种基于 RNN 的孟加拉新闻标题生成模型。论文[24]提出了多标题生成模型,并提出了多源Transformer解码器。论文[25]实现了一个基于LSTM的缅甸新闻标题生成模型。在论文[26]中,他们提出了一种模型 Transformer(XL)-CC 来生成标题,并在 NYT 数据集和中文 LSCC 新闻数据集上进行了实验。吴等人。 [27]在新闻推荐数据集上提出了NewsBERT模型。 [11] 展示了预训练 bert 模型如何在文本中有效应用
总结。上面讨论的所有标题生成模型都采用传统的编码器-解码器架构,而我们的模型尝试仅使用解码器。仅带有解码器的生成模型可以达到与编码器-解码器模型相当的结果。我们在英文数据集和中文数据集上进行了实验。

三.本文方法

四 实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

我们在本文中提出了一种新闻标题生成模型。生成模型不再是具有编码器-解码器结构的框架。我们的一代模型只有解码器。我们模型中的注意力机制是多头注意力,它可以获得输入标记的语义表示并获得输入标记上的注意力分布。在我们的新闻标题生成模型中,有一个丰富的特征输入模块,它将情感特征和词性特征合并到我们的模型中。我们还提出了一种指针生成模型来解决短文本生成任务中的词汇外问题。我们还将 n-gram 语言特征合并到隐藏状态中。在编码器解码器模型中生成新单词时,目标单词的最后一个标记仅关注源标记。在仅具有解码器的模型中,目标词的当前标记不仅关注源标记,而且还关注生成的标记。我们模型中的解码过程就像人类阅读过程一样,这使得我们的模型有效。在新闻标题生成数据集上的实验结果表明,我们提出的模型取得了可比较的结果。然而,新闻标题生成任务也存在一些问题;例如,无法完全避免词汇外问题,模型生成的单词有时不正确。未来,我们将提高特征表示能力和单词生成的准确概率。

思考

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/626116.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数位dp】【C++算法】600. 不含连续1的非负整数

作者推荐 【矩阵快速幂】封装类及测试用例及样例 涉及知识点 数位dp LeetCode600. 不含连续1的非负整数 给定一个正整数 n ,请你统计在 [0, n] 范围的非负整数中,有多少个整数的二进制表示中不存在 连续的 1 。 示例 1: 输入: n 5 输出: 5 解释: 下…

刷题 ------ 二分枚举(查找)

文章目录 1.x 的平方根2.第一个错误的版本3.有效的完全平方数4.猜数字大小5.排列硬币6. 寻找比目标字母大的最小字母7. 二分查找8.检查整数以及其两倍数是否存在9. 两个数组间的距离值10.特殊的数组的特征值11.找出数组排序后的目标下标12.和有限的最长子序列13.正整数和负数的…

Day04

今日任务 24.两两交换链表中的节点19.删除链表的倒数第N个节点 160. 链表相交142.环形链表II 24 两两交换链表中的节点 题目链接:https://leetcode.cn/problems/swap-nodes-in-pairs/description/ 方法一:遍历实现 思路: 代码&#xff…

Linux/OpenAdmin

Enumeration nmap 用nmap扫描发现目标对外开放了22和80,端口详细信息如下 从nmap的结果看到,是apache的default page,使用工具跑一下目录,看了官 网文档的结果然后写个小字典节约时间,扫描结果如下 On the page at /…

new Handler(getMainLooper())与new Handler()的区别

Handler 在Android中是一种消息处理机制。 new Handler(); 创建handler对象,常用在已经初始化了 Looper 的线程中调用这个构造函数(即非主线程),如果感觉不好理解,可以把Handler handler new Handler() 理解为常用在…

曲面上偏移命令的查找

今天学习老王的SW绘图时,遇到一个命令找不到,查询了一会终于找到了这个命令,防止自己忘记,特此记录一下,这个命令就是“曲面上偏移”,网上好多的教程都是错误的,实际上这个命令没有在曲面里面&a…

MySQL(三)——函数

上期文章 MySQL(二)——SQL 文章目录 上期文章字符串函数数值函数日期函数流程函数总结 函数:一段可以直接被另一段程序调用的程序或代码 字符串函数 函数功能CONCAT(S1,S2,…Sn)字符串拼接,将S1,S2,…Sn拼接成一个字符串LOWER…

快速前端开发01

前端开发 1 前端开发1.快速开发网站2.浏览器能识别的标签2.1 编码(head)2.2 title(head)2.3 标题2.4 div和span2.4.5 超链接2.4.6 图片小结2.4.7 列表2.4.8 表格2.4.9 input系列(7个)2.4.10 下拉框2.4.11 多…

Flask 项目怎么配置并创建第一个小项目?附上完成第一个小案例截图

目录 1. 为什么要学习 flask? 2. flask 是什么? 3. flask 如何使用? 要安装 Flask,可以按照以下步骤进行: 4. 使用流程 4.1. 新建项目 4.1.1. 打开 pycharm,新建项目 4.1.2. 设置目录,并…

MySql前言

🎥 个人主页:Dikz12🔥个人专栏:MySql📕格言:那些在暗处执拗生长的花,终有一日会馥郁传香欢迎大家👍点赞✍评论⭐收藏 目录 数据库有哪些软件?? Mysql MySql数…

14.鸿蒙HarmonyOS App(JAVA)时钟组件计时器倒计时单选按钮复选框开关switch与开关按钮ToggleButton图像组件示范

鸿蒙HarmonyOS App(JAVA) 时钟组件 计时器 倒计时 单选按钮 复选框 开关switch 开关按钮ToggleButton 图像组件 ability_main.xml <?xml version"1.0" encoding"utf-8"?> <DirectionalLayoutxmlns:ohos"http://schemas.huawei.co…

HarmonyOS4.0系列——05、状态管理之@Prop、@Link、@Provide、@Consume,以及@Watch装饰器

状态管理 看下面这张图 Components部分的装饰器为组件级别的状态管理&#xff0c;Application部分为应用的状态管理。开发者可以通过StorageLink/LocalStorageLink 实现应用和组件状态的双向同步&#xff0c;通过StorageProp/LocalStorageProp 实现应用和组件状态的单向同步。…

关于群晖ARPL界面能出现ip但是使用Synology Assistant搜索不到ip问题 及解决方法

文章引用ing304 频道文章&#xff1a;https://qun.qq.com/qqweb/qunpro/share?_wv3&_wwv128&appChannelshare&inviteCode20jx8dPsU2z&contentID1m4NKs&businessType2&from181174&shareSource5&bizka 前言 当进入该界面后 提示IP无法访问&a…

【学习心得】图解Git命令

图解Git命令的图片是在Windows操作系统中的Git Bash里操作截图。关于Git的下载安装和理论学习大家可以先看看我写的另两篇文章。链接我放在下面啦&#xff1a; 【学习心得】Git快速上手_git学习心得-CSDN博客 【学习心得】Git深入学习-CSDN博客 一、初始化仓库 命令&#xff…

eBPF运行时安全

引言 eBPF作为当前linux系统上最为炙手可热的技术&#xff0c;通常被用于网络流量过滤和分析、系统调用跟踪、性能优化、安全监控&#xff0c;当下比较知名的项目有Cilium、Falco等。 Cilium 是一个开源的容器网络和安全性项目&#xff0c;致力于提供高效的容器通信和强大的安…

Java代码审计FastJson反序列化利用链跟踪动态调试autoType绕过

目录 0x00 前言 0x01 基础参考 JNDI注入实例 使用type加入User类解析 FastJson历史漏洞简介 0x02 FastJson 1.2.24 利用链分析 调试过程 构造Poc思路 CC链关键流程 0x03 FastJson 1.2.25-1.2.47 利用链分析 1、开启autoTypeSupport&#xff1a;1.2.25-1.2.41 调试过…

含并行连结的网络(GoogLeNet)

目录 1.GoogLeNet 2.代码 1.GoogLeNet inception不改变高宽&#xff0c;只改变通道数。GoogLeNet也大量使用1*1卷积&#xff0c;把它当作全连接用。 V3耗内存比较多&#xff0c;计算比较慢&#xff0c;但是精度比较准确。 2.代码 import torch from torch import nn from t…

MATLAB - 使用运动学 DH 参数构建机械臂

系列文章目录 前言 一、 使用 Puma560 机械手机器人的 Denavit-Hartenberg (DH) 参数&#xff0c;逐步建立刚体树形机器人模型。在连接每个关节时&#xff0c;指定其相对 DH 参数。可视化机器人坐标系&#xff0c;并与最终模型进行交互。 DH 参数定义了每个刚体通过关节与其父…

非常好用的Mac清理工具CleanMyMac X 4.14.7 如何取消您对CleanMyMac X的年度订购

CleanMyMac X 4.14.7是Mac平台上的一款非常著名同时非常好用的Mac清理工具。全方位扫描您的Mac系统&#xff0c;让垃圾无处藏身&#xff0c;您只需要轻松单击2次鼠标左键即可清理数G的垃圾&#xff0c;就这么简单。瞬间提升您Mac速度。 CleanMyMac X 4.14.7下载地址&#xff1a…

基于LabVIEW的声音信号采集分析系统开发

摘要&#xff1a;以美国国家仪器(NI)公司开发的LabVIEW虚拟仪器为软件开发平台&#xff0c;设计了一个可以同步实现声音信号采集和分析的多功能模块化软件系统&#xff0e;借助LabVIEW图形化软件相应的声音读取、写入和存储函数实现对声音信号的采集、存储、时域分析和频域分析…