论文阅读笔记-Get To The Point: Summarization with Pointer-Generator Networks

前言

最近看2021ACL的文章,碰到了Copying Mechanism和Coverage mechanism两种技巧,甚是感兴趣的翻阅了原文进行阅读,Copying Mechanism的模型CopyNet已经进行阅读并写了阅读笔记,如下:
论文阅读笔记:Copying Mechanism缓解未登录词问题的模型–CopyNet
而本篇文章则是讲Coverage mechanism,当然这篇并不是Coverage mechanism最初的技巧原文(最早出现在这一篇:Statistical machine translation),本篇只是将这个技巧进行改进使其更加适用于RNN-base的Seq2Seq模型。Copying Mechanism和Coverage mechanism两个技巧的提出都比较早,但是其应用得当,在特定任务上给模型带来效果提升会令人意想不到。

本论文主要围绕解决Seq2Seq模型应用于摘要生成时主要存在两个问题:

  • 难以准确复述原文的事实细节、无法处理原文中的未登录词(OOV)
  • 生成的摘要中存在重复的片段

对于OOV的问题,一种很自然的想法就是将source doc也纳入输出词的考虑范围,即可以直接从source doc中复制相关相应的token作为输出,这一点在CopyNet中应用的效果很不错。而对于重复词的问题,需要通过一种手段,利用之前所生成的token来影响当前time step的决策(可以认为是已出现的token概率进行惩罚),从而避免产生重复词,不过论文作者为了避免影响模型的效果,对不同的模型任务进行了改进,比如额外加上了coverage loss来将token位置也给考虑进去。

模型细节

在这里插入图片描述

encoder部分采用一个单层双向LSTM,输入原文的词向量序列,输出一个编码后的隐层状态序列 h i h_i hi。decoder部分采用一个单层单向LSTM,每一步的输入是前一步预测的词的词向量,同时输出一个解码的状态序列 s t s_t st,用于当前步的预测。attention具体的计算公式为:
e i t = v T t a n h ( W h h i + W s s t + b a t t n ) e_i^t=v^Ttanh(W_hh_i+W_ss_t+b_{attn}) eit=vTtanh(Whhi+Wsst+battn)
a t = s o f t m a x ( e t ) a_t=softmax(e_t) at=softmax(et)
其中 h i , s t h_i,s_t hi,st分别是source doc进行双向LSTM编码的hidden state和cell state, W , b W,b W,b则是参数。在计算出当前步的attention分布后,对encoder输出的隐层做加权平均,获得输入序列的动态表示,即context-vector:
h t ∗ = ∑ i a i t h i h_t^*=\sum_ia_i^th_i ht=iaithi
在不使用Copy Mechanism的情况下,我们的Seq2Seq是依靠decoder输出的隐层和context-vector,共同决定当前time step预测在词表上的概率分布:
P v o c a b = s o f t m a x ( V ′ ( V [ s t , h t ∗ ] + b ) + b ′ ) P_{vocab}=softmax(V^{'}(V[s_t,h_t^*]+b)+b^{'}) Pvocab=softmax(V(V[st,ht]+b)+b)

Copying Mechanism

而论文则是在预测的每一个time step,通过动态计算一个生成概率 p g e n p_{gen} pgen,巧妙的把seq2seq模型和pointer network结合起来,使得即保留了seq2seq模型保持抽象生成的能力,也保留了pointer network直接从原文中取词的Copy能力:
p g e n = σ ( w h ∗ T h t ∗ + w s T s t + w x T + b p t r ) p_{gen}=\sigma(w_{h^*}^Th_t^*+w_s^Ts_t+w_x^T+b_{ptr}) pgen=σ(whTht+wsTst+wxT+bptr)
P ( W ) = p g e n P v o c a b ( w ) + ( 1 − p g e n ) ∑ i : w i a i t P(W)=p_{gen}P_{vocab}(w)+(1-p_{gen})\sum_{i:w_i}a_i^t P(W)=pgenPvocab(w)+(1pgen)i:wiait
其中, σ \sigma σ 是sigmoid激活函数,这样就直接把seq2seq模型计算的attention分布作为pointer network的输出,源代码实现上通过参数复用,大大降低了模型的复杂度,如下:

with tf.variable_scope('calculate_pgen'):
p_gen = linear([context_vector, state.c, state.h, x], 1, True) # Tensor shape (batch_size, 1)
p_gen = tf.sigmoid(p_gen)
p_gens.append(p_gen)
Coverage mechanism

除此之外,针对重复词问题,论文使用Coverage mechanism,Coverage模型的重点在于预测过程中,维护一个coverage vector:
c t = ∑ t ′ = 0 t − 1 a t ′ c^t=\sum_{t^{'}=0}^{t-1}a^{t^{'}} ct=t=0t1at
这个向量是过去所有预测步计算的attention分布的累加和,记录着模型已经关注过source doc的哪些token,并且让这个coverage vector影响当前time step的attention计算:
e i t = v T t a n h ( W h h i + W s s t + w c c i t + b a t t n ) e_i^t=v^Ttanh(W_hh_i+W_ss_t+w_cc_i^t+b_{attn}) eit=vTtanh(Whhi+Wsst+wccit+battn)
这样做的目的在于,在模型进行当前time step进行attention计算的时候,告诉它之前它已经关注过的token,希望避免出现连续attention到某几个token上的情况。同时,考虑到重复token的位置的影响,coverage模型还添加一个额外的coverage loss,来对重复的attention作惩罚:
c o v l o s s t = ∑ i m i n ( a i t , c i t ) covloss_t=\sum_imin(a_i^t,c_i^t) covlosst=imin(ait,cit)
这样这个loss只会对重复的attention产生惩罚,并不会强制要求模型关注原文中的每一个词。加上词表预测的损失函数采用交叉熵:
l o s s = − 1 T ∑ t = 0 T l o g P ( w t ∗ ) loss=-\frac{1}{T}\sum_{t=0}^TlogP(w_t^*) loss=T1t=0TlogP(wt)
最终,模型的整体损失函数为:
l o s s t = − l o g P ( w t ∗ ) + λ ∑ i m i n ( a i t , c i t ) loss_t=-logP(w_t^*)+\lambda\sum_imin(a_i^t,c_i^t) losst=logP(wt)+λimin(ait,cit)
文章在实验部分提到,如果移除了covloss,单纯依靠coverage vector去影响attention的计算并不能缓解重复token的问题,模型还是会重复地attention到某些token上。而加上covloss的模型训练上也比较trick,需要先用主函数训练好一个收敛的模型,然后再把covloss加上,做个finetune,不然的话效果还是不好。

实验结果

论文用的数据集是CNN/DailyMail数据集,可以看到论文的模型在该任务上有着明显的提升。
在这里插入图片描述
下面是三种模型对同一篇原文生成的摘要,橘色的是最终coverage vector在原文上的分布,红色的是事实细节和OOV问题,绿色的是生成摘要时 p g e n p_{gen} pgen 的大小。
在这里插入图片描述

总结

在这里插入图片描述
在这里插入图片描述

本文模型改善了抽象文本摘要中存在的主要问题,但与具象摘要结果相比仍然存在差距,同时考虑到新闻文章重要信息普遍集中分布于前部分的特性,抽象摘要模型受到了一定影响,模型的普适性需要进一步地验证。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/59444.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PDF多功能工具箱 PDF Shaper v14.6

如今对PDF处理的软件很多都是只是单一的功能。PDF Shaper给你完全不同的体验,因为PDF Shaper是一款免费的PDF工具集合的软件。有了PDF Shaper,你以后再也不用下载其他处理PDF的软件了。PDF Shaper的功能有:合并,分割,加…

【算法】(Python)贪心算法

贪心算法: 又称贪婪算法,greedy algorithm。贪心地追求局部最优解,即每一步当前状态下最优选择。试图通过各局部最优解达到最终全局最优解。但不从整体最优上考虑,不一定全局最优解。步骤:从初始状态拆分成一步一步的…

vue常见题型(1-10)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 2.2双向绑定的原理是什么vue框架采用的是数据双向绑定的方式,由三个重要部分构成2.2.1.ViewModel2.2.2 双向绑定2.2.3.1.编译Compile2.2.3.2.依赖收集 3…

论文阅读:人工智能赋能源网荷储协同互动的应用及展望

论文阅读:人工智能赋能源网荷储协同互动的应用及展望 [1]王继业.人工智能赋能源网荷储协同互动的应用及展望[J].中国电机工程学报,2022,42(21):7667-7682.DOI:10.13334/j.0258-8013.pcsee.220538. 文章目录 论文阅读:人工智能赋能源网荷储协同互动的应用…

虚幻引擎5(UE5)学习教程

虚幻引擎5(UE5)学习教程 引言 虚幻引擎5(Unreal Engine 5,简称UE5)是Epic Games开发的一款强大的游戏引擎,广泛应用于游戏开发、影视制作、建筑可视化等多个领域。UE5引入了许多先进的技术,如…

Golang | Leetcode Golang题解之第543题二叉树的直径

题目: 题解: func diameterOfBinaryTree(root *TreeNode) int {var (dfs func(node *TreeNode) int // node节点深度ans int)dfs func(node *TreeNode) int {//边界if node nil {return -1}//求左右子树深度leftDepth : dfs(node.Left)rightDepth : d…

【TS】九天学会TS语法——3.TypeScript 函数

今天学习 TypeScript 的函数,包括函数类型、可选参数、默认参数、剩余参数。 函数声明和表达式函数类型可选参数和默认参数剩余参数 在 TypeScript 中,函数是编程的核心概念之一。它们允许我们将代码组织成可重用的块,并提供了强大的抽象能力…

解决程序因缺少xinput1_3.dll无法运行的有效方法,有效修复丢失xinput1_3.dll

如果你的电脑在运行某些应用程序或游戏时提示“xinput1_3.dll丢失”或“找不到xinput1_3.dll”的错误消息,那么很可能是因为你的系统中缺少这个重要的DLL文件而导致的问题。那么电脑出现xinput1_3.dll丢失的问题时有哪些方法进行修复呢? 如何确定电脑是否…

Golang--面向对象

Golang语言面向对象编程说明: Golang也支持面向对象编程(OOP),但是和传统的面向对象编程有区别,并不是纯粹的面向对象语言。所以我们说Golang支持面向对象编程特性是比较准确的。Golang没有类(class),Go语言的结构体(struct)和其…

语音识别中的RPM技术:原理、应用与发展趋势

目录 引言1. RPM技术的基本原理2. RPM的应用领域3. RPM技术的挑战与发展趋势4. 总结 引言 在语音识别和音频处理领域,RPM(Recurrent Phase Model,递归相位模型)技术正逐渐崭露头角。它作为一种创新的信号处理方法,通过…

IntelliJ Idea设置自定义快捷键

我IDEA的快捷键是自己修改成了和Eclipse相似,然后想要跳转到某个方法的上层抽象方法没有对应的快捷键,IDEA默认的是Ctrl U (Windows/Linux 系统) 或 Command U (Mac 系统),但是我的不起作用&a…

深入探讨钉钉与金蝶云星空的数据集成技术

钉钉报销数据集成到金蝶云星空的技术案例分享 在企业日常运营中,行政报销流程的高效管理至关重要。为了实现这一目标,我们采用了轻易云数据集成平台,将钉钉的行政报销数据无缝对接到金蝶云星空的付款单系统。本次案例将重点介绍如何通过API接…

Python 数据结构对比:列表与数组的选择指南

文章目录 💯前言💯Python中的列表(list)和数组(array)的详细对比1. 数据类型的灵活性2. 性能与效率3. 功能与操作4. 使用场景5. 数据结构选择的考量6. 实际应用案例7. 结论 💯小结 &#x1f4af…

ML 系列:机器学习和深度学习的深层次总结( 19)— PMF、PDF、平均值、方差、标准差

一、说明 在概率和统计学中,了解结果是如何量化的至关重要。概率质量函数 (PMF) 和概率密度函数 (PDF) 是实现此目的的基本工具,每个函数都提供不同类型的数据:离散和连续数据。 二、PMF 的定义…

string模拟实现插入+删除

个人主页:Jason_from_China-CSDN博客 所属栏目:C系统性学习_Jason_from_China的博客-CSDN博客 所属栏目:C知识点的补充_Jason_from_China的博客-CSDN博客 string模拟实现reserve 这里实现的是扩容 扩容这里是可以实现缩容,可以实现…

《JVM第8课》垃圾回收算法

文章目录 1.标记算法1.1 引用计数法1.2 可达性分析法 2.回收算法2.1 标记-清除算法(Mark-Sweep)2.2 复制算法(Coping)2.3 标记-整理算法(Mark-Compact) 3.三种垃圾回收算法的对比 为什么要进行垃圾回收&…

编程之路:蓝桥杯备赛指南

文章目录 一、蓝桥杯的起源与发展二、比赛的目的与意义三、比赛内容与形式四、比赛前的准备五、获奖与激励六、蓝桥杯的影响力七、蓝桥杯比赛注意事项详解使用Dev-C的注意事项 一、蓝桥杯的起源与发展 蓝桥杯全国软件和信息技术专业人才大赛,简称蓝桥杯&#xff0c…

全网最适合入门的面向对象编程教程:58 Python字符串与序列化-序列化Web对象的定义与实现

全网最适合入门的面向对象编程教程:58 Python 字符串与序列化-序列化 Web 对象的定义与实现 摘要: 如果我们要在不同的编程语言之间传递对象,就必须把对象序列化为标准格式,比如XML\YAML\JSON格式这种序列化Web对象。这种序列化W…

使用YOLO 模型进行线程安全推理

使用YOLO 模型进行线程安全推理 一、了解Python 线程二、共享模型实例的危险2.1 非线程安全示例:单个模型实例2.2 非线程安全示例:多个模型实例 三、线程安全推理3.1 线程安全示例 四、总结4.1 在Python 中运行多线程YOLO 模型推理的最佳实践是什么&…

每日一题|3255. 长度为 K 的子数组的能量值 II|递增序列、计数器

同昨天的解法一样,遍历一遍的同时,统计当前最长的子串长度,如果>k,则将子串开始位置处赋值子串当前位置元素的值。 class Solution:def resultsArray(self, nums: List[int], k: int) -> List[int]:res [-1] * (len(nums)…