NLP论文阅读记录 - 2021 | SimCLS:抽象概括对比学习的简单框架

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
    • 1.3本文贡献
  • 二.相关工作
    • 2.1优势
  • 三.本文方法——抽象概括的对比学习框架
    • 3.1 第一阶段:候选生成
    • 3.2 第二阶段:无参考评估
    • 3.3对比训练
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
    • 4.6 细粒度分析
      • 4.6.1 实体级
      • 4.6.2 句子级
    • 4.7 XSum 数据集的结果
  • 五 总结


前言

在这里插入图片描述

SimCLS: A Simple Framework for Contrastive Learning of Abstractive Summarization(2106)

code


0、论文摘要

在本文中,我们提出了一个概念上简单但经验上强大的抽象概括框架 SIMCLS,它可以通过将文本生成作为参考来弥合当前占主导地位的序列到序列学习框架所产生的学习目标和评估指标之间的差距-对比学习辅助的自由评估问题(即质量估计)。
实验结果表明,通过对现有顶级评分系统进行微小修改,SimCLS 可以大幅提高现有顶级模型的性能。特别是,在 CNN/DailyMail 数据集上,ROUGE-1 相对于 BART(Lewis 等人,2020)有 2.51 的绝对提升,比 PEGASUS(Zhang 等人,2020a)有 2.50 的绝对提升,将最先进的性能推向了新的水平。

一、Introduction

1.1目标问题

序列到序列(Seq2Seq)神经模型(Sutskever et al., 2014)已广泛用于语言生成任务,例如抽象摘要(Nallapati et al., 2016)和神经机器翻译(Wu et al., 2016) )。虽然抽象模型(Lewis et al., 2020;Zhang et al., 2020a)在摘要任务中显示出巨大的潜力,但它们也面临着广泛认可的 Seq2Seq 模型训练的挑战。具体来说,Seq2Seq 模型通常在最大似然估计 (MLE) 框架下进行训练,并且在实践中,它们通常使用教师强制(Williams 和Zipser,1989)算法。这在目标函数和评估指标之间引入了差距,因为目标函数基于局部、令牌级预测,而评估指标(例如 ROUGE(Lin,2004))将比较黄金参考和系统之间的整体相似性输出。此外,在测试阶段,模型需要自回归生成输出,这意味着前面步骤中产生的误差将会累积。训练和测试之间的这种差距在之前的工作中被称为暴露偏差(Bengio et al., 2015; Ranzato et al., 2016)。

1.2相关的尝试

主要方法(Paulus 等人,2018 年;Li 等人,2019 年)提出使用强化学习(RL)范式来弥补上述差距。虽然强化学习训练可以根据全局预测并与评估指标密切相关的奖励来训练模型,但它引入了深度强化学习的常见挑战。具体来说,基于强化学习的训练面临着噪声梯度估计(Greensmith et al., 2004)问题,这通常使得训练变得不那么容易。稳定且对超参数敏感。作为替代方案,最小风险训练也被用于语言生成任务中(Shen 等人,2016;Wieting 等人,2019)。然而,估计损失的准确性受到采样输出数量的限制。其他方法(Wiseman 和 Rush,2016;Norouzi 等,2016;Edunov 等,2018)旨在扩展 MLE 的框架,将句子级分数纳入目标函数。虽然这些方法可以减轻 MLE 训练的局限性,但其方法中使用的评估指标和目标函数之间的关系可能是间接和隐式的。

1.3本文贡献

在此背景下,在这项工作中,我们概括了对比学习的范式(Chopra et al., 2005),引入了一种抽象概括的方法,该方法达到了用相应的评估指标直接优化模型的目标,从而缩小了训练之间的差距MLE 训练中的和测试阶段。虽然一些相关工作(Lee et al., 2021; Pan et al., 2021)提出引入对比损失作为条件文本生成任务的 MLE 训练的增强,但我们选择将对比损失和 MLE 的功能分开通过在我们提出的框架的不同阶段引入它们来减少损失。
具体来说,受到Zhong等人最近工作的启发。 (2020);刘等人。 (2021b)关于文本摘要,我们建议使用两阶段模型进行抽象摘要,其中首先训练 Seq2Seq 模型以生成具有 MLE 损失的候选摘要,然后训练参数化评估模型以对比对比对生成的候选进行排序学习。通过在不同阶段优化生成模型和评估模型,我们能够通过监督学习来训练这两个模块,从而绕过基于强化学习方法的具有挑战性和复杂的优化过程。
我们在这项工作中的主要贡献是通过提出一种具有对比学习的生成然后评估两阶段框架来实现抽象摘要的面向度量的训练,这不仅将 CNN/DailyMail 上的最先进性能提升到了新的水平水平(2.2 ROUGE-1相对于基线模型的改进)也展示了这个两阶段框架的巨大潜力,呼吁未来努力使用超越最大似然估计的方法来优化Seq2Seq模型。

总之,我们的贡献如下:

二.相关工作

2.1优势

三.本文方法——抽象概括的对比学习框架

给定源文档 D 和参考摘要 ˆ S,抽象摘要模型 f 的目标是生成候选摘要 S = f (D),使其获得由下式分配的最高分数 m = M (S, ˆ S)评估指标 M 。
在这项工作中,我们将整体生成过程分为两个阶段,其中包括用于生成候选摘要的生成模型 g 和用于评分和选择最佳候选的评估模型 h。图 1 说明了总体框架。
在这里插入图片描述

3.1 第一阶段:候选生成

生成模型 g(·) 是一个 Seq2Seq 模型,经过训练以最大化给定源文档 D 的参考摘要 ˆ S 的可能性。然后使用预训练的 g(·) 生成多个候选摘要 S1, ···,Sn采用Beam Search等采样策略,其中n是采样候选者的数量。

3.2 第二阶段:无参考评估

高级思想是更好的候选摘要 Si 应该获得相对于源文档 D 更高的质量分数。
我们通过对比学习来实现上述思想,并定义一个评估函数 h(·),旨在分配不同的分数 r1,···· , rn 仅根据源文档与候选 Si 之间的相似度生成候选,即 ri = h(Si, D)。最终输出摘要S是得分最高的候选者:
在这里插入图片描述
在这里,我们将 h(·) 实例化为一个大型预训练自注意力模型 RoBERTa(Liu et al., 2019)。用于分别对Si和D进行编码,第一个token的编码之间的余弦相似度作为相似度得分ri。

3.3对比训练

大多数现有的对比学习工作都采用了明确构建正面或负面的例子(Chen et al., 2020; Wu et al., 2020),这里的“对比性”反映在评估的自然生成摘要的不同质量中通过参数化模型 h(·)。具体来说,我们向 h(·) 引入排名损失:
在这里插入图片描述
其中 ̃ S1, · · · , ̃ Sn 按 M( ̃ Si, ˆ S) 降序排序。这里, λij = (j −i)*λ 是我们根据Zhong等人定义的相应边距。 (2020),λ是一个超参数。1 M 可以是任何自动评估指标或人类判断,这里我们使用 ROUGE (Lin, 2004)。

四 实验效果

4.1数据集

我们使用两个数据集进行实验。数据集统计数据列于附录 A。 CNNDM CNN/DailyMail2 (Hermann et al., 2015; Nallapati et al., 2016) 数据集是一个大规模新闻文章数据集。 XSum XSum3(Narayan 等人,2018)数据集是一个高度抽象的数据集,包含来自英国广播公司(BBC)的在线文章。

4.2 对比模型

4.3实施细节

由于我们的两阶段框架中的生成模型和评估模型是分开训练的,因此我们使用预先训练的最先进的抽象摘要系统作为我们的生成模型。具体来说,我们使用 BART (Lewis et al., 2020) 和 Pegasus (Zhang et al., 2020a),因为它们很受欢迎并且已经过全面评估。
对于基线系统,我们使用 Transformers4(Wolf 等人,2020)库提供的检查点。我们使用多样化波束搜索(Vijayakumar et al., 2016)作为采样策略来生成候选摘要。我们使用 16 个组进行多样性抽样,从而产生 16 个候选者。为了训练评估模型,我们使用 Adam 优化器(Kingma 和 Ba,2015)和学习率调度。验证集上的模型性能用于选择检查点。附录 B 中描述了更多详细信息。

4.4评估指标

我们使用 ROUGE-1/2/L (R-1/2/L) 作为我们实验的主要评估指标。我们还根据最近开发的语义相似性度量来评估我们的模型,即 BERTScore(Zhang 等人,2020b)和 MoverScore(Zhao 等人,2019)。

4.5 实验结果

CNNDM 数据集的结果如表 1 所示。 1.我们使用预训练的BART5作为基础生成模型(Origin)。我们使用 BART、Pegasus、GSum (Dou et al., 2021) 和 ProphetNet (Qi et al., 2020) 进行比较。值得注意的是,总是选择最佳候选者的 Max 预言机比原始输出具有更好的性能,这表明使用多样化的采样策略可以进一步利用预训练抽象系统的潜在能力。
除了 ROUGE 之外,我们还展示了语义相似度度量的评估结果。我们的方法在所有指标上都优于基线模型,证明其改进超出了利用 ROUGE 的潜在工件的范围。虽然用这些指标很难解释改进的规模,但我们注意到改进能够通过显着性检验。

在这里插入图片描述
在计算能力的限制下,我们尝试使用尽可能多的候选者来进行评估模型训练。然而,我们也注意到我们的方法对于特定数量的候选者来说是稳健的,因为在测试过程中我们发现我们的模型仍然能够优于候选者较少的基线模型,如图 2 所示。
在这里插入图片描述

4.6 细粒度分析

4.6.1 实体级

受到 Gekhman 等人的工作的启发。 (2020)和贾恩等人。 (2020),我们比较了模型性能与显着实体,这些实体是出现在参考摘要中的源文档中的实体。具体来说,
(1)我们从源文档中提取实体,6
(2)根据参考摘要中的实体选择显着实体,
(3) 将显着实体与候选摘要中的实体进行比较。结果在选项卡中。图3表明我们的方法可以更好地捕获源文档的重要语义信息。
在这里插入图片描述

4.6.2 句子级

句子对齐在这里,我们研究我们的方法与基线模型相比是否存在句子级别的差异。具体来说,(1) 我们根据摘要中的每个句子与源文档中的句子的相似性(由 ROUGE 分数表示)进行匹配,7 (2) 根据以下条件计算参考摘要和系统生成的摘要之间的句子级相似度:源文档中匹配句子的重叠。结果如表所示。图 3 表明我们的方法生成的摘要与句子级别的参考摘要更相似。
选项卡中的位置偏差。 2、我们提出了句子对齐的案例研究。我们使用相同的匹配方法将摘要句子映射到源文章中的句子。在此示例中,我们方法的输出侧重于与参考摘要相同的句子,而基线摘要侧重于一些不同的句子。
有趣的是,参考摘要集中在文章的最后一句话,我们的方法可以遵循这种模式。在检查这种模式时,我们注意到在处理长源文章(超过30 句)。图 3 显示,与参考文献相比,基线摘要更有可能关注中心句,这可能是由于 Seq2Seq 模型的自回归生成过程造成的。我们的方法能够减轻这种偏差,因为候选采样过程(多样化波束搜索)生成的候选与原始输出不同,并且我们的评估模型可以评估候选的整体质量。

4.7 XSum 数据集的结果

为了评估我们的方法在 CNNDM 数据集之外的性能,我们还在 XSum 数据集上测试了我们的方法,结果如表 1 所示。 4. 这里,我们使用 Pegasus8 作为基础系统,因为它在 XSum 上比 BART 具有更好的性能。我们遵循相同的采样策略来生成训练数据。然而,由于此策略通常会导致 XSum 数据集上的 ROUGE-2 分数较低,因此我们使用不同的策略来生成验证和测试数据(由 4 个不同的组生成 4 个候选数据)。我们的方法仍然能够优于基线,但与 CNNDM 相比,差距较小。 XSum 中的摘要更短(一句话)且更抽象,这限制了候选者的语义多样性,并使做出有意义的改进变得更加困难。

在这里插入图片描述


五 总结

在这项工作中,我们提出了一个对比摘要框架,旨在优化摘要级别生成的摘要的质量,从而减少训练和测试之间的差异MLE 框架中的各个阶段。除了 CNNDM 数据集上的基线模型的显着改进之外,我们还提出了不同语义级别的综合评估,解释了我们的方法所取得的改进的来源。值得注意的是,我们的实验结果还表明,现有的抽象系统有可能生成比原始输出更好的候选摘要。因此,我们的工作为未来的方向开辟了可能性,包括
(1)将这种两阶段策略扩展到其他抽象模型数据集;
(2)改进抽象模型的训练算法,实现更全面的优化过程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/594188.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【论文阅读】AADiff: Audio-Aligned Video Synthesis with Text-to-Image Diffusion

AADiff:基于文本到图像扩散的音频对齐视频合成。 code:没开源 paper:[2305.04001] AADiff: Audio-Aligned Video Synthesis with Text-to-Image Diffusion (arxiv.org) 一种新的T2V框架,额外使用音频信号来控制时间动态,使现成的…

MySQL中的六种日志你都懂么?不懂!那就必须看看

😄 19年之后由于某些原因断更了三年,23年重新扬帆起航,推出更多优质博文,希望大家多多支持~ 🌷 古之立大事者,不惟有超世之才,亦必有坚忍不拔之志 🎐 个人CSND主页——Mi…

docker 安装可视化工具 Portainer 以及 汉化

安装portainer是最新版本,汉化指定版本2.9.1 。如果要安装汉化版,可直接跳转步骤四 一、拉去镜像 安装网址:Install Portainer BE with Docker on Linux - Portainer Documentation docker pull portainer/portainer二、根据portainer镜像创建…

常用rtmp、m3u8、flv、mp4直播流在线测试地址

✍️作者简介:小北编程(专注于HarmonyOS、Android、Java、Web、TCP/IP等技术方向) 🐳博客主页: 开源中国、稀土掘金、51cto博客、博客园、知乎、简书、慕课网、CSDN 🔔如果文章对您有一定的帮助请&#x1f…

CMake入门教程【基础篇】CMake+Linux gcc构建C++项目

文章目录 1.概述2.GCC与CMake介绍3.安装CMake和GCC4.代码示例 1.概述 在Linux环境下,使用CMake结合GCC(GNU Compiler Collection)进行项目构建是一种常见且高效的方法。CMake作为一个跨平台的构建系统,可以生成适用于不同编译器的…

基于SSM的网络游戏交易平台设计与实现

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:Vue 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目:是 目录…

湖南大学-算法设计与分析-2023期末考试【原题】

前言 21:00刚刚结束的考试,凭着回忆把题目重现出来了,在复习的时候根本找不到往年的试卷,希望这张回忆的试卷能帮助到下一届的同学。知道题目基本上就能做出来了,但是不知道是真的做不出来,我就不给答案了…

【软件工程】走进敏捷开发:灵活、协作、迭代的软件工艺之旅

🍎个人博客:个人主页 🏆个人专栏: 软件工程 ⛳️ 功不唐捐,玉汝于成 目录 前言: 正文 敏捷开发(Agile Development) 详细介绍: 优缺点: 优点&#xf…

【Mybatis】深入学习MyBatis:高级特性与Spring整合

🍎个人博客:个人主页 🏆个人专栏: Mybatis ⛳️ 功不唐捐,玉汝于成 目录 前言 正文 高级特性 1 一级缓存和二级缓存 一级缓存 二级缓存 2 延迟加载 5 整合Spring 1 MyBatis-Spring模块 2 事务管理 结…

pytest conftest定义一个fixtrue获取测试环境地址

方便全局切换地址 pytest.fixture() def config():data {测试环境: {A环境: 127.0.0.1,B环境: 127.0.0.2,C环境: 127.0.0.3,D环境: 127.0.0.4},}return data.get(测试环境, {}).get(A环境)import pytestdef test_case001(config):url http://str(config):8080/api/user/logi…

(2023|AABI,多模态信息瓶颈,变分近似,视觉语言模型可解释性)通过多模态信息瓶颈归因对图像文本表示的视觉解释

Visual Explanations of Image-Text Representations via Multi-Modal Information Bottleneck Attribution 公和众和号:EDPJ(添加 VX:CV_EDPJ 或直接进 Q 交流群:922230617 获取资料) 目录 0. 摘要 3. 通过多模态…

Leetcode11-快乐数(202)

1、题目 编写一个算法来判断一个数 n 是不是快乐数。 「快乐数」 定义为: 对于一个正整数,每一次将该数替换为它每个位置上的数字的平方和。 然后重复这个过程直到这个数变为 1,也可能是 无限循环 但始终变不到 1。 如果这个过程 结果为 1…

8K自动化测试面试题分享(有答案,非常详细)

关于自动化测试面试,会问到哪些问题呢?给大家简单总结了一下,每一个都是学员反馈过来的企业真题,相信对大家有帮助,最近有面试机会的,快来背一下答案吧 1、你会封装自动化测试框架吗? 这个问得…

华为月薪25K的自动化测试工程师到底要会那些技能!

​前言 3年自动化测试软件测试工程师职业生涯中,我所经历过的项目都是以自动化测试为主的。由于自动化测试是一个广泛的领域,我将自己的经验整理了一下分享给大家,话不多说,直接上干货。 自动化测试的目标和实践选择合适的自动化…

【Linux Shell】2. Shell 变量

文章目录 【 1. 变量命名规则 】【 2. 变量的使用 】【 3. 只读变量 】【 4. 删除变量 】【 5. 变量类型 】【 6. Shell 字符串 】6.1 字符串的分类6.2 字符串操作 【 7. Shell 数组 】7.1 定义数组7.2 读取数组7.3 获取数组的长度 【 8. Shell 注释 】8.1 单行注释8.2 多行注释…

Hi5 2.0 虚拟手与追踪器(Tracker)的位置修正

问题描述 使用环境与工具:Unity 2022.3.4fc1,steam VR(2.7.3),steamvrSDK(1.14.15),HTC vive pro专业版,Hi5 2.0数据手套 首先按照Hi5 2.0的使用说明(可参考:HI5 2.0 交…

Netty使用SSL实现双向通信加密

最近项目有个需求,TCP服务器实现基于证书通信加密,之前没做过,花了一些时间调研,今天整理下。 SSL(Secure Sockets Layer 安全套接字协议) 1、原理 算法原理 简而言之就是非对称加密算法 私钥自己持有,公钥发给对方,对方在发送信息的时候使用公钥进行加密数据,当接收到…

IPA打包过程中的Invalid Bundle Structure错误如果解决

在iOS应用程序开发中,打包和发布应用程序是一个必要的步骤。有的时候在打包的过程中可能会遇到一些错误,其中一个比较常见的错误是"Invalid Bundle Structure"。这个错误通常意味着应用程序的文件结构不正确,而导致的无法成功打包应…

【NLP】2024年改变人工智能的前六大NLP语言模型

在快速发展的人工智能领域,自然语言处理已成为研究人员和开发人员关注的焦点。作为这一领域显著进步的证明,近年来出现了几种开创性的语言模型,突破了机器能够理解和生成的界限。在本文中,我们将深入研究大规模语言模型的最新进展…

简单Diff算法

简单Diff算法 渲染器的核心 Diff算法 解决的问题 比较新旧虚拟节点的子节点,实现最小化更新。 虚拟节点key属性的作用 就像虚拟节点的“身份证号”,在更新时,渲染器会通过key属性找到可复用的节点,然后尽可能地通过DOM移动操…