NLP论文阅读记录 - 2021 | WOS 使用预训练的序列到序列模型进行土耳其语抽象文本摘要

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
    • 1.3本文贡献
  • 二.相关工作
    • 2.1 预训练的序列到序列模型
    • 2.2 抽象文本摘要
  • 三.本文方法
    • 3.1 总结为两阶段学习
      • 3.1.1 基础系统
    • 3.2 重构文本摘要
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结
  • 思考


前言

在这里插入图片描述

Turkish abstractive text summarization using pretrained sequence-to-sequence models(2110)

0、论文摘要

网络上可用文档数量的巨大增加使得查找相关信息变成了一项具有挑战性、乏味且耗时的活动。因此,自动文本摘要已成为一个重要的研究领域,受到了研究人员的极大关注。最近,随着深度学习的进步,使用序列到序列(Seq2Seq)模型的神经抽象文本摘要越来越受欢迎。这些模型有许多改进,例如使用预训练的语言模型(例如 GPT、BERT 和 XLM)和预训练的 Seq2Seq 模型(例如 BART 和 T5)。这些改进解决了神经摘要中的某些缺点,并改进了显着性、流畅性和语义等挑战,从而能够生成更高质量的摘要。不幸的是,这些研究尝试大多局限于英语。最近发布了单语言 BERT 模型和多语言预训练 Seq2Seq 模型,为在土耳其语等资源匮乏的语言中利用此类最先进的模型提供了机会。在本研究中,我们利用预训练的 Seq2Seq 模型,在两个大型土耳其数据集 TR-News 和 MLSum 上获得了最先进的结果,用于文本摘要任务。然后,我们利用数据集中的标题信息,并为两个数据集上的标题生成任务建立硬基线。我们表明,模型的输入对于此类任务的成功非常重要。此外,我们还提供了对模型的广泛分析,包括跨数据集评估、各种文本生成选项以及土耳其语 ROUGE 评估中预处理的效果。结果表明,单语言 BERT 模型在所有数据集的所有任务上都优于多语言 BERT 模型。最后,提供了对生成的摘要和模型标题的定性评估。

一、Introduction

1.1目标问题

随着网络的出现,通过网站、新闻、博客、书籍、科学论文和社交媒体等来源在线提供的文档数量呈指数级增长。与此同时,由于内容重复且不相关,用户越来越难以找到自己感兴趣的信息。此外,理解所有这些来源所需的时间和精力是巨大的。由于人类通过手动理解如此大量的信息是不切实际的,因此需要自动消化和提取所有这些信息的本质。在这方面,文本摘要已成为过去几十年的必然必然和非常热门的研究领域。
文本摘要旨在从长文档中自动生成简洁的文本,能够以流畅且显着的方式描述最重要的信息(Luhn 1958;Edmundson 1969)。自动文本摘要有两种主要方法:抽取式文本摘要(Mihalcea and Tarau 2004;Nallapati, Zhai, and Zhou 2017)和抽象文本摘要(Rush, Chopra, and Weston 2015;See,Liu,and Manning 2017;Zhanget al) .2020)。提取文本摘要通过从输入文本中选择最相关的句子或短语来生成摘要,而不反映任何更改。另一方面,抽象文本摘要是一项更具挑战性的任务,其目的是通过利用复杂的自然语言理解和生成能力来生成类似人类的摘要。
随着深度学习的进步,抽象文本摘要变得更加流行。最近,具有编码器-解码器架构的序列到序列(Seq2Seq)模型占据了该领域的主导地位。编码器-解码器网络的底层组件已从基于 LSTM(Hochreiter 和 Schmidhuber 1997)的模型转变为基于 Transformer(Vaswani 等人,2017)的模型。语言模型预训练(Radford 等人,2018 年;Devlin 等人,2019 年)在众多自然语言处理 (NLP) 任务中取得了最先进的成果,特别是在自然语言理解方面。这些预训练的语言模型也被用于抽象文本摘要(Liu and Lapata 2019)。后来,研究利用 Seq2Seq 模型的预训练(Dong et al. 2019;Song et al. 2019;Rothe, Narayan, and Severyn 2020;Lewis et al. 2020;Raffel et al. 2020)来进一步改进语言生成任务。因此,预训练 Seq2Seq 模型,尤其是在大规模数据集上的预训练,表现得非常好,在神经抽象摘要方面达到了最先进的结果(Zhang et al. 2020;Qiet al. 2020)。
不幸的是,所有这些研究尝试大多仅限于英语。此外,预训练此类模型需要大量数据和计算能力,这些都是限制研究的因素。然而,BERT(Devlin et al. 2019)模型的多语言版本和两个多语言预训练的 Seq2Seq 模型(mT5 Xu et al. 2021 和 mBART Liu et al. 2020)最近已经发布。这为资源匮乏语言的各个研究领域带来了许多可能性。此外,社区已经对许多不同语言的单语 BERT 模型进行了预训练,其中包括 BERTurk (Schweter 2020),一个单语土耳其语 BERT 模型。
土耳其语文本摘要研究主要基于提取方法。很少有研究试图解决土耳其语的抽象概括任务(Scialom et al. 2020;Baykara and Güngör 2022)。这些作品都没有使用预训练的 Seq2Seq 模型,而这些模型已被证明可以达到最先进的英语结果。此外,标题生成也被认为是文本摘要任务,因为主要目标是以标题的形式输出简洁的摘要(Rush et al. 2015)。然而,土耳其语标题生成研究的数量非常有限(Karakoç 和 Yılmaz 2019)。目前有两个大型数据集 TR-News (Baykara and Güngör 2022) 和 MLSum (Scialom et al. 2020) 适合土耳其语抽象文本摘要。在本研究中,我们的目标是利用这些预训练模型在 TR-News 和 MLSum 数据集上执行抽象文本摘要和标题生成任务,并对所获得的结果进行详细分析。

1.2相关的尝试

1.3本文贡献

• RQ1:预训练的序列到序列模型如何执行土耳其语抽象文本摘要和标题生成任务?
• RQ2:在BERT2BERT模型架构上,单语BERT模型是否比多语BERT模型获得更好的结果?
• RQ3:组合具有相似特征的数据集是否可以提高抽象文本摘要和标题生成中的模型性能?
• RQ4:在一个数据集上训练的模型在具有相似特征的其他数据集上表现如何?
• RQ5:标题生成模型的输入对模型性能的影响有多大?

总之,我们的贡献如下:
我们证明,预训练的序列到序列模型在 TRNews 和 MLSum 数据集上达到了最先进的水平,可用于摘要生成和标题生成任务。 • 我们进行了第一项利用两个数据集标题的研究,并为标题生成任务提供全面且强大的基线。 • 我们证明单语言 BERT 模型在 BERT2BERT 架构上优于多语言 BERT 模型。 • 我们观察到,结合两个数据集可以为文本摘要和标题生成任务产生更好的模型。 • 我们对这两项任务进行了跨数据集评估,结果表明,与在 MLSum 上训练的模型相比,在 TR-News 上训练的模型更加稳健。 • 我们测量了为标题生成任务的Seq2Seq 模型提供不同输入(引导句子与摘要)的效率,并证明与引导句子相比,摘要被证明是更好的选择。 • 我们展示了预处理对 ROUGE 计算的影响程度,这对于土耳其语等粘着语言尤其重要。

二.相关工作

2.1 预训练的序列到序列模型

近年来,NLP 中的迁移学习已被证明非常有效,并在多种任务中取得了最先进的结果。预训练语言模型的概念能够通过各种预训练目标学习与任务无关的知识,然后将这些知识转移到下游任务,这种概念在自然语言理解方面特别成功(Radford 等人,2018 年;Devlin 等人,2019 年;Yanget)等2019)。然而,需要自然语言理解和自然语言生成的任务(例如机器翻译和文本摘要)无法从这些预训练的编码器模型中受益,从而导致预训练的序列到序列模型。
Song 等人(2019)提出了 MASS,一种屏蔽的 Seq2Seq 生成模型,当提供剩余部分时,它能够重现句子的部分内容。 UniLM(Dong et al. 2019)对三种类型的语言建模目标进行同步训练:单向、双向和序列到序列。在 BART 中,Lewis 等人(2020)遵循各种去噪目标,首先破坏输入文本,然后使用自动编码器重建它。 T5(Raffel et al. 2020)引入了一种通用的文本到文本框架,能够仅使用文本作为输入和输出来处理各种 NLP 任务,并且在各种监督下进行了预训练以及无监督目标,包括总结。最后,发布了 T5 和 BART 的多语言版本,分别为 mT5 (Xue et al. 2021) 和 mBART (Liu et al. 2020)。

2.2 抽象文本摘要

抽象文本摘要主要被视为序列到序列问题,并且编码器-解码器网络经常用于解决该问题。 Rush 等人(2015)是最早将使用神经网络语言模型(NNLM)的编码器-解码器架构应用于标题生成任务(作为抽象摘要问题的一部分)的研究之一。然后,Chopra、Auli 和 Rush(2016)用循环神经网络(RNN)取代了 NNLM。 Nallapati 等人(2016)介绍了几种新颖的模型,包括具有注意力机制的基于双向 LSTM 的编码器-解码器、具有丰富特征的编码器的模型、切换指针生成器模型以及能够捕获文档结构。此外,将 CNN/每日邮报数据集(Hermann 等人,2015)转换为文本摘要格式也是他们的贡献之一。指针生成器模型得到了增强,允许它从源文档复制单词,并添加了覆盖机制来解决单词重复问题(参见 et al. 2017)。后来,各种强化学习模型被应用于神经抽象概括(Çelikyılmaz et al. 2018;Paulus, Xiong, and Socher 2018)。卷积神经网络 (CNN) 与 XSum 数据集上的主题感知嵌入结合使用,以更好地捕捉文档的主题(Narayan、Cohen 和 Lapata 2018a)。采用预训练语言模型 BERT 作为编码器组件,以提高语言理解能力(Liu 和 Lapata 2019)。
最近,预训练的 Seq2Seq 模型在神经抽象概括方面表现出非常好的性能(Lewis et al. 2020;Raffelet al. 2020)。 PEGASUS(Zhang et al. 2020)专门针对抽象文本摘要任务进行了预训练,并利用从文档中屏蔽整个句子并生成这些间隙句子作为预训练目标。 ProphetNet (Qi et al. 2020) 引入了一种新颖的自我监督目标,称为未来 n-gram 预测和 n-stream 自注意力机制。与优化提前一步预测的传统 Seq2Seq 模型不同,它会提前优化 n 步,在每个时间步根据先前的上下文标记同时预测下一个 n 个标记。

三.本文方法

3.1 总结为两阶段学习

3.1.1 基础系统

3.2 重构文本摘要

四 实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

在本文中,我们详细分析了预训练的序列到序列模型在文本摘要和标题生成这两个任务上的性能。 mT5 模型在 TR-News 和 MLSum (TR) 数据集上的两项任务的 ROUGE 分数均达到了最佳结果。单语言 BERTurk 模型也表现出接近 mT5 模型的性能,并产生了更多新颖的摘要。我们为摘要生成任务和土耳其语标题生成任务的数据集建立了强大的基线。对标题生成任务的进一步分析表明,模型的输入对任务的结果影响很大。与提供引导句子作为输入相比,提供新闻文章摘要作为模型的输入显示出更好的 ROUGE 分数。此外,我们通过组合 TR-News 和 MLSum (TR) 创建了一个更大的数据集 (Combined-TR),因为两者具有相似的特性统计数据和内容方面的特点。在组合 TR 上训练的模型在文本摘要和标题生成任务上都显示出性能提升。最后,单语言 BERT 模型在这两项任务上均优于 BERT2BERT 模型架构中的多语言 BERT 模型。在未来的工作中,我们计划使用不同语言(特别是粘着语言)的摘要数据集来扩展这项研究。如果有足够的计算资源,未来可能会从头开始为资源匮乏的语言预训练单语言 Seq2Seq 模型,并将结果与​​多语言预训练的 Seq2Seq 模型进行比较。此外,可以改变预训练目标以考虑此类语言的粘合性质。

思考

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/637550.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

maven 基本知识/1.17

maven ●maven是一个基于项目对象模型(pom)的项目管理工具,帮助管理人员自动化构建、测试和部署项目 ●pom是一个xml文件,包含项目的元数据,如项目的坐标(GroupId,artifactId,version )、项目的依赖关系、构建过程 ●生命周期&…

数据库性能优化的解决方案

目录​​​​​​​ 1、什么是数据库性能优化 1.1 数据库性能优化的概念 1.2 为何需要进行数据库性能优化 1.3 数据库性能优化的好处 2、数据库性能优化的基本原理 2.1 数据库查询优化 2.2 数据库索引优化 2.3 数据库表结构优化 2.4 数据库硬件优化 3、数据库查询优化…

OpenHarmony AI框架开发指导

一、概述 1、 功能简介 AI业务子系统是OpenHarmony提供原生的分布式AI能力的子系统。AI业务子系统提供了统一的AI引擎框架,实现算法能力快速插件化集成。 AI引擎框架主要包含插件管理、模块管理和通信管理模块,完成对AI算法能力的生命周期管理和按需部…

Tensorflow2 GPU版本-极简安装方式

Tensorflow2 GPU版本-极简安装方式: 1、配置conda环境加速 https://wtl4it.blog.csdn.net/article/details/135723095https://wtl4it.blog.csdn.net/article/details/135723095 2、tensorflow-gpu安装 conda create -n STZZWANG_TF2 tensorflow-gpu2.0

[AutoSar]BSW_OS 02 Autosar OS_STACK

目录 关键词平台说明一、 task stack1.1 Task stack 的共享1.2 task stack 的实际使用大小 二、ISR stack2.1 ISR stack 的共享 三、Single-stack(单一栈)和multi-stack (多栈)策略3.1 Single-stack3.2 multi-stack 四、Stack Che…

Datawhale 强化学习笔记(三)基于策略梯度(policy-based)的算法

文章目录 参考基于价值函数的缺点策略梯度算法REINFORCE 算法策略梯度推导进阶策略函数的设计离散动作的策略函数连续动作的策略函数 参考 第九章 策略梯度 之前介绍的 DQN 算法属于基于价值(value-based)的算法,基于策略梯度的算法直接对策略本身进行优化。 将策…

HackTheBox - Medium - Linux - BackendTwo

BackendTwo BackendTwo在脆弱的web api上通过任意文件读取、热重载的uvicorn从而访问目标,之后再通过猜单词小游戏获得root 外部信息收集 端口扫描 循例nmap Web枚举 feroxbuster扫目录 /api/v1列举了两个节点 /api/v1/user/1 扫user可以继续发现login和singup 注…

Java设计模式-抽象工厂模式(5)

大家好,我是馆长!从今天开始馆长开始对java设计模式的创建型模式中的单例模式、原型模式、工厂方法、抽象工厂、建造者的抽象工厂模式进行讲解和说明。 抽象工厂模式(Abstract Factory Pattern) 定义 是一种为访问类提供一个创建一组相关或相互依赖对象的接口,且访问类…

VScode新增设备实现无感接入(不需要输入密码)

VScode远程开发接入设备,默认是需要输入密码的,但是日常开发中刷新就需要重新输入密码,很烦人。配置ssh的RSA密钥后会,就可以直接系统级别验证接入,对开发人员来说验证步骤就透明了,实现无感接入&#xff0…

多线程

Linux系统的多线程 1. Linux线程概念1.1 什么是线程1.2 页表的概念1.2.1 一级页表的缺点1.2.2 二级页表 1.3 线程的优缺点1.4 线程异常1.5 线程用途1.6 Linux进程VS线程 2. Linux线程控制2.1 创建线程2.2 线程ID及地址空间布局2.3 线程终止2.3.1 线程函数处进行return2.3.2 使用…

Java安全 CC链1分析

Java安全之CC链1分析 什么是CC链环境搭建jdk下载idea配置创建项目 前置知识Transformer接口ConstantTransformer类invokerTransformer类ChainedTransformer类 构造CC链1CC链1核心demo1demo1分析 寻找如何触发CC链1核心TransformedMap类AbstractInputCheckedMapDecorator类readO…

响应式Web开发项目教程(HTML5+CSS3+Bootstrap)第2版 例4-6 fieldset

代码 <!doctype html> <html> <head> <meta charset"utf-8"> <title>fieldset</title> </head><body> <form action"#"><fieldset><legend>学生信息</legend>姓名&#xff1a;&…

2024PMP考试新考纲-【过程领域】近期典型真题和很详细解析(8)

华研荟继续为您分享【过程Process领域】的新考纲下的真题&#xff0c;今天来看几道关于风险方面的PMP真题&#xff0c;帮助大家体会和理解新考纲下PMP的考试特点和如何应用所学的知识和常识&#xff08;经验&#xff09;来解题&#xff0c;并且举一反三&#xff0c;一次性3A通过…

WordPress怎么去除jquery和CSS静态文件链接中的版本号?附2种方法

我们很多WordPress网站默认情况下所加载的jquery和CSS静态文件链接中都会带有相应的版本号&#xff0c;比如boke112百科使用的YIA主题&#xff0c;加载CSS文件时就会在链接地址后面加上?ver2.7&#xff0c;即是style.css?ver2.7 除了CSS文件会加上版本号外&#xff0c;加载主…

[小程序]样式与配置

一、外部样式导入 使用import加外部样式表的相对路径并以 ; 表示语句结束。 import "common.wxss"; 二、全局样式和局部样式 全局样式位于app.wxss中&#xff0c;会作用于整个项目中所有页面中。 局部样式位于对应的wxss文件中&#xff0c;仅作用于当前页面&#x…

【项目搭建三】SpringBoot引入redis

添加依赖 本文使用spring data redis访问和操作redis&#xff0c;pom文件中加入以下依赖&#xff1a; <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-redis</artifactId> </depende…

基于华为MRS3.2.0实时Flink消费Kafka落盘至HDFS的Hive外部表的调度方案

文章目录 1 Kafka1.1 Kerberos安全模式的认证与环境准备1.2 创建一个测试主题1.3 消费主题的接收测试 2 Flink1.1 Kerberos安全模式的认证与环境准备1.2 Flink任务的开发 3 HDFS与Hive3.1 Shell脚本的编写思路3.2 脚本测试方法 4 DolphinScheduler 该需求为实时接收对手Topic&a…

使用vscode在wsl2中配置clangd环境

在vscode中安装这三个插件&#xff08;clangd需要科学上网或者从VSIX安装&#xff09; 之后创建一个空目录并进去。 使用快捷键ctrlshiftp&#xff0c;输入命令 Cmake:Quick Start 根据步骤选择。注意在创建CMakeLists.txt这一步选择跳过&#xff0c;直接输入enter&#xff0c…

Linux 驱动开发基础知识——认识LED驱动程序 (二)

个人名片&#xff1a; &#x1f981;作者简介&#xff1a;一名喜欢分享和记录学习的在校大学生 &#x1f42f;个人主页&#xff1a;妄北y &#x1f427;个人QQ&#xff1a;2061314755 &#x1f43b;个人邮箱&#xff1a;2061314755qq.com &#x1f989;个人WeChat&#xff1a;V…

Linux之进程间通信(管道)

目录 一、进程间通信 1、进程间通信的概念 2、进程间通信的目的 3、进程间通信的分类 二、管道 1、管道基本介绍 2、匿名管道 3、命名管道 一、进程间通信 1、进程间通信的概念 什么是进程间通信&#xff1f; 我们在学习了进程的相关知识后&#xff0c;知道&#xff…