NLP论文阅读记录 - 2022 | WOS 一种新颖的优化的与语言无关的文本摘要技术

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
    • 1.3本文贡献
  • 二.前提
  • 三.本文方法
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结
  • 思考


前言

在这里插入图片描述

A Novel Optimized Language-Independent Text Summarization Technique(2204)

0、论文摘要

大量文本数据以多种语言以电子方式呈现。这些文本将齿轮导向信息冗余。消除这种冗余并减少这些数据的读取时间至关重要。因此,我们需要一种计算机化的文本摘要技术来从具有相关主题的文本文档组中提取相关信息。
本文提出了一种与语言无关的提取摘要技术。所提出的技术提出了一种基于聚类的优化技术。聚类技术确定文本的主要主题,而所提出的优化技术则最大限度地减少冗余并最大化重要性。
使用英语的 BillSum 数据集、德语和俄语的 MLSUM 以及阿拉伯语的 Mawdoo3 来设计和评估实验。使用 ROUGE 指标评估实验。结果表明,与其他依赖于语言和独立于语言的摘要技术相比,所提出的技术是有效的。我们的技术为所有使用的数据集实现了更好的 ROUGE 指标。
对于使用所有三个目标的所有数据集,该技术平均实现了 Rouge-1 41.9%、Rouge-2 18.7%、Rouge-3 39.4% 和 Rouge-4 16.8% 的 F 测量。我们的系统还表现出 26.6%、35.5%、34.65% 和 31.54% w.r.t. 的改进。最近的模型在 ROUGE 度量评估方面对 BillSum 的总结做出了贡献。我们的模型的性能高于对比模型,特别是在二元匹配的 ROUGE_2 的度量结果中。

一、Introduction

1.1目标问题

大量不同语言的电子数据增加了从中挖掘有用信息的难度。人们很难阅读如此庞大的文章信息。因此,有必要采用计算机化的摘要技术来推断重要的内容。并迅速突出信息。计算机摘要技术已应用于不同领域,例如网页和在线表格。例如,[1] 中的作者建议使用文本标记提取来改善搜索结果。 [2] 中的作者提出了一种用于媒体分析的文本标记提取方法。与语言无关的摘要提取器是语言分析应用程序。它们的目标是从单个或多文本文档生成较短的文本,同时保持含义。摘要技术可以根据输入、语言、方法或输出进行分类,如图 1 所示[3,4]。可以对单个文本文档或多文本文档的输入进行摘要。在多文本文档摘要中使用一组相关的文本文档。单文本文档源不会显示不一致,但是,在多文本文档源中可能会发现冲突和冗余。因此,多文本文档源摘要比单源文本文档更困难[3-5]。此外,摘要输出可以是非特定的,讨论一个巨大的社区,也可以是基于文本标记的,强调与文本标记相关的特定主题。这对于将该技术分类为指示性过程非常重要[3,4]。
摘要过程也可以定义为提取式,其中摘要输出是通过根据语言特征和统计方面选择主要短语来生成基于加权和的解决方案[3-8]。而摘要依赖于使用自然语言处理技术分析文本语义来生成掌握源文本文档中主要思想的新短语[3,4]。摘要概要更易于理解,类似于人类所做的摘要,但它们需要对源文本有深刻的了解,并且还需要解析器和文本生成器[6,7]。深度学习和迁移学习可以用于抽象概括。深度学习通常可以产生良好的结果。提取摘要利用预定义的特征选择重要的短语。然后组合所选短语以产生摘要输出。在多文本文档中,由于从多个文本文档中挖掘短语,因此出现了冗余问题。在这种情况下必须处理冗余。此外,受限摘要需要选择最佳的摘要输出,而不是杰出的短语。因此,多文本文档摘要将导致全局优化需求[8-10]。

1.2相关的尝试

1.3本文贡献

总之,我们的贡献如下:
1.本文提出了一种与语言无关的提取摘要技术。
2.所提出的技术提出了一种基于聚类的优化技术。
3. 聚类技术确定文本的主要主题,而所提出的优化技术则最大限度地减少冗余并最大化重要性。
4. 针对不同语言设计并评估实验,以证明模型的独立特征。
5. 在英语、德语、俄语和阿拉伯语语言的数据集上进行实验。

二.前提

三.本文方法

四 实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

总之,我们将多语言无关的文本摘要过程制定为目标优化过程(同时最大化多个目标)。该模型采用四个阶段:第一阶段是预处理过程,然后进行特征提取和聚类,最后一个阶段是多目标同时优化。通过标记化、停用词去除和规范化等预处理,以统一的形式对句子进行建模。选择统计特征并将其用于每个短语的重要性评分。相关文档的主题是使用质心聚类来定义的。最后一个阶段使用多目标优化进化方法生成最佳摘要,最大化重要性并最小化冗余。结果通过测量 ROUGE 指标验证了我们的模型相对于最先进模型的有效性。我们仍然有一些限制,如下:(i)句子分数是通过实验计算的,可以通过遗传算法计算,以及(ii)我们没有包括输出的一致性,我们可以将其包括到要优化的目标中。

思考

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/622847.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

青动CRM-E售后 售后工单CRM系统 erp系统 带前端小程序全开源可二开

应用介绍 一款基于FastAdminThinkPHP和uniapp开发的CRM售后管理系统,旨在助力企业销售售后全流程精细化、数字化管理,主要功能:客户、合同、工单、任务、报价、产品、库存、出纳、收费,适用于:服装鞋帽、化妆品、机械机…

操作系统复习 七、八章

操作系统复习 七、八章 文章目录 操作系统复习 七、八章第七章 内存管理内存管理的基本要求和原理覆盖与交换连续分配管理方式非连续分配管理方式基本分段存储管理方式段页式管理方式补充 第八章 虚拟内存虚拟内存的基本概念请求分页管理方式易混知识点页面置换算法页面分配策略…

Apollo之原理和使用讲解

文章目录 1 Apollo1.1 简介1.1.1 背景1.1.2 简介1.1.3 特点 1.2 基础模型1.3 Apollo 四个维度1.3.1 application1.3.2 environment1.3.3 cluster1.3.4 namespace 1.4 本地缓存1.5 客户端设计1.5.1 客服端拉取原理1.5.2 配置更新推送实现 1.6 总体设计1.7 可用性考虑 2 操作使用…

Flink-SQL——动态表 (Dynamic Table)

动态表 (Dynamic Table) 文章目录 动态表 (Dynamic Table)DataStream 上的关系查询动态表 & 连续查询(Continuous Query)在流上定义表连续查询更新和追加查询查询限制 表到流的转换总结 SQL 和关系代数在设计时并未考虑流数据。因此,在关系代数(和 SQL)之间几乎…

ubuntu18.04 TensorRT 部署 yolov5-7.0推理

文章目录 1、环境配置2、推理部分2.1、检测2.2、分类2.3、分割2.4、INT8 量化 1、环境配置 链接: TensorRT cuda环境安装 2、推理部分 下载yolov5对应版本的包 https://github.com/wang-xinyu/tensorrtx/tree/master/yolov5 2.1、检测 1、源码模型下载 git clone -b v7.0 …

C# 导出EXCEL 和 导入

使用winfrom简单做个界面 选择导出路径 XLSX起名字 打开导出是XLSX文件 // 创建Excel应用程序对象Excel.Application excelApp new Excel.Application();excelApp.Visible false;// 创建工作簿Excel.Workbook workbook excelApp.Workbooks.Add(Type.Missing);Excel.Works…

F-score 和 Dice Loss 原理及代码

文章目录 1. F-score1. 1 原理1. 2 代码2. Dice Loss2.1 原理2.2 代码 通过看开源图像语义分割库的源码,发现它对 Dice Loss 的实现方式,是直接调用 F-score 函数,换言之,Dice Loss 是 F-score的特殊情况。于是就研究了一下这背后…

训练FastestDet(Anchor-Free、参数量仅0.24M),稍改代码使得符合YOLO数据集排布

文章目录 0 参考链接1 准备数据1.1 使用以下代码生成绝对路径的txt文件1.2 在config文件夹下新建一个xxx.names文件 2 配置训练参数3 稍改代码使得符合YOLO数据集排布4 开始训练 0 参考链接 官方的代码:FastestDet 1 准备数据 我已有的数据集排布:&am…

【Fiddler抓包】微信扫码访问链接打不开网页

又来每天进步一点点~~~ 背景:某天发版的时候,手机连接电脑抓包查看用户登录之前的sessionID,由于业务需要,是需要用户登录微信扫码跳转至某一页面的,微信(分身)扫码成功,跳转时打不…

【已解决】fatal: Authentication failed for ‘https://github.com/.../‘

文章目录 异常原因解决方法 异常原因 在 Linux 服务器上使用git push命令,输入用户名和密码之后,总会显示一个报错: fatal: Authentication failed for https://github.com/TianJiaQi-Code/Linux.git/ # 致命:无法通过验证访问起…

5V高细分步进电机驱动芯片选型分析

单通道5V高细分步进电机GC6139 GC6106 GC6107 GC6119 GC6151 GC6236 GC8558 它们应用在摇头机,X,Y控制,聚焦控制等产品上。其中GC8558为24V H 桥驱动,大电流,具有短地短电源保护,限流保护等功能。

从 PDF 删除PDF 页面的 10 大工具

PDF 文件是全世界几乎每个人最常用的页面之一。借助 PDF 文件,您可以通过任何在线或离线媒体轻松共享信息。但是,如果您想编辑这些 PDF 文件,那么这个过程就很难改变,因为保持文件的原始形式和质量很重要。应该注意的是&#xff0…

java数据结构与算法:双链表 LinkedList

双链表 LinkedList 实现代码 package com.lhs;public class LinkedList<E> implements List<E>{// 定义链表长度private int size;// 定义头节点private Node<E> first;// 定义尾节点private Node<E> last;// 内部类&#xff0c;定义节点public stat…

RK3568平台 温度传感器芯片SD5075

一.SD5075芯片简介 SD5075 是一款高准确度温度传感器芯片内含高精度测温 ADC&#xff0c;在-40C ~100C 范围内典型误差小于0.5C&#xff0c;在-55C~125C 范围内典型误差小于士1.0C。通过两线 IC/SMBus接口可以很方便与其他设备建立通信。设置 A2~A0 的地址线&#xff0c;可支持…

玩转 openEuler (一)-- 系统安装

简介 openEuler 是一款开源操作系统。当前 openEuler 内核源于Linux&#xff0c;支持鲲鹏及其它多种处理器&#xff0c;能够充分释放计算芯片的潜能&#xff0c;是由全球开源贡献者构建的高效、稳定、安全的开源操作系统&#xff0c;适用于数据库、大数据、云计算、人工智能等…

电子电器架构车载软件 —— 集中化架构软件开发

电子电器架构车载软件 —— 集中化架构软件开发 我是穿拖鞋的汉子&#xff0c;魔都中坚持长期主义的汽车电子工程师。 老规矩&#xff0c;分享一段喜欢的文字&#xff0c;避免自己成为高知识低文化的工程师&#xff1a; 屏蔽力是信息过载时代一个人的特殊竞争力&#xff0c;任…

汽车ECU的虚拟化技术初探(四)--U2A内存管理

目录 1.内存管理概述 2. 内存保护功能 2.1 SPID 2.2 Slave Guard 3.小结 1.内存管理概述 为了讲清楚U2A 在各种运行模式、特权模式下的区别&#xff0c;其实首先应该搞清楚不同模式下可以操作的寄存器有哪些。 但是看到这个寄存器模型就头大。 再加上之前没有研究过G4MH…

文件操作(二)

͟͟͞͞&#x1f3c0;前言上一篇我们加们讲了什么是文件&#xff0c;为什么使用文件&#xff0c;以及流的概念。我们继续接上一篇来继续讲解我们的文件操作&#xff0c;这一篇将会详细的讲如何对文件进行读写。 目录 &#x1f680;一.文件的顺序读写 1.fgetc和fputc 2.fget…

【OJ】环形链表

目录 1. 环形链表||&#xff08;142&#xff09;1.1 题目描述1.2 题目分析1.3 代码 2. 环形链表&#xff08;141&#xff09;2.1 题目描述2.2 题目分析2.3 代码 1. 环形链表||&#xff08;142&#xff09; 1.1 题目描述 1.2 题目分析 带环链表&#xff1a;尾节点的next指向链…

Python异步网络编程库之twisted 详解

概要 Python twisted 是一个强大的异步网络编程框架&#xff0c;它允许开发者轻松构建高性能的网络应用和协议。无论是构建网络服务器、客户端、聊天应用还是实时通信工具&#xff0c;twisted 都提供了丰富的工具和组件。本文将深入探讨 twisted 的基本概念、安装方法以及详细…