NLP论文阅读记录 - 2021 | WOS 使用 GA-HC 和 PSO-HC 改进新闻文章的文本摘要

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
  • 二.相关工作
  • 三.本文方法
    • 3.1 总结为两阶段学习
      • 3.1.1 基础系统
    • 3.2 重构文本摘要
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结
  • 思考


前言

在这里插入图片描述

Improved Text Summarization of News Articles Using GA-HC and PSO-HC(21)

0、论文摘要

自动文本摘要 (ATS) 正在引起人们的关注,因为大量数据正在以指数速度生成。由于全球互联网的便捷性,社交网站、新闻网站和博客网站正在生成大量数据。手动摘要非常耗时,并且难以阅读和总结大量内容。自动文本摘要就是解决这个问题的解决方案。本研究提出了两种自动文本摘要模型,即层次聚类遗传算法(GA-HC)和层次聚类粒子群优化(PSO-HC)。所提出的模型使用带有层次聚类算法的词嵌入模型来对传达几乎相同含义的句子进行分组。针对新闻文本文档中的文本摘要,提出了基于改进的遗传算法和自适应粒子群优化的句子排序模型。进行模拟并与其他正在研究的算法进行比较,以评估所提出方法的性能。仿真结果验证了所提出方法的优越性能。

一、Introduction

1.1目标问题

被称为万维网的互联网技术在过去二十年中取得了很大进步。在当今时代,互联网在世界各地都很便宜且易于使用。这导致信息呈指数级增长[1]。由于大量用户的存在,不同类型的内容创作和社交网络组织已将方向转向互联网,以接触更多的受众。甚至报纸和新闻频道也开始采用互联网进行新闻报道和发布新闻文章。
阅读全球各地每分钟不断上传的网页或文章是很麻烦的。此外,人类不可能读取大量信息。用户通常不会阅读整个网页或文章,而是只是扫描整个页面或文章,只是为了检索几个句子或这些句子的部分内容,以获取该文章或网页中全部信息的主要症结[2]。如此海量的信息,用户很难识别出其中的重要部分或内容句子的某些部分在更短的时间内以极高的精度和准确性抓住了整篇文章的主要症结[3]。
文本摘要是从大量信息中给出中心思想或主要信息的最有效和最简单的技术之一。从早期开始就使用手动文本摘要,当时传达信息的唯一方式是通过书籍或报纸。手动文本摘要可能存在偏见,并且耗时且出错的可能性较高。此外,对于大量数据而言,摘要文档的准确性和精确度是不可能的[4]。
自然语言处理(NLP)表达了人类语言与计算机之间的交互。自动文本摘要是 NLP 的一个子领域,它解决了借助机器学习从冗余信息包围的数据中进行信息检索的问题。文本摘要的生成时间较短,并且具有很高的精度和准确度 [5]。 Luhn[3]提出了借助机器学习的文本摘要,该模型提取论文摘要并将其呈现为文本摘要。
在单文档文本摘要中,假设单个文档作为输入,而简短的摘要段落被视为输出[6]。多文档文本摘要是在单文档文本摘要方法之后引入的,并且比单文档文本摘要更复杂。多文档文本摘要与单文档文本摘要类似。然而,多文档文本摘要将多个文档作为输入并提供单个摘要段落[7]。

1.2相关的尝试

文献中在输出方面也提出了文本摘要技术。文本摘要技术有两种类型,一种是抽取式文本摘要方法,另一种是抽象文本摘要技术。在提取文本摘要中,最终摘要考虑了与输入文档中提供的句子相同的句子,仅选择重要的句子并将其加入一个段落中并呈现为提取摘要[8]。提取文本摘要是自动文本摘要领域中第一个被引入的方法[9]。自动文本摘要的第二种方法称为抽象文本摘要。抽象文本摘要使用相同的方法来识别和提取句子,但以传达相同含义的不同单词和句子给出输出摘要[10]。抽象摘要就像人类用自己的话写摘要,而不是使用文档中相同的句子和单词。抽象文本摘要出现在提取文本摘要之后,并且比提取文本摘要技术更复杂[11]。文献中存在许多文本摘要技术。摘要的准确性仍然是文本文档中的一个具有挑战性的问题。文本摘要被认为是非凸、NP 难题。元启发式方法在处理非凸和 NP 难题方面表现出色。因此,拟议的工作考虑进化计算方法来总结文本文档。

本文的其余部分组织如下:第二节讨论文本摘要领域的相关研究工作。在第 3 节中,详细解释了所提出的提取文本摘要技术。第 4 节讨论了实验设置和模拟结果。最后,第五节总结了拟议的研究工作。

二.相关工作

文献综述根据文献类型(单文献或多文献)分为三个小节。
[12] 中的作者讨论了用于文本摘要的 k 均值聚类。此外,根据 APRIORI 概率将分数分配给聚类。最后选择得分高的句子进行总结。 [13]中提出了一种使用遗传算法的自动提取文本摘要方法,用于优化特征得分和应用模糊逻辑对所有句子进行评分。最后,选择得分较高的句子并在摘要中呈现。
[14]中的模型考虑了文本摘要的文本排名算法。还为网页设计人员引入了级联样式表 (CSS) 属性,可以借助文本摘要减少较小屏幕上的冗长文本。在[15]中,提出了无监督图排序的词句关系。该模型以良好的准确性整合了单词和句子的内在价值。
在[16]中,提出的集成模型利用并行集成方法,对投票系统进行分类以进行文本摘要。 [17] 中提出了一种错误报告文本摘要技术。该模型将模糊 c 均值聚类应用于相似句子,并应用模糊逻辑来决定添加或丢弃最终摘要的句子。
[18]中讨论的文本摘要技术研究了文本摘要的语义和统计特征。该模型使用Word2Vec提取语义,并使用K-means对相似句子进行分组,对所有句子进行排名,并将排名前n的句子视为文档摘要。然而,没有考虑其他聚类技术,例如模糊c均值和层次聚类。
[19] 中提出了一种阿拉伯语单文档文本摘要模型。作者提出了两种文本摘要方法:一种是基于评分的方法,另一种是二元分类器方法。训练二元分类器来预测该句子是否是最终摘要的一部分。
[20]中介绍了一种自适应的基于知识的事件索引(KB-EI)认知模型。该模型将基于人类记忆和情感的认知过程应用于文本摘要任务。该模型具有用于识别信息丰富句子的学习阶段和用于用重要句子总结文档的摘要阶段。
多文档摘要(MDS):在[21]中,作者将多文档提取文本作为多目标优化问题提出,并提出人工蜂群优化(ABC)算法来生成文本摘要。 [22] 中的作者应用递归神经网络(RNN)来提取文档中存在的图像,并使用逻辑分类器来查找文档中存在的每个句子的概率以生成最终摘要。在[23]中,PSO应用于离散和连续向量空间,并使用情感分析来消除冗余。 [24]中讨论的模型考虑了鲨鱼气味优化(SSO)算法来总结多个文档。研究 SSO 来优化提取的用于文档摘要的特征的权重。
[25]的作者提出了一种基于质心技术和句子嵌入的文本摘要模型。 [26]中使用了抽象文本摘要模型。该模型使用具有时间衰减注意力机制的生成对抗网络(GAN)来选择重要句子和生成摘要。在[27]中,作者提出了 27 条使用模糊逻辑进行摘要生成的文本分类规则。 [28] 中的作者提出了模糊逻辑来识别和映射重叠词。为了克服文本文档中的重复句子问题,所提出的方法考虑了基于图的技术来生成摘要。
[29] 中讨论了一种提取式单文档文本摘要技术。根据所提出技术的作者的说法,科学文献中还没有使用半图方法解决文本摘要任务的工作。所提出的技术使用半图方法 ESSg 来总结文本。 [30]讨论了一种元启发式优化模型多文档文本摘要方法。该方法使用猫群优化(CSO)算法对多文档进行文本摘要。在[31]中,作者提出了文本摘要的模糊逻辑,并应用余弦相似度函数从提取的摘要中去除冗余[32] 的作者讨论了一种用于总结文本、图像、音频和视频的多模态摘要 (MMS) 技术。所提出的技术使用 LexRank音频和文本摘要算法以及跨模式分析用于弥合文本和图像之间的差距。在视频中提取关键帧。使用 Flickr30K 和 MSCOCO 数据集上预先训练的模型进行语义分析。
Hybrid 文档摘要(HDS):HDS 由单文档和多文档组成。 [33] 中的作者引入了一种基于循环神经网络(RNN)的新层次结构,用于提取文本摘要。该模型在单词级别和句子级别应用了两个级别的注意力机制。 [34]中提出了一种混合神经提取文本摘要模型,称为上下文化表示分层注意摘要(CRHASum)网络。该模型能够学习上下文语义和特征关系以进行文本摘要。该模型由词级注意力和句子级注意力组成。句子级注意力采用贪婪方法来选择句子
[35]中的文本摘要模型使用聚类和优化算法进行文本摘要。该模型使用 K-means 算法进行聚类,并使用差分算法的扩展版本(称为二元差分算法)进行文本摘要任务。所提出的模型称为 COSUM。作者在[36]中解释的文本摘要模型应用句子角色标记进行语义分析,并使用无向加权图模型进行文本摘要。该模型总结了单个文档和多个文档。该模型采用 PageRank 算法来生成图。所提出的模型称为 SRL-ESA-TextSum

三.本文方法

3.1 总结为两阶段学习

3.1.1 基础系统

3.2 重构文本摘要

四 实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

在本文中,提出了自动文本摘要模型的两种变体。所提出的方法采用文本句子中出现的单词的分布式语义,并使用层次聚类技术对相似的句子进行分组。 GAHC应用GA来优化提取特征的结果,而PSO-HA使用PSO来优化提取特征的结果。最后,根据一定的阈值选择排名靠前的句子并组合起来进行总结。句子的位置与原文中的位置保持一致。我们的工作可以总结为:应用单词和语义的潜在含义作为文本摘要中的特征,以生成改进的更好的摘要。 b.层次聚类技术可以产生更好的结果c.用于优化特征分数的进化技术可用于生成更好的摘要。在未来的工作中,将考虑人类评估,这可以进一步增强模型性能。此外,还可以考虑文档的可读性、正确性、完整性、紧凑性等多个方面来提高摘要的质量。此外,深度学习模型将被考虑用于数据提取并使用元启发式技术进行优化[56-62]。

思考

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/624825.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

云卷云舒:2023年,我眼中的十大数据库

我眼中的十大数据库,只要看成长性和演进速度(个见勿怪)。 一、五强 1、openGauss:生态影响力变大,基于高斯的产品层出不穷 2、OceanBase:只因霸榜,技术强大,新特性更新频繁&#x…

lv14 并发控制:上下文、中断屏蔽和原子变量

1 上下文和并发场合 执行流:有开始有结束总体顺序执行的一段代码 又称上下文 应用编程:任务上下文 内核编程: 任务上下文:五状态 可阻塞 a. 应用进程或线程运行在用户空间b. 应用进程或线程运行在内核空间(通过调用…

python基础语法看一篇就够了,全网最全python语法笔记汇总

前言 Python 是一种代表简单思想的语言,其语法相对简单,很容易上手。不过,如果就此小视 Python 语法的精妙和深邃,那就大错特错了。 如能在实战中融会贯通、灵活使用,必将使代码更为精炼、高效,同时也会极…

提前避坑Anzo Capital总结浮动差价的3个缺点

在交易中很多投资者倾向于选择浮动差价模式,这种模式的便利性就不言而喻了,但Anzo Capital需要提醒各位投资者,一定要知道浮动差价的3个缺点,在交易中提前避坑,下面Anzo Capital就和各位投资者一起总结浮动差价的这3…

leetcode 24两两交换链表中的节点

题目 给你一个链表,两两交换其中相邻的节点,并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题(即,只能进行节点交换)。 思想 对于操作链表节点的时候,首先需要就是创建一个虚拟的…

前端动画特效分享(附在线预览)

分享几款不错的动画特效源码 其中有CSS动画、canvas动画、js小游戏等等 下面我会给出特效样式图或演示效果图 但你也可以点击在线预览查看源码的最终展示效果及下载源码资源 canvas爱心代码动画 爱心代码动画特效 由里向外不断的产生的小爱心形成一个巨大的爱心动画 以下图片…

Maxwell数据同步(增量)

1. Maxwell简介 1.1 Maxwell概述 Maxwell 是由美国Zendesk公司开源,用Java编写的MySQL变更数据抓取软件。它会实时监控Mysql数据库的数据变更操作(包括insert、update、delete),并将变更数据以 JSON 格式发送给 Kafka、Kinesi等流…

全链路压力测试:现代软件工程中的重要性

全链路压力测试不仅可以确保系统在高负载下的性能和稳定性,还能帮助企业进行有效的风险管理和性能优化。在快速发展的互联网时代,全链路压力测试已成为确保软件产品质量的关键步骤。 1、测试环境搭建 测试应在与生产环境尽可能相似的环境中进行&#xff…

windows使用redis-安装和配置

windows使用redis 安装和配置 下载安装方式一-使用压缩包安装解压到指定的文件Redis安装为Windows服务安装成功 方式二-MSI安装包安装完成 Redis配置远程访问1.修改配置文件redis.windows.conf2.修改完redis配置文件,必须重启redis 下载 先下载Redis for windows 的…

Java lambda表达式如何自定义一个toList Collector

匿名类: package l8;import java.util.*; import java.util.function.BiConsumer; import java.util.function.BinaryOperator; import java.util.function.Function; import java.util.function.Supplier; import java.util.stream.Collector; import java.util.s…

【PostgreSQL内核学习(二十二)—— 执行器(ExecutePlan)】

执行器(InitPlan) 概述ExecutePlan 函数ExecProcNode 函数 总结 声明:本文的部分内容参考了他人的文章。在编写过程中,我们尊重他人的知识产权和学术成果,力求遵循合理使用原则,并在适用的情况下注明引用来…

超详细!4小时开发一个SpringBoot+vue前后端分离博客项目!!

超详细!4小时开发一个SpringBootvue前后端分离博客项目!! 前后端分离项目 文章总体分为2大部分,Java后端接口和vue前端页面,比较长,因为不想分开发布,真正想你4小时学会,哈哈。 先…

【自学笔记】01Java基础-07面向对象基础-04接口与内部类详解

记录学习Java基础中有关接口类和内部类的知识。 1 接口 interface 关键字用于定义接口类,接口类是一系列方法的声明,一般只有方法的特征没有方法的实现,因此可以被不同的类接入实现,而这些实现可以具有不同的行为(功…

Graham扫描凸包算法

凸包(Convex Hull)是包含给定点集合的最小凸多边形。凸包算法有多种实现方法,其中包括基于递增极角排序、Graham扫描、Jarvis步进法等。下面,我将提供一个简单的凸包算法实现,基于Graham扫描算法。 Graham扫描算法是一…

多级缓存架构(一)项目初始化

文章目录 一、项目克隆二、数据库准备三、项目工程准备 一、项目克隆 克隆此项目到本地 https://github.com/Xiamu-ssr/MultiCache 来到start目录下,分别有以下文件夹 docker:docker相关文件item-service:springboot项目 二、数据库准备 …

Ncast盈可视高清智能录播系统busiFacade RCE漏洞(CVE-2024-0305)

产品介绍 Ncast盈可视高清智能录播系统是一套新进的音视频录制和播放系统,旨在提供高质量,高清定制的录播功能。 漏洞描述 广州盈可视电子科技有限公司的高清智能录播系统存在信息泄露漏洞(CVE-2024-0305),攻击者可通过该漏洞,…

Sectigo的DV通配符https

Sectigo是近些年发展比较快速的CA认证机构,为了提升审核效率,在全国成立了审核机构,亚太审核中心的成立加快了Sectigo旗下的https证书的审核速度。Sectigo的https证书可以为网站安全提供有力支持,从而保护网站信息安全。今天就随S…

3、深入解析Redis Cluster集群运维与核心原理

在今天的大规模分布式系统中,Redis Cluster已经成为了许多企业选择的分布式缓存方案之一。了解Redis Cluster的运维及核心原理对于确保系统的高可用性和性能至关重要。本文将深入探讨Redis Cluster集群的运维细节和核心原理,以帮助读者更好地理解和优化R…

【STM32】STM32学习笔记-MPU6050简介(32)

00. 目录 文章目录 00. 目录01. MPU6050简介02. MPU6050参数03. MPU6050硬件电路04. MPU6050框图05. MPU6050常用寄存器06. 附录 01. MPU6050简介 •MPU6050是一个6轴姿态传感器,可以测量芯片自身X、Y、Z轴的加速度、角速度参数,通过数据融合&#xff0…

网站监测工具的极与极,Site24x7 与百川云

今天我们聊聊我用 Site24x7 的感受。对于有网站监测有需求的站长们来说,Site24x7 确实是个很强大的应用。但是它与百川云网站监测完全不一样,百川云网站监测是适合用中小微企业的交互极简的saas 应用,Site24x7 完全是另一个极端,适…