【论文阅读笔记】序列数据的数据增强方法综述

【论文阅读笔记】序列数据的数据增强方法综述

摘要

 这篇论文探讨了在深度学习模型中由于对精度的要求不断提高导致模型框架结构变得更加复杂和深层的趋势。随着模型参数量的增加,训练模型需要更多的数据,但人工标注数据的成本高昂,且由于客观原因,获取特定领域的数据可能变得困难。为了缓解数据不足的问题,作者提出了数据增强的概念,通过人为生成新的数据来增加数据量。

 论文指出,数据增强方法在计算机视觉领域取得了显著的成果,并探讨了这些方法是否可以应用在序列数据上。除了在时间域进行增强的方法(如翻转、裁剪)外,论文还描述了在频率域实现数据增强的方法。此外,除了基于经验或知识设计的方法,还详细论述了一系列基于生成对抗网络(GAN)的通过机器学习模型自动生成数据的方法。

 论文对应用在自然语言文本、音频信号和时间序列等多种序列数据上的数据增强方法进行了介绍,并涉及了它们在医疗诊断、情绪判断等问题上的表现。尽管这些数据类型不同,论文总结了应用在它们上的数据增强方法背后的相似设计思路。最后,论文以这一思路为线索,梳理了应用在各类序列数据类型上的多种数据增强方法,并进行了一定的讨论和展望

Introduction

  • 线下增强:训练之前,将整个数据集进行整体操作,再把增强之后的数据集喂入模型中
  • 线上增强:更为常用的是线上增强(online augmentation),对即将送入到模型的每一批(batch)数据执行转换,不必显式地占用磁盘空间

基础方法

  • 如变换取值维度的翻转、缩放(scaling)或 变 换 时 间 维 度 的 窗 口 规 整

  • 窗口切片:滑动窗口在时序数据不断采样,切片需要随机性

  • 添加噪声:对于数值型序列数据,可以对每一个取值随机地添加一定的噪声来生成新的序列[4,8],且不影响序列的整体性质和标签信息

在这里插入图片描述

  • 通过对时间域数据进行傅里叶变换得到频率域的振幅谱和相位谱
  • 在振幅谱上随机选择区间,用基于原始振幅的统计参数重新生成一段信号替换,如图2[9](b)所示;在相位谱上随机选择区间并添加白噪声

在这里插入图片描述

频率域变换

  • 首先对时序数据进行短时傅里叶变换,得到时序关系的谱特征,
  • 再在普特征上面使用两种数据增强的方法,一种是对每一个属性做局部平均,将局部平均序列接在原始序列的后面
  • 二是打乱顺序,以增加数据的方差,这种方法会使得数据尺寸发生变化
  • 由于STFT变换得到的普特征仍然是具有时序关系,这种数据增强方法也被认为是时间-频率域进行的
  • AAFT:赋值调整傅里叶变换可以实现只在频率域进行数据增强

基于分解或混合的方法


STL方法的应用:使用STLSeasonal and Trend Decomposition using Loess)方法将时间序列分解为基础项、趋势项、季节项和残差项。
基础项、趋势项和季节项被认为是确定性部分,包含了原始序列的绝大部分信息。
Kegel等人基于相似矩阵和最近邻搜索等方法为不同成分分配权重,以组合新的时间序列。
随机的残差项通过重新建模生成,利用其分布特征和自相关特征。Bergmeir等人的简单方法:对时间序列信号进行分解,得到趋势项和季节项之外的剩余项。
对剩余项进行有放回的重复采样(bootstrap),生成新的剩余项序列,然后与前两者混合成新的时间序列。
在M3数据集上的实验证明,这种方法在月频数据上对预测精度的提升较为显著,但在长度较短的序列数据上表现一般。
  • 第一种方法以数据集为单位产生新的序列,而第二种方法以序列为单位产生新的序列。

  • 第一种方法更能利用数据集整体的分布特征进行数据增强,避免可能发生在第二种方法中对不典型序列进行增强的情况。

异常标签扩展

  • 对异常检测任务的数据增强方法,称为异常标签扩展(label expansion)。该方法旨在解决类别不平衡的问题,尤其是为了增加数量较少的异常标签。
    在这里插入图片描述

基于深度学习的序列数据增强方法

  • 使用生成对抗网络生成数据

  • GAN由生成器和判别器组成

  • 判别器判断样本是原始数据集的还是模型生成的,而生成器尽可能地最大化判别器判断错误的概率,整个模型的优化是一个二元极大极小博弈

在这里插入图片描述

总结

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/210603.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

将RK3399的挖掘机开发板在Android10下设置系统默认为24小时制

将RK3399的挖掘机开发板在Android10下设置系统默认为24小时制 2023/12/9 22:07 应该也可以适用于RK3399的Android12系统 --- a/frameworks/base/packages/SettingsProvider/res/values/defaults.xml b/frameworks/base/packages/SettingsProvider/res/values/defaults.xml -2…

MagicAnimate

简介 新加坡国立大学 Show 实验室和字节联合做了一项类似的研究。他们提出了一个基于扩散的框架 MagicAnimate,旨在增强时间一致性、忠实地保留参考图像并提升动画保真度。并且,MagicAnimate 项目是开源的,目前推理代码和 gradio 在线 demo …

外包干了三年,我承认我确实废了……

没错,我也干过外包,一干就是三年,三年后,我废了…… 虽说废的不是很彻底,但那三年我几乎是出差了三年、玩了三年、荒废了三年,那三年,我的技术能力几乎是零成长的。 说起这段三年的外包经历&a…

Ubuntu中编译出Windows的可执行程序(.exe)

1、前言 在嵌入式开发中,交叉编译是很常见的情况,如果你把Windows电脑也看做一块高性能的开发板,那在Ubuntu中编译出Windows上运行的可执行程序也是很好理解的行为。 2、安装mingw64环境 sudo apt-get install mingw-w64 3、测试编译链是否安…

打破常规思维:Scrapy处理豆瓣视频下载的方式

概述 Scrapy是一个强大的Python爬虫框架,它可以帮助我们快速地开发和部署各种类型的爬虫项目。Scrapy提供了许多方便的功能,例如请求调度、数据提取、数据存储、中间件、管道、信号等,让我们可以专注于业务逻辑,而不用担心底层的…

Vue2与Vue3的语法对比

Vue2与Vue3的语法对比 Vue.js是一款流行的JavaScript框架,通过它可以更加轻松地构建Web用户界面。随着Vue.js的不断发展,Vue2的语法已经在很多应用中得到了广泛应用。而Vue3于2020年正式发布,带来了许多新的特性和改进,同时也带来…

rpc原理与应用

IPC和RPC? RPC 而RPC(Remote Procedure Call),又叫做远程过程调用。它本身并不是一个具体的协议,而是一种调用方式。 gRPC 是 Google 最近公布的开源软件,基于最新的 HTTP2.0 协议,并支持常见…

【SQLite】SQLite3约束总结

前面学习了SQLite数据库的常见使用方法,其中包含许多约束,常见的如NOT NULL、DEFAULT、UNIQUE、PRIMARY KEY(主键)、CHECK等 本篇文章主要介绍这些约束在SQLite中的使用 目录 什么是约束NOT NULL 约束DEFAULT约束UNIQUE约束PRIMA…

【设计模式-3.2】结构型——适配器模式

说明:本文介绍设计模式中结构型设计模式中的,适配器模式; 插头转换器 适配器模式属于结构型设计模式,设计思想体现在结构上的。以插头转换器为例,当你需要给手机充电,但是眼前只有一个三孔插座&#xff0…

二叉树结点个数、叶子结点个数、树的高度、第k层结点个数的计算(C语言)

目录 前言 分治算法 模拟二叉树代码 结点个数计算 错误方法 不便利方法 基于分治思想的方法 叶子结点个数 树的高度 第k层结点的个数 前言 在链式二叉树的前序、中序、后续遍历中我们模拟了一棵二叉树,并实现了它的前、中、后序遍历,现在我们来…

UE4 .ini文件使用

在需要给配置文件的类中加上config标签,当然变量也要加 在项目的Config下,新建一个Default类的UCLASS中config等于的名字,这里结合上面截图就是DefaultTest 在下面写入 [/Script/项目名/类名] 然后写变量以及对应的值即可

【Angular 开发】Angular 信号的应用状态管理

自我介绍 做一个简单介绍,年近48 ,有20多年IT工作经历,目前在一家500强做企业架构.因为工作需要,另外也因为兴趣涉猎比较广,为了自己学习建立了三个博客,分别是【全球IT瞭望】,【架构…

GO面试题系列

1.GO有哪些关键字 2.GO有哪些数据类型 3.Go方法与函数的区别 在Go语言中,方法和函数是两个不同的概念,尽管它们在某些方面有相似之处。下面是它们的主要区别: 定义位置: 函数: 函数是独立声明的,它们不…

python数据分析总结(pandas)

目录 前言 df导入数据 df基本增删改查 数据清洗 ​编辑 索引操作 数据统计 行列操作 ​编辑 df->types 数据格式化 ​编辑 日期数据处理 前言 此篇文章为个人python数据分析学习总结,总结内容大都为表格和结构图方式,仅供参考。 df导入数…

Vue3使用vue-baidu-map-3x百度地图

安装vue-baidu-map-3x: // vue3 $ npm install vue-baidu-map-3x --save// vue2 $ npm install vue2-baidu-map --save 全局注册/局部注册: import { createApp } from vue import App from ./App.vue import BaiduMap from vue-baidu-map-3xconst app …

综述 2017-Genome Biology:Alignment-free sequence comparison

Zielezinski, Andrzej, et al. "Alignment-free sequence comparison: benefits, applications, and tools." Genome biology 18 (2017): 1-17. https://genomebiology.biomedcentral.com/articles/10.1186/s13059-017-1319-7 被引次数:476应用问题&…

curl 18 HTTP/2 stream

cd /Users/haijunyan/Desktop/CustomKit/KeepThreadAlive/KeepThreadAlive //Podfile所在文件夹 git config --global https.postBuffer 10485760000 git config --global http.postBuffer 10485760000 pod install https://blog.csdn.net/weixin_41872403/article/details/86…

top K问题(借你五分钟)

目录 前言 top K问题 模拟数据 建堆 验证(简单了解即可) 最终代码 调试部分 前言 在大小堆的实现(C语言)中我们讨论了堆的实际意义,在看了就会的堆排序(C语言)中我们完成了堆排序&#…

银河麒麟本地软件源配置方法

软件源介绍 软件源可以理解为软件仓库,当需要安装软件时则会根据源配置去相应的软件源下载软件包,此方法的优点是可以自动解决软件包的依赖关系。常见的软件源有光盘源、硬盘源、FTP源、HTTP源,本文档主要介绍本地软件源的配置方法&#xff…

功能强大的屏幕录制和剪辑工具Camtasia Studio 2024 中文版

Camtasia Studio 2024 是一款功能强大的屏幕录像工具,集视频录制、剪辑、编辑和播放于一体的多功能屏幕录制软件,Camtasia Studio 2024操作简单,它能够轻松为您将屏幕上的所有声音、影音、鼠标移动的轨迹和麦克风声音全部录制下来&#xff0c…