AI论文速读 | 2024[VLDB]TFB:全面与公正的时间序列预测方法基准测试研究

论文标题:TFB: Towards Comprehensive and Fair Benchmarking of Time Series Forecasting Methods

作者:Xiangfei Qiu ; Jilin Hu(胡吉林) ; Lekui Zhou ; Xingjian Wu ; Junyang Du ; Buang Zhang ; Chenjuan Guo(郭晨娟) ; Aoying Zhou(周傲英) ; Christian S. Jensen ; Zhenli Sheng ; Bin Yang(杨彬)

机构:华东师范大学,华为云,奥尔堡大学(AAU)

关键词:时间序列预测, 基准测试, 领域覆盖, 评估策略, 公平比较, 自动化流程.

链接https://arxiv.org/abs/2403.20150

Cool Paperhttps://papers.cool/arxiv/2403.20150

代码https://github.com/decisionintelligence/TFB

TL; DR:该论文提出了TFB(时间序列预测基准测试),这是一个新颖的自动化基准测试框架,旨在通过包含来自十个不同领域的数据集,并提供一个灵活、可扩展且一致的评估流程,使得对包括统计学习、机器学习和深度学习在内的多种时间序列预测方法进行全面且无偏见的评估成为可能。

这篇应该是ED&B(Experiment, Analysis and Benchmark)Track的论文

🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀
欢迎大家关注时空探索之旅时空探索之旅QRCode

摘要

时间序列在经济、交通、健康和能源等不同领域生成,其中未来值的预测具有许多重要的应用。 毫不奇怪,人们提出了许多预测方法。 为了确保进展,必须能够以全面、可靠的方式对这些方法进行实证研究和比较。 为了实现这一目标,本文提出了 TFB,一种时间序列预测 (TSF) 方法的自动化基准。 TFB 通过解决与数据集、比较方法和评估流程相关的缺点来推进最先进的技术,即:1)数据域覆盖范围不足,2)对传统方法的刻板印象偏见,以及 3)不一致且不灵活的流程。 为了实现更好的领域覆盖,包含来自 10 个不同领域的数据集:交通、电力、能源、环境、自然、经济、股票市场、银行、健康和网络。 还提供时间序列特征,以确保所选数据集的全面性。 为了消除对某些方法的偏见,提供了多种方法,包括统计学习、机器学习和深度学习方法,并且还支持多种评估策略和指标,以确保对不同方法进行更全面的评估。 为了支持将不同方法集成到基准测试中并实现公平比较,TFB 具有灵活且可扩展的流程,可以消除偏差。 接下来,使用 TFB 对 8,068 个单变量时间序列的 21 种单变量时间序列预测 (UTSF) 方法和 25 个数据集的14 种多元时间序列预测 (MTSF) 方法进行全面评估。

不同时间序列特征可视化

  1. 季节性(Seasonality):时间序列在特定时间间隔内重复变化的现象。
  2. 趋势(Trend):时间序列长期变化或模式的总体方向。
  3. 移动(漂移)(Shifting):时间序列的概率分布随时间变化的现象。
  4. 平稳性(Stationarity):时间序列的均值和方差对于所有观测值都是恒定的,协方差仅依赖于观测值之间的距离。
  5. 转换(Transition):时间序列中趋势、周期性或季节性和趋势同时出现的清晰表现。
  6. 相关性(Correlation):多变量时间序列中不同变量可能共享的共同趋势或模式,表明它们受到相似因素的影响或存在某种潜在关系(后文有体现)。

Q: 这篇论文试图解决什么问题?

A: 这篇论文提出了一个名为TFB(Time Series Forecasting Benchmark)的自动化基准测试,旨在全面和公正地评估时间序列预测(TSF)方法。论文试图解决的问题包括:

  1. 数据集覆盖不足:现有的时间序列预测方法评估通常只覆盖有限的领域,无法全面反映方法在不同领域的表现。
  2. 对传统方法的偏见:早期的评估往往忽略了传统方法,如统计学习方法,而只关注基于机器学习和深度学习的方法。
  3. 评估流程不一致和缺乏灵活性:不同的评估基准使用不同的实验设置,如数据划分、归一化方法选择和超参数设置,这使得跨基准的比较变得困难。

为了解决这些问题,TFB提出了以下解决方案:

  • 包含来自10个不同领域的数据集,以提高领域覆盖率。
  • 支持多种评估策略和指标,涵盖统计学习、机器学习和深度学习方法。
  • 提供灵活且可扩展的评估流程,确保在相同设置下对不同方法进行评估,以提高比较的公平性。

总的来说,TFB旨在为时间序列预测方法提供一个全面、可靠和用户友好的评估平台,以促进新方法的发展和现有方法的改进。

VAR,LR的传统方法在特定设置下的特定数据集上也能有很好的结果

Q: 有哪些相关研究?

A: 这篇论文在“相关工作”部分提到了以下几类相关研究:

  1. 时间序列预测方法(Time series forecasting:)

    • 统计学习方法:如ARIMA, ETS, Theta, VAR, 和 Kalman Filter (KF) 。
    • 机器学习方法:如XGBoost, Gradient Boosting Regression Trees (GBRT), Random Forests 和 LightGBM 。
    • 深度学习方法:如TCN , DeepAR , Transformer架构(包括Informer , FEDformer, Autoformer, Triformer, 和 PatchTST)以及基于MLP的模型(如N-HiTS , N-BEATS , NLinear, 和 DLinear )。
  2. 时间序列预测基准(Benchmarks:)

    • Libra, BasicTS, BasicTS+ , Monash, M3, M4, LTSF-Linear, 和 TSlib 。

这些相关研究表明,虽然已经有许多方法和基准用于时间序列预测,但它们在方法多样性、数据集覆盖、以及评估流程的一致性和灵活性方面存在不足。TFB旨在通过提供一个全面的、支持多种方法和评估策略的基准来解决这些问题,从而推动时间序列预测领域的发展。

不同时序基准比较

不同基准涉及的多元时许数据集

TFB和TSlib中多元数据集特征标准化值变化的箱线图

Q: 论文如何解决这个问题?

TFB

A: 为了解决上述提到的问题,论文提出了TFB(Time Series Forecasting Benchmark),一个全面的、自动化的时间序列预测方法评估基准。具体的解决方案包括:

  1. 数据集的全面覆盖
    • 包含来自10个不同领域的数据集,以提高领域覆盖率。
    • 对时间序列数据进行特征化分析,确保所选数据集在不同特征上具有广泛的分布。
  2. 方法多样性和评估策略的扩展
    • 支持包括统计学习、机器学习和深度学习在内的多种时间序列预测方法。
    • 提供多种评估策略和指标,以全面评估不同方法的性能。
  3. 灵活且可扩展的评估流程
    • 设计了一个统一的评估流程,包括数据层、方法层、评估层和报告层。
    • 引入了标准化的数据集处理、划分和归一化步骤。
    • 提供了可定制的配置文件,以便用户根据需要调整评估设置。
  4. 消除偏见和提高评估公平性
    • 通过统一的实验设置和评估策略,确保所有方法在相同的条件下进行评估。
    • 避免了对任何特定类别方法的偏见,如传统方法或最新方法。
  5. 自动化和简化评估过程
    • 提供了一个端到端的自动化评估流程,简化了研究人员对时间序列预测方法的评估过程。
    • 通过GitHub上的代码和数据集的公开,促进了社区的验证和使用。

通过这些解决方案,TFB旨在为时间序列预测研究者提供一个可靠、全面和用户友好的评估平台,从而推动该领域的进一步发展。

单变量数据集统计信息

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(这个图没有完全看懂,就翻译一下)

单变量时间序列,由于时间序列有不同的长度,首先将时间序列表示为由五个特征指标组成的向量:趋势、季节性、平稳性、漂移和转换。为了便于可视化,采用PCA(主成分分析)降维后的密度分析,观察到 TFB 和 M4 覆盖了最多的单元格,而所有其他基准均小于 TFB。 这强调了TFB数据集在特征分布多样性方面的覆盖范围。 此外,与 M4 相比,TFB的数据集涵盖了更广泛的领域。 此外,注意到 M4 的样本量要大得多,总计 100,000 个,而TFB的数据集仅包含 8,068 个时间序列。

多变量数据集统计信息

统计,机器学习和深度学习三种方法分类

不同时间序列预测评估策略(a):固定时间步预测;(b):滚动划窗预测

DropLast

关于“Drop last”的讨论:

“Drop last”是指在时间序列预测的测试阶段中,如果测试数据的最后一个批次(batch)的样本数量少于设定的批次大小(batch size),则通常会选择丢弃这个不完整的批次。这种做法是为了在测试过程中保持数据的一致性和加速计算。

然而,论文指出这种做法可能会导致不公平的比较。因为如果不同的方法在处理最后一个批次时采用不同的策略,比如一些方法丢弃了最后一个批次而另一些方法则没有,这可能会导致评估结果的偏差。

为了解决这个问题,论文提出了一种改进的评估流程,即在测试时不丢弃最后一个批次,而是确保所有方法在相同的策略下进行评估。这可以通过调整批次大小或采用其他方法来实现,以确保所有数据都被公平地考虑在内。

论文中通过实验表明,改变批次大小会影响方法的性能,因此建议在评估时间序列预测方法时,应该采用一致的批次处理策略,避免因“Drop last”操作而导致的潜在偏见。这种设计有助于提高评估的一致性和公平性,从而得到更准确的方法性能比较结果。

Q: 论文做了哪些实验?

评价指标

单变量预测

Ranks表示MSMAPE在该数据集上有多少次取得最佳性能

6个不同领域数据集的MAE雷达图比较

相关性方法比较

通道独立(CI) VS 通道依赖(CD)

渠道独立性与渠道依赖性。 在多元数据集中,变量有时被称为通道。 为了研究多变量时间序列中通道依赖性的影响,在十个数据集上比较 PatchTST(CI方法) 和 Crossformer(CD方法),依赖性从弱到强。。观察到,随着数据集中相关性的增加,Crossformer 的性能逐渐超过 PatchTST,这表明当相关性很强时最好考虑通道依赖性。但是, 当变量之间相关性不明显时,不考虑通道依赖性的PatchTST更好。

因此深入探索通道依赖性,在设计新方法和改良现有方法是值得思考的问题。

比如之前介绍过的CCM:

多元预测1

image-20240416145611303

参数量和推理时间比较

A: 论文中进行了以下实验来评估和验证TFB基准测试的有效性和实用性:

  1. 实验设置
    • 使用了TFB中包含的25个多变量数据集和8,068个单变量时间序列数据集。
    • 包含了22种不同的时间序列预测方法,涵盖统计学习、机器学习和深度学习三大类。
    • 对每种方法进行了全面的超参数选择,以确保其性能接近或超过原始论文中报告的结果。
  2. 单变量时间序列预测
    • 对14种单变量时间序列预测方法在8,068个单变量时间序列上进行了评估。
    • 使用了MASE(Mean Absolute Scaled Error)和MSMAPE(Mean Symmetric Absolute Percentage Error)等指标来衡量预测性能。
    • 分析了不同方法在具有不同特征(如季节性、趋势、平稳性等)的时间序列上的表现。
  3. 多变量时间序列预测
    • 对14种多变量时间序列预测方法在25个数据集上进行了评估。
    • 采用了MAE(Mean Absolute Error)和MSE(Mean Squared Error)等指标,并针对不同的预测范围进行了测试。
    • 比较了不同方法在数据集上的表现,并探讨了它们在处理多变量时间序列时的优缺点。
  4. 方法性能分析
    • 根据实验结果,总结了不同方法在各种数据特征上的表现和排名。
    • 讨论了基于Transformer的方法、线性方法以及考虑通道依赖性的方法在不同场景下的性能差异。
    • 提供了关于如何选择适合特定数据集和场景的预测方法的见解。
  5. 基准测试的可用性和灵活性
    • 展示了TFB如何简化时间序列预测方法的评估过程,并提供了可复现的实验设置。
    • 通过公开代码和数据集,允许社区成员验证实验结果并基于TFB进行进一步的研究。

这些实验不仅验证了TFB作为一个全面和公正的评估工具的有效性,而且为时间序列预测领域的研究人员提供了有价值的见解和建议。通过这些实验,研究人员可以更好地理解和比较不同方法的性能,从而为特定应用场景选择或设计最合适的预测模型。

3类方法(CNN,线性,transformer)在6个时序属性(季节性,趋势性,平稳性,转换,漂移,相关性)上的表现

上述两张图,从左到右,所示数据集的时序属性(季节性,趋势性,平稳性,转换,漂移,相关性)逐步增强。

Q: 总结一下论文的主要内容

A: 这篇论文的主要内容可以总结如下:

  1. 问题陈述:论文识别了现有时间序列预测(TSF)方法评估基准在数据集覆盖、方法多样性和评估流程一致性及灵活性方面存在的不足。
  2. TFB基准:为了解决上述问题,论文提出了TFB,一个自动化的、全面的和可扩展的时间序列预测方法评估基准。
  3. 数据集:TFB包含来自10个不同领域的数据集,以确保对各种时间序列特征的全面覆盖,并提供时间序列特征分析以确保数据集的多样性。
  4. 方法多样性:TFB支持多种时间序列预测方法,包括统计学习、机器学习和深度学习方法,并提供多种评估策略和指标。
  5. 评估流程:TFB设计了一个灵活的评估流程,包括数据层、方法层、评估层和报告层,以确保不同方法可以在公平和一致的环境中进行比较。
  6. 实验:论文使用TFB对多种单变量和多变量时间序列预测方法进行了全面评估,并提供了实验结果和分析。
  7. 发现:通过实验,论文得出了一些关键发现,包括传统统计方法在某些数据集上的表现优于最新方法,以及不同方法在处理具有不同特征的数据集时的优缺点。
  8. 贡献:TFB作为一个评估工具,为研究人员提供了一个可靠和用户友好的平台,以设计和评估新的TSF方法,并促进了该领域的进步。
  9. 代码和数据:为了促进研究的透明度和可复现性,论文提供了TFB的代码和数据集的公开访问链接。

*:通过实验,论文得出了一些关键发现,包括传统统计方法在某些数据集上的表现优于最新方法,以及不同方法在处理具有不同特征的数据集时的优缺点。
8. 贡献:TFB作为一个评估工具,为研究人员提供了一个可靠和用户友好的平台,以设计和评估新的TSF方法,并促进了该领域的进步。
9. 代码和数据:为了促进研究的透明度和可复现性,论文提供了TFB的代码和数据集的公开访问链接。

总体而言,TFB基准旨在提供一个综合性的评估框架,以推动时间序列预测领域的研究和实践。

🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀
欢迎大家关注时空探索之旅时空探索之旅QRCode

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/154.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【软件】如何下载谷歌安装包?

1、访问谷歌浏览器官网:https://www.google.cn/chrome/index.html 2、在浏览器地址栏最后添加?standalone1,按回车,重新加载页面。页面和之前的一样,点击下载 完整地址:https://www.google.cn/chrome/index.html?…

2024年第十六届“华中杯”(A题)大学生数学建模挑战赛| 物理建模,多目标优化| 数学建模完整代码+建模过程全解全析

当大家面临着复杂的数学建模问题时,你是否曾经感到茫然无措?作为2022年美国大学生数学建模比赛的O奖得主,我为大家提供了一套优秀的解题思路,让你轻松应对各种难题。 让我们来看看华中杯 (A题)! CS团队倾…

Java面试八股之Iterator和ListIterator的区别是什么

Iterator和ListIterator的区别是什么 这道题也是考查我们对迭代器相关的接口的了解程度,从代码中我们可以看出后者是前者的子接口,在此基础上做了一些增强,并且只用于List集合类型。 定义与基本概念 Iterator: 定义&#xff1a…

虚拟人多元化互动玩法,助力各领域发布会/直播活动“玩转”营销新高度

在数字新科技推动下,各地方文旅、品牌纷纷在发布会、展会、行业峰会论坛、推广直播等场景中,融入虚拟人IP,将虚拟人IP作为虚拟主播、虚拟主持人、虚拟嘉宾、虚拟推荐官、AI数字迎宾员、AI播报员等多重身份,与观众实时互动交流&…

【动态规划】C++解决斐波那契模型题目(三步问题、爬楼梯、解码方法...)

1. 前言 - 介绍动态规划算法 动态规划(Dynamic Programming,简称DP) 是一种解决复杂问题的算法设计技术,通常用于解决具有重叠子问题和最优子结构性质的问题。它将问题分解成较小的子问题,通过解决这些子问题并保存其…

NFTScan | 04.08~04.14 NFT 市场热点汇总

欢迎来到由 NFT 基础设施 NFTScan 出品的 NFT 生态热点事件每周汇总。 周期:2024.04.08~ 2024.04.14 NFT Hot News 01/ 数据:Runestone 地板价突破 0.07 BTC,创历史新高 4 月 8 日,据数据显示,Runestone 地板价突破 …

阿里面试:DDD中的实体、值对象有什么区别?

在领域驱动设计(DDD)中,有两个基础概念:实体(Entity)和值对象(Value Object)。 使用这些概念,我们可以把复杂的业务需求映射成简单、明确的数据模型。正确使用实体和值对…

Java详解:GUI容器组件 | 功能组件

✎ 简介: Graphical User Interface(GUI)图形用户界面 图形界面对于用户来说在视觉上更易于接受. ✎ 关于swing: • swing是一个为java设计的GUI工具包javax.swing,包括了用户界面的各种组件. • swing中组件可以分为两大类&…

基于FPGA的OMEGA东京奥运会计时器

截至2019年共举办了31届奥运会,其中27届的计时设备都由欧米茄(OMEGA,Ω)提供,今年的东京奥运会将会是第28届。 瑞士计时公司(Swiss Timing)基于火星Mars ZX2核心板打造了为奥运会等大型体育赛事…

AWVS+子域名平台联合自动化渗透测试工具(非常详细)零基础入门到精通,收藏这一篇就够了

项目地址 https://github.com/Minority2310/awvs-subdomain_platformawvs-subdomain_platform:AWVS子域名平台联合自动化渗透测试 如有侵权,请联系删除 为了帮助大家更好的学习网络安全,我给大家准备了一份网络安全入门/进阶学习资料&#…

PLC程序远程上下载

在工业自动化领域,PLC(可编程逻辑控制器)扮演着至关重要的角色。然而,传统的PLC程序上传与下载方式往往受限于物理距离和现场环境,给工程师们带来了诸多不便。如今,随着远程技术的不断发展,PLC程…

Stable Diffusion XL优化终极指南

如何在自己的显卡上获得SDXL的最佳质量和性能,以及如何选择适当的优化方法和工具,这一让GenAI用户倍感困惑的问题,业内一直没有一份清晰而详尽的评测报告可供参考。直到全栈开发者Flix San出手。 在本文中,Flix介绍了相关SDXL优化…

好用且免费的无需搭梯子的长文本场景对话大模型

这款ai工具最近爆火,Kimi支持200万字无损上下文,在长上下文窗口技术上再次取得突破,引燃人工智能领域新一轮投资热情。我也是支持国货,抱着试一试的心态使用,确实不错, China🐂🍺

【Java开发指南 | 第十三篇】Java条件语句

读者可订阅专栏:Java开发指南 |【CSDN秋说】 文章目录 if 语句if...else 语句if...else if...else 语句嵌套的 if…else 语句switch 语句 Java 中的条件语句用于根据条件来执行不同的代码块。条件语句允许程序根据表达式的结果选择性地执行代码。 条件语句分为if 语…

[Win11·Copilot] Win11 系统更新重启后任务栏 Copilot 图标突然消失 | 解决方案

文章目录 前言Copilot介绍产生异常的原因解决方案总结 前言 在 Windows 11 的最新系统更新之后,一些用户报告了任务栏中 Copilot 图标消失的问题。这篇技术博文将为您提供详细的解决方案,帮助您恢复 Copilot 图标,并确保您能够继续享受 Copi…

3D模型查看器开发实战【WebGL】

本文介绍如何从头开发一个包含3D 模型查看器的页面 - 尽管它非常简单,但你将学习的步骤也应该有助于构建其他类型的 Web 应用程序。 在自己的网站或博客里展示3D模型更简单的方式是使用NSDT 3DConvert提供的在线服务,无需任何开发工作,5分钟…

【小技巧】机器学习中可视化高维向量的两种方法PCA和t-SNE,以及其原理介绍和代码示例(附代码)

使用情景:比如说现在我有一批numpy的多维向量,比如说都是256维度的,X.shape(n, 256), 已知它们都是经过训练能够在256dim的超球面上实现分类或聚类的,现在我想把它们可视化出来看看各个簇在超球面上的分布是怎样的? 1…

陈胜许诺‘苟富贵,勿相忘’的那些工友们,后来都怎么样了?

记得初三语文上册的课文中,有一篇叫《陈涉世家》文章,节选自《史记》,讲述的是秦末农民起义军领袖陈胜吴广的故事。其中陈胜有三句话让人记忆犹新,其中有两句是他在地主家当农民工时,和一起做事的工友说的。第一句话就…

Vue项目实现懒加载——自用笔记

熟悉指令语法&#xff1a; <template><HomePanel title"人气推荐" sub-title"人气爆款 不容错过"><ul class"goods-list"><li v-for"item in hotList" :key"item.id"><RouterLink to"/&qu…

免费学习简单实操,轻松拿下微软生成式AI认证

在这个AI风暴席卷全球的时代&#xff0c;我们都处在一个充满机遇和挑战的交叉点上。无论你是正在寻找新的职业道路&#xff0c;还是希望在现有的职业生涯中取得突破&#xff0c;掌握AI技能都将成为你开启新篇章的关键。 为了帮助更多的人在这个AI时代中实现跨越&#xff0c;微…