常用数据集
2.monash数据集
官网链接
我们的存储库包含30个数据集,包括公开可用的时间序列数据集(不同格式)和由我们管理的数据集。
Dataset | Domain | No: of Series | Min. Length | Max. Length | Competition | Multivariate | Download | Source |
---|---|---|---|---|---|---|---|---|
M1 | Multiple | 1001 | 15 | 150 | Yes | No | Yearly Quarterly Monthly Yearly | Athanasopoulos et al., 2011 |
M3 | Multiple | 3003 | 20 | 144 | Yes | No | Quarterly Monthly Other | Makridakis and Hibon, 2000 |
M4 | Multiple | 100000 | 19 | 9933 | Yes | No | Yearly Quarterly Monthly Weekly Daily Hourly | Makridakis et al., 2020 |
Tourism | Tourism | 1311 | 11 | 333 | Yes | No | Yearly Quarterly Monthly | Athanasopoulos et al., 2011 |
CIF 2016 | Banking | 72 | 34 | 120 | Yes | No | Monthly | Stepnicka and Burda, 2017 |
London Smart Meters | Energy | 5560 | 288 | 39648 | No | No | W Missing W/O Missing | Jean-Michel, 2019 |
Aus. Electricity Demand | Energy | 5 | 230736 | 232272 | No | No | Half Hourly | Curated by us |
Wind Farms | Energy | 339 | 6345 | 527040 | No | No | W Missing W/O Missing | Curated by us |
Dominick | Sales | 115704 | 28 | 393 | No | No | Weekly | James M. Kilts Center, 2020 |
Bitcoin | Economic | 18 | 2659 | 4581 | No | No | W Missing W/O Missing | Curated by us |
Pedestrian Counts | Transport | 66 | 576 | 96424 | No | No | Hourly | City of Melbourne, 2020 |
Vehicle Trips | Transport | 329 | 70 | 243 | No | No | W Missing W/O Missing | fivethirtyeight, 2015 |
KDD Cup 2018 | Nature | 270 | 9504 | 10920 | Yes | No | W Missing W/O Missing | KDD Cup, 2018 |
Weather | Nature | 3010 | 1332 | 65981 | No | No | Daily | Sparks et al., 2020 |
NN5 | Banking | 111 | 791 | 791 | Yes | Yes | Daily W Missing Daily W/O Missing Weekly | Ben Taieb et al., 2012 |
Web Traffic | Web | 145063 | 803 | 803 | Yes | Yes | Daily W Missing Daily W/O Missing Weekly | Google, 2017 |
Solar | Energy | 137 | 52560 | 52560 | No | Yes | 10 Minutes Weekly | Solar, 2020 |
Electricity | Energy | 321 | 26304 | 26304 | No | Yes | Hourly Weekly | UCI, 2020 |
Car | Parts | Sales | 2674 | 51 | 51 | No | Yes | W Missing W/O Missing |
FRED-MD | Economic | 107 | 728 | 728 | No | Yes | Monthly | McCracken and Ng, 2016 |
San Francisco Traffic | Transport | 862 | 17544 | 17544 | No | Yes | Hourly Weekly | Caltrans, 2020 |
Rideshare | Transport | 2304 | 541 | 541 | No | Yes | W Missing W/O Missing | Curated by us |
Hospital | Health | 767 | 84 | 84 | No | Yes | Monthly | Hyndman, 2015 |
COVID Deaths | Nature | 266 | 212 | 212 | No | Yes | Daily | Johns Hopkins University, 2020 |
Temperature Rain | Nature | 32072 | 725 | 725 | No | Yes | W Missing W/O Missing | Curated by us |
Sunspot | Nature | 1 | 73931 | 73931 | No | No | W Missing W/O Missing | Sunspot, 2015 |
Saugeen River Flow | Nature | 1 | 23741 | 23741 | No | No | Daily | McLeod and Gweon, 2013 |
US Births | Nature | 1 | 7305 | 7305 | No | No | Daily | Pruim et al., 2020 |
Solar Power | Energy | 1 | 7397222 | 7397222 | No | No | 4 Seconds | Curated by us |
Wind Power | Energy | 1 | 7397147 | 7397147 | No | No | 4 Seconds | Curated by us |
常用指标
MSE(mean square error)均方误差
RMSE(root mean square error) 均方根误差
MAE(mean absolute error) 平均绝对误差
MAPE(mean absolute percentage error) 平均绝对百分比误差
SMAPE(Symmetric Mean Absolute Percentage Error) 对称平均绝对百分比误差
对比:先对比有平方操作和没有平方操作的,平方操作会放大单个点的误差,对误差的惩罚更大,因此有平方操作的对异常点更加明显,没有平方的操作对所有误差一视同仁,对异常点不敏感。
MSE和RMSE: RMSE 的值可以更直观地解释为与目标变量相同单位的标准差。这使得 RMSE 更容易理解,因为它具有与数据相同的度量单位。
SMAPE vs MAPE:SMAPE 在处理分母为零的情况时更稳健,因为分母考虑了真实值与预测值的绝对值的和。
MAE vs MAPE:MAE: MAE 的单位与原始数据的单位相同,因为它是误差的平均绝对值。
MAPE: MAPE 的结果是以百分比形式表示的,不受原始数据单位的影响。它以百分比来度量相对误差。
均方误差(Mean Absolute Error,MAE)和平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)在不同的应用场景中可能更适用,取决于对误差度量的不同关注点。以下是它们适用场景的一些特点:
MAE 的适用场景:
误差大小关键: 当关注模型预测的绝对误差的大小时,MAE 是一个合适的选择。它直接度量了预测误差的平均绝对值,对于业务问题中误差的实际大小提供了直观的度量。
MAPE 的适用场景:
相对误差关键: 当关注模型预测的相对误差的大小时,MAPE 是更合适的选择。它将每个样本的绝对误差与相应的真实值的百分比进行比较,更强调相对误差的百分比。数据具有不同尺度: MAPE 在处理具有不同尺度的数据时可能更为合适,因为它以百分比形式提供了一个相对的度量,不受原始数据单位的影响。MAPE因此可以适用于不同数据集之间的比较。
常用方法
统计方法
机器学习方法
深度学习方法
基于transformer的方法
基于预训练大模型的方法
实验设计
1.不同时间序列任务:预测、分类、异常检测
2.不同类型任务:监督、自监督、迁移
3.数据集:zero-shot,one-shot,all
4.变量:多预测多,多预测单、单预测单、部分变量预测
5.训练方法:fine-tuning, linear probing, and supervising from scratch
6.消融实验:w/o replace 超参数
LookbackWindow(seq_len)
pred_len
patch_len
patch_num
关于超参数的实验往往使用图来展示
7.指标:性能相关:mse、mae;效率:时间;体量:参数量
实验分析
CKA相似度
SHAP
除了SHAP之外,还有一些其他用于解释机器学习模型的方法。这些方法各有特点,适用于不同类型的模型和任务。以下是一些常见的模型解释方法:
1.LIME(Local Interpretable Model-agnostic Explanations): LIME是一种模型无关的局部解释方法,它通过在局部生成一个简单的可解释模型来解释黑盒模型的预测。LIME通过在输入空间中生成随机样本,观察它们的模型输出,然后拟合一个简单的解释模型,以近似原始模型在该点的行为。
2.Feature Importance(特征重要性): 这是一种简单但常用的解释方法,通过分析模型中各个特征对于输出的相对重要性。随机森林、决策树等模型通常提供特征重要性的直接输出。
3.Partial Dependence Plots(偏依赖图): 偏依赖图显示模型输出与某个特征之间的关系,保持其他特征不变。通过观察这些图表,可以了解模型是如何对单个特征进行响应的。
4.Shapley Regression Values(SRV): 类似于SHAP值,SRV是一种基于博弈论的解释方法,用于解释回归模型的预测。它提供了每个特征对于整体预测的贡献。
5.TreeInterpreter: 针对树模型(如决策树和随机森林),TreeInterpreter可以解释单个预测是如何通过模型的各个树来形成的。
6.LASSO Regression: 在线性回归中,使用LASSO(Least Absolute Shrinkage and Selection Operator)进行特征选择,可以得到一个稀疏模型,从而识别对输出有重要贡献的特征。
7.Global Surrogate Models: 这是一种通过在原始模型周围训练一个可解释的替代模型来解释复杂模型的方法。例如,用一个简单的线性模型来近似复杂的深度学习模型。
选择合适的解释方法取决于具体的问题、模型和数据。通常,结合多种解释方法可以提供更全面的理解。值得注意的是,不同的解释方法对于不同类型的模型和任务可能具有不同的适用性和可解释性。