整个学习活动,将带你从 跑通最简的Baseline,到了解竞赛通用流程、深入各个竞赛环节,精读Baseline与进阶实践
文章目录
- 一、赛题背景
- 二、赛题任务
- 三、实践步骤
- 学习规划
- 分析思路
- 常见时序场景
- task01
- code
- code 解读
一、赛题背景
随着全球经济的快速发展和城市化进程的加速,电力系统面临着越来越大的挑战。电力需求的准确预测对于电网的稳定运行、能源的有效管理以及可再生能源的整合至关重要。然而,电力需求受到多种因素的影响,为了提高电力需求预测的准确性和可靠性,推动智能电网和可持续能源系统的发展,本场以“电力需求预测”为赛题的数据算法挑战赛。选手需要根据历史数据构建有效的模型,能够准确的预测未来电力需求。
二、赛题任务
给定多个房屋对应电力消耗历史N天的相关序列数据等信息,预测房屋对应电力的消耗。
三、实践步骤
跑通baseline
链接:https://aistudio.baidu.com/projectdetail/8151133
学习规划
学习规划,如下面的学习规划表所见,我们接下来,主要还有2个Task,会涉及到这些知识点:
- 进一步分析时间序列问题,理解并实践其数据应该如何处理和分析
- 根据竞赛通用流程,一一对应到赛题,理解关键步骤和环节
- 开始入门机器学习模型构建方法,了解如何选型并训练模型解决本赛题问题
- 开始入门深度学习方法,学会更多上分技巧
Task | 学习时间 | Task 描述 | 相关知识点 | 学习文件&链接 | 学习安排 |
---|---|---|---|---|---|
Task 1 | 7.14 | 目标:跑通baseline,体验机器学习解决问题的流程,基本了解赛题要求,理解赛题场景难度:非常低**推荐步骤:**根据文档跑通提交并拿下第一个分数学习相关知识点,理解赛题打卡第一个分数,尽量写笔记 | 时间序列问题的定义传统时序模型 | 从零入门机器学习竞赛【AI Studio】baseline项目 | **开营直播**2024/7/13 19:00 |
Task 2 | 7.15~7.17 | 目标:通过baseline代码和进阶代码分析数据、学习特征构建方式,分数初步提高,入门机器学习建模难度:⭐️**推荐步骤:**理解竞赛通用流程精读baseline代码,与竞赛流程一一对应学习进阶代码并实践,对赛题数据进行分析学习进阶代码并实践,了解如何构建特征学习进阶代码并实践,了解如何选择机器学习模型、建模写笔记打卡 | 竞赛通用流程数据分析构建特征的方式机器学习模型如何选择、建模 | Task2:进阶lightgbm,开始特征工程 | baseline进阶直播****12024/7/16 21:00 |
Task 3 | 7.18~7.20 | 目标:通过进阶代码入门深度学习建模,持续提分**难度:⭐️⭐️****推荐步骤:**了解上分思路并实践根据相关知识点做实践做打卡笔记 | 特征优化(偏上分)模型优化与融合(偏上分)深度学习模型 | Task3知识点文档 | 进阶分享直播****22024/7/19 19:00 |
分析思路
在学习的过程中,不单单要知道如何做,更要知道为什么要这样做。这样我们在遇到同类型的问题时,才能举一反三。
一般情况下,拿到一个赛题之后,我们需要明确:
1)这是一个什么场景下的赛题;
2)这个赛题要解决什么问题。
深度思考这些问题,既能帮助我们更好地解决相关问题,更能让我们在后续遇到相关问题时,更好地完成迁移。
本赛题是一个典型的时间序列问题
时间序列问题是指对按时间顺序排列的数据点进行分析和预测的问题,往往用来做未来的趋势预测。比如,基于历史股票每天的股价,预测未来股票的价格走向。
简单来说,本次赛题的目标很简单清晰——【训练 时序预测模型 助力电力需求预测】
电力需求的准确预测对于电网的稳定运行、能源的有效管理以及可再生能源的整合至关重要。
常见时序场景
常见的时间序列场景有:
- 金融领域:股票价格预测、利率变动、汇率预测等。
- 气象领域:温度、降水量、风速等气候指标的预测。
- 销售预测:产品或服务的未来销售额预测。
- 库存管理:预测库存需求,优化库存水平。
- 能源领域:电力需求预测、石油价格预测等。
- 医疗领域:疾病爆发趋势预测、医疗资源需求预测。
时间序列问题的数据往往有如下特点:
- 时间依赖性:数据点之间存在时间上的连续性和依赖性。
- 非平稳性:数据的统计特性(如均值、方差)随时间变化。
- 季节性:数据表现出周期性的模式,如年度、月度或周度。
- 趋势:数据随时间推移呈现长期上升或下降的趋势。
- 周期性:数据可能存在非固定周期的波动。
- 随机波动:数据可能受到随机事件的影响,表现出不确定性。
模型 | 建模思路 | 优点 | 缺点 |
---|---|---|---|
传统时间序列模型 | 基于时间序列数据的统计特性,如自相关性、季节性等。使用ARIMA、季节性ARIMA(SARIMA)、指数平滑等模型。通过识别数据的趋势和季节性成分来构建模型。 | 模型结构简单,易于理解和解释。计算效率高,适合于数据量较小的问题。直接针对时间序列数据设计,能够很好地处理数据的季节性和趋势。 | 对于非线性模式和复杂的时间序列数据,预测能力有限。需要手动进行参数选择和模型调整。对数据的平稳性有严格要求,非平稳数据需要差分等预处理。 |
机器学习模型 | 将时间序列数据转换为监督学习问题,使用历史数据作为特征,未来值作为标签。使用决策树、随机森林、梯度提升树等模型。通过特征工程来提取时间序列数据中的有用信息。 | 能够处理非线性关系和复杂的数据模式。通过特征工程可以引入额外的解释性变量。模型选择多样,可以进行模型融合以提高预测性能。 | 对于时间序列数据的内在时间结构和季节性可能不够敏感。需要大量的特征工程工作。模型的解释性可能不如传统时间序列模型。 |
深度学习模型 | 使用循环神经网络(RNN)、 **长短期记忆网络(LSTM)或一维卷积神经网络(1D-CNN)**等模型。能够捕捉时间序列数据中的长期依赖关系。通过训练大量的参数来学习数据的复杂模式。 | 能够处理非常复杂的数据模式和长期依赖关系。适用于大量数据,可以自动提取特征。模型的灵活性和适应性强。 | 需要大量的数据和计算资源。模型训练和调优可能比较复杂和耗时。模型的解释性较差,难以理解预测结果的原因。 |
对比总结
- 适用性:传统模型适合数据量较小、模式简单的问题;机器学习模型适合中等复杂度的问题,可以引入额外变量;深度学习模型适合数据量大、模式复杂的任务。
- 解释性:传统时间序列模型通常具有较好的解释性;机器学习模型的解释性取决于特征工程;深度学习模型的解释性通常较差。
- 计算资源:传统模型计算效率最高;机器学习模型次之;深度学习模型通常需要最多的计算资源。
- 预测能力:深度学习模型在捕捉复杂模式方面具有优势,但需要大量数据支持;传统和机器学习模型在数据量较小或模式较简单时可能更有效。
在实际应用中,选择哪种模型取决于具体问题的需求、数据的特性以及可用的计算资源。有时,结合多种方法的混合模型可以提供更好的预测性能。
task01
code
Task1中的baseline使用python代码构建了一个经验模型(使用均值作为结果数据)
主要通过了如下几个步骤对数据进行处理——
# 1. 导入需要用到的相关库
# 导入 pandas 库,用于数据处理和分析
import pandas as pd
# 导入 numpy 库,用于科学计算和多维数组操作
import numpy as np# 2. 读取训练集和测试集
# 使用 read_csv() 函数从文件中读取训练集数据,文件名为 'train.csv'
train = pd.read_csv('./data/data283931/train.csv')
# 使用 read_csv() 函数从文件中读取测试集数据,文件名为 'train.csv'
test = pd.read_csv('./data/data283931/test.csv')# 3. 计算训练数据最近11-20单位时间内对应id的目标均值
target_mean = train[train['dt']<=20].groupby(['id'])['target'].mean().reset_index()# 4. 将target_mean作为测试集结果进行合并
test = test.merge(target_mean, on=['id'], how='left')# 5. 保存结果文件到本地
test[['id','dt','target']].to_csv('submit.csv', index=None)
code 解读
- 导入库:首先,代码导入了需要用到的库,包括 pandas(用于数据处理和分析)。
- 读取数据:代码通过使用 pd.read_csv 函数从文件中读取训练集和测试集数据,并将其存储在 train.csv 和 test.csv 两个数据框中。
- 计算最近时间的用电均值:
- 计算训练数据最近11-20单位时间内对应id的目标均值,可以用来反映最近的用电情况。(注意11是train最近的数据,1-10是val数据)
- 将用电均值直接作为预测结果:
- 这里使用merge函数根据’id’列将test和target_mean两个DataFrame进行左连接,这意味着测试集的所有行都会保留。
- 保存结果文件到本地:
- 使用to_csv()函数将测试集的’id’、‘dt’和’target’列保存为CSV文件,文件名为’submit.csv’。index=None参数表示在保存时不包含行索引。