2024MathorCup大数据竞赛 B题基本思路

AB两题的难度分析

赛道A:台风的分类与预测

赛道A要求参赛者利用大数据分析方法解决台风分类与预测的问题。具体任务包括分析台风特征参数(强度、等级、风速等)与气温、气压、季风的关系,建立分类模型,并进行台风路径预测及分析台风登陆后的风速和降水量变化。

赛道B:电商品类货量预测及品类分仓规划

赛道B的任务是预测电商仓储网络中350个品类在未来三个月的库存量和销量,并根据预测结果制定合理的品类分仓方案,包括一品一仓方案和允许多仓方案。

比较分析

  • 数据需求:两个赛道都需要大量的历史数据,赛道A的数据涉及气象参数,而赛道B的数据则涉及销售记录和仓库信息。
  • 技能要求:赛道A需要较强的气象学知识和对非线性系统的理解能力;赛道B则需要对供应链管理和库存控制有一定的了解。
  • 模型复杂度:赛道A的模型可能更为复杂,因为它涉及到自然现象的预测,而自然现象往往具有高度的不确定性和复杂性;赛道B虽然也需要复杂的预测模型,但更多的是围绕商业数据展开。
  • 实践应用:赛道A的应用更广泛,可以用于灾害预警和应急准备;赛道B的应用则更加聚焦于提高电商企业的运营效率。

哪个题目比较简单?

从表面上看,赛道B的题目可能相对简单一些,因为它更多依赖于历史销售数据进行预测,而且这些数据通常较为可靠和结构化。此外,分仓规划虽然也需要复杂的计算,但是它的问题定义较为清晰,目标明确。相比之下,赛道A需要处理的是自然界的不可控因素,其模型构建和验证可能会更加困难。

赛题B

问题 1:建立货量预测模型

1.1 库存量预测模型
  1. 数据准备
    • 整理附件1中的历史库存量数据,确保数据的完整性、准确性和一致性。
    • 对缺失数据进行处理,如使用插值法填补空缺值。
  2. 特征工程
    • 提取时间特征(如季节性、趋势)。
    • 识别节假日和促销活动的影响。
    • 从数据中发现周期性模式或趋势。
  3. 模型选择
    • 可以选用时间序列分析方法(如ARIMA、SARIMA)来捕捉季节性趋势。
    • 也可以使用机器学习方法(如XGBoost、LSTM)来处理非线性关系。
  4. 模型训练
    • 使用历史数据训练模型,并通过交叉验证选择最佳参数配置。
    • 确保模型在测试集上有良好的泛化能力。
  5. 预测
    • 使用训练好的模型对未来三个月(7月、8月、9月)的库存量进行预测,并将结果填写在表格中。
1.2 销量预测模型
  1. 数据准备
    • 整理附件2中的历史销量数据,确保数据的完整性、准确性和一致性。
    • 对缺失数据进行处理,如使用插值法填补空缺值。
  2. 特征工程
    • 提取时间特征(如季节性、趋势)。
    • 识别节假日和促销活动的影响。
    • 从数据中发现周期性模式或趋势。
  3. 模型选择
    • 可以选用时间序列分析方法(如ARIMA、SARIMA)来捕捉季节性趋势。
    • 也可以使用机器学习方法(如XGBoost、LSTM)来处理非线性关系。
  4. 模型训练
    • 使用历史数据训练模型,并通过交叉验证选择最佳参数配置。
    • 确保模型在测试集上有良好的泛化能力。
  5. 预测
    • 使用训练好的模型对未来每天的销量进行预测,并将结果填写在表格中。

问题 2:一品一仓分仓规划模型

2.1 建立规划模型
  1. 定义变量
    • 设定二元变量表示某个品类是否放置在某个仓库中。
  2. 目标函数
    • 定义目标函数以最小化总仓租成本,同时最大化品类关联度。
  3. 约束条件
    • 根据附件3中的仓容上限、产能上限设定约束条件。
    • 根据附件4中的品类关联度设定约束条件。
  4. 求解
    • 使用线性规划或混合整数规划求解器(如CPLEX、GUROBI)求解最优解。
2.2 分仓方案生成
  1. 求解结果解析
    • 从求解器获取结果,解析出每个品类的最佳存放仓库。
  2. 结果填写
    • 将求解结果按照表格格式填写,并放入论文正文。

问题 3:一品多仓分仓规划模型

3.1 建立规划模型
  1. 定义变量
    • 设定二元变量表示某个品类是否放置在某个仓库中。
    • 设定一个额外的变量来表示品类在不同仓库中的分布比例。
  2. 目标函数
    • 定义目标函数以最大化品类关联度,同时考虑仓容利用率、产能利用率等因素。
  3. 约束条件
    • 根据附件3中的仓容上限、产能上限设定约束条件。
    • 根据附件4中的品类关联度设定约束条件。
    • 同件型、同高级品类尽量放在一个仓库中。
  4. 求解
    • 使用启发式算法(如遗传算法、粒子群优化)或混合整数规划求解器求解最优解。
3.2 分仓方案生成
  1. 求解结果解析
    • 从求解器获取结果,解析出每个品类的最佳存放仓库及其比例。
  2. 结果填写
    • 将求解结果按照表格格式填写,并放入论文正文。
  3. 业务指标分析
    • 对不同方案中的业务指标(如仓容利用率、产能利用率、总仓租成本等)进行比较分析,总结出最优方案。

数据预处理方法

1. 数据清洗
1.1 缺失值处理
  • 检查缺失值:首先,需要检查历史库存量和销量数据中是否存在缺失值。
  • 填充缺失值:如果存在缺失值,可以使用以下方法填充:
    • 时间序列方法:使用前后相邻的时间点数据进行插值,例如线性插值。
    • 平均值/中位数:对于某些时间段的缺失,可以用前后时段的平均值或中位数来代替。
    • 预测填充:使用时间序列预测方法(如ARIMA)来预测缺失值。
1.2 异常值检测
  • 检测异常值:通过绘制时间序列图或箱线图来检测异常值。
  • 处理异常值:可以采用删除、修正或平滑的方法处理异常值,以保持数据的一致性。
1.3 数据标准化
  • 数据标准化:如果数据范围相差很大,可以使用z-score标准化或min-max缩放等方法对数据进行标准化处理,以便于后续分析。
2. 时间序列特征提取
2.1 季节性分解
  • 使用STL分解:对库存量和销量数据进行季节性、趋势和残差成分的分解,以提取季节性特征。
  • 周期性检测:检测数据中是否存在明显的周期性模式,如周、月、季度等周期。
2.2 时间窗口特征
  • 滑动窗口:创建滑动窗口,提取前n天的平均值、标准差等统计特征,以反映数据的变化趋势。
  • 滞后特征:构造滞后特征,比如t-1时刻的库存量或销量,以捕捉时间序列的动态变化。
3. 特征工程
3.1日历特征
  • 日期特征:提取日期特征,如星期几、月份、季度等,以捕捉日期对销量的影响。
4. 数据集成
4.1 数据合并
  • 合并数据集:将处理后的库存量和销量数据与外部特征(如节假日、促销活动等)进行合并,形成可用于建模的数据集。
5. 数据分割
5.1 训练集与测试集
  • 时间序列分割:按照时间顺序将数据划分为训练集和测试集,确保模型能够在未知数据上进行验证。

实施步骤

  1. 加载数据:首先加载附件1和附件2中的历史库存量和销量数据。
  2. 执行上述步骤:按照上述步骤逐一实施数据清洗、特征提取、特征工程、数据集成和数据分割。
  3. 数据检验:确保预处理后的数据集没有缺失值、异常值,并且特征丰富、一致。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/883336.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python爬虫,初识xpath(1)

xpath解析 抓取主页面当中所有壁纸的链接地址 xpath是专门针对xml而创建的表达式语言,可以直接从xml中提取表达式数据;也可以取html取数据;html是xml的子集。 1.按照lxml安装包 在python终端输入 pip install lxml from lxml import etre…

【element-tiptap】如何实现查找替换功能?

这是一个稍微复杂的功能了,因为 element-tiptap 中没有查找替换功能,需要从零开始开发。但是,在万能的github上有一个开源的库,我们可以借用一下 tiptap-search-and-replace 不过这个库是没有UI的,只有一个扩展的方法。…

【Linux】线程池详解及其基本架构与单例模式实现

目录 1.关于线程池的基本理论 1.1.线程池是什么? 1.2.线程池的应用场景: 2.线程池的基本架构 2.1.线程容器 2.2.任务队列 2.3.线程函数(HandlerTask) 2.4.线程唤醒机制 3.添加单例模式 3.1.单例模式是什么&…

【 thinkphp8 】00006 启动 内、外置服务器

前言:哈喽,大家好,今天给大家分享一篇文章!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 💕 目录 【 t…

Linux文件类型和根目录结构

Linux文件类型和根目录结构 1.文件类型 字符文件类型说明~普通文件类似于Windows的记事本d目录文件类似于windows文件夹c字符设备文件串行端口设备,顺序读写,键盘b块设备文件可供存储的接口设备,随机读写,硬盘p管道文件用于进程…

jmeter中请求参数:Parameters、Body Data的区别

使用jmeter发送请求,常常要伴随传递参数。有两种请求参数: Parameters, Body Data, 它们的使用方式有很大不同。 先看下get和post请求的区别。 get请求:顾名思义是从服务器获取资源。 post请求:顾名思义是往服务器提交要处理的数据。 直观…

【算法刷题指南】双指针

🌈个人主页: 南桥几晴秋 🌈C专栏: 南桥谈C 🌈C语言专栏: C语言学习系列 🌈Linux学习专栏: 南桥谈Linux 🌈数据结构学习专栏: 数据结构杂谈 🌈数据…

JavaSE要点 1】Java基础

目录 一、编译和运行 二、JDK,JRE和JVM 三、Java中的基本类型 1. 基本类型的大小 四、JVM内存模型 1. 内存模型 五、JVM虚拟机的组成 1. 虚拟机的5个组成部分 2. 虚拟机栈 3. 栈帧 六、值传递和引用传递 七、变量的默认值 八、String的不可变 九. 包装类和常量池(-…

基于SSM的网上购物系统的设计与实现

技术介绍 本系统运用了JSP技术、SSM框架、B/S架构和myspl数据库 MySQL 介绍 MySQL是一种关系型的数据库管理系统,属于Oracle旗下的产品。MySQL的语言是非结构化的,使用的用户可以在数据上进行工作。这个数据库管理系统一经问世就受到了社会的广泛关注…

【WebGis开发 - Cesium】三维可视化项目教程---图层管理拓展图层顺序调整功能

目录 引言一、为什么要开发图层顺序调整功能二、开发思路整理1. 拖拽库方案选择2. cesium图层api查询 三、代码编写1. 编写拖拽组件代码2. 修改原有图层管理代码2.1 图层加载移除的调整2.2 图层顺序与拖拽列表的矛盾 3. 编写图层移动代码 四、总结 引言 本教程主要是围绕Cesium…

深入理解InnoDB底层原理:从数据结构到逻辑架构

💡 无论你是刚刚踏入编程世界的新人,还是希望进一步提升自己的资深开发者,在这里都能找到适合你的内容。我们共同探讨技术难题,一起进步,携手度过互联网行业的每一个挑战。 📣 如果你觉得我的文章对你有帮助,请不要吝啬你的点赞👍分享💕和评论哦! 让我们一起打造…

ctfshow(259->261)--反序列化漏洞--原生类与更多魔术方法

Web259 进入界面,回显如下: highlight_file(__FILE__);$vip unserialize($_GET[vip]); //vip can get flag one key $vip->getFlag();题干里还提示了网站有一个flag.php界面,源代码如下: $xff explode(,, $_SERVER[HTTP_X…

常见的音视频格式介绍

目录 aac格式介绍(ADTS)h264格式分析FLV和MP4格式介绍 aac格式介绍(ADTS) aac的格式有两种:ADIF不常用,ADTS是主流,所以这里主要讲解ADTS。简单来说,ADTS可以在任意帧解码&#xff…

校园表白墙源码修复版

此校园表白墙源码基于thinkphp,因为时代久远有不少bug,经本人修复已去除大部分bug,添加了美化元素。 https://pan.quark.cn/s/1f9b3564c84b https://pan.baidu.com/s/1bb9vu9VV2jJoo9-GF6W3xw?pwd7293 https://caiyun.139.com/m/i?2hoTc…

多款云存储平台存在安全漏洞,影响超2200万用户

据苏黎世联邦理工学院研究人员Jonas Hofmann和Kien Tuong Turong的发现,端到端加密(E2EE)云存储平台存在一系列安全问题,可能会使用户数据暴露给恶意行为者。在通过密码学分析后,研究人员揭示了Sync、pCloud、Icedrive…

三维管线管网建模工具MagicPipe3D V3.5.3

经纬管网建模系统MagicPipe3D,本地离线参数化构建地下管网三维模型(包括管道、接头、附属设施等),输出标准3DTiles、Obj模型等格式,支持Cesium、Unreal、Unity、Osg等引擎加载进行三维可视化、语义查询、专题分析&…

【Android】MVP架构

MVP架构简介 MVP(Model-View-Presenter)是一种常见的软件架构模式,尤其在Android应用开发中被广泛使用。它将应用程序分为三层:Model、View 和 Presenter,以实现职责分离,提高代码的可维护性和可测试性。 …

基于自适应VSG控制的光伏混合储能构网型逆变系统MATLAB仿真模型

模型简介 此模型源侧部分采用光伏发电系统与混合储能系统(蓄电池超级电容),并网逆变器采用虚拟同步发电机(VSG)控制,为系统提供惯量阻尼支撑。同时对VSG控制部分进行了改进,采用构造函数法对虚…

论文阅读(二十九):Multi-scale Interactive Network for Salient Object Detection

文章目录 Abstract1.Introduction2.Scale VariationProposed Method3.1Network Overview3.2Aggregate Interaction Module3.3 Self-Interaction Module3.4Consistency-Enhanced Loss 4.Experiments4.1Implementation Details4.2 Comparison with State-of-the-arts4.3Ablation …

【力扣】[Java版] 刷题笔记-21. 合并两个有序链表

题目: 21. 合并两个有序链表 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 解题思路 从题目和示例可以看出,应该是要循环遍历链表进行比较,然后组成新的链表。 第一种:递归…