2024 年第十四届 APMCM 亚太地区大学生数学建模 B题 洪水灾害的数据分析与预测--完整思路代码分享(仅供学习)

洪水是暴雨、急剧融冰化雪、风暴潮等自然因素引起的江河湖泊水量迅速增加,或者水位迅猛上涨的一种自然现象,是自然灾害。洪水又称大水,是河流、海洋、湖泊等水体上涨超过一定水位,威胁有关地区的安全,甚至造成灾害的水流。洪水一词,在中国出自先秦《尚书·尧典》。从那时起,四千多年中有过很多次水灾记载,欧洲最早的洪水记载也远在公元前1450年。在西亚的底格里斯一幼发拉底河以及非洲的尼罗河关于洪水的记载,则可追溯到公元前40世纪。2023年6月24日8时至25 日8时,中国15条河流发生超警洪水。2023年,全球洪水等造成了数十亿美元的经济损失。

洪水的频率和严重程度与人口增长趋势相当一致。迅猛的人口增长,扩大耕地,围湖造田,乱砍滥伐等人为破坏不断地改变着地表状态,改变了汇流条件,加剧了洪灾程度。在降水多的年份,洪水是否造成灾害,以及洪水灾害的大小,也离不开人为因素,长期以来人为的森林破坏是其重要原因。长江上游乱砍滥伐的恶果是惊人的水土流失。现已达 35 万平方千米,每年土壤漫融量达25 亿吨。河流、湖泊、水库淤积的泥沙量达 20 亿吨。仅四川一省一年流入长江各支流的泥沙,如叠成宽高各】米的堤,可以围绕地球赤道16圈。我国第一大淡水湖洞庭湖每年沉积的泥沙达】亿多吃,有专家惊呼:“这样下去,要不了50年,洞庭湖将从地球上消失!”长江之险,险在荆江,由于泥沙俱下,如今荆江段河床比江外地面高出十多米,成了除黄河之外名副其实的地上河。对森林的肆意砍伐不仅危害自己,而且祸及子孙后代,世界上许多地方,如美索不达米亚、小亚细亚、阿尔卑斯山南坡等由于过度砍伐森林,最后都变成了不毛之地。附件 train,csv 中提供了超过100万的洪水数据,其中包含洪水事件的 id、季风强度、地形排水、河流管理、森林砍伐、城市化、气候变化、大坝质量、淤积、农业实践、侵蚀、无效防灾、排水系统、海岸脆弱性、滑坡、流城、基础设施恶化、人口得分、湿地损失、规划不足、政策因素和发生洪水的概率。附件test.csv中包含了超过70万的洪水数据,其中包含洪水事件的id和上述 20个指标得分,缺少发生洪水的概率。附件submi.csv 中包含 test.csv 中的洪水事件的 id,缺少发生洪水的概率。

请你们的团队通过数学建模和数据分析的方法,预测发生洪水灾害的概率,解决以下问题:

问题 1. 请分析附件 train.csv 中的数据,分析并可视化上述 20 个指标中,哪些指标与洪水的发生有着密切的关联?哪些指标与洪水发生的相关性不大?并分析可能的原因,然后针对洪水的提前预防,提出你们合理的建议和措施。(完整见文末附件!)

洪水是由多种因素共同作用的复杂自然灾害事件。为了系统地分析这些因素对洪水发生的影响,我们需要建立数学模型,量化各个因素与洪水发生概率之间的关系。以下是详细的数学建模过程及其预防措施。

  1. 数据准备 首先,数据集中包含20个指标(独立变量)和洪水发生的概率(目标变量)。设 xi​ 表示第i个样本,其中 xi=(xi1,xi2,...,xi20),yi表示第i个样本的洪水发生概率。

  2. 相关性分析 我们需要计算每个独立变量与目标变量之间的相关性。通常使用皮尔逊相关系数来衡量线性相关性。皮尔逊相关系数r的公式为:

  1. 多元线性回归模型 为了进一步量化各个指标对洪水发生概率的影响,我们可以使用多元线性回归模型。多元线性回归模型假设洪水发生概率y可以表示为各个指标 xi 的线性组合:

其中,β0是截距项,βi是第i个指标的回归系数,ϵ是误差项。 我们可以使用最小二乘法(OLS)来估计回归系数 βi。OLS 的目标是最小化残差平方和:

其中,y^i是预测值:

  1. 模型评价与选择

模型建立后,我们需要评估模型的性能。常用的评价指标包括决定系数 R2和均方误差(MSE):

通过这些指标,我们可以判断模型的拟合优度和预测精度。

问题 2.将附件 train.csv 中洪水发生的概率聚类成不同类别,分析具有高中、低风险的洪水事件的指标特征。然后,选取合适的指标,计算不同指标的权重,建立发生洪水不同风险的预警评价模型,最后进行模型的灵敏度分析。

洪水是自然灾害中最常见的类型之一,其发生具有高度的不确定性和复杂性。为了有效分析和预测洪水风险,我们需要对洪水发生的概率进行聚类分析,识别高、中、低风险类别,并建立预警评价模型。以下是详细的数学建模过程及其相关公式。

  1. 数据准备与标准化 假设数据集包含 n个样本,每个样本有 m个指标(独立变量)和洪水发生的概率(目标变量)。设 X=[x1,x2,...,xn]T表示数据矩阵,其中 xi=(xi1,xi2,...,xim)为第 iii 个样本的指标向量,yi表示第 iii 个样本的洪水发生概率。 为了使不同尺度的指标具有可比性,我们需要对数据进行标准化处理。标准化公式为:

其中,xij表示第i个样本的第j个指标,μ和 σj分别表示第j个指标的均值和标准差。

  1. 聚类分析 为了将洪水发生概率聚类成不同的风险类别,我们可以使用K-means 聚类算法。设K 为预定的聚类数目,我们希望将数据集划分为K个聚类,使得同一聚类中的样本在特征空间中的距离最小,而不同聚类间的样本距离最大。 K-means 聚类的目标函数为:

其中,Ck表示第 k个聚类,μk为第k个聚类的中心。

  1. 指标特征分析 通过聚类分析,我们将样本划分为 KKK 个风险类别。对于每个风险类别Ck,我们可以计算各个指标的均值来分析其特征。设 xˉkj表示第 kkk 个风险类别中第j个指标的均值,计算公式为:

通过比较不同风险类别的均值,我们可以识别高、中、低风险类别的主要特征。

  1. 指标权重计算 为了进一步量化各个指标对洪水发生风险的影响,我们需要计算不同指标的权重。可以使用随机森林回归模型来评估各个指标的重要性。随机森林的重要性度量基于每个指标对预测结果的不纯度减少量(Gini impurity 或均方误差)。 设Ij表示第j个指标的重要性,计算公式为:

其中,TTT 是树的总数,ΔIjt表示第t棵树中第j个指标的不纯度减少量。

  1. 建立预警评价模型 基于计算的指标权重,我们可以建立洪水风险的预警评价模型。假设我们使用线性回归模型来建立预警模型,模型形式为:

其中,β0是截距项,βj是第j个指标的回归系数。 使用最小二乘法(OLS)估计回归系数,目标是最小化残差平方和:

其中,y^i是预测值:

  1. 模型评价 为了评估预警模型的性能,我们可以使用均方误差(MSE)和决定系数(R2)等指标。均方误差的计算公式为:

决定系数 R2的计算公式为:

其中,yˉ是目标变量y的均值。

  1. 模型灵敏度分析

为了分析预警模型对不同指标变化的敏感性,我们可以使用排列重要性(Permutation Importance)方法。排列重要性通过随机打乱一个指标的值来评估该指标对模型性能的影响。

设 Ij表示第aj个指标的排列重要性,计算公式为:

其中,y^i,j是打乱第j个指标后得到的预测值。

代码求解结果:

问题3.基于问题1中指标分析的结果,请建立洪水发生概率的预测模型从 20个指标中选取合适指标,预测洪水发生的概率,并验证你们预测模型的准确性。如果仅用5个关键指标,如何调整改进你们的洪水发生概率的预测模型?

问题4.基于问题2中建立的洪水发生概率的预测模型,预测附件 test.csv 中所有事件发生洪水的概率,并将预测结果填入附件 submit.csv 中。然后绘制这 74多万件发生洪水的概率的直方图和折线图,分析此结果的分布是否服从正态分布

完整版本获取:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/40847.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于惯性加权PSO优化的目标函数最小值求解matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 5.完整程序 1.程序功能描述 基于惯性加权PSO优化的目标函数最小值求解matlab仿真。 2.测试软件版本以及运行结果展示 MATLAB2022A版本运行 (完整程序运行后无水印)…

使用java stream对集合中的对象按指定字段进行分组并统计

一、概述 有这样一个需求,在一个list集合中的对象有相同的name,我需要把相同name的对象进行汇总计算。使用java stream来实现这个需求,这里做一个记录,希望对有需求的同学提供帮助 一、根据指定字段进行分组 一、先准备好给前端要…

三菱plc gxwork3 0X121201F 报错;三菱标签区域的保留容量不足;

如果占用过多把r文件寄存器的地址范围改小,一般文件寄存器的地址r0-8000足够了

zk集群搭建

zk集群在搭建部署的时候,通常选择2n1奇数台。底层 Paxos 算法支持(过半成功)。 zk部署之前,保证服务器基础环境正常、JDK成功安装。 服务器基础环境 IP主机名hosts映射防火墙关闭时间同步ssh免密登录 JDK环境 1、虚拟机克隆 …

014-GeoGebra基础篇-快速解决滑动条的角度无法输入问题

有客户反馈,他的Geogebra一直有个bug,那就是输入角度最大值时总不按照他设定的展示,快被气炸了~ 目录 一、问题复现(1)插入一个滑动条(2)选择Angle(3)输入90,…

复现centernet时,报错RuntimeError: CUDA error: out of memory

运行 python test.py ctdet --dataset coco --exp_id coco_dla --load_model /root/CenterNet/exp/ctdet/coco_dla/model_last.pth --gpus 0 --test_scales 1 报错下面: RuntimeError: CUDA error: out of memory明明显存是够用的 解决办法: 找到自己…

代码随想录——无重叠区间(Leetcode435)

题目链接 贪心 排序 class Solution {public int eraseOverlapIntervals(int[][] intervals) {int res 0;if(intervals.length 1 || intervals.length 0){return res;}// 按左边界排序Arrays.sort(intervals, new Comparator<int[]>() {public int compare(int[] …

Protobuf(三):理论学习,简单总结

1. Protocol Buffers概述 Protocol Buffers&#xff08;简称protobuf&#xff09;&#xff0c;是谷歌用于序列化结构化数据的一种语言独立、平台独立且可扩展的机制&#xff0c;类似XML&#xff0c;但比XML更小、更快、更简单protobuf的工作流程如图所示 1.1 protobuf的优点…

【第17章】MyBatis-Plus自动维护DDL

文章目录 前言一、功能概述二、注意事项三、代码示例四、实战1. 准备2. ddl配置类3. 程序启动4. 效果(数据库) 总结 前言 在MyBatis-Plus的3.5.3版本中&#xff0c;引入了一项强大的功能&#xff1a;数据库DDL&#xff08;数据定义语言&#xff09;表结构的自动维护。这一功能…

告别高查重率,AI降重工具帮你快速过关

高查重率是许多毕业生的困扰。通常&#xff0c;高查重率源于过度引用未经修改的参考资料和格式错误。传统的降重方法&#xff0c;如修改文本和增添原创内容&#xff0c;虽必要但耗时且成效不一。 鉴于此&#xff0c;应用AI工具进行AIGC降重成为了一个高效的解决方案。这些工具…

Cloudflare 推出一款免费对抗 AI 机器人的可防止抓取数据工具

上市云服务提供商Cloudflare推出了一种新的免费工具&#xff0c;可防止机器人抓取其平台上托管的网站以获取数据以训练AI模型。 一些人工智能供应商&#xff0c;包括谷歌、OpenAI 和苹果&#xff0c;允许网站所有者通过修改他们网站的robots.txt来阻止他们用于数据抓取和模型训…

Word “当前页“ 与 “前一页“ (含部分内容)间有大半页空白,删除空白方法

鼠标光标选中需要向上移的句子&#xff0c;右键点击“段落”&#xff0c;然后在跳出的窗口中按照“换行和分页”中的红色方框内取消勾选后&#xff0c;点击确定即可。

@化工人|人员定位系统如何选择?从了解定位技术开始

提及化工安全管理所面临的主要难题&#xff0c;大家往往会想到”人难管、事难办、责难负“这三难&#xff0c;而每一难都离不开”人“这个主体。因此&#xff0c;在企业日渐实现数字化转型的今天&#xff0c;越来越多的化工企业选择建设以人员定位系统为核心的企业安全生产信息…

实时数仓Hologres OLAP场景核心能力介绍

作者&#xff1a;赵红梅 Hologres PD OLAP典型应用场景与痛点 首先介绍典型的OLAP场景以及在这些场景上的核心痛点&#xff0c;OLAP典型应用场景很多&#xff0c;总结有四类&#xff1a;第一类是BI报表分析类&#xff0c;例如BI报表&#xff0c;实时大屏&#xff0c;数据中台等…

Web前端开发——HTML快速入门

HTML&#xff1a;控制网页的结构CSS&#xff1a;控制网页的表现 一、什么是HTML、CSS &#xff08;1&#xff09;HTML &#xff08;HyperText Markup Languaqe&#xff1a;超文本标记语言&#xff09; 超文本&#xff1a;超越了文本的限制&#xff0c;比普通文本更强大。除了…

Aigtek高压功率放大器主要应用场景是什么

高压功率放大器是一种关键的电子设备&#xff0c;其主要功能是将低电压信号放大到较高电压水平&#xff0c;以满足特定应用的需求。这种类型的放大器在各种领域都发挥着至关重要的作用。安泰电子官网将为大家介绍高压功率放大器的主要应用场景&#xff0c;并介绍其在这些领域中…

关于Web开发的详细介绍

目录 一、什么是Web&#xff1f; 二、Web网站的工作流程和开发模式 &#xff08;1&#xff09;简单介绍 &#xff08;2&#xff09;工作流程 1、第一步 2、第二步 &#xff08;3&#xff09;Web网站的开发模式 1、前后端分离开发模式 ​编辑2、混合开发模式 三、开发W…

智慧矿山:EasyCVR助力矿井视频多业务融合及视频转发服务建设

一、方案背景 随着矿井安全生产要求的不断提高&#xff0c;视频监控、数据传输、通讯联络等业务的需求日益增长。为满足矿井生产管理的多元化需求&#xff0c;提高矿井作业的安全性和效率&#xff0c;TSINGSEE青犀EasyCVR视频汇聚/安防监控综合管理平台&#xff0c;旨在构建一…

一款优秀、亮眼的开源堡垒机

介绍 在运维的日常工作中&#xff0c;登陆服务器操作不可避免&#xff0c;为了更安全的管控服务器&#xff0c;但凡有点规模的公司都会上线堡垒机系统&#xff0c;堡垒机能够做到事前授权、事中监控、事后审计&#xff0c;同时也可以满足等保合规要求。 提到堡垒机&#xff0…