【二等奖论文】2024年华为杯研赛D题成品论文(后续会更新)

您的点赞收藏是我继续更新的最大动力!

一定要点击如下的卡片,那是获取资料的入口!

点击链接获取【2024华为杯研赛资料汇总】:

https://qm.qq.com/q/jTIeGzwkScicon-default.png?t=O83Ahttps://qm.qq.com/q/jTIeGzwkSc

题 目:   ­­­­大数据驱动的地理综合问题       

摘 要:

地理系统是自然、人文多要素综合作用的复杂巨系统,地理学家常用地理综合的方式对地理系统进行主导特征的表达,本文利用大数据的手段对地理系统进行综合,探索全球气候变化下中国地理环境的演化。

针对问题一,本文首先对数据进行清洗,替换一些取值较大或较小的特殊值,并利用

准则确定一些离群点,然后使用数字、图表等方式,对原始数据进行定量总结、概括,得出了一些降水量、土地利用/土地覆被面积两个变量的在1990至2020年间中国范围内的时空演化特征。

针对问题二,首先利用逻辑回归模型量化地形-气候相互作用在极端天气形成过程中的作用,再用格兰杰因果检验和斯皮尔曼相关系数加以检验,确定它们之间的相互作用,验证了本文模型建立的有效性,为后文预测的准确性奠定基础。

针对问题三,首先对题目中提到的自变量进行量化,建立逻辑回归模型,再利用移动平均线模型和LSTM神经网络进行预测,将预测的数据代入前面建立的逻辑回归模型进行降水量的预测,利用不同的成灾临界值可确定不同的防范政策。若需要推广至多分类问题,为不同地区制定不同政策,也即对全国所有城市分类出应对暴雨灾害能力最为脆弱、较为脆弱、一般、不脆弱等类的话,只需将本文中的成灾临界值调为阶梯型的函数即可,增强模型的泛化能力。

针对问题四,将数据集3的降水量、数据集5的人口数量、数据集6的GDP数据作为中国土地利用变化的影响因素,重复问题一的描述性统计,与问题二、三的建模进行分析,描述中国土地利用变化的特征与结构,并从准确性和有用性两个方面总结解释本文所建立的模型与获得的结果。

关键词:逻辑回归;LSTM;大数据可视化;格兰杰因果检验;斯皮尔曼相关系数

一、问题重述

    1. 问题背景

地理系统是自然、人文多要素综合作用的复杂巨系统,地理学家常用地理综合的方式对地理系统进行主导特征的表达。如以三大阶梯概括中国的地形特征,以秦岭—淮河一线和其它地理区划的方式揭示中国气温、降水、植被、土壤及生态环境在水平和垂直方向上的地带性与非地带性规律,利用胡焕庸线、T型开发结构等描绘我国人口、社会和经济发展的总体格局。这些方法早期以宏观结构和定性分析为主体,对我国生态保护、社会经济发展和国家安全保障起到了巨大的支撑作用。伴随着对地观测体系的快速发展,当前已经积累了巨量的对地观测数据。如何利用大数据的手段对地理系统进行综合,探索全球气候变化下中国地理环境的演化,是当前地球科学研究的关键问题。

    1. 问题回顾

问题1:在众多描述地理环境的变量中,一些简单的指标背后蕴藏了深厚的内涵,对人类的生存发展具有重大深远的影响,如大气中二氧化碳的浓度、全球年平均气温等。降水量是一个连续变化的变量,而土地利用/土地覆被类型则是一个存在突变和离散分布的变量。同时,它们都具有时空分布不均匀的特征。请从附件数据中选取相关数据集,为这两个变量分别构建一套描述性统计方法,用1到3个较为简洁的统计指标或统计图表,对这两个变量在1990~2020年间中国范围内的时空演化特征进行描述和总结。

问题2:近年来,以暴雨为代表的极端天气事件对人类的生产生活造成了越来越难以忽视的影响。请结合附件中所给的数据,建立数学模型,说明地形-气候相互作用在极端天气形成过程中的作用。

问题3:降雨、地形和土地利用对于暴雨等极端天气灾害的形成都具有不可忽视的影响。这其中,降雨的时空变异性和不可控性都最强;土地利用作为自然条件和人类活动的综合结果,虽然也随时空演化,但具有一定可控性;地形是最为稳定、不易改变的因素。请考虑第2问所反映的从“暴雨”到“灾害”中上述三方面因素的角色及其交互作用,确定暴雨成灾的临界条件;并结合第1问中降雨量和土地利用/土地覆被变化的历史时空演化特征,对2025至2035年间中国境内应对暴雨灾害能力最为脆弱的地区进行预测。请以地图的形式呈现你们的预测结果。

问题4:在中国级别的尺度上,描述自然地理特征的地形可以概括为“三级阶梯”,而降水中具有标志性意义的“800mm等降水量线”则与区分我国南北方的“秦岭—淮河”一线大体重合;描述人文地理特征的人口分布及其社会经济活动总量等指标,则被由连接黑龙江黑河与云南腾冲的“胡焕庸线”清晰地划分成东密西疏的两部分。那么,对于自然地理和人文地理交汇点的土地利用/土地覆被情况,结合其在前三问中描述、估计和预测任务中的“特性”,利用地理大数据,建立相应的数学模型,对数据进行简化和综合,描述中国土地利用变化的特征与结构。从准确性和有用性两个方面解释验证你们的总结。

二、问题分析

2.1 问题一分析

针对问题一,本文首先对数据进行清洗,替换一些取值较大或较小的特殊值,然后使用数字、图表等方式,对原始数据进行定量总结、概括,得出了一些降水量、土地利用/土地覆被面积两个变量的在1990至2020年间中国范围内的时空演化特征。

2.2 问题二分析

针对问题二,首先利用逻辑回归量化地形-气候相互作用在极端天气形成过程中的作用,再用格兰杰因果检验和斯皮尔曼相关系数加以检验,确定它们之间的相互作用,验证了本文模型建立的有效性,为后文预测的准确性奠定基础。

2.3 问题三分析

针对问题三,首先对题目中提到的自变量进行量化,建立逻辑回归模型,再利用移动平均线模型和LSTM神经网络进行预测,将预测的数据代入前面建立的逻辑回归模型进行降水量的预测,利用不同的成灾临界值可确定不同的防范政策。若需要推广至多分类问题,为不同地区制定不同政策,也即对全国所有城市分类出应对暴雨灾害能力最为脆弱、较为脆弱、一般、不脆弱等类的话,只需将本文中的成灾临界值调为阶梯型的函数即可,增强模型的泛化能力。

2.3 问题四分析

针对问题四,将数据集3的降水量、数据集5的人口数量、数据集6的GDP数据作为中国土地利用变化的影响因素,重复问题一的描述性统计,与问题二、三的建模进行分析,描述中国土地利用变化的特征与结构,并从准确性和有用性两个方面总结解释本文所建立的模型与获得的结果。

三、模型假设

1、假设所有使用的气象、地形和土地利用数据都是准确和可靠的。

2、假设在研究期间内,中国的地形变化不大,可以认为是稳定的。

3、假设在未来预测期间,现有的社会经济发展趋势和政策导向将持续

4、在模型中,假设人类活动对土地利用变化的影响可以通过现有数据进行合理估计,并在模型中得到体现。

5、在分析暴雨成灾的临界条件时,假设一个地区的灾害风险主要受当地气候、地形和土地利用因素的影响,而较少受到远离地区的影响。

6、假设数据记录时不存在漏记错记的情况。

四、符号说明

符号

说明

Xtij

Logistic模型中的自变量

Ytij

Logistic模型的自变量

Ztij

Logistic模型的因变量

自变量与因变量之间的映射机制

MAPE

平均绝对百分比误差

i个序列误差

斯皮尔曼相关系数

置信水平

LSTM中的隐藏状态

Wi

LSTM中的可学习参数

σ

标准差

注:这里只列出论文各部分通用符号,个别模型单独使用的符号在首次引用时会进行说明。

五、模型建立与求解

5.1 数据清洗

对于数据集3,数据集中将中国以外的经纬度上的降水量数据均设为了-99.9,在后续数据处理中,因问题一中需要建立统计指标与统计图表,将-99.9设为0,防止这些数据对一些边界地区的降水量指标造成影响。对于人口、GDP等数据的处理方式相同,将其中的-NAN或NAN替换为0.

图1 数据集3中取某一天的降水量的可视化

利用Python进行编程将负值设为0,并进行可视化后的结果可见图2。将NetCDF文件中的数据daily precipitation也即pre的数据取出转化为矩阵的形式,利用

准则对异常数据进行分析,此时并不进行剔除,在问题二和三中对“暴雨”和“成灾”界定后再进行剔除。于此同时,对于其他数据集的如GDP、人口、地形、气温,土地利用和覆盖,以每一年为一个样本,利用

准则对异常数据进行分析并剔除。

图2 处理后的数据集3的降水量可视化

5.2 问题一模型的建立与求解

5.2.1 问题一模型的建立与求解

首先对这降水量在1990至2020年间中国范围内的时空演化特征进行描述和总结,首先固定空间分析该变量随时间变化的趋势,

图3

图4

从波动来看最大值与最小值的差距并不是特别明显,每年基本上都维持在当地的一个平均水平上。但从月降水量的波动来看,全国的月降水量明显呈现出季节趋势,存在着明显的波峰与波谷。(为降重考虑,大家可以自行补充语

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/54626.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于Ambari搭建hadoop生态圈+Centos7安装教程(还没写完,等明天补充完整)

当我们学习搭建hadoop的时候,未免也会遇见很多繁琐的事情,比如很多错误,需要解决。在以后公司,也不可能让你一个一个搭建hadoop,成千上万的电脑,你再一个个搭建,一个个报错,而且每台…

WebGL颜色与纹理

WEBGL中的着色器变量包括以下种类: 属性变量(Attribute Variables):这些变量用于接收从应用程序中传递的顶点数据,比如顶点位置和颜色,是只读的不可修改。统一变量(Uniform Variables&#xff…

小红书自动化写文以及发文机器人

💪🏻 1. Python基础专栏,基础知识一网打尽,9.9元买不了吃亏,买不了上当。 Python从入门到精通 😁 2. 毕业设计专栏,毕业季咱们不慌忙,几百款毕业设计等你选。 ❤️ 3. Python爬虫专栏…

[数据集][目标检测]红外微小目标无人机直升机飞机飞鸟检测数据集VOC+YOLO格式7559张4类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):7559 标注数量(xml文件个数):7559 标注数量(txt文件个数):7559 标注…

Java ETL - Apache Beam 简介

基本介绍 Apache Beam是一个用于大数据处理的开源统一编程模型。它允许用户编写一次代码,然后在多个批处理和流处理引擎上运行,如Apache Flink、Apache Spark和Google Cloud Dataflow等。Apache Beam提供了一种简单且高效的方式来实现数据处理管道&…

DETR论文翻译与理解

DETR(Detection with transformer) DETR:End to End Object Detection with Transformer 论文链接:2005.12872 (arxiv.org) 参考视频:https://www.bilibili.com/video/BV1GB4y1X72R/?spm_id_from333.788&vd_…

硬件工程师笔试面试——开关

目录 11、开关 11.1 基础 开关原理图 开关实物图 11.1.1 概念 11.1.2 常见的开关类型及其应用 11.2 相关问题 11.2.1 开关的工作原理是什么? 11.2.2 在设计一个电子系统时,如何选择最适合的开关类型? 11.2.3 不同类型的开关在实际应用中有哪些优势和局限性? 11.…

爵士编曲:爵士鼓编写 爵士鼓笔记 底鼓和军鼓 闭镲和开镲 嗵鼓

底鼓和军鼓 底鼓通常是动的音色,军鼓通常是大的音色。 “动”和“大”构成基础节奏。“动大”听着不够有连接性,所以可以加入镲片! 开镲 直接鼓棒敲击是开镲音色 闭镲 当脚踩下踏板,2个镲片合并,然后用鼓棒敲击&am…

java(3)数组的定义与使用

目录 1.前言 2.正文 2.1数组的概念 2.2数组的创建与初始化 2.2.1数组的创建 2.2.1数组的静态初始化 2.2.2数组的动态初始化 2.3数组是引用类型 2.3.1引用类型与基本类型区别 2.3.2认识NULL 2.4二维数组 2.5数组的基本运用 2.5.1数组的遍历 2.5.2数组转字符串 2.…

面向对象程序设计——set容器の简析

1.set的介绍 • 序列式容器和关联式容器 • 我们已经接触过STL中的部分容器如:string、vector、list、deque、array、forward_list等,这些容器统称为序列式容器,因为逻辑结构为线性序列的数据结构,两个位置存储的值之间⼀般没有紧…

图片马赛克处理(Java)

1.需求 给图片的指定区域打码给整张图片打码马赛克方格取色支持中心点取色和随机取色马赛克支持灰度处理 2.源码 package com.visy.utils;import javax.imageio.ImageIO; import java.awt.*; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOE…

(k8s)Kubernetes部署Promehteus

转载:Kubernetes(k8s)部署Promehteus 一、概述 在1.8版本以后heapster由metrics-server替代;从k8s的v1.11版本开始已经全面转向以Prometheus为核心的新监控体系架构;kube-prometheus 中包含了 prometheus 监控所用到的…

pg入门18—如何使用pg gis

1. 下载postgre gis镜像 2. 运行镜像 docker run -p 15432:5432 -d -e POSTGRES_PASSWORDAb123456! postgis/postgis:12-3.4-alpine 3. 使用gis # 进入容器,登录pgdocker exec -it bash# 登录数据库psql -U postgres# 创建数据库CREATE DATABASE mygeotest;# 使用…

算法:双指针题目练习

文章目录 算法:双指针移动零复写零快乐数盛最多水的容器有效三角形的个数查找总价格为目标值的两个商品三数之和四数之和 总结 算法:双指针 移动零 定义两个指针,slow和fast.用这两个指针把整个数组分成三块. [0,slow]为非零元素,[slow1,fast-1]为0元素,[fast,num.length]为未…

【Web】御网杯信息安全大赛2024 wp(全)

目录 input_data admin flask 如此多的FLAG 一夜醒来之全国CTF水平提升1000倍😋 input_data 访问./.svn后随便翻一翻拿到flag admin dirsearch扫出来 访问./error看出来是java框架 测出来是/admin;/路由打Spring View Manipulation(Java)的SSTI https:/…

基于ECC簇内分组密钥管理算法的无线传感器网络matlab性能仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 5.完整程序 1.程序功能描述 基于ECC簇内分组密钥管理算法的无线传感器网络matlab性能仿真,对比网络通信开销,存活节点数量,网络能耗以及数据通信量四个指标…

【Linux篇】TCP/IP协议(笔记)

目录 一、TCP/IP协议族体系结构 1. 数据链路层 (1)介绍 (2)常用协议 ① ARP协议(Address Resolve Protocol,地址解析协议) ② RARP协议(Reverse Address Resolve Protocol&…

华为为什么要做三折叠屏手机?

前些天我做了一条视频,关于讲华W的新的三折叠屏手机。我说我有点失望,结果引起了华W的同事的一些关注。于是,华W几位高管都跑过来,跟我解释为什么会出现这样的一个状态。 我才知道,这款手机他们其实是亏着钱在卖的。因…

C++速通LeetCode中等第1题-字母异位词分组

思路要点&#xff1a;对字符串排序&#xff0c;排序结果存放在map的key中&#xff0c;排序结果相同的字符串存放到map的value中 。 class Solution { public:string keys;vector<vector<string>> groupAnagrams(vector<string>& strs) {vector<vecto…

EECS498 Deep Learning for Computer Vision (一)软件使用指南

#最近开始学习深度学习的相关基础知识&#xff0c;记录一下相关笔记及学习成果# learning&#xff1a;building artificial systems that learn from data and experience deep learning(a set of machine learning): hierarchical learning algorithms with many "laye…