2024美赛备战1--数据处理(数据预处理,异常值处理,预测模型,插值拟合 *****必看****)

1.数据预处理

所谓数据预处理,就是指在正式做题之前对数据进行的一些处理。在有些情 况下,出题方提供的数据或者网上查找的数据并不能直接使用,比如缺少数据甚 至是异常数据,如果直接忽略缺失值,或者没发现异常数据,都会严重地影响结 果的正确性。此外,带单位的数据也需要通过无量纲处理以减少单位对计算的影响。因此正确的数据预处理是前期值得关注的任务。

2.缺失数据

(1)均值填充法

如果缺失值是数值型的,就根据该属性在其他所有对象取值的平均值来填充该缺失的属性值,比如年龄、距离等属性

如果缺失值是非数值型的,就根据统计学中的众数原理,用该属性在其他所 有对象的取值次数最多的值(即出现频率最高的值)来补齐该缺失的属性值。比如

性别、类别等属性。

(2)就近补齐法

对于一个包含缺失值的对象,就近补齐法在完整数据中找到一个与它最相似 的对象, 然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标

准来对相似进行判定。该方法的难度在于如何定义相似标准,主观因素较多。

(3)聚类填充法

聚类是按照某个特定标准(如距离、密度等)把一个数据集分割成不同的类或 簇,同一类的数据尽可能聚集到一起,不同类数据尽量分离,使得同一个簇内的 数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能 地大。把数据分好类后可以在每个类别中处理缺失值,最经典的聚类算法是K-  近邻算法 (KNN) , 建议同学们在使用时根据数据属性合理选择距离和K(类别)

个数

(4)回归方程法

用不含缺失值的数据集建立回归方程,把缺失值的点代入回归方程即可预测 缺失值,在具体使用时应该注意要留出一部分数据验证你的回归方程的准确性

(建议测试数据比例20%)。

3.异常值处理

异常值是指样本中的个别值,其数值明显异于其他观测值,异常值也叫离群 点。在比赛中,出题方可能会故意提供异常数据,考察参赛选手的数据分析和处理能力。

(1)检测方法

  基于实际问题

在一些实际问题中, 一方面可以用物理模型剔除一些异常值,比如用圆周运 动的临界条件筛选速度异常值;另一方面,可以根据生活常识剔除异常值,比如车速有上限。

  基于统计学原理

若数据服从正态分布,根据正态分布的定义可知,在默认情况下我们可以认 定,距离超过平均值3δ的样本是不存在的。因此,当样本距离平均值大于3δ,

认为该样本为异常值。

  箱线图法

分位数:把数据分布划成4个相等的部分,每个部分表示数据分布的四分之 一,称为四分位数,100-分位数通常称为百分位数,即划为100个大小相等的部

分。中位数、四分位数和百分位数是使用最广泛的分位数。

四分位极差:第1个和第3个四分位数之间的距离称为四分位数极差,定义

为 :

IQR=Q₃-Q₁

五数概括由中位数(图片图片)、四分位数图片图片,最大值和最小值组成。

异常值识别的通常规则:挑选落在第3个四分位数之上或第1个四分位数之 下至少1.5×IQR的值。箱线图的断点一般在四分位数上,盒的长度是四分位数 极差IQR,   中位数用盒内的线标记,盒外的两条线(胡须)延申到最小和最大观 测值。仅当最大和最小观测值超过四分位数不到1.5×IQR 时,胡须扩展,否则 胡须再出现在四分位数的1.5×IQR之内的最极端观测值处终止,剩下的情况个

别列出。

该方法的优点在于既能对数据进行统计学描述,了解数据的整体特征,又能

可视化展示结果,简洁清晰。

(2)处理方法

a). 为了避免异常值影响结果的正确性,直接删除。

b). 在总体样本量较少的情况下,不能简单地删除异常值,因为样本量也很

影响结果,因此可以将异常值视为缺失值,使用缺失值处理方法来处理异常值。

4.无量纲化处理

无量纲化,也称为数据的规范化,是指不同指标之间由于存在量纲不同致其

不具可比性,故首先需将指标进行无量纲化,消除量纲影响后再进行接下来的分

析。

常见的无量纲化处理方法主要有标准化(各指标均值为0,标准差为1)、 均值化(各指标数据构成协方差矩阵)和归一化(将一列数据“拍扁”到某个固

定区间(常为[0,1]),和最大/小值有关),如归一化公式:

5.数据量问题

数据样本量不够或者查不到数据,可以在一定约束条件下用随机数生成,模 型适用即可。但切记要对模型做灵敏性分析和误差分析,来证明随机生成的数据

对模型的影响非常小。

数据不够确实令人做题时无从下手,但物极必反,数据太多也不是什么好事, 如果某个赛题提供了很多数据,需要对多维数据做降维处理,减少数据冗余,常

见的方法有主成分分析法 (PCA) 、 线性判别分析等。

6.预测模型

预测模型要根据题目所给数据样本量的大小,选择合适的方法:

(1)灰色预测模型(样本量<15)

数据样本点个数少, 一般建议为6-15个,或者数据呈现指数或曲线的形式。

(2)微分方程预测(样本量<100)

无法直接找到原始数据之间的关系,但可以建立微分方程,利用推导出的公

式预测数据。

(3)回归预测(100<样本量<1000)

回归预测就是把预测的相关性原则作为基础,把影响预测目标的各因素找出 来,然后找出这些因素和预测目标之间的函数关系的近似表达,并且用数学的方 法找出来。依据相关关系中自变量的个数不同分类,可分为一元回归分析预测法

和多元回归分析预测法。

7.插值与拟合

拟合与插值在数学建模竞赛中非常常见,但有以下几点需要留意:

(1)拟合与插值区别: 插值是离散函数逼近的重要方法,利用它可通过函 数在有限个点处的取值状况,估算出函数在其他点处的近似值;拟合是指将平面

上的一系列点与光滑曲线连接起来。

(2)灵活掌握不同插值方法的适用条件:拉格朗日插值( 一 维)、分段线

性插值(多条件)、三次样条插值(空间中的点)。

(3)灵活选择拟合函数: 比如一道经典的数模国赛车流量预测问题,对于 车流量,每个点代表每一小时的平均值,而且车流量可以看作是以天为周期的周

期函数,再联系不规则的函数曲线,可以考虑用傅里叶级数拟合。

8.推荐工具

(1)Excel:       越简单,越强大。你可能忽略了这个最常见的软件,但在数据处理方面,它毫不逊色专业软件,在数据可视化方面也方便操作。

(2)SPSS:   用于统计分析,围绕统计学知识的一些基本应用,包括描述统 计,方差分析,因子分析,主成分分析,基本的回归,分布的检验等等,我们前边提到的箱线图就可以用 SPSS一 键生成!

(3)Python:        熟练掌握Numpy,Pandas,Matplotlib      库 ,python    的强大无需多言,综合且高效!

(4)Tableau:        主要用于数据可视化展示,操作简单,可以直接用鼠标来选 择行、列标签来生成各种不同的图形图表,而且Tableau   的设计、色彩及操作界

面简单清新,做出来的图更美观。

(5)数据查找网站:

联合国数据中心:https://www.un.org/zh/databases/

联合国粮食及农业组织: FAOSTAT

谷歌学术: 思谋学术_谷歌学术搜索和文献资源

 

美国运输统计局: Bureau of Transportation Statistics

美国劳工统计局: https://stats.bls.gov/

美国农业部: USDA

美国人口统计局: http://www.census.gov/

美           国            普           查           局

http://2010.census.gov/2010census/language/chinese-simplified.php

中国国家统计局: http://www.stats.gov.cn/tjsj/

世界卫生组织: www.who.int/data/gh   o

 

美国商务部经济分析局: www.bea.gov/data

 Free GIS Data:freegisdata.rtwilson.com

 欢迎点击下方名片加入通过下方名片加入美赛备战 交流群

或者关注GZH :建模忠哥 ,建模期间提供免费的chatgpt3.5      

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/214795.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数字图像处理(实践篇)二十一 人脸识别

目录 1 安装face_recognition 2 涉及的函数 3 人脸识别方案 4 实践 使用face_recognition进行人脸识别。 1 安装face_recognition pip install face_recognition 或者 pip --default-timeout100 install face_recognition -i http://pypi.douban.com/simple --trusted-…

川崎ZX-6R确定引进,636它真的来了,3C认证已过。

最新消息&#xff0c;兄弟们&#xff0c;你们期待已久的川崎ZX6R&#xff08;636&#xff09;基本已经确定引进了&#xff0c;官方的3C认证已经通过&#xff0c;那么从3C里面我们可以看到哪几个信息&#xff1f;产品代号ZX636J就是心心念念的ZX-6R了。 有些小伙伴不太清楚3C认…

t-SNE完整笔记 (附Python代码)

t-SNE(t-distributed stochastic neighbor embedding)是用于降维的一种机器学习算法&#xff0c;是由 Laurens van der Maaten 和 Geoffrey Hinton在08年提出来。此外&#xff0c;t-SNE 是一种非线性降维算法&#xff0c;非常适用于高维数据降维到2维或者3维&#xff0c;进行可…

分配栈空间的三种方式(基于适配qemu的FreeRTOS分析)

1、定义全局的数组 定义的全局数组属于bss段&#xff0c;相当于把bss段的一部分作为栈空间&#xff0c;栈空间的大小就是数组的大小如果把栈空间放在bss段&#xff0c;则在bss段清零时会多清零一段地址空间 2、在链接脚本中指定 用链接脚本在所有段的后面增加stack段&#xff…

15:00面试,15:06就出来了,问的问题真变态。。。

刚从小厂出来&#xff0c;没想到在另一家公司我又寄了。 在这家公司上班&#xff0c;每天都要加班&#xff0c;但看在钱给的比较多的份上&#xff0c;也就不太计较了。但万万没想到5月一纸通知&#xff0c;所有人不准加班了&#xff0c;不仅加班费没有了&#xff0c;薪资还要降…

基于springboot的大学生兼职信息管理系统(源码+数据库+文档)

摘要 基于Spring Boot的大学生兼职信息管理系统是一个为大学生和兼职公司提供服务的平台。通过该系统&#xff0c;大学生可以方便地寻找兼职工作机会&#xff0c;而兼职公司可以发布、管理和筛选合适的兼职信息。首先&#xff0c;系统采用了Spring Boot作为开发框架&#xff0…

Ubuntu22.04使能root用户

一、背景 安装Ubuntu22.04系统的时候&#xff0c;会要求创建一个用户&#xff0c;并设置密码。为方便后续行文&#xff0c;将此用户称为user_normal&#xff0c;此密码称为normal_pd 安装Ubuntu22.04系统的时候&#xff0c;没有出现任何和root有关的设置 Ubuntu22.04安装完成…

[陇剑杯 2021]日志分析

[陇剑杯 2021]日志分析 题目做法及思路解析&#xff08;个人分享&#xff09; 问一&#xff1a;单位某应用程序被攻击&#xff0c;请分析日志&#xff0c;进行作答&#xff1a; 网络存在源码泄漏&#xff0c;源码文件名是_____________。(请提交带有文件后缀的文件名&…

前端mp3文件转wav文件的实现

一、音频文件格式转换 1&#xff09;安装fluent-ffmpeg和ffmpeg插件 npm install fluent-ffmpeg; npm install ffmpeg;2&#xff09;mp3转wav test.js文件&#xff1a; const ffmpeg require(fluent-ffmpeg);ffmpeg(./test.mp3) .format(wav) .audioBitrate(16k) .audioFre…

(纯原创) 基于SSM 的商城购物系统(完整源代码以及开发文档)

摘要 本网上商城系统以SSM架构、使用Mybatis&#xff0c;数据库使用MySQL&#xff0c;这些技术目前相对比较成熟&#xff0c;方便系统的维护与扩展。网上商城系统前台包括了用户注册、用户登录、商品查询、商品添加到购物车、删除商品等几大功能&#xff1b;后台管理功能则包…

Android VpnService 使用(一)

Android VpnService 使用(一) 本篇算是VpnService 使用的第一篇文章,主要讲述service创建,intent调用. 1: 申请权限 <service android:name".MyVpnService" android:permission"android.permission.BIND_VPN_SERVICE"><intent-filter><ac…

LeetCode力扣每日一题(Java):27、移除元素

一、题目 二、解题思路 1、我的思路 因为题目中说“元素的顺序可以改变。你不需要考虑数组中超出新长度后面的元素。”也就是说&#xff1a; 输入&#xff1a;nums [3,2,2,3], val 3 输出&#xff1a;2, nums [2,2] 解释&#xff1a;函数应该返回新的长度 2并且 nums 中的…

JVM性能调优

遇到以下情况&#xff0c;就需要考虑进行JVM调优了&#xff1a; Heap内存&#xff08;老年代&#xff09;持续上涨达到设置的最大内存值&#xff1b; Full GC 次数频繁&#xff1b; GC 停顿时间过长&#xff08;超过1秒&#xff09;&#xff1b; 应用出现OutOfMemory 等内存异常…

xtts和ogg不选择?

不选择ogg的理由&#xff1a; 1.需要在源端创建用户赋权&#xff0c;启用数据库最小日志&#xff0c;附加日志等操作--对生产影响较大 2.外键约束过多&#xff0c;割接启用可能很慢https://www.modb.pro/db/201126--割接停机时间影响 3.初始化配置expdp导出可能快照过旧&#x…

深入理解JVM虚拟机第二十八篇:详解JVM当中方法重写的本质和虚方法表

&#x1f609;&#x1f609; 欢迎加入我们的学习交流群呀&#xff1a; ✅✅1&#xff1a;这是孙哥suns给大家的福利&#xff01; ✨✨2&#xff1a;我们免费分享Netty、Dubbo、k8s、Mybatis、Spring...应用和源码级别的视频资料 &#x1f96d;&#x1f96d;3&#xff1a;QQ群&a…

2022年拉丁美洲中东和非洲医疗机器人市场及全球概况报告

今天分享的是机器人系列深度研究报告&#xff1a;《2022年拉丁美洲中东和非洲医疗机器人市场及全球概况报告》。 &#xff08;报告出品方&#xff1a;Apollo Reports&#xff09; 报告共计&#xff1a;195页 研究方法论 2.1通过桌面研究和内部存储库的假设 a)最初&#xff…

【LeetCode刷题】-- 118.杨辉三角

118.杨辉三角 class Solution {public List<List<Integer>> generate(int numRows) {List<List<Integer>> res new ArrayList<List<Integer>>();for(int i 0; i < numRows;i){List<Integer> ret new ArrayList<>();for(…

18.Java程序设计-基于Springboot的电影院售票系统的设计与实现

摘要 电影产业在当今社会中占据着重要地位&#xff0c;电影院作为观影的主要场所&#xff0c;其售票系统的高效性和用户体验至关重要。本文基于Spring Boot框架设计并实现了一款电影院售票系统&#xff0c;旨在提高售票效率、优化用户体验&#xff0c;并解决传统售票方式存在的…

PHP 之道(PHP The Right Way 中文版)

PHP 之道&#xff08;PHP The Right Way 中文版&#xff09;

我的NPI项目之Android 显示 -- 背光的电路小知识

由于使用的高通平台一直在演化&#xff0c;从SDM660,QCM4290,QCM4490再到QCM6490。产品的背光设计也是一直在迭代。 简单罗列了一下所经历的一些设计&#xff0c;简单的背光也涉及到了很多学问。 先说有哪些类型&#xff1a; 1. SDM660上由PMIC提供了wled给背光, 透过驱动直…