task2 EDA数据分析

目标

了解,验证数据集

了解变量关系,与预测值之间关系

数据处理、特征工程

数据探索性分析

EDA探索性数据分析

通过EDA可实现:

1. 得到数据的直观表现 

2. 发现潜在的结构 

3. 提取重要的变量 

4. 处理异常值 

5. 检验统计假设 

6. 建立初步模型 

7. 决定最优因子的设置

 

数据类型

数据一般按类型分为两种:离散型连续型;

离散型的数据相当于分类型数据,如性别、种族、教育程度等。其中,有些类别是没有顺序的,如性别;有些类别则是有顺序的,如教育程度。这两种情况分别称为名义变量和有序变量。

对于连续型变量,一般是在值域里面连续取值,这种变量一般是有序的。

统计量

中位数、方差、 内距(Q3−Q1Q3−Q1)

箱线图和直方图

一般步骤

1.拿到数据后,用来探索的方法分为两类,一是基于图像的,二是基于定量方法的。

常见问题:

- 一般统计量:均值,中位数,方差,分布,分位数,

- 工程修改是否 产生作用:变量变换、缺失值处理

- 自变量是否对结果有影响

- 响应变量和自变量之间的最佳函数

- 时间相关数据能否信噪分离

- 多维变量提取结构?

- 离群值?

知识树:

实战案例

目标名称:水的供应和用水是否与人均国内生产总值有关?(提出假设)

数据源:http://www.fao.org/nr/water/aquastat/data/query/index.html下图数据源界面(如果您经常做学术研究,例如OECD等数据都是这样的。)

数据源简单介绍

网站:http://www.fao.org/nr/water/aquastat/metadata/index.stm

组织的三个主要目标是:

1.消除饥饿、粮食不安全和营养不良

2.消除贫困促进经济社会进步

3.自然资源的可持续管理和利用,包括土地、水、空气、气候和遗传资源,以造福今世后代。

为支持这些目标,《宪法》第1条要求粮农组织“收集、分析、解释和传播与营养、粮食和农业有关的信息”。因此,水温自动调节器开始,其目的是通过收集有助于联合国粮农组织的目标,与水资源相关的信息传播分析,用水和农业用水管理,对国家重点在非洲,亚洲,美国,拉丁美洲,加勒比海。

联合国粮农组织提供数据,元数据,报告国家概况,河流域概况,分析区域,图,表空间,数据,指导方针,和其他的在线工具:

1、水资源:内部、跨界、总

2、水的用途:按部门,按来源,废水

3、灌溉:地点、面积、类型、技术、作物

4、水坝:位置,高度,容量,表面积

5、与水有关的机构、政策和立法

项目软件:软件python 3.6展示的软件Anaconda里面的jupster notebook,运行环境Window7,使用电脑Thinkpad T450。

项目计划

通过对数据有简单的预估,这个时候,由于自己的电脑内存比较小,跑上十万以后的数据都会有明显的卡顿,为此采取了一个特殊的策略—使用Tidy Data进行试验。Tidy Data大家可能不熟悉,我直接也给大家上了干货。TidyData的官方解读:https://tomaugspurger.github.io/modern-5-tidy.html直接连接可以查看如何使用小批量的数据进行实验。

本实验的目标为三点:每个变量形成一个列,每个观测值形成一行,不同类型的观测单元组成一个表格。

数据转换:

1、取对数log:当数据的峰值很高,通过将数据取对数能够将数据归一化处理。

2、连续变量分组(bin):分组连续变量,能够更加简便的了解观测值的分布。

3、简化类别:一个单一的数据,往往类别太多会让人迷乱,一般不想超过8-10列,那就尽量找到重要的类别。(机器学习里面这一个部分很重要,和特征选择一样)

项目开始

第一步,不可或缺的导入五大包:NumPy、Pandas、Matplotlib、Seaborn,Warnings大家对这四个包不熟悉的可以百度官方网站,有专门的材料。特别主要的就是Seaborn,这个库目前可视化的能力已经超过之前对Python的理解,有很多人说R可视化效果很好,但是我觉得这个可视化一点都不差。%matplotlib inline很多人不懂为什么会加上这个意思,这就是在jupter画图的时候,能够将可视化的图能够在结果中展现出来,我试过很多时候忘记加,结果图就只出现一行字。所以需要加上这个。

第二步,导入数据

由于数据是压缩包的形式,我们平时一般的是CSV,TXT的格式,那我们可以试一试压缩包的读取方式。对数据进行基本的了解,Pandas为我们提供了很多可以简便查看和检查数据的方法。data.info(),data.shape,data.head(),data.tail()。

结果展示:

之后的四步,见下一篇博文。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/549235.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

lua中文教程(第一章 起点)

一 全局变量 全局变量不需要声明,给一个变量赋值后即创建了这个全局变量,访问一个没有初始化的全局变量也不会出错,只不过得到的结果是:nil 如果想删除一个全局变量,只需要将变量赋值为nil 二 词法约定 1 标识符:字母或…

task2 EDA探索性数据分析

1、赛题数据赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽…

Liaoning Province--保三成功

现在做什么事情怎么都有遗憾,从小到大,每件事情都有遗憾...... 周六,在东电宾馆报道的,刚进宾馆,接待人员对我说有个人认识你,我诧异,看到后我挨个想,我想出来他是天之痕了&#xff…

2021-06-10

局部搜索算法是一种简单的贪心搜索算法,是解决最优化问题的一种启发式算法,该算法每次从当前解的临近解空间中根据启发函数选择一个最优解(也不一定是最优解)作为当前解,直到达到一个局部最优解。本文以求解八皇后问题…

用JavaScript嵌入你的SWF

用JavaScript嵌入你的SWFswfobject.embedSWF(swfUrl, id, width, height, version, expressInstallSwfurl, flashvars, params, attributes)有5个必须的参数和4个可选的参数:swfUrl(String,必须的)指定SWF的URL。 id(S…

.NET(C#) Internals: 以一个数组填充的例子初步了解.NET 4.0中的并行(二)

引言 随着CPU多核的普及,编程时充分利用这个特性越显重要。上篇首先用传统的嵌套循环进行数组填充,然后用.NET 4.0中的System.Threading.Tasks提供的Parallel Class来并行地进行填充,最后对比他们的性能。本文将深入分析Parallel Class并借机…

Ghost安装之后,键盘出现字符出现乱码

今天我安装了G版本的WinServer2003,安装完成之后键盘打字出现乱字符,后来终于发现原来我的输入法模式为数字模式,按FN+insert可以切换回来,问题就解决了.转载于:https://blog.51cto.com/yaojian/314847

.net框架读书笔记---CLR内存管理\垃圾收集(二)

前几天学习了CLR垃圾收集原理和基本算法,但是那些是仅仅相对于托管堆而言的,任何非托管资源的类型,例如文件、网络资源等,都必须支持一种称为终止化(finalization)的操作。 终止化 终止化操作允许一种资源在…

关于三极管偏置电路的思考

最近在做十年前应该做的事情,从最基本的模拟电路实验开始,了解电子的基本概念。还好,对事物的理解,随着阅历增加,理解的程度也不一样。从三极管偏置电路,我想到了人的自我修养和调整。当电路调整到一个合适…

搜索引擎指令站长常用搜索引擎命令汇总

身为一个网站管理员用好各大搜索引擎一些特殊指令,是最基本的网站SEO。逅客百度Google取经看到有前人整理的几个搜索引擎常用指令,单独使用是最基本,能综合使用就会体验搜索的另类魅力。以下搜索引擎指令都以学海网(www.xuehai.net)为例。 一…

Socket源码相关——SocketAddress和InetSocketAddress

目录我的学习过程我的心路历程思考总结我的学习过程 昨天学习qiujuer老师的《Socket网络编程进阶与实战》实战课程中,写了一个简易的client-server聊天项目。我的学习方法是根据课程的一部分思路提示后,自己独自进行编写,出现了很多问题&…

三轮哥

灰太狼发现自从有了犀利哥开始,什么什么哥越来越流行了,就跟当初的各种“门”一样,这不,网上盛传许久的三轮哥,灰太狼今天才有幸看到。 不过话说回来,类似三轮哥这样的人物还是少出一点的好,这玩…

重构手法——提炼函数、搬移函数、以多态取代条件表达式

目录我的心路历程我的学习概括Extract Method(提炼函数)动机*--做法动机--做法*Move Method(搬移函数)动机*--做法动机--做法*Replace Conditional with Polymorphism(以多态取代条件表达式)动机*--做法动机…

FTP服务器架设详细图解

FTP是File Transfer Protocol(文件传输协议)的缩写,用来在两台计算机之间互相传送文件。FTP服务作为Internet最古老的服务之一,无论在过去还是现在都有着不可替代的作用。在企业中,对于一些大文件的共享,通…

gradle下bug修正后问题仍存在解决思路

目录我的学习过程我的学习心路热加载配置bug问题总结我的学习过程 前天写的client-server聊天项目写完后,今天进行了调试。我用到的是out目录下的server.class文件和client.class文件。 先后启动两个命令行窗口来进行测试的。 使用java server启动服务端窗口。 再使…

IP-tools

IP-tools 网管员的第三只眼^ Ip-tools是一款功能齐全的网管软件,可以随时随地的向网管员报告网络的运行情况ip-tools自身集成多种tcp/ip使用工具,如本地信息、链接信息、端口扫描、ping、WHOIS、finger、nslookup、telnet、NetBIOS等功能。界面是全英的&…

用git提交代码到远程仓库遇到的问题

目录我的学习过程git环境配置(Mac版)git原理图git的push操作思路遇到的问题我的学习过程 昨天重写了一遍聊天程序,准备提交到git上进行代码管理。结果遇到了不少问题。我照着网上的教程进行操作,一步一步踩了很多坑。 git环境配…

数字示波器的激烈竞争

计算机、通信以及消费类电子产业的快速发展成为示波器发展的不竭动力&#xff1b;厂商不断从技术上对示波器进行改进更使其发展日新月异。 <?xml:namespace prefix o ns "urn:schemas-microsoft-com:office:office" />数字示波器自它诞生的第一天起&#xf…

git pull和push整理和归纳

目录各个模块概念工作区版本库暂存区远程仓库pull和push流程相关的命令暂存区相关版本库相关远程仓库相关利用远程仓库协作开发各个模块概念 我的理解&#xff1a; Git是版本管理工具&#xff0c;它主要对指定目录下的一些特定的文件的修改进行版本管理。 相关的模块有&#x…

重装vcenter后恢复原来制作的模板!

重新安装vcenter后发现原来用vcenter创建的模板没有了。清单中只显示现有的4台虚拟机&#xff0c;没有显示模板。其实找回来也很简单&#xff01;在清单中找到数据存储&#xff0c;在相应的模板文件夹中找到的.vmtx文件添加到清单中去即可&#xff01;转载于:https://blog.51ct…