探索性数据分析EDA及数据分析图表的选择

文章目录

  • 一、探索性数据分析EDA
  • 二、数据分析图表的选择

一、探索性数据分析EDA

探索性数据分析(Exploratory Data Analysis,简称EDA),指对数据分析的过程中尽量不加入先验假设,而是通过作图表和统计等方式来探索数据结构和规律。
在EDA中你可以构思各种各样的假设,并通过数据分析去寻找相应的反馈,以此迭代来寻找到数据集中分布的规律。在探索的过程中会随着不断的深入对数据理解更加深刻。
EDA的流程如下:提出问题;筛选、清洗数据;分析数据;构建模型;得出结论。
EDA的过程与数据挖掘的流程不谋而合,特征是否起作用需要具体的分析和验证。从数据本身出发去寻找合适的特征。
在数据竞赛中,使用EDA完成数据分析的过程如下:

  1. 读取并分析数据质量;
  2. 探索性分析每个变量:
    变量是什么类型;
    变量是否有缺失值;
    变量是否有异常值;
    变量是否有重复值;
    变量是否均匀;
    变量是否需要转换;
  3. 探索性分析变量与target标签的关系:
    变量与标签是否存在相关性;
    变量与标签是否存在业务逻辑;
  4. 探索性分析变量之间的关系:
    1)连续型变量与连续型变量;
    可视化:散点图、相关性热力图;皮尔逊系数;互信息;
    2)离散变量与离散变量;
    可视化:柱状图、饼图、分组表;卡方检验;
    3)检查变量之间的正态性;直方图;箱线图;Quantile-Quantile (QQ图);

根据EDA我们可以得出以下结论:变量是否需要筛选、替换和清洗;变量是否需要转换;变量之间是否需要交叉;变量是否需要采样;

二、数据分析图表的选择

可视化目的:比较/趋势/组成/联系/分布;
可视化变量类型:数值/日期/类别/经纬度;
可视化维度:分布/趋势;
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/474861.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode MySQL 608. 树节点

文章目录1. 题目2. 解题1. 题目 给定一个表 tree,id 是树节点的编号, p_id 是它父节点的 id 。 ---------- | id | p_id | ---------- | 1 | null | | 2 | 1 | | 3 | 1 | | 4 | 2 | | 5 | 2 | ---------- 树中每个节点属于以下三种类…

xshell 打开文件跳转到最后_如何在Xshell中打开Xftp

Xftp作为远程文件传输软件,与Xshell终端模拟器同属于Xmanager,这两款软件经常配合使用,用来给远程服务器上传文件非常方便。那么在使用Xshell的时候怎样打开Xftp呢?下面就来给大家介绍具体操作技巧。如果安装了一、XShell中打开如…

网络资源-深入剖析Binding2(学习)

WPF Binding WPF里分三种Binding:Binding, PriorityBinding, MultiBinding,这三种Binding的基类都是BindingBase,而BindingBase又继承于MarkupExtension Binding: 提供对绑定定义的高级别访问,绑定将绑定目标对象&…

LeetCode MySQL 1045. 买下所有产品的客户

文章目录1. 题目2. 解题1. 题目 Customer 表: ---------------------- | Column Name | Type | ---------------------- | customer_id | int | | product_key | int | ---------------------- product_key 是 Product 表的外键。Product 表&#xff1…

统计学中常用的数据分析方法汇总

文章目录一、描述统计二、假设检验三、信服分析四、列联表分析五、相关分析六、方差分析一、描述统计 描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中…

java组装树状结构数据集合_JAVA构建List集合为树形结构

package com.zving.tree;import java.util.ArrayList;import java.util.List;/*** 树形结构实体类* author clove*/public class Node {private int id;private int pid;private String name;private String type;private List children new ArrayList<>();public Node(…

过拟合(overfitting)和欠拟合(underfitting)出现原因及如何避免方案

文章目录欠拟合一、什么是欠拟合&#xff1f;二、欠拟合出现原因三、解决欠拟合(高偏差)的方法过拟合一、什么是过拟合&#xff1f;二、过拟合出现原因三、解决过拟合(高方差)的方法欠拟合 一、什么是欠拟合&#xff1f; 欠拟合是指模型不能在训练集上获得足够低的误差。换句…

斯坦佛编程教程-Unix编程工具(五)

Unix Shell 这个部分是总结一下在Unix shell中使用的大多数的命令。 文件命令 cd directory 改变路径&#xff0c;如果directory没有指明&#xff0c;那么就返回home目录。 pwd 显示当前路径。 ls 显示目录下的内容&#xff0c;ls -a会显示以点开头的文件&#xff0c;ls…

LeetCode MySQL 612. 平面上的最近距离

文章目录1. 题目2. 解题1. 题目 表 point_2d 保存了所有点&#xff08;多于 2 个点&#xff09;的坐标 (x,y) &#xff0c;这些点在平面上两两不重合。 写一个查询语句找到两点之间的最近距离&#xff0c;保留 2 位小数。 | x | y | |----|----| | -1 | -1 | | 0 | 0 | …

数据库开发设计规范及表结构设计原则

文章目录一. 命名规范二. 库表基础规范三. 字段规范四. 索引规范五. SQL设计①.正规化表设计原则②.SQL设计③.“三少原则”六. 行为规范一. 命名规范 1.库名、表名、字段名必须使用小写字母&#xff0c;并采用下划线分割 (1)MySQL有配置参数lower_case_table_names1&#xff…

python离散点的线性回归_用python玩点有趣的数据分析——一元线性回归分析实例...

http://python.jobbole.com/81215/本文参考了博乐在线的这篇文章&#xff0c;在其基础上加了一些自己的理解。其原文是一篇英文的博客&#xff0c;讲的十分通俗易懂。本文通过一个简单的例子&#xff1a;预测房价&#xff0c;来探讨怎么用python做一元线性回归分析。1. 预测一下…

[BTS] WCF-SAP Connect to SAP gateway failed

日志名称: Application来源: BizTalk Server日期: 2012/11/15 15:58:24事件 ID: 5743任务类别: (1)级别: 警告关键字: 经典用户: 暂缺计算机: AppTestSrv.AppCenter.xz描述:The ad…

LeetCode MySQL 1112. 每位学生的最高成绩

文章目录1. 题目2. 解题1. 题目 表&#xff1a;Enrollments ------------------------ | Column Name | Type | ------------------------ | student_id | int | | course_id | int | | grade | int | ------------------------ (student_id…

设计精美Power Bi报告的诀窍以及让人眼前一亮的精美Power Bi图表

文章目录设计精美Power Bi报告诀窍一、使用对齐工具二、一次调整多个视觉效果三、使用主题四、使用搜索更快地格式化五、添加令人惊叹的图像形状元素六、对数据使用适当的可视化效果让人眼前一亮的精美Power Bi图表Infographic DesignerWalkers Animated PictogramAnimated Bar…

python模块的函数_python模块内置函数

python提供了一个内联模块buildin&#xff0c;该模块定义了一些软件开发中经常用到的函数&#xff0c;利用这些函数可以实现数据类型的转换、数据的计算、序列的处理等。 模块的内置函数: 1、apply()&#xff1a;可以调用可变参数列表的函数&#xff0c;把参数存在一个元组或者…

大学英语四六各项分值

听力&#xff1a;248.5 听力客观题&#xff08;单选&#xff09;&#xff1a;25&#xff05;合177.5分每个7.1分&#xff1b;听力主观题&#xff08;复合式听写&#xff09;&#xff1a;10&#xff05;合71分&#xff0c;前八个每个3.55分共28.4分&#xff0c;后三个每个14.…

[Hands On ML] 7. 集成学习和随机森林

文章目录1. 投票分类2. Bagging、Pasting3. Out of Bag 评价4. 随机贴片与随机子空间5. 随机森林6. 极端随机树 Extra-Trees7. 特征重要程度8. 提升方法8.1 AdaBoost8.2 梯度提升8.3 Stacking本文为《机器学习实战&#xff1a;基于Scikit-Learn和TensorFlow》的读书笔记。 中文…

dll侧加载_WORD打开时出现加载DLL错误解决方法

WORD打开时出现加载DLL错误解决方法1、接下来看看解决办法&#xff0c;按组合键WIN R或者按开始---运行&#xff0c;打开运行窗口&#xff0c;2、在运行对话框中输入或者复制粘贴“%USERPROFILE%\AppData\Roaming\Microsoft\Templates”(注意双引号就不要输入咧)&#xff0c;输…

SQL Server时间函数

一、统计语句 1、–统计当前【>当天00点以后的数据】 SELECT * FROM 表 WHERE CONVERT(Nvarchar, dateandtime, 111) CONVERT(Nvarchar, GETDATE(), 111) ORDER BY dateandtime DESC2、–统计本周 SELECT * FROM 表 WHERE datediff(week,[dateadd],getdate())03、–统计…

LeetCode 635. 设计日志存储系统(map)

文章目录1. 题目2. 解题1. 题目 你将获得多条日志&#xff0c;每条日志都有唯一的 id 和 timestamp&#xff0c;timestamp 是形如 Year:Month:Day:Hour:Minute:Second 的字符串&#xff0c;例如 2017:01:01:23:59:59&#xff0c;所有值域都是零填充的十进制数。 设计一个日志…