数据分析方法(一)|认知数据

在进行数据分析时,很多人拿到数据之后没有头绪,在没有需求的情况下不知道从何做起,此时我们不妨先动起脑来理解数据。

分析数据之前,清晰的认识数据是非常重要的,通常我们可以从以下几个角度对数据进行深入了解:

一、数据来源

  • 数据的来源多种多样,可以是系统自动收集的数据、人工填写的数据、爬取到的数据等等。不同来源的数据所带来的未知风险是不同的,例如在多数分析师的认知里,系统自动收集的数据要比人工填写的数据更可靠。了解数据来源能让我们更好的预知风险。

二、数据类型(基本信息)

  • 很多人在进行数据分析之前不会留意数据类型,这就导致在随后的数据分析中总遇到一些奇怪的问题:
    • 数字计算出错(计算数据为字符数据)
    • 日期筛选出错(日期列不为时间类型)
  • 这些看似简单的问题,往往在我们后知后觉时消耗大量的时间。在Python中我们可以使用info函数进行快速的数据类型查看,同时也可以认知每列数据缺失值的数量。示例如下:
import pandas as pddf = pd.read_excel('test_data.xlsx')
df.info()

在这里插入图片描述

三、数据分布(统计信息)

  • 了解完了数据来源和数据类型,我们就算时了解完了数据的外壳,接下来我们需要继续了解数据的内核——数据分布。
  • 了解数据分布通常都是在观察数值类型数据的统计信息,我们通过对数值型数据的均值、分位数、标准差等统计数据进行观测,便能很好的理解各列数据的大小关系及分布情况。
  • 在Python中我们可以使用describe函数直接对数值型数据的分布情况进行查看,示例如下:
import pandas as pddf = pd.read_excel('test_data.xlsx')
df.describe()

在这里插入图片描述

通过上述结果,我们不难看出当前分析的销售数据中多数订单及整体利润都是盈利状态,这样的认知将会有利于我们后续的深度分析。

四、数据可视化(可选)

  • 为了能更直观的在准备阶段观测数据,我们可以绘制数据图看一下,但不要耗费过多的时间,选择简洁明了的图形即可(给自己看的);当我们能够通过数据表快速了解数据全貌之后,也就不必再花时间通过绘图认知数据了。

Python绘图方法大全:点击这里

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/726316.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

推荐5款极具效率的实用工具软件

​ 每次分享实用的软件,都会给人一种踏实和喜悦的感觉,这也是我热衷于搜集和推荐高效工具软件的原因。 1.个人日记软件——EDiary ​ EDiary是一款功能丰富的个人日记软件,用户可以在不联网的状态下使用,保护隐私。它支持日记、记事本、日历、事件提醒…

word如何实现不同章节显示不同页眉

一、问题描述 写论文时遇到如下情形,第二章页眉跟第一章一样,如下图 二、解决方法 在第二章前一页空白处,选择依次布局→分隔符→下一页,如下图 双击第二章页眉,进入页眉编辑状态,点击链接到前一节按钮&a…

在Linux上安装Ghostscript

在Linux上安装Ghostscript通常是通过包管理器来完成的。不同的Linux发行版可能有不同的包管理器,我会简要介绍一些常见的Linux发行版上如何安装Ghostscript。 ### Ubuntu 或 Debian 在Ubuntu或Debian上,你可以使用apt包管理器来安装Ghostscript。打开终…

chrome浏览器插件content.js和background.js还有popup都是什么,怎么通讯

popup 在用户点击扩展程序图标时(下图中的下载图标),都可以设置弹出一个popup页面。而这个页面中自然是可以包含运行的js脚本的(比如就叫popup.js)。它会在每次点击插件图标——popup页面弹出时,重新载入。…

Spring之Bean详解

Spring之Bean详解 什么是Bean? 在Spring中,Bean是指由Spring容器管理的对象,这些对象是由Spring IoC容器负责创建、组装和管理的。Bean可以是Java类的实例,也可以是其他Spring管理的组件,例如数据源、事务管理器等。…

FPGA——三速自适应以太网设计(2)GMII与RGMII接口

FPGA——以太网设计(2)GMII与RGMII 基础知识(1)GMII(2)RGMII(3)IDDR GMII设计转RGMII接口跨时钟传输模块 基础知识 (1)GMII GMII:发送端时钟由MAC端提供 下…

NextJs教程系列(三):路由layout

可复用的布局 Next.js的layout是一个可复用的布局&#xff0c;不同的子页面可以共享布局容器&#xff0c;页面跳转时&#xff0c;layout容器不会重新渲染。 children props export default function RootLayout({ children }) {return (<html lang"en"><…

怎么做加密文件二维码?分享文件更安全

怎么做一个加密文件二维码&#xff1f;在日常的工作和生活中&#xff0c;通过扫描二维码来查看或者下载文件的方式&#xff0c;被越来越多的人所使用&#xff0c;一方面是二维码的成本低&#xff0c;另一方面有利于提升便捷性和用户体验。 为了保证内容的隐私性和安全性&#…

【XR806开发板试用】串口驱动JQ8900播放音乐

一、硬件连接 1.JQ8900引脚定义 通过阅读JQ8900的数据手册&#xff0c;可以了解到驱动JQ8900有许多种方式&#xff0c;IO驱动&#xff0c;一线串口驱动&#xff08;VPP&#xff09;&#xff0c;两线串口驱动&#xff08;RX&#xff0c;TX&#xff09;&#xff0c;这里我使用两…

VSCode设置

VSCode设置 VSCode设置1.双击和点击显示设置2.快捷键设置 VSCode设置 1.双击和点击显示设置 VSCode设置双击才能打开文件、文件夹 打开文件夹&#xff1a;在设置页中搜索 expandMode,将 singleClick 改为 doubleClick 即可。 双击打开文件&#xff1a;在设置页中搜索workben…

Unity性能优化篇(八) 导入的模型网格优化设置

模型导入Unity后&#xff0c;可以选中这个模型&#xff0c;在Inspector窗口设置它的属性。下面说的都是可自定义选择优化的地方 Model选择卡: 1.在Model选项卡&#xff0c;启用Mesh Compression可以压缩模型&#xff0c;压缩程度越高&#xff0c;模型精度越低&#xff0c;但是…

Python实现插入排序算法

Python实现插入排序算法 以下是使用Python实现插入排序算法的示例代码&#xff1a; def insertion_sort(arr):n len(arr)for i in range(1, n):key arr[i]j i - 1# 将比key大的元素向右移动一位while j > 0 and arr[j] > key:arr[j 1] arr[j]j - 1arr[j 1] key# …

(3)(3.3) MAVLink高延迟协议

文章目录 前言 1 配置 2 说明 3 消息说明 前言 ArduPilot 支持 MAVLink 高延迟协议(MAVLink High Latency)。该协议专为卫星或 LoRA 等低带宽或高成本链路而设计。 在此协议中&#xff0c;每 5s 只发送一次 HIGH_LATENCY2 MAVLink 信息。对 MAVLink 命令或请求&#xff08…

【力扣hot100】刷题笔记Day24

前言 组会前一点不慌&#xff0c;反正跑不出好东西&#xff0c;能应付就行&#xff0c;早上直接刷题 70. 爬楼梯 - 力扣&#xff08;LeetCode&#xff09; 动态规划 class Solution:def climbStairs(self, n: int) -> int:dp [0] * (n1) # dp[n]表示爬n阶楼梯需要多少格…

npm run dev(pnpm run dev) 的过程都做了什么?

pnpm run dev 命令执行的过程通常涉及以下步骤: 解析命令: 当你在项目中运行 pnpm run dev 时,pnpm 首先会查找项目根目录下的 package.json 文件。在这个文件的 scripts 字段里,它会找到名为 "dev" 的脚本定义。执行脚本: 根据 package.json 中 "dev"…

no main manifest attribute, in demo.jar的原因和解决办法

一、问题描述 当我们用java -jar demo.jar --httpPorts8081打算启动我们的jar文件时&#xff0c;系统给出了题目中的错误提示&#xff1a; no main manifest attribute, in demo.jar 二、问题分析 根据提示&#xff0c;很明显是说找不到main入口&#xff0c;为什么是这样呢&a…

sql执行计划需要关注那些内容?

执行explain会返回那些字段(加粗标红为主要关注字段)&#xff1f; 1、id&#xff1a;执行计划中每个操作的唯一标识&#xff0c;多表联查的时候会出现多条数据id是一样的 2、select_type&#xff1a;查询类型&#xff0c;常见类型有&#xff1a;SIMPLE、PRIMARY、UNION、SUBQUE…

什么是 Golang 类型断言

类型断言&#xff1a;用于检查某个接口是否包含某个具体类型&#xff0c;语法x.(T)&#xff0c;x是一个接口类型表达式&#xff0c;T是具体的类型&#xff0c;如果x包含的值可以被转换成T类型&#xff0c;则是ok 在Go语言中&#xff0c;任何类型的值都属于空接口类型。空接口类…

pytest测试框架使用基础06 fixture——parametrize

pytest.mark.parametrize 允许在测试函数或类中定义多组参数和 fixtures。 参数化场景&#xff1a; 只有测试数据和预期结果不一样&#xff0c;但操作步骤是一样的测试用例是可以用上参数化的。 创建test_cases02.py文件 示例一&#xff1a;未参数化 1.脚本代码&#xff1a; #…

nginx代理参数proxy_pass

proxy_pass参数用于配置反向代理&#xff0c;指定客户端请求被转发到后端服务器&#xff0c;后端地址可以是域名、ip端口URI 代理后端报错提示本地找不到CSS文件、JavaScript文件或图片 例如&#xff1a; nginx &#xff1a;10.1.74.109 后端服务&#xff1a;http://10.1.74.…