在进行数据分析时,很多人拿到数据之后没有头绪,在没有需求的情况下不知道从何做起,此时我们不妨先动起脑来理解数据。
分析数据之前,清晰的认识数据是非常重要的,通常我们可以从以下几个角度对数据进行深入了解:
一、数据来源
- 数据的来源多种多样,可以是系统自动收集的数据、人工填写的数据、爬取到的数据等等。不同来源的数据所带来的未知风险是不同的,例如在多数分析师的认知里,系统自动收集的数据要比人工填写的数据更可靠。了解数据来源能让我们更好的预知风险。
二、数据类型(基本信息)
- 很多人在进行数据分析之前不会留意数据类型,这就导致在随后的数据分析中总遇到一些奇怪的问题:
- 数字计算出错(计算数据为字符数据)
- 日期筛选出错(日期列不为时间类型)
- 这些看似简单的问题,往往在我们后知后觉时消耗大量的时间。在Python中我们可以使用
info
函数进行快速的数据类型查看,同时也可以认知每列数据缺失值的数量。示例如下:
import pandas as pddf = pd.read_excel('test_data.xlsx')
df.info()
三、数据分布(统计信息)
- 了解完了数据来源和数据类型,我们就算时了解完了数据的外壳,接下来我们需要继续了解数据的内核——数据分布。
- 了解数据分布通常都是在观察数值类型数据的统计信息,我们通过对数值型数据的均值、分位数、标准差等统计数据进行观测,便能很好的理解各列数据的大小关系及分布情况。
- 在Python中我们可以使用
describe
函数直接对数值型数据的分布情况进行查看,示例如下:
import pandas as pddf = pd.read_excel('test_data.xlsx')
df.describe()
通过上述结果,我们不难看出当前分析的销售数据中多数订单及整体利润都是盈利状态,这样的认知将会有利于我们后续的深度分析。
四、数据可视化(可选)
- 为了能更直观的在准备阶段观测数据,我们可以绘制数据图看一下,但不要耗费过多的时间,选择简洁明了的图形即可(给自己看的);当我们能够通过数据表快速了解数据全貌之后,也就不必再花时间通过绘图认知数据了。
Python绘图方法大全:点击这里