一、什么是数据分析?
数据分析是指通过一些方法,对一些数据进行分析,从中提取出有价值的信息并形成结论进行展示。
(1)一些方法
- 数学和统计学方法:例如回归分析、聚类分析、主成分分析、时间序列分析等,用以识别变量间的关系、预测未来趋势或对群体进行分类。
- 实践方法与技术工具:包括使用编程语言(如Python、R、SQL等)进行数据清洗、转换、整合及建模;利用数据可视化工具(如Tableau、Power BI)将复杂数据以图表形式展示以便于理解和沟通;以及应用机器学习算法进行预测分析或发现深层次规律。
(2)一些数据
Excel数据、数据库中的数据、收集的大量数据、网页爬取的数据。涉及的数据源可能来自企业内部数据库系统,如ERP、CRM等;外部公开数据集;用户调查问卷结果;互联网爬取的数据;Excel电子表格中的记录;传感器收集的实时监测数据等众多来源。
二、数据分析希望分析出什么?
数据分析的最终目的是为了支持决策和行动,它希望从数据中分析出以下几个方面的内容:
(1)现状分析(Descriptive Analytics)
分析已经发生了什么。
- 描绘当前的状态:通过总结和表示数据来展示现在正在发生的情况。
- 基础报告:例如销售额、网站访问量、市场占有率等。
(2)原因分析(Diagnostic Analytics)
分析为什么会出现这种现状
- 挖掘原因:理解数据之间的关系和相互作用,分析为什么会出现某种现状。
- 深入探索:如相关性分析、归因分析等,找出关键影响因素。
(3)预测分析(Predictive Analytics)
预测未来可能发生什么
- 展望未来:基于历史趋势、规律以及可能影响未来发展的各种因素,运用统计学模型、机器学习算法等工具对未来可能发生的情况进行预测,以便提前做好规划和决策。
- 风险评估与识别机会:预测市场趋势、顾客行为、股价波动等。
三、数据分析的基本思路
(1)明确目的
为什么要做数据分析、分析什么、想要达到什么样的效果。
(2)数据获取
要知道数据从哪儿来,要知道获取什么时间段内的数据,要知道用什么手段去获取数据。
(3)数据处理
从大量、杂乱无章、难以理解、缺失的数据中,提取并推导出对解决问题有价值、有意义的数据。常用方法:数据规约、数据清洗、数据加工。
(4)数据分析
描述性统计分析、相关分析、回归分析、时序分析、分类分析。
(5)验证结果
(6)数据可视化
可视化是数据分析结果呈现的重要步骤,可视化以图表的方式进行呈现,使结果更清晰、更直观、更容易理解
(7)数据应用
如何将数据分析的结果应用在实际的业务中去才是数据分析的重点;如果看了数据分析的结果后并不知道做什么,那么这个分析是失败的。