数据分析工作流程
在我的数据分析职业发展过程中,我从基础的数据提取工作开始,逐步深入到更为复杂和具有战略意义的领域。这包括构建和完善指标体系、设计风险预警模型,以及与多部门协作完成公司整体经营分析等工作。
在这个过程中,我常常思考一个问题:到底是知道要做什么重要还是知道怎么做更重要?
当领导交给你一个陌生的数据分析场景,比如:"小黄,我给你一天时间你给我一份我们公司 Saas 收入分析报告
如果你是我你肯定会想:"我靠,你是不是有毛病啊?我怎么会知道怎么分析啊!"产生这种想法的主要原因是领导其实是很蠢的,他提出的问题往往需要你去猜他在想什么,从而让我们不知道我们该干什么。如果有一个标准化的数据分析流程该多好啊!
这个时候“跨行业数据挖掘标准流程”(CRISP-DM)就是一个很好的解决方案。
按照官方的说法:CRISP-DM 代表跨行业的数据挖掘过程,CRISP-DM 模型是 KDD 模型的一种。CRISP-DM方法论提供了计划数据挖掘项目的结构化方法。这是一种可靠且经过验证的方法。CRISP 提供了一种开放的、可自由使用的数据挖掘标准过程,使数据挖掘适合于商业或研究单位的问题求解策略。它把这个过程定义为六个标准阶段,分别是商业理解、数据理解、数据准备、建立模型、模型评估和模型发布。
但是他还不够好,究其原因在于商业环境中有些内容有些场景在该流程中存在缺失。对此,我们可以在这个模型的基础上进行改造来满足我们的分析需求。
完整的数据分析工作流程是什么样的?
在回答这个问题之前我们先思考一下 CRISP-DM 这个模型的三个关键词是什么?
1.问题定义
1.1 界定问题-确定分析目标和范围
1.2 数据驱动的解决方案-探索可能的分析方法
2.数据收集
2.1 数据需求识别-确定所需数据类型和来源
2.2 数据可行性评估-核实数据的可获取性和合理性
2.3 数据信息解读-理解数据内容和信息价值
2.4 数据处理策略-规划数据的清洗和准备工作
3.方案制定
3.1 方案评估-根据数据验证方案的可行性
3.2 方案优化-对初步方案进行调整和完善
3.3 质量保证-确保方案的有效执行和交付
3.4 成效评估-量化方案成果,评估业务影响,提出未来改进方向
好,现在我们了解到了三个关键词以及十个具体的工作内容,那我们该如何利用这十个流程来解决我们的数据分析工作中碰到的难题。
案例一:"小黄,你以后每周出一份上海分公司的收入分析报告。
这是我刚入职时的真实工作,这项工作有好有坏,好的是分析报告中所有的指标都已固化,坏的是这就是个吃力不讨好的活。但是咱们思考一下,在这项工作中我们需要考虑哪些东西?
1.数据处理策略
2.质量保证
3.成效评估
至于其他的工作,我们也许需要处理,但是没那么着急处理,为什么?
界定问题:这是一份固定分析报告,分析目标和范围很清晰了
解决方案:这份固定分析报告中所有的指标已经被指定,不需要调整
数据需求识别:既然所有指标已经被定好了,我们就不要动脑了
数据可行性评估:分公司的数据总公司可以直接从数据库中拿到;
数据信息解读:你不需要了解这些指标是什么意思;
方案评估、方案优化:既然报告都已经固化了,我们就没有太大必要去思考方案需不需要调整啦。
所以对于这项工作,我们只需要对从系统中获得的数据进行处理,然后生成对应的分析报告并交付即可,该项工作的核心是:保质保量的敏捷交付。
案例二:“小黄,去年哈尔滨这么火,分析一下市场情况如何吧?最好给我个三年收入预测。
领导不知道脑子里面装了什么,上来就让我分析一个这么宏观的东西!我要写得出来我还在这呆着?但是没办法公司花钱就是让你来受苦的。
让我们拆解老板的这个想法
首先:需求十分明确,对市场的现状进行描述并预测未来,
其次没有其次。也就是说十项工作我们只能省略第一项:界定问题。
那我们来思考一下按照流程该怎么解决这个问题
1.1 界定问题-确定分析目标和范围-对市场的现状进行描述并预测未来。
1.2 数据驱动的解决方案
- 探索市场情况分析的常用方法,如 SWOT 分析、PEST分析、波特五力型等
- 研究收入预测的各种模型,如时间序列分析、回归分析、机器学习等
- 评估不同方案的优缺点和适用场景,初步确定分析方法
2.1 数据需求识别:
- 确定市场情况分析所需的数据,如哈尔滨的游客数量、消费情况、酒店入住率等
- 明确收入预测模型的输入变量,如历史收入数据、市场增长率、竞争对手情况等
- 列出所需数据的理想粒度和时间跨度
2.2 数据可行性评估:
- 盘点公司内部已有的相关数据,评估其覆盖程度和质量
- 调研外部数据源,如政府统计局、第三方研究机构等,了解数据获取的可能性和成本
- 权衡数据的需求和可获得性,确定现实的数据集
2.3 数据信息解读
- 仔细阅读和理解每个数据表/字段的业务含义
- 判断数据对分析目标的相关性和重要性
- 初步探索数据的分布特征,如异常值、缺失值等
2.4 数据处理策略
- 制定数据清洗的规则和流程,如异常值处理、缺失值填充等
- 确定数据集成和转换的方法,使各数据源的数据结构和格式统一
- 设计数据建模的步骤,如特征工程、数据抽样等
3.1 方案评估:
- 使用已获得的数据,对拟定的分析方法进行初步测试
- 评估不同方案的结果质量和解释力度
- 选择最终的分析方案,并论证其合理性
3.2 方案优化:
- 根据评估结果,对选定的分析方案进行调整和优化
- 如调整模型参数、增加或剔除特征变量等
- 确保优化后的方案仍在数据可支持的范围内
3.3 质量保证:
- 制定详尽的分析执行计划,明确每一步的输入、输出和责任人
- 设计合理的结果验证和审核机制,如交叉验证、结果复核等
- 建立分析过程的文档和日志,确保分析的可重复和可解释
3.4 成效评估:
- 对市场情况分析的结果进行整理和可视化,提炼关键发现和建议
- 给出三年收入预测的量化结果,并用情景分析等方法说明预测的置信区间
- 评估分析结果对业务决策的指导作用,并提出后续改进分析的思路
数据分析如何界定问题
我怎么确定领导到底在想什么。
作为一名数据分析师,在开始任何分析项目之前,界定问题是至关重要的第一步。这个过程需要仔细梳理需求,明确分析对象和目标,以确保后续的分析工作能够切中要害,提供有价值的洞见。
具体来说,我们需要回答两大类问题:
2.需要解决的具体问题是什么?
这一步需要深入挖掘表面需求背后的实质问题。例如,当一位短视频产品经理提出"希望了解用户对新功能的接受程度"时,我们需要进一步澄清:
- "新功能"的范围:是特指某一项新推出的功能,还是指最近一次版本更新中的所有新功能?
- "用户"的定义:是所有注册用户,还是活跃用户,亦或仅指使用了新功能的用户?
- "接受程度"的衡量标准:是单纯看使用率,还是要综合考虑使用频次、使用时长、满意度等维度?
3.问题需要被解决到什么程度?希望达成的目标是什么?
这一步需要明确需求背后的商业目的。例如,该项需求是为了评估新功能的推广效果,还是为了优化新功能,提升用户体验,进而提高用户粘性?
接着,我们再来思考数据分析常见的问题可以抽象成几类?
不同类型问题解决方案和交付物是什么?
描述现状类问题
问题:短视频平台的整体运营情况如何?各个子品类、区域市场的表现如何?
解决方案:
- 收集和整理平台的各项关键指标数据,如日活跃用户数、人均观看时长、互动率等,
- 对数据进行统计分析,梳理平台的整体表现,
- 按照不同维度(如内容类型、区域等)对数据进行分组分析,识别差异化特征
- 使用数据可视化工具,生成直观易懂的图表和报告。
交付内容:
- 平台整体运营情况分析报告
- 各子品类、区域市场表现对比分析报告
- 数据可视化仪表盘
分析原因类问题
问题:某一类型短视频内容的完播率突然下降的原因是什么?
解决方案:
- 确定完播率下降的具体时间段;
- 收集该时间段内该类内容的各项指标数据,如视频时长、发布时间、主题标签、创作者特征等,
- 对比分析完播率下降前后各指标的变化情况,识别异常波动;
- 使用统计学方法,如相关分析、回归分析等,找出与完播率下降显著相关的因素,
- 根据分析结果,提出优化建议。
交付内容:
- 完播率下降原因分析报告
- 关键影响因素识别与量化分析报告
- 优化建议报告
预测未来类问题
问题:下一季度的用户增长情况如何?
解决方案:
- 收集历史用户数据,包括日活跃用户数、新增用户数、留存率等:
- 收集影响用户增长的外部因素数据,如市场环境、竞品动向等
- 选择合适的时间序列分析和机器学习模型,如 ARIMA、Prophet 等;
- 将历史数据划分为训练集和测试集,训练模型并评估预测效果;
- 使用训练好的模型,结合外部因素,预测未来一个季度的用户增长情况。
交付内容:
- 用户增长预测模型及其评估报告
- 未来一个季度的用户规模预测范围及置信区间
- 用户增长预测分析报告,包括关键假设、影响因素分析等
改善未来类问题
问题:如何优化短视频的推荐策略,提高用户的观看时长和互动率?
解决方案:
- 收集用户的观看行为数据,如观看时长、互动行为、内容偏好等
- 对用户行为数据进行探索性分析,识别不同用户群体的特征和偏好
- 使用机器学习算法,如协同过滤、基于内容的推荐等,构建推荐模型
- 设计并实施 AB 测试,评估不同推荐策略的效果;
- 根据 AB 测试结果,选择最优的推荐策略,并持续监控和优化。
交付内容:
- 用户行为分析报告,包括用户群体划分、偏好分析等
- 推荐算法模型及其离线评估报告
- AB 测试方案设计文档及测试结果分析报告
- 优化后的推荐策略说明文档及上线后的效果跟踪报告
到底什么叫数据分析
数据分析,实际上重要的是“分析“而不是“数据”
对比分析的三种视角
1.相互对比看差异
将两个独立的个体放在一起,通过对比分析它们的区别与联系,这是最常见的分析视角。比如竞品分析,将自家产品与竞争对手的产品进行全方位的比较,从价格、功能、用户体验等多个维度去考量,找出差异化的优势和劣势。
案例:可口可乐和百事可乐的竞品分析。作为碳酸饮料市场的两大巨头,可口可乐和百事可乐在口味、包装、定价、营销等方面展开了长期的较量。通过竞品分析,可口可乐发现百事可乐在年轻群体中更受欢迎,因此在广告投放和社 交媒体运营上加大了对年轻人的吸引力度。
2.总分对比看构成
将整体与部分进行对比,揭示部分对于整体的贡献和影响,这是更加细致入微的分析视角。常见的如贡献度分析,考察各个业务部门、产品线、区域市场等对于公司整体业绩的贡献情况。
案例:蒙牛集团的贡献度分析。蒙牛旗下拥有液态奶、冰淇淋、奶粉等多个品类,每个品类又包含常温、低温等细分产品。通过梳理各个品类的收入利润数据,并计算其占总收入利润的比重,蒙牛可以清晰地了解到底是哪些"拳头产品"在支撑公司的整体业绩,从而在资源投入上有的放矢,
3.前后对比看变化
将同一事物在不同时间点的状态进行对比,揭示事物随时间的变化规律,这是把握发展趋势的有力工具。比如通过对比企业连续几年的财务指标,分析经营状况的变迁脉络。
案例:海尔集团的财务趋势分析。海尔集团在年报中列示了营业收入、净利润、资产负债率等关键财务指标连续十年的数据。通过纵向对比,海尔发现营收和利润整体保持稳定增长,但增速有所放缓,同时资产负债率逐年攀升,存在一定的财务风险。这为海尔及时调整经营策略、优化资本结构提供了重要依据。
发现问题和机会
1.低于目标:实际表现与预期目标之间存在差距,如业绩不达标。
案例:房地产公司的销售目标管理。某房企年初制定了50亿元的全年销售目标,但前三季度累计销售额仅完成20亿元与目标差距甚远。这一落差,直接反映出公司在产品规划、营销策略、渠道管理等方面存在不足,亟需诊断原因、对症下药。
2.状况恶化:现状较之前出现明显下滑,如产品口碑下降。
案例:餐饮企业的用户满意度监测。某火锅连锁店通过满意度调査,发现顾客对食材新鲜度的评价同比下降了10%。这一变化反映出食材采购和仓储管理流程可能出现了问题,若不及时改进,势必影响口碑和营收。满意度的"落差"恰恰为企业敲响了警钟。
3.存在风险:虽然眼下表现尚可,但未来存在较大的不确定性和风险,如市场份额受到挑战
案例:汽车企业的市场份额预警。某国产汽车品牌长期稳居细分市场第一,但最新数据显示,有两个后起之秀的市占率增速已经高于该品牌。这一趋势表明,市场格局正在发生微妙变化,原有的优势地位并非长久稳固。及时捕捉这种"风吹草动",未雨绸缪,方能立于不败之地。