数据分析思考

数据分析工作流程

在我的数据分析职业发展过程中,我从基础的数据提取工作开始,逐步深入到更为复杂和具有战略意义的领域。这包括构建和完善指标体系、设计风险预警模型,以及与多部门协作完成公司整体经营分析等工作。

在这个过程中,我常常思考一个问题:到底是知道要做什么重要还是知道怎么做更重要?

当领导交给你一个陌生的数据分析场景,比如:"小黄,我给你一天时间你给我一份我们公司 Saas 收入分析报告

如果你是我你肯定会想:"我靠,你是不是有毛病啊?我怎么会知道怎么分析啊!"产生这种想法的主要原因是领导其实是很蠢的,他提出的问题往往需要你去猜他在想什么,从而让我们不知道我们该干什么。如果有一个标准化的数据分析流程该多好啊!

这个时候“跨行业数据挖掘标准流程”(CRISP-DM)就是一个很好的解决方案。

按照官方的说法:CRISP-DM 代表跨行业的数据挖掘过程,CRISP-DM 模型是 KDD 模型的一种。CRISP-DM方法论提供了计划数据挖掘项目的结构化方法。这是一种可靠且经过验证的方法。CRISP 提供了一种开放的、可自由使用的数据挖掘标准过程,使数据挖掘适合于商业或研究单位的问题求解策略。它把这个过程定义为六个标准阶段,分别是商业理解、数据理解、数据准备、建立模型、模型评估和模型发布。

但是他还不够好,究其原因在于商业环境中有些内容有些场景在该流程中存在缺失。对此,我们可以在这个模型的基础上进行改造来满足我们的分析需求。

完整的数据分析工作流程是什么样的?

在回答这个问题之前我们先思考一下 CRISP-DM 这个模型的三个关键词是什么?

1.问题定义
1.1 界定问题-确定分析目标和范围
1.2 数据驱动的解决方案-探索可能的分析方法


2.数据收集
2.1 数据需求识别-确定所需数据类型和来源
2.2 数据可行性评估-核实数据的可获取性和合理性
2.3 数据信息解读-理解数据内容和信息价值
2.4 数据处理策略-规划数据的清洗和准备工作


3.方案制定
3.1 方案评估-根据数据验证方案的可行性
3.2 方案优化-对初步方案进行调整和完善
3.3 质量保证-确保方案的有效执行和交付
3.4 成效评估-量化方案成果,评估业务影响,提出未来改进方向

好,现在我们了解到了三个关键词以及十个具体的工作内容,那我们该如何利用这十个流程来解决我们的数据分析工作中碰到的难题。

案例一:"小黄,你以后每周出一份上海分公司的收入分析报告。

这是我刚入职时的真实工作,这项工作有好有坏,好的是分析报告中所有的指标都已固化,坏的是这就是个吃力不讨好的活。但是咱们思考一下,在这项工作中我们需要考虑哪些东西?

1.数据处理策略
2.质量保证
3.成效评估

至于其他的工作,我们也许需要处理,但是没那么着急处理,为什么?

界定问题:这是一份固定分析报告,分析目标和范围很清晰了
解决方案:这份固定分析报告中所有的指标已经被指定,不需要调整
数据需求识别:既然所有指标已经被定好了,我们就不要动脑了
数据可行性评估:分公司的数据总公司可以直接从数据库中拿到;
数据信息解读:你不需要了解这些指标是什么意思;
方案评估、方案优化:既然报告都已经固化了,我们就没有太大必要去思考方案需不需要调整啦。

所以对于这项工作,我们只需要对从系统中获得的数据进行处理,然后生成对应的分析报告并交付即可,该项工作的核心是:保质保量的敏捷交付。

案例二:“小黄,去年哈尔滨这么火,分析一下市场情况如何吧?最好给我个三年收入预测。

领导不知道脑子里面装了什么,上来就让我分析一个这么宏观的东西!我要写得出来我还在这呆着?但是没办法公司花钱就是让你来受苦的。

让我们拆解老板的这个想法
首先:需求十分明确,对市场的现状进行描述并预测未来,
其次没有其次。也就是说十项工作我们只能省略第一项:界定问题。

那我们来思考一下按照流程该怎么解决这个问题
1.1 界定问题-确定分析目标和范围-对市场的现状进行描述并预测未来。

1.2 数据驱动的解决方案

  • 探索市场情况分析的常用方法,如 SWOT 分析、PEST分析、波特五力型等
  • 研究收入预测的各种模型,如时间序列分析、回归分析、机器学习等
  • 评估不同方案的优缺点和适用场景,初步确定分析方法

2.1 数据需求识别:

  • 确定市场情况分析所需的数据,如哈尔滨的游客数量、消费情况、酒店入住率等
  • 明确收入预测模型的输入变量,如历史收入数据、市场增长率、竞争对手情况等
  • 列出所需数据的理想粒度和时间跨度

2.2 数据可行性评估:

  • 盘点公司内部已有的相关数据,评估其覆盖程度和质量
  • 调研外部数据源,如政府统计局、第三方研究机构等,了解数据获取的可能性和成本
  • 权衡数据的需求和可获得性,确定现实的数据集

2.3 数据信息解读

  • 仔细阅读和理解每个数据表/字段的业务含义
  • 判断数据对分析目标的相关性和重要性
  • 初步探索数据的分布特征,如异常值、缺失值等

2.4 数据处理策略

  • 制定数据清洗的规则和流程,如异常值处理、缺失值填充等
  • 确定数据集成和转换的方法,使各数据源的数据结构和格式统一
  • 设计数据建模的步骤,如特征工程、数据抽样等 

3.1 方案评估:

  • 使用已获得的数据,对拟定的分析方法进行初步测试
  • 评估不同方案的结果质量和解释力度
  • 选择最终的分析方案,并论证其合理性

3.2 方案优化:

  • 根据评估结果,对选定的分析方案进行调整和优化
  • 如调整模型参数、增加或剔除特征变量等
  • 确保优化后的方案仍在数据可支持的范围内 

3.3 质量保证:

  • 制定详尽的分析执行计划,明确每一步的输入、输出和责任人
  • 设计合理的结果验证和审核机制,如交叉验证、结果复核等
  • 建立分析过程的文档和日志,确保分析的可重复和可解释

3.4 成效评估:

  • 对市场情况分析的结果进行整理和可视化,提炼关键发现和建议
  • 给出三年收入预测的量化结果,并用情景分析等方法说明预测的置信区间
  • 评估分析结果对业务决策的指导作用,并提出后续改进分析的思路 

数据分析如何界定问题

我怎么确定领导到底在想什么。

作为一名数据分析师,在开始任何分析项目之前,界定问题是至关重要的第一步。这个过程需要仔细梳理需求,明确分析对象和目标,以确保后续的分析工作能够切中要害,提供有价值的洞见。

具体来说,我们需要回答两大类问题:

2.需要解决的具体问题是什么?

这一步需要深入挖掘表面需求背后的实质问题。例如,当一位短视频产品经理提出"希望了解用户对新功能的接受程度"时,我们需要进一步澄清:

  • "新功能"的范围:是特指某一项新推出的功能,还是指最近一次版本更新中的所有新功能?
  • "用户"的定义:是所有注册用户,还是活跃用户,亦或仅指使用了新功能的用户?
  • "接受程度"的衡量标准:是单纯看使用率,还是要综合考虑使用频次、使用时长、满意度等维度? 

3.问题需要被解决到什么程度?希望达成的目标是什么?

这一步需要明确需求背后的商业目的。例如,该项需求是为了评估新功能的推广效果,还是为了优化新功能,提升用户体验,进而提高用户粘性?

接着,我们再来思考数据分析常见的问题可以抽象成几类? 

不同类型问题解决方案和交付物是什么?

描述现状类问题

问题:短视频平台的整体运营情况如何?各个子品类、区域市场的表现如何?

解决方案:

  • 收集和整理平台的各项关键指标数据,如日活跃用户数、人均观看时长、互动率等,
  • 对数据进行统计分析,梳理平台的整体表现,
  • 按照不同维度(如内容类型、区域等)对数据进行分组分析,识别差异化特征
  • 使用数据可视化工具,生成直观易懂的图表和报告。

交付内容:

  • 平台整体运营情况分析报告
  • 各子品类、区域市场表现对比分析报告
  • 数据可视化仪表盘 
分析原因类问题

问题:某一类型短视频内容的完播率突然下降的原因是什么?

解决方案:

  • 确定完播率下降的具体时间段;
  • 收集该时间段内该类内容的各项指标数据,如视频时长、发布时间、主题标签、创作者特征等,
  • 对比分析完播率下降前后各指标的变化情况,识别异常波动;
  • 使用统计学方法,如相关分析、回归分析等,找出与完播率下降显著相关的因素,
  • 根据分析结果,提出优化建议。

交付内容:

  • 完播率下降原因分析报告
  • 关键影响因素识别与量化分析报告
  • 优化建议报告 
预测未来类问题

问题:下一季度的用户增长情况如何?

解决方案:

  • 收集历史用户数据,包括日活跃用户数、新增用户数、留存率等:
  • 收集影响用户增长的外部因素数据,如市场环境、竞品动向等
  • 选择合适的时间序列分析和机器学习模型,如 ARIMA、Prophet 等;
  • 将历史数据划分为训练集和测试集,训练模型并评估预测效果;
  • 使用训练好的模型,结合外部因素,预测未来一个季度的用户增长情况。

交付内容:

  • 用户增长预测模型及其评估报告
  • 未来一个季度的用户规模预测范围及置信区间
  • 用户增长预测分析报告,包括关键假设、影响因素分析等 
改善未来类问题

问题:如何优化短视频的推荐策略,提高用户的观看时长和互动率?

解决方案:

  • 收集用户的观看行为数据,如观看时长、互动行为、内容偏好等
  • 对用户行为数据进行探索性分析,识别不同用户群体的特征和偏好
  • 使用机器学习算法,如协同过滤、基于内容的推荐等,构建推荐模型
  • 设计并实施 AB 测试,评估不同推荐策略的效果;
  • 根据 AB 测试结果,选择最优的推荐策略,并持续监控和优化。

交付内容:

  • 用户行为分析报告,包括用户群体划分、偏好分析等
  • 推荐算法模型及其离线评估报告
  • AB 测试方案设计文档及测试结果分析报告 
  • 优化后的推荐策略说明文档及上线后的效果跟踪报告

到底什么叫数据分析

数据分析,实际上重要的是“分析“而不是“数据”

对比分析的三种视角

1.相互对比看差异

将两个独立的个体放在一起,通过对比分析它们的区别与联系,这是最常见的分析视角。比如竞品分析,将自家产品与竞争对手的产品进行全方位的比较,从价格、功能、用户体验等多个维度去考量,找出差异化的优势和劣势。

案例:可口可乐和百事可乐的竞品分析。作为碳酸饮料市场的两大巨头,可口可乐和百事可乐在口味、包装、定价、营销等方面展开了长期的较量。通过竞品分析,可口可乐发现百事可乐在年轻群体中更受欢迎,因此在广告投放和社 交媒体运营上加大了对年轻人的吸引力度。

2.总分对比看构成

将整体与部分进行对比,揭示部分对于整体的贡献和影响,这是更加细致入微的分析视角。常见的如贡献度分析,考察各个业务部门、产品线、区域市场等对于公司整体业绩的贡献情况。

案例:蒙牛集团的贡献度分析。蒙牛旗下拥有液态奶、冰淇淋、奶粉等多个品类,每个品类又包含常温、低温等细分产品。通过梳理各个品类的收入利润数据,并计算其占总收入利润的比重,蒙牛可以清晰地了解到底是哪些"拳头产品"在支撑公司的整体业绩,从而在资源投入上有的放矢,

3.前后对比看变化

将同一事物在不同时间点的状态进行对比,揭示事物随时间的变化规律,这是把握发展趋势的有力工具。比如通过对比企业连续几年的财务指标,分析经营状况的变迁脉络。

案例:海尔集团的财务趋势分析。海尔集团在年报中列示了营业收入、净利润、资产负债率等关键财务指标连续十年的数据。通过纵向对比,海尔发现营收和利润整体保持稳定增长,但增速有所放缓,同时资产负债率逐年攀升,存在一定的财务风险。这为海尔及时调整经营策略、优化资本结构提供了重要依据。

发现问题和机会

1.低于目标:实际表现与预期目标之间存在差距,如业绩不达标。

案例:房地产公司的销售目标管理。某房企年初制定了50亿元的全年销售目标,但前三季度累计销售额仅完成20亿元与目标差距甚远。这一落差,直接反映出公司在产品规划、营销策略、渠道管理等方面存在不足,亟需诊断原因、对症下药。

2.状况恶化:现状较之前出现明显下滑,如产品口碑下降。

案例:餐饮企业的用户满意度监测。某火锅连锁店通过满意度调査,发现顾客对食材新鲜度的评价同比下降了10%。这一变化反映出食材采购和仓储管理流程可能出现了问题,若不及时改进,势必影响口碑和营收。满意度的"落差"恰恰为企业敲响了警钟。

3.存在风险:虽然眼下表现尚可,但未来存在较大的不确定性和风险,如市场份额受到挑战

案例:汽车企业的市场份额预警。某国产汽车品牌长期稳居细分市场第一,但最新数据显示,有两个后起之秀的市占率增速已经高于该品牌。这一趋势表明,市场格局正在发生微妙变化,原有的优势地位并非长久稳固。及时捕捉这种"风吹草动",未雨绸缪,方能立于不败之地。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/31082.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Rust中的数据抓取:代理和scraper的协同工作

一、数据抓取的基本概念 数据抓取,又称网络爬虫或网页爬虫,是一种自动从互联网上提取信息的程序。这些信息可以是文本、图片、音频、视频等,用于数据分析、市场研究或内容聚合。 为什么选择Rust进行数据抓取? 性能:…

第22篇 Intel FPGA Monitor Program的使用<五>

Q:如何用Intel FPGA Monitor Program创建C语言工程并运行呢? A:总体过程与创建汇编语言工程类似,不同的是在指定程序类型时选择C Program。 后续用到DE2-115开发板的硬件如LED、SW和HEX等外设时,还需要将描述定义这些…

【机器学习】机器的登神长阶——AIGC

目录 什么是AIGC 普通用户接触AIGC网站推荐 通义千问 白马 普通用户如何用好AIGC 关键提示词的作用 AIGC的影响 就业市场: 教育领域: 创意产业: 经济活动: 社交媒体与信息传播: AIGC面临的挑战 什么是AIGC…

Vue68-路由简介

一、路由的应用:(单页面应用) 单页面应用:页面不刷新,但是路径会改变。 二、路由的原理: 2-1、多页面应用: 2-2、路由的相关概念 2-3、前端路由、后端路由 前端路由:你是什么路径…

transformers Model

☆ 问题描述 在 transformers 框架中,Model 模块是核心组件之一,提供了多种预训练模型及其相关功能,广泛应用于自然语言处理(NLP)任务。 ★ 解决方案 # 导入相关文件 from transformers import AutoConfig, AutoM…

【阅读论文】-- SWS:时空核密度可视化的复杂性优化解决方案

SWS: A Complexity-Optimized Solution for Spatial-Temporal Kernel Density Visualization 摘要1 引言2 预备知识2.1 STKDV 问题陈述2.2 基于范围查询的解决方案(RQS) 3 基于滑动窗口的解决方案(SWS)3.1 时间维度的滑动窗口3.2 …

【面试干货】throw 和 throws 的区别

【面试干货】throw 和 throws 的区别 1、throw1.1 示例 2、throws2.1 示例 3、总结 💖The Begin💖点点关注,收藏不迷路💖 在Java中,throw和throws都与异常处理紧密相关,但它们在使用和含义上有明显的区别。…

ElementPlus组件与图标按需自动引入

按需自动引入组件 1. 安装ElementPlus和自动导入ElementPlus组件的插件 pnpm install element-plus pnpm install -D unplugin-vue-components unplugin-auto-import 2. vite.config.ts进行修改 import { defineConfig } from vite import vue from vitejs/plugin-vue // …

T200S4高清4路SDI采集卡

产品简介: 同三维T200S4 4路高清SDI采集卡,可以同时采集4路SDI高清信号,卡上有4个SDI接口1个SDI环出转接口,配件有: 1个转SDI转接线,PCI-E2.0 X4,分辨率最高可以达到1080P/60HZ,带SDK开发包&am…

计算机网络:应用层 - 文件传输协议 FTP 电子邮件

计算机网络:应用层 - 文件传输协议 FTP & 电子邮件 文件传输协议 FTP电子邮件 文件传输协议 FTP 文件传送协议 FTP(File Transfer Protocol),曾是互联网祝频讲解上使用得最广泛的文件传送协议。 其特点是:若要存取一个文件,…

fastadmin中$searchFields解析

在控制器或者模型中添加这个属性: protected $searchFields goods_name,goods_brand,category.name,manystoreShop.name,goods_model; 查询sql拼接就会自携带;原理如下:

算法基础精选题单 模拟 (个人题解)

前言: 从今天开始刷牛客上的这份题单,为暑假的牛客多校集训做准备,题单上一共有237道题,要想在集训开始前刷完难度还是很大的,但我一定会坚持下来,希望在这段时间内我能真正入门算法竞赛。接下来这三道题都…

操作系统实战(一)(PV经典问题之生产者与消费者)

🌈 个人主页:十二月的猫-CSDN博客 🔥 系列专栏: 🏀操作系统 💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光 目录 前言 进程互斥与同步 题目一 题目二 题…

在SQL中使用explode函数展开数组的详细指南

目录 简介示例1:简单数组展开示例2:展开嵌套数组示例3:与其他函数结合使用处理结构体数组示例:展开包含结构体的数组示例2:展开嵌套结构体数组 总结 简介 在处理SQL中的数组数据时,explode函数非常有用。它…

C#——装箱与拆箱详情

装箱与拆箱 装箱: 将值类型转换成引用类型的过程; 拆箱: 把引用类型转为值类型的过程,就是拆箱 装箱 拆箱

洗地机哪个品牌好?四大实力拔尖单品力荐

洗地机哪个品牌好呢?想必姐妹们肯定觉得保持家里清洁是非常重要的,但是每天打扫卫生真的会让人整个都要疯狂,这不,救星洗地机就能派上用场了,干垃圾湿垃圾统统都能一次清理干净。只需轻轻一推,就能把扫地、…

帝国cms批量取消文章审核-把已审核的文章改成未审核的方法

帝国cms很多人采集的时候,把文章弄成了审核过的文章,或者因为其他的原因,文章都是审核通过,为了seo又不能把全部文章放出来,所以需要把文章弄成未审核以下就是解决本问题的办法 首先来修改后台列表文件,自…

栈,队列,数组,链表

一.数据结构概述 数据结构是计算机底层存储,组织数据的方式。 是指数据相互之间是以什么方式排列在一起的。 数据结构是为了更加方便的管理和使用数据,需要结合具体的业务场景来进行选择。 一般情况下,精心选择的数据结构可以来更高的运行或者存储效率。 二.学好数据结构三大…

Leetcode - 132双周赛

目录 一、3174. 清除数字 二、3175. 找到连续赢 K 场比赛的第一位玩家 三、3176. 求出最长好子序列 I 四、3177. 求出最长好子序列 II 一、3174. 清除数字 本题可以使用栈来模拟,遇到数字弹出栈顶元素,遇到字母入栈。 代码如下: //使用字…

VMware虚拟机卡顿(虚拟机卡死)(调整所有虚拟机内存使其适应预留的主机 RAM (F)、默认进程优先级、不允许使用内存页面修整功能(M))

文章目录 设置编辑——首选项——内存——额外内存——调整所有虚拟机内存使其适应预留的主机 RAM (F)(我把这个勾上了)编辑——首选项——优先级——默认进程优先级虚拟机——设置——选项——高级——不允许使用内存页面修整功能(M) 参考文章&#xff…