Excel是市面上最流行的办公软件之一,也是数据分析师入门最好的学习工具。因为其功能强大、操作简单,可以快速对数据进行清洗,建模,可视化,操作者不需要其他计算机基础也能快速上手。所以选择Excel进行数据分析入门的项目实战工具是比较合适的。
数据来源:
Baby Goods Info Data-数据集-阿里云天池tianchi.aliyun.com1)明确问题
在开始分析之前,我们要明确我们要研究的目的,围绕着这个主题展开分析。面对海量数据,可获得的信息太多了,很容易就在数据里面迷失了方向,最后花了很多时间也不一定能找到对我们解决问题有价值的信息。我们需要明确我们要解决问题是什么,针对问题进行分解,通过分析逐步锁定关键因素,高效地解决问题。
以下是在大概熟悉数据后,我们可以研究的方向:
- 那些时候销售情况比较好,销售量比较高?
- 畅销的商品类别有哪些?
- 用户的购买行为与婴儿年龄、婴儿性别是否有关,能否根据购买行为预测孩子年龄、性别;或者根据孩子年龄和性别预测用户购买哪种商品?
2)理解数据
表1购买商品表共29972条数据,包括7个字段,分别是
user_id,用户ID(外键)。表示某交易记录的购买用户,可以在表2中查询到相应用户的婴儿信息,可用于分析婴儿特征。
auction_id,交易记录ID(主键)。与用户ID共同构成此表的主键,唯一标识购买记录。
cat1,商品的一级分类ID。
cat_id,商品的二级分类ID。与一级商品分类ID构成从属关系,也就是二级分类从属于某一商品一级分类。可以统计分析某一类商品的销量,找出销量较好的商品种类及原因。
property,具体商品属性,有144个缺失值。
buy_mount,购买数量,可以分析购买特定商品的每单购买量,从而汇总得到购买频次,有助于预测最佳库存水平。
day,购买时间。通过分析购买时间,可以得到顾客集中购买的时间段,分析集中购买的原因,针对性开展营销活动。
表2婴儿信息表954条数据,包括3个字段,分别是:
user_id,用户ID(主键),唯一标识用户信息。
birthday,婴儿出生日期,代表着婴儿的年龄信息,可以汇总不同年龄段婴儿对商品种类的需求,以便展开精准营销。
gender,婴儿性别。可以研究婴儿性别对不同商品的种类需求,以便展开精准营销。
这两个表的用户ID字段表示的信息是一致的。
3)清洗数据
3.1修改列名
把英文字段名称修改为中文。大部分从数据库取出的数据字段为英文,转化为自己理解的中文,更方便我们操纵数据。
3.2删除重复值:主键(用户ID,交易记录ID),唯一标识购买记录。以用户ID+交易记录ID字段为条件,在excel进行中删除重复值操作,结果为无重复值。表明该数据集较规范不需要过多清洗。
3.3缺失值处理:只有具体商品属性有缺失值,不影响分析结果,不处理。
3.4一致化处理:
有些数据并不是我们想要的格式,通过一致化处理把原始数据转化成便于操作的数据格式。
购买日期数据类型为常规数值型,通过分列转化为日期型。
同样处理表2的婴儿出生日期
4)分析/建模
4.1哪些时候销售情况比较好?销售量比较高?
因为某些年份的统计数据不完全,所以不能按年汇总统计比较销售量,我们可以选择按季度汇总统计,可以看出销售量存在季节性,每年的第一二三四季度销售量逐步攀升,总体呈上升趋势。由于2015年第一季度的数据不完全,导致呈现的销售量数值偏低。证明国内婴儿食品的消费市场快速增长,消费潜力巨大。
把月销量整理到新的工作表区域,用描述统计工具对月销量进行描述统计汇总分析。结果如下,可以看出平均值偏高,标准差较大,证明月销量分布极度不平均,波动程度大,需要某些月份进行监控,防止出现库存严重短缺或严重积压的情况,影响正常运营。
把精度细化到月份,可以看到2014年11月的销售量特别巨大,婴儿食品销售量为13044,是去年同期销量的5倍多。大致原因推测为双十一促销活动的成功导致当月销售量激增。可进一步分析双十一促销效果,制定合理的营销策略,配合相应的库存策略,应对集中的需求。
4.2畅销的商品类别有哪些?
对不同商品种类(一级分类)的销售量进行汇总统计,按销售量从大到小排序,发现销量集中在前三种类别的商品。
接下来分析哪些商品(二级分类)比较畅销
做辅助列,合并成“商品一级分类ID-商品二级分类ID“的形式,命名为商品ID
显示销售量前10商品。由图可以看出一级分类ID为50014815,二级分类ID为50018831的商品销售量特别大,甚至是销量第二的3.5倍。可以说是婴儿食品里面的爆款了,需要进一步分析其销量领先的原因。
为了快速对不同商品分类的销量进行分析,对商品一级分类ID、二级分类ID进行切片。
排名第一,ID为50014815-50018831的每月销量情况如下图:
除了每年11月份销量有所上涨外,其余各月销量基本低于120。2014年十一月份销量突然猛增,是使其成为销量冠军的主要原因,但是后续市场反应也平平,需要关注产品本身的质量问题。
4.3用户的购买行为与婴儿年龄、婴儿性别是否有关,能否根据购买行为预测孩子年龄、性别;或者根据孩子年龄和性别预测用户购买哪种商品?
进行多表连接查询:利用vlookup查询对应用户的婴儿出生日期、婴儿性别记录,把查询得到的结果复制粘贴到新工作表,
婴儿性别为无性别(值为2)的比例很小,删除此部分数据
计算得到婴儿年龄,存在负值统一处理为0。使用Excel加载项-数据分析工具,进行描述统计分析。可见婴儿年龄数据在0-2829周岁之间,范围较广,中位数和平均值相差较多,分布不均匀,标准差也比较大,波动程度较大。
为了方便统计分类,新增一列“阶段”,将年龄向下取整,得到分布情况如下
统计汇总结果反映婴儿年龄结构,可见到6岁以上各项占比很少,归为一类“六周岁以上”。将年龄为0的数据根据实际意义改成“一周岁以下 ”,整理后婴儿年龄分布情况如下。
婴儿性别分布
可见婴儿男女比例较均衡。
对不同一级分类商品购买者婴儿年龄的平均值和标准差进行计算,初步得出不同商品一级分类的目标婴儿群体年龄是不同的,由标准差可看出分布相对较集中的有“38”、“50022520”。如“38”的目标群体在一周岁左右,“50022520“对应目标人群年龄在6个月左右。可以通过购买的商品一级分类推出婴儿的年龄处于哪个阶段。