excel按季度分类汇总_Excel数据分析实战(1)--电商销售记录分析

Excel是市面上最流行的办公软件之一,也是数据分析师入门最好的学习工具。因为其功能强大、操作简单,可以快速对数据进行清洗,建模,可视化,操作者不需要其他计算机基础也能快速上手。所以选择Excel进行数据分析入门的项目实战工具是比较合适的。

数据来源:

Baby Goods Info Data-数据集-阿里云天池​tianchi.aliyun.com
6e4c105a9699461890ed25f575ebb022.png

1)明确问题

在开始分析之前,我们要明确我们要研究的目的,围绕着这个主题展开分析。面对海量数据,可获得的信息太多了,很容易就在数据里面迷失了方向,最后花了很多时间也不一定能找到对我们解决问题有价值的信息。我们需要明确我们要解决问题是什么,针对问题进行分解,通过分析逐步锁定关键因素,高效地解决问题。

以下是在大概熟悉数据后,我们可以研究的方向:

  1. 那些时候销售情况比较好,销售量比较高?
  2. 畅销的商品类别有哪些?
  3. 用户的购买行为与婴儿年龄、婴儿性别是否有关,能否根据购买行为预测孩子年龄、性别;或者根据孩子年龄和性别预测用户购买哪种商品?

2)理解数据

62ee06264377279ccafe3e63c9c460b8.png
表1购买商品 - 原始数据

表1购买商品表共29972条数据,包括7个字段,分别是

user_id,用户ID(外键)。表示某交易记录的购买用户,可以在表2中查询到相应用户的婴儿信息,可用于分析婴儿特征。

auction_id,交易记录ID(主键)。与用户ID共同构成此表的主键,唯一标识购买记录。

cat1,商品的一级分类ID。

cat_id,商品的二级分类ID。与一级商品分类ID构成从属关系,也就是二级分类从属于某一商品一级分类。可以统计分析某一类商品的销量,找出销量较好的商品种类及原因。

property,具体商品属性,有144个缺失值。

buy_mount,购买数量,可以分析购买特定商品的每单购买量,从而汇总得到购买频次,有助于预测最佳库存水平。

day,购买时间。通过分析购买时间,可以得到顾客集中购买的时间段,分析集中购买的原因,针对性开展营销活动。

89db0cd079f67de3ac41281f7fb902a1.png
表2 婴儿信息 - 原始数据

表2婴儿信息表954条数据,包括3个字段,分别是:

user_id,用户ID(主键),唯一标识用户信息。

birthday,婴儿出生日期,代表着婴儿的年龄信息,可以汇总不同年龄段婴儿对商品种类的需求,以便展开精准营销。

gender,婴儿性别。可以研究婴儿性别对不同商品的种类需求,以便展开精准营销。

这两个表的用户ID字段表示的信息是一致的。

3)清洗数据

3.1修改列名

把英文字段名称修改为中文。大部分从数据库取出的数据字段为英文,转化为自己理解的中文,更方便我们操纵数据。

7be3d04fb90d8f42ca03b2a810d85202.png
表1购买商品-修改列名

44dfa9a7adc6f9d1a588b6aa01c783e1.png
表2婴儿信息-修改列名

3.2删除重复值:主键(用户ID,交易记录ID),唯一标识购买记录。以用户ID+交易记录ID字段为条件,在excel进行中删除重复值操作,结果为无重复值。表明该数据集较规范不需要过多清洗。

3.3缺失值处理:只有具体商品属性有缺失值,不影响分析结果,不处理。

3.4一致化处理:

有些数据并不是我们想要的格式,通过一致化处理把原始数据转化成便于操作的数据格式。

购买日期数据类型为常规数值型,通过分列转化为日期型。

e0e08fd65c7546f1f37db5105c57f9f6.png
购买日期一致化处理(前)

2553b3f1be3c0d6a060d0bb5da3be56a.png
购买日期一致化处理(后)

同样处理表2的婴儿出生日期

560f3d4fb7f640a9e6a03ba2bfa03e5a.png
婴儿出生日期一致化处理(后)

4)分析/建模

4.1哪些时候销售情况比较好?销售量比较高?

因为某些年份的统计数据不完全,所以不能按年汇总统计比较销售量,我们可以选择按季度汇总统计,可以看出销售量存在季节性,每年的第一二三四季度销售量逐步攀升,总体呈上升趋势。由于2015年第一季度的数据不完全,导致呈现的销售量数值偏低。证明国内婴儿食品的消费市场快速增长,消费潜力巨大。

1657971da5ec5267c01efd5095d6c2d8.png
各季度销量汇总

把月销量整理到新的工作表区域,用描述统计工具对月销量进行描述统计汇总分析。结果如下,可以看出平均值偏高,标准差较大,证明月销量分布极度不平均,波动程度大,需要某些月份进行监控,防止出现库存严重短缺或严重积压的情况,影响正常运营。

614e2a2752bd730e3917aaa76af64e06.png
月销量描述统计

把精度细化到月份,可以看到2014年11月的销售量特别巨大,婴儿食品销售量为13044,是去年同期销量的5倍多。大致原因推测为双十一促销活动的成功导致当月销售量激增。可进一步分析双十一促销效果,制定合理的营销策略,配合相应的库存策略,应对集中的需求。

52fb9b343b2331702c4218d8c5cc2e15.png
月销量汇总

4.2畅销的商品类别有哪些?

对不同商品种类(一级分类)的销售量进行汇总统计,按销售量从大到小排序,发现销量集中在前三种类别的商品。

ac4569bd83f4aa2be5b51a7f3bebee89.png
一级分类销售量排行

接下来分析哪些商品(二级分类)比较畅销

做辅助列,合并成“商品一级分类ID-商品二级分类ID“的形式,命名为商品ID

显示销售量前10商品。由图可以看出一级分类ID为50014815,二级分类ID为50018831的商品销售量特别大,甚至是销量第二的3.5倍。可以说是婴儿食品里面的爆款了,需要进一步分析其销量领先的原因。

3f82d9c1dd8f0b737e625b2c084c6722.png
二级分类销售排行

为了快速对不同商品分类的销量进行分析,对商品一级分类ID、二级分类ID进行切片。

排名第一,ID为50014815-50018831的每月销量情况如下图:

除了每年11月份销量有所上涨外,其余各月销量基本低于120。2014年十一月份销量突然猛增,是使其成为销量冠军的主要原因,但是后续市场反应也平平,需要关注产品本身的质量问题。

4a950350dfb03aea7ec6ee0eb8b37606.png
ID为50014815-50018831的月销量情况

4.3用户的购买行为与婴儿年龄、婴儿性别是否有关,能否根据购买行为预测孩子年龄、性别;或者根据孩子年龄和性别预测用户购买哪种商品?

进行多表连接查询:利用vlookup查询对应用户的婴儿出生日期、婴儿性别记录,把查询得到的结果复制粘贴到新工作表,

婴儿性别为无性别(值为2)的比例很小,删除此部分数据

计算得到婴儿年龄,存在负值统一处理为0。使用Excel加载项-数据分析工具,进行描述统计分析。可见婴儿年龄数据在0-2829周岁之间,范围较广,中位数和平均值相差较多,分布不均匀,标准差也比较大,波动程度较大。

02b6527adecd4eb8f9166ce4d7da59f1.png

为了方便统计分类,新增一列“阶段”,将年龄向下取整,得到分布情况如下

a8ca7baf10256bb9a6afbe2bd6249836.png
婴儿年龄分布

统计汇总结果反映婴儿年龄结构,可见到6岁以上各项占比很少,归为一类“六周岁以上”。将年龄为0的数据根据实际意义改成“一周岁以下 ”,整理后婴儿年龄分布情况如下。

8af8ea1e69fc41b5a4b6a9269d511e4d.png
整理后-婴儿年龄分布

婴儿性别分布

可见婴儿男女比例较均衡。

6cbd5d5f351a34c60c43027a1f1d7e01.png
婴儿男女比例

对不同一级分类商品购买者婴儿年龄的平均值和标准差进行计算,初步得出不同商品一级分类的目标婴儿群体年龄是不同的,由标准差可看出分布相对较集中的有“38”、“50022520”。如“38”的目标群体在一周岁左右,“50022520“对应目标人群年龄在6个月左右。可以通过购买的商品一级分类推出婴儿的年龄处于哪个阶段。

6153710b53cd137c311cb08a5a8db2e8.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/411290.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[Silverlight]奇技银巧系列-2

Silverlight奇技银巧系列: 所有该系列中的文章只为介绍一些Silverlight中或隐藏在Silverlight .NET framework鲜为人知的知识和技巧。这些文章并非教程,也是不是什么技术指导,您只需对文章介绍的内容保有印象。这些知识和技巧也许会在不经意间…

好程序员Java分享Java案例_英汉字典

在写代码的时候,当鼠标悬浮在某一个单词上面的时候,有道词典点有时会弹出一个消息气泡,在里面中给出关于这个单词相关的解释,下面给大家展示一个使用Java基础语言编写的英汉字典案例:   实现功能: …

同事更新几个表_最近计划学习的几个网站资源

在没有明确需要的时候逛知乎,B站什么的随便看教程,发现资源很多,五花八门,但是总也没系统地学习一下。一会儿看一小段,转眼就忘光了,只留下一个刚才我没有在玩耍的错觉。以上是无关紧要的忏悔。接下来主要记…

带有托管代码的InfoPath2007表单模版发布到SharePoint表单库(浏览器方式查看)

在本篇文章中,将与大家分享如何将一个带有托管代码(manage code)的InfoPath2007表单模版发布到SharePoint Server2007的表单库中,并使得最终用户可以通过浏览器方式访问。 1. 创建InfoPath表单模版 在这里,我们使用VSTO2005与InfoPath2007。生成…

cefsharp System.IO.FileNotFoundException: 未能加载文件或程序集“CefSharp.Core.dll”或它的某一个依赖项。...

解决办法 安装vc 2015 Redistributable 64位系统安装x64 如果还报错先装x64版本再装x86版本 https://files.cnblogs.com/files/xuejianxiyang/vc_redist.part1.rarhttps://files.cnblogs.com/files/xuejianxiyang/vc_redist.part2.rarhttps://files.cnblogs.com/files/xuejianx…

7种常用p2p共享协议

一、Napster:第一个大型的;中央集中式;倒闭了;二、Gnutella和Gnutella2:开源的;第一个真正非中心的。Gnutella2是对Gnutella的改进和扩展。三、FastTrack:第一个客户端是KazaA。协议与Gnutella类…

c++中怎么数组内有用元素的个数_前端面试(算法篇) - 数组乱序

一、面试题问:有一个长度为 100 的数组,如何从中随机挑选 50 个元素,组成一个新的数组?答:这个...那个...emmmmmm问:那先不挑 50 个,就挑一个数,知道怎么做吗?答&#xf…

axios+Vant+vue+jq重构jq月经周期计算器源代码(兼容移动端)

我是歌谣 代码重构不易 公众号关注小歌谣 前言 网络上流行了一款jq生成月经计算器的代码 是这样的 实现效果如图所示 本次讲解就是说明如何用VantjqVue实现此代码的重构 先看一眼重构演示的效果 这个是可以直接进行接口调用的 首先我们看一眼目录结构 我们这边贴出我自己手…

html页面高度设为自动,html – CSS:响应式布局中的高度自动问题

没有固定的正确高度.如果我在css中设置固定高度,则在响应式布局中,图像将不会以正确的宽高比调整大小.主要问题是css根据src-attribute设置的图像计算自动高度和宽高比,而不是width-和height-attribute.因此,如果有一个有宽度和高度的真实图像,一切正常.但是如果有一个空白(这只…

MVC Controller与ActionResult的返回值

Action的要求• 必须是一个公有方法• 必须返回ActionResult类型• 必须是实例方法• 不能是范型方法• 没有标注NonActionAttribute• 不能被重载(overload) Controller 提供了众多的方法让我们返回各种类型的 ActionResult。 1. View最常用的一种&…

事务处理

第13章 事务处理 事务处理是包含一个或多个任务的一组关联操作的提交或回滚操作。在事务执行的过程中,保证事务具有基本的ACID属性(原子、一致性、隔离和持久性)。.NET Framework的事务管理支持多种事务处理方式,包括显性事务和隐…

为多孔介质的当量直径_多孔介质流建模简介

拥有一款先进的多孔介质建模工具,是许多行业的刚性需求。COMSOL Multiphysics 软件 5.5 版本新增的附加产品——多孔介质流模块,可以满足众多行业的需求。使用该模块可以定量研究多孔介质中的质量、动量和能量传递。该模块适用于燃料电池、纸浆和纸张干燥…

北航计算机网络 传输层实验,北航研究生计算机网络实验_实验七 传输层实验

** 这个实验我没有约到没有问题的机子(连续三台机子都是坏的...)因此仅供参考1、根据2.6中步骤3回答:TCP的连接和建立采用的是:三次握手方式,PCA是主动打开方(C),PCB是被动打开方(S)。先点击发送再点击接收,会出现什么…

python 竖线 绘图_Python可视化 | Seaborn5分钟入门(二)——barplot countplot

Seaborn是基于matplotlib的Python可视化库。 它提供了一个高级界面来绘制有吸引力的统计图形。Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,不需要经过大量的调整就能使你的图变得精致。注:所有代码均在IP…

计算机网络工程综合布线目的,弱电工程综合布线系统与计算机网络布线系统有何不同?【网络综合布线】...

弱电工程的综合布线是模块化和灵活的建筑物或建筑物之间的信息传输通道。 综合配电系统可以连接到声音设备、数据设备、开关设备和各种控制设备和信息管理系统。 同时,它还使这些设备与外部通信网络连接起来。弱电工程综合布线系统与计算机网络布线系统有何不同..弱…

计算机专硕专业课单科分数线,计算机考研|这两所自划线,单科没过线也能复试?...

原标题:计算机考研|这两所自划线,单科没过线也能复试?东南、浙大!单科没过线也能复试!关注量子考研公众号,获取最新计算机考研咨询1.东南大学:统考考生(不含报考苏州联合研究生院考生和管理类联…

Saltstack_使用指南17_salt-ssh

1. 主机规划 salt 版本 1 [rootsalt100 ~]# salt --version 2 salt 2018.3.3 (Oxygen) 3 [rootsalt100 ~]# salt-minion --version 4 salt-minion 2018.3.3 (Oxygen) salt ssh文档 https://docs.saltstack.com/en/latest/topics/ssh/index.html 2. salt-ssh实现步骤 2.1. 部署s…

新手入门:AIX操作系统安装图解

AIX(Advanced Interactive Executive)是IBM 公司的UNIX操作系统,它特别适合于做关键数据处理。2002年IBM发布了AIX 5.2版。 下面就以该版本为例来介绍IBM的AIX操作系统的安装,主要介绍在IBM P630机器上如何使用AIX软件的光盘&…

华为荣耀9x怎么解账户锁_麒麟820,4000万像素,荣耀X10是下一部千元街机?

哈喽黑粉们,欢迎来到黑马公社。最近发布的新机很多,其中之一就是黑马此前和大家聊过多次的荣耀X10。这款新机于昨天5月20日发布,表现怎么样呢?今天黑马就来聊聊这款新机。和此前爆料的一样,荣耀X10采用了升降式设计&am…

关键词提取算法

1、先给本聚类内的所有文档进行分词,然后用一个字典保存每个词出现的次数;2、遍历每个词,得到每个词在所有文档里的IDF值,和在本聚类内出现的次数(TF)相乘的值;3、用一个字典(key是词,value是TF*IDF权重)来…