美国Ebay公司成立于1995年的圣何塞,是一家可让全球民众上网买卖物品的线上拍卖及购物网站。本文将结合Ebay(某类体育用品的)在线拍卖数据,主要使用Excel数据透视表为工具,来实现简易的交互式数据面板以求对数据进行可视化及分析。
(本文后续将简称数据透视表为PV表;简称交互式数据面板为Dashboard。)
Ebay拍卖数据来源(原作者已经解释了采集数据过程中的各种情况,本文不再翻译。且原作者主要使用R为工具结合机器学习的方法进行数据分析,后续的文章会补充。另,实验楼有使用python研究同一数据集的相关练习)
http://jaygrossman.com/post/2013/06/10/Predicting-eBay-Auction-Sales-with-Machine-Learning.aspxjaygrossman.com摩托销售数据来源
Sample Sales Datawww.kaggle.com探索数据集
拿到一个数据集之后,我通常都会思考一些问题。诸如:这个dataset从何而来?了解基本背景后再观察收录了哪些变量和数据?其中有多少组数据?时间和空间的跨度是否重要?如果重要的话,跨度是多大呢?......
以这个Ebay Dataset为例:
(通常情况下,数字信息变量(numeric variable)才是数据分析的重点,而文字变量(string variable)通常不是数据分析伊始要关注的重点)
明确需要分析的问题
当我了解一个数据集的基本情况后,a)我已经明确知道需要探索哪些要分析的问题;b)我不知道,那么我可以通过Dashboard来轻松地了解数据集的更多基本信息。
使用相关变量及选取合适的分析方法来回答问题
本文将用到的分析方法:
- 关键绩效指标 KPI/ Key Metrics:凸显关键指标
例:判断是否为"皇冠卖家“(IsHOF)对价格和出价次数的影响?(没有使用hypothesis test的观察结果)
- 趋势分析法 Trend Analysis:常用折线图来体现某一变量的发展趋势
例:摩托销售数据集中销售总额与时间的关系(没有使用hypothesis test的观察结果)
- 对比分析法 Comparison Analysis:常用柱状图来进行对比可视化
例:Ebay Dataset中产品范围与售价的关系图(没有使用hypothesis test的观察结果)
- 排名分析法 Rank Analysis:寻找重点/大比重
例:找出Ebay Dataset中销售量最多的前十款产品的产品sku(category)及其销售额(没有使用hypothesis test的观察结果)
可视化结果并使得面板能“互动”
以摩托车销售数据为例子(因为电脑太烫了带不动Ebay那个表了-.-):
- 新建一个名为dashboard的excel sheet
- 将各个pv表或图或图表一起(1. 销售总额&时间;2.销售总额&产品)迁移统一迁移到新的dashboard sheet(迁移在Excel pv表分析栏中)
- 在dashboard sheet中,插入相关slicer(筛选条件)。比如使用筛选条件为芬兰时,dashboard将会自动显示该国家和销售额以及产品之间的关系。
- 记得在pv表分析栏中report connection,即把dashboard sheet和pv表和图与筛选条件连接起来。
- 最终效果(如视频所示)
新人写东西,求高抬贵手别骂我,大神别吐槽。感恩!欢迎指正!
如有疑问,可去观看视频。https://www.bilibili.com/video/av24987555/?p=23