以下是基于一小段用户关注产品的行为数据分析过程详细描述,各位老师如有不同意见或优化建议,还请不吝赐教。
一、数据大致是这样的(已经脱敏处理)
二、数据预处理
从年款提取出年限,从价格标识出价格区间,随便写一下SQL如下:
Select 城市,品牌,2016-substr(年款,1,4) as 年限
,case when
报价<=5 then ‘0~5’
when 报价>5 and 报价<10
then ‘5~10’
when 报价>10 and 报价<15
then ‘10~15’
when 报价>15 and 报价<20
then ‘15~20’
when 报价>20 and 报价<50
then ‘20~50’
Else ‘50以上’end as
报价区间
From 分析表
三、基础描述统计
基础分析一般对数据进行简单的整合操作,描述通过数据能够直观看到的结论,比如:
各地区的用户量占比—反映不同地区的需求量级
各地区的关注品牌top
10%—反映不同地区的品牌需求差异
不同品牌的价格区间—反映用户对于价格的关注情况
年限与价格的变化趋势—新人会觉得这个可以用一下相关分析之类的,其实没有太大必要。
因为,既定报价是受相对严格的市场规则调控的,而本次分析的目的是针对用户对于既定已在线产品的关注度,因此,价格并不是本次分析的主体。
这也响应上一篇文章,并不是越专业的分析越实用。
四、用户聚类
这个分两步,第一步是对数据进行再处理;第二步是分析(SPSS K-means聚类)。
处理结果是将用户日志数据,转变为对每个用户的行为统计数据,基本包括每个用户的关注次数、关注不同品牌数,同一品牌反复关注次数,关注不同价格区间的次数等,大致如下:
第二步是利用SPSS进行聚类分析,并将分析结果翻译为可读性较强的报告,用的是最基本的K-means聚类,以下是部分聚类结果:
结果解读起来并不费劲儿,大致用户划分为3类,每一类的描述数据如表最终聚类中心所示,每一类的用户数量即案例数如表案例数所示。
举例如第一类,可以解释为关注低价品牌的用户数量相对较少,对于品牌的选择也较少(从现实的市场角度讲,应是这部分价格区间的品牌类型本身就少的原因),但反复查看次数多,一定程度上不太利于成交。
以上。