用户画像系统
1 用户画像概述
1.1 什么是用户画像
用户画像就是对现实世界中用户的数学建模。现实世界的用户通过自己各种各样的行为,浏览购买,或者收藏,等等这些行为会把自己的兴趣爱好等体现在这些行为中,比如喜欢看书就会有很多购买书的行为,行为就会把兴趣爱好暴露出来,我们就是要基于用户建模,把他兴趣的维度给划分清楚体现出来,才能充分了解用户。
用户画像是描述用户的数据,是符合特定需求的对用户形式化的描述,源于现实又高于现实。用户画像是通过分析挖掘用户尽可能得到多的数据信息。
1.2 用户画像作用
用户精细化营销:广告推送给谁,优惠券如何发放等
商户精细化支持:活动精准推送,定价策略
个性化:商品推荐,购物推荐
趋势预测:销售预测,票房预测
大数据报告:
2 用户标签画像
2.1 什么是标签
标签是某一种用户特征的符号表示,在商家眼里你会被贴上各种各样的标签比如男性,高富帅,高学历等等。一个人有很多标签,当商家想要了解客户的时候就要基于这些标签来生成用户画像,所以用户画像其实就是一个整体,包含了多个维度(由不同的标签的集合组成的),所以,用户画像可以用标签的集合来表示。
2.2 用户标签的数学描述
用户标签的数学表示就是维度和特征空间,标签是特征空间中的维度,比如说你的基本信息就是你的性别和年龄,通过性别和年龄构成一个二维空间,这个二维空间可以把任何用户放到这个空间中去,这个二维空间就是非常简单的特征空间。在实际当中你的标签可能上百,上千,上万个。
每个标签都是特征空间中的基向量(向量:有方向有大小的量),基向量之间有关联,不一定是正交的
用户画像本质就是特征空间中的高维向量
用户标签举例引用下图
3 用户画像系统流程
总体来用,可以分成离线部分和在线部分,用户画像所需要的基础数据需要离线的先存储下来,再基于里面的数据进行建模,在线部分使得业务更加完善更加充实,所以总体大的部分是在离线这一端去做的。传统数据仓库也是一样的,在数据仓库中按照主题建模也会包含到用户画像这个过程。
流程分为5个步骤:
(1)明确问题:①追求数据的的匹配;②明确需求,是分类问题,还是聚类问题,还是推荐等③数据的规模,重要特征的覆盖度等
(2)数据预处理:进来的数据是多种多样的,如日志数据,第三方合作伙伴传过来接口的数据,这些数据都不是很规范,对同一个维度的表述有各自的标准,比如说男女的描述,有些用M|F,有些用0|1表示。①数据的集成,数据的冗余,数值的冲突,②数据采样③数据清洗,缺失值处理,噪声数据
(3)特征工程:①特征提取,业务日志,web抓取的数据,第三方数据②特征处理,特征清洗,特征预处理,如值处理,特征选择,特征组合,降维③特征监控,指标的实效性,覆盖率,异常值
(4)模型算法:统计,分类,回归,聚类,语义,高维偏好等
(5)产生:如个性化推荐,个性化广告
4 用户画像架构
5 性别预测分析步骤
(1)明确问题:①属于数据挖掘中的哪一类分类,聚类还是推荐等?年龄预测属于分类问题;②数据集规模,数据集是否够大?分类需要大数据集;③问题假设,数据是否满足所有问题的假设?男女的行为是否不同,比如买手机行为不带有性别特征,买口红,香烟等就带有性别特征。
(2)数据预处理:
(3)特征工程:①单个特征分析:1)数值型特征的处理,如使用app时长,可用高,中,低三个档次,将启动次数分段成离散值;2)类别型特征的处理,如用户使用的设备是华为,或者小米,这是类别特征,可用采用0-1编码来处理;3)数据归一化。
②多个特征分析:1)设备类型是否决定了类型?做相关性分析,计算相关系数。2)app启动次数和停留时长完全正相关,结果表明特别相关,去掉停留时长或启动次数;2)如果特征太多,需要做降维处理
③文本数据处理的典型步骤:网页-》分词-》去停用次-》向量化。 分词可以采用jieba分词;去停用词,停用词表除了加入常规的停用词外,还可将DF较高的词加入停用词表;向量化一般是将文本转换为TF或TF-IDF向量
④算法和模型:1:)选择算法需要考虑的因素,如训练集的大小,特征维度的大小,要解决的问题是否是线性可分的,所有特征是独立的吗,需不需要考虑过拟合问题,对性能有哪些要求等。
⑤算法和模型的评价:分类模型采用混淆矩阵,可参见分类模型评估的文章https://blog.csdn.net/weixin_43786255/article/details/100174121