你好,我是周大壮。
01 讲我们提到了个性化流量分发体系的四个阶段,并着重讲解了数据采集阶段的内容。那么,这一讲我们主要围绕数据加工阶段的内容进行详细讲解。
在课程开始之前,我们先举一个场景进行说明。
近年来,互联网上充斥着纷繁芜杂的信息,比如文字、图像、声音、视频等,这些信息都是非结构化,而用户在浏览这些信息时会同时做出各种各样的行为,因此,如果想要实现信息与用户之间的高效连接,我们必须建立标准的用户行为规范和内容规范,这也是在数据加工阶段的核心工作内容。
在个性化流量分发体系中,数据加工阶段主要包含用户标签体系和物品标签体系建设工作,即结构化标准体系建设。在这个过程中,我们需要将用户基础数据、物品基础数据、采集的行为数据等进行清洗、抽取、关联等,最终形成用户标签和物品标签。
其中,用户标签是用户的结构化基础,物品标签是物品的结构化基础,为后续用户画像和物品画像的产出提供必要的材料和关联基础。推荐算法依据结构化数据对用户和物品进行理解,从而提高流量分发的精度。
用户结构化基础:用户标签
因为用户标签面向各个业务,所以用户标签被应用到实际业务之前,我们需要先深刻理解各个业务,再通过标签加工的方式找到该业务体系下有区分度的标签,这里所说的有区分度的标签指的就是用户标签。
一般来说,用户标签分为基本信息、统计标签、偏好标签、分类标签这四类。
-
基本信息:比如用户 ID、注册时间、设备类型等标签,这些标签都是通过线上系统或其他方式直接获取的,不需要任何加工。
-
统计标签:指的是基于事实数据的直接统计结果,比如超市最近三个月日均支付金额、最近三个月登录次数、历史累计好评数等标签通过汇总历史数据即可生成。
-
偏好标签:指通过汇总用户一段时间内的相关行为,并按行为加权生成的标签。这类标签主要根据用户行为计算而得,反应了用户一段时间内的兴趣点,比如用户的品牌偏好、各级类目偏好等。这些标签并不涉及复杂的机器学习算法,但是不同标签的加工过程存在差异化和个性化。
-
分类标签:比如预测性别、预测是否有车有房、预测是否已婚已育等标签,它们的每个类别都有明确的定义。因为这类标签的生成一般涉及复杂的算法逻辑,所以常常需要借助机器学习算法。
在上述 4 种标签类别中,因基础信息和统计标签获取过程不涉及任何算法,理解起来相对比较简单,因此这一讲我们不着重讨论。接下来我们主要细聊聊偏好标签和分类标签。
(1)偏好标签
在互联网行业的相关业务场景中,用户对于偏好标签的需求量最大,因为偏好标签通常反映用户在一段时间内的兴趣点,且有可能随着时间的推移发生变化。比如用户购买奶粉段位这个偏好标签会随着时间推移,产生一条从 1段 -> 2段 -> 3段 的变化轨迹。
明白了偏好标签的定义后,我们再一起看看偏好标签具备哪些特点。
-
特点一:无法精确定义偏好度 0 或 1,它仅反映用户在一段时间内的兴趣点,没有绝对意义。比如品牌偏好,我们无法准确定义什么样的用户对肯德基的偏好度是 1,对阿迪达斯的偏好度是 0。
-
特点二:这类标签一般与业务强相关,而在加工这类标签时我们通常没有业务感知,不知道哪些行为权重应该大一些,哪些行为权重应该设小一些,也不知道时间窗口设置多长时间更合适。
-
特点三:没有复杂的算法逻辑,加工过程都是通过加权汇总一段时间内的几种行为后,归一化到 [0, 1]。
根据以上特点,偏好标签主要采用按维度加权汇总用户在某种对象(如品牌名)上的相关行为的加工方式,比如将收藏商品数、加购商品数、浏览商品数、交易商品数等维度进行加权汇总,然后归一化到 [0,1] ,最后取 TopN 或全部输出。
为了方便你理解这部分内容,我把偏好标签的加工过程进行了分解说明。
收集过去 N 天的相关行为数据,用数学公式: Vi,j 表示在第 i 个行为上对第 j 个对象的行为值;
按时间衰减函数数学公式: t(d) 汇总过去 N 天的行为:
对每种行为做归一化:
加权汇总:
这里之所以先对每种行为做归一化,再做加权求和,是因为不同行为的值尺度可能差别很大,如果先做加权求和,很容易导致计算结果只受一种行为的影响,比如浏览次数和购买件数这两个行为尺度相差 10 倍以上。
根据偏好标签的加工流程,我们发现变化的主要是维度、主体、对象、行为、权重这些因子。而在实际操作中,绝大部分偏好标签对时间比较敏感,比如纸尿裤型号会随着宝宝年龄的增长相应发生变化,人的兴趣爱好会随着时间的推移发生变化。因此,在按时间窗口汇总行为时,我们还需要设置一个时间衰减函数,使越久远的历史数据影响越小。
简而言之,在偏好标签的加工过程中,我们只需要配置关键步骤的相关参数,比如指定加工标签需要的行为、标签值、需要的时间范围、按时间衰减时的衰减函数、每种行为的权重等。
(2)分类标签
分类标签与偏好标签的区别是偏好标签归一化后的取值范围为 [0,1],而分类标签的取值落到个体上是非 0 即 1,比如性别、是否有房、是否已婚等。
预测这类标签时,通常需要我们在一定量的标记样本上,通过机器学习算法训练第一个分类模型(二分类或多分类),再预测无法标记标签的更多数据集。
对于头部互联网公司而言,因为它们拥有足够丰富的数据和特征,所以在很多分类问题上,即使使用最简单的逻辑回归模型也能达到不错的预测效果。以性别预测为例,我们仅仅使用电商 App 买家在类目上的交易或浏览行为就能达到 75%以上的预测准确率。
以上我们讲的是如何建立用户标签,接下来聊聊如何建立物品标签。
物品结构化基础:物品标签
在浏览信息时,用户往往希望看到自己钟爱的标签,然后挑选钟爱标签对应的商品,再进入烙印了自己钟爱标签的店铺。在这个过程中,用户不断沉淀了个人的行为标签。
而物品标签就是通过标签这个维度将商品清单等泛内容、 C 端/B 端等泛用户及前台导购投放等运营手段串联起来,再利用标签能力实现对不同商品圈集、不同 B 端圈集、不同 C 端圈集。
物品标签结构
物品标签的标签结构按照标签的组合粒度可以分成基础标签、合成标签、概念标签。
(1)基础标签
基础标签分成内容标签、用户标签、卖家标签、商品标签、业务标签等。
以商品标签为例,商品标签的基础标签指的是文本类标签,主要取自商品的标题、属性等各种用于描述商品的文本信息,类似于属性-属性值。为了方便管理和应用,我们需要对属性进行优化,最终沉淀出一套在整个标签体系中不可再分、最基础的标签。
因此,基础标签是平台最重要、最核心的资产,我们通过基础标签实现了商品——>B 端——>C 端——>内容的串联。
(2)合成标签
合成标签是对基础标签进一步加工的产物。以商品为例,合成标签定义为相似商品的集合,比如欧美高领毛衣、高腰碎花连衣裙等,它们各自由三个基础标签构成(注意:它们是相似商品集,并不仅仅是一条短文本)。
对于商品而言,使用多个标签描述这批商品时,其优点在于可理解、可编辑,因为它是一个中间产物。就像一个积木,我们基于它搭出更多好玩的应用。
虽然合成标签是相似商品的集合,不过也同样适用于用户身上,因此我们也可以使用合成标签对用户进行更细粒度的切分。
(3)概念标签
概念标签的定义范围比较宽,指的是跨品类、跨类目商品的合理组合。
目前,概念标签主要应用在商品上,用来强调商品的合理性。概念标签可以通过基础标签的交并集关系聚合而成,也可以由多个合成标签聚合而成。比如“青春学院风”这个概念标签包含了破洞牛仔裤、韩版T恤、帆布鞋以及斜挎帆布包等商品。
在实际业务中,概念标签的最大价值在于将行业的经验、用户群体的购物偏好等统统沉淀下来,从而为更多用户服务,真正做到了知识的沉淀和复用。
以上我们介绍了物品标签的分类,下面就来介绍物品基础标签的挖掘方法。
标签挖掘
这里我们用集团本地服务业务标签挖掘流程例举一下标签挖掘的过程,整体挖掘过程如下:
通过上图,我们发现整个标签挖掘过程分为备用词发现和备用词优化两阶段。
第一阶段:备用词发现
备用词发现是指利用算法和数据挖掘手段从物品非结构化信息中挖掘标签候选词,这是备用词被挑选为标签之前的过程。
在备选词发现阶段,我们的主要工作是挖掘标签候选词。标签挖掘方法分为找相似挖掘、组合词挖掘、主题词挖掘、热搜词挖掘、图片标签挖掘这 5 种,我们一起讨论下。
1.找相似挖掘
根据前期产品或运营给出的先验标签,我们需要挖掘与已有标签相近的新标签,并对物品实现初步过滤,然后根据词性过滤人称代词、形容词、数词等分词,再通过 TF-IDF 抽取帖子关键词,并训练词向量模型,最后计算与种子词相似的词,并将其作为新的备选词。这里你可以参考我放在文稿中的一张图进行学习。
2.组合词挖掘
组合词是指通过分词工具分出的最小单元词组合而成的新词。
判定一个组合词是否成词时,我们可以使用基于统计规则的方式计算组合词的凝固度、自由度和词频。
比如 “ABC” 是个新词,则 ABC 一起出现的频率应该远大于词各自出现的频率,这就是凝固度,计算公式为:
数学公式:
以最后一个式子说明下,假设 A、B、C 为相互独立的事件,则 ABC 发生的概率为 P'(ABC) = P(A)P(BC),而 P(ABC) 表示 ABC 通过统计而得的真实发生概率。
因此,上式可以理解为 P(ABC)/P'(ABC),比值越大代表 ABC 越不独立,相关性越高,即这几个事件越有可能同时出现,也就是词的内部凝固度高。从互信息的概念来讲,A 和 B、C 联合分布相对于假定 A 和 B、C 独立的情况下的联合分布之间的内在依赖性。
自由度可以理解为组合词可以成词,即作为一个整体,自由度主要通过信息熵来计算,即信息熵越大成词率越高(因篇幅有限,这里就不展开说明)。
词频不必多说,指的就是组合词出现的次数。
说明:该种挖掘方式适用于发现未登录词和根据领域语料发现具有特色的领域词,比如搬家品类这个组合词就可以发现“厢货车”等新词。
3.主题词挖掘
主题词挖掘过程同找相似词一样,它是先对帖子数据进行预处理,再训练 LDA 模型,然后抽取各个类目的主题词作为备选词。
这里我强调一下,虽然这种挖掘方式可以发现帖子主题词,但是主题词设置个数对挖掘效果影响较大。
4.热搜词挖掘
热搜词挖掘过程是先基于用户搜索词日志抽取 TopN 展示 PV 的搜索词作为热搜词,然后去除停用词并做同义词归一化处理,最后将热搜词作为备选词。
5.图片标签挖掘
图片标签挖掘过程为先抽取展示 TopN 的帖子数据,再由图片识别获取图片标签,最后将符合规则的标签作为备选词。
综上,找相似挖掘的方式主要适用于有优质标签的类目,而组合词挖掘与主题词挖掘主要适用于没有标签的类目。
特殊说明:如果我们想把备选词作为入库标签,还需要经过覆盖率、网站爬虫等审核方式,这就涉及第二个阶段的内容讲解。
第二个阶段:备用词优化
通过以上方式,我们已经得到了足够的标签,但入库的标签还存在多种问题,比如多标签同义、负面词标签等。因此,我们还需要通过去除同义词和负面标签对标签数据再优化。
备用词的具体优化流程如下图所示,此处不再展开说明。
以上我们介绍了标签的分类和构建,仅仅做到这样就足够了么?
比如我们已经挖掘了一个“用户年龄”的标签,但经过数据筛选后只选出了几个人,和总体用户相比简直是九牛一毛,此时如果需要针对 20-30 岁的用户进行精准投放,那这样的标签还有什么价值呢?这就涉及接下来我们要讨论的标签质量评估体系。
标签质量评估体系
一般来说,标签被正式应用到业务之前,需要先通过一套完整的评估体系进行评估,评估后一旦发现标签质量过差,则不允许上线。只有待其达到基本质量要求后才允许上线,并开放给业务使用。因为质量过差的标签不仅对业务没有价值,还容易让用户对标签画像系统失去信任。
因此,我们需要对标签的质量进行科学、完整的评估。只有这样,我们才能有效控制标签质量,并指导标签管理者、开发者不断地提升标签质量。
那什么是标签质量评估体系呢?标签质量评估体系主要分为算法指标、业务指标、数据回流这三大部分。
-
算法指标:指在生产标签过程中需要完成的评估指标,包括标签的精准性、标签的覆盖量、标签各取值的占比、标签本身的稳定性等指标。
-
业务指标:主要由业务来定义,同一个标签应用在不同业务上产生的影响和作用可能有所区别,这就需要我们从业务价值和业务影响力两方面来考虑。
-
数据回流:指的是回流标签使用后的用户反馈,主要用于优化标签。
这里我们总结一下:
评估标签质量时,我们首先需要重点考虑算法指标,算法指标没问题后才可以上线,并开放给业务使用;
其次考虑业务指标,因为业务指标是后验,也就是说如果我们想知道一个标签的业务质量情况,必须通过投放测试才行;
最终业务使用标签后的数据会进行回流,用来监控标签应用在业务场景的价值,以便得出一个比较公允的衡量,而这个衡量,对后面标签的优化方向具有很强的指导意义。
小结与预告
《道德经》中说:“万物负阴而抱阳,冲气以为和。”说的是万物总是背离阴而趋向阳,阴阳二气互相冲突交和而成了均匀和谐状态,从而形成新的统一体。
现代数学用“和”表示相加,也包含了局部整合为整体的意思,其中整合形成系统也就是结构化的意思。复合的结构化是“众妙之门”,通过结构化建设,系统将用户和物品进行了关联。
学到这里,恭喜你已经了解了结构化标准建设的内容。对于结构化标准体系建设,你还有哪些不同的见解?欢迎你在留言区与我分享、互动。
另外,如果你觉得本专栏有价值,欢迎分享给更多好友哦~