02 数据加工层 如何搭建用户与内容的标准规范体系

你好,我是周大壮。

01 讲我们提到了个性化流量分发体系的四个阶段,并着重讲解了数据采集阶段的内容。那么,这一讲我们主要围绕数据加工阶段的内容进行详细讲解。

在课程开始之前,我们先举一个场景进行说明。

近年来,互联网上充斥着纷繁芜杂的信息,比如文字、图像、声音、视频等,这些信息都是非结构化,而用户在浏览这些信息时会同时做出各种各样的行为,因此,如果想要实现信息与用户之间的高效连接,我们必须建立标准的用户行为规范和内容规范,这也是在数据加工阶段的核心工作内容。

在个性化流量分发体系中,数据加工阶段主要包含用户标签体系和物品标签体系建设工作,即结构化标准体系建设。在这个过程中,我们需要将用户基础数据、物品基础数据、采集的行为数据等进行清洗、抽取、关联等,最终形成用户标签和物品标签。

其中,用户标签是用户的结构化基础,物品标签是物品的结构化基础,为后续用户画像和物品画像的产出提供必要的材料和关联基础。推荐算法依据结构化数据对用户和物品进行理解,从而提高流量分发的精度。

用户结构化基础:用户标签

因为用户标签面向各个业务,所以用户标签被应用到实际业务之前,我们需要先深刻理解各个业务,再通过标签加工的方式找到该业务体系下有区分度的标签,这里所说的有区分度的标签指的就是用户标签。

一般来说,用户标签分为基本信息、统计标签、偏好标签、分类标签这四类。

  • 基本信息:比如用户 ID、注册时间、设备类型等标签,这些标签都是通过线上系统或其他方式直接获取的,不需要任何加工。

  • 统计标签:指的是基于事实数据的直接统计结果,比如超市最近三个月日均支付金额、最近三个月登录次数、历史累计好评数等标签通过汇总历史数据即可生成。

  • 偏好标签:指通过汇总用户一段时间内的相关行为,并按行为加权生成的标签。这类标签主要根据用户行为计算而得,反应了用户一段时间内的兴趣点,比如用户的品牌偏好、各级类目偏好等。这些标签并不涉及复杂的机器学习算法,但是不同标签的加工过程存在差异化和个性化。

  • 分类标签:比如预测性别、预测是否有车有房、预测是否已婚已育等标签,它们的每个类别都有明确的定义。因为这类标签的生成一般涉及复杂的算法逻辑,所以常常需要借助机器学习算法。

在上述 4 种标签类别中,因基础信息和统计标签获取过程不涉及任何算法,理解起来相对比较简单,因此这一讲我们不着重讨论。接下来我们主要细聊聊偏好标签和分类标签。

(1)偏好标签

在互联网行业的相关业务场景中,用户对于偏好标签的需求量最大,因为偏好标签通常反映用户在一段时间内的兴趣点,且有可能随着时间的推移发生变化。比如用户购买奶粉段位这个偏好标签会随着时间推移,产生一条从 1段 -> 2段 -> 3段 的变化轨迹。

明白了偏好标签的定义后,我们再一起看看偏好标签具备哪些特点。

  • 特点一:无法精确定义偏好度 0 或 1,它仅反映用户在一段时间内的兴趣点,没有绝对意义。比如品牌偏好,我们无法准确定义什么样的用户对肯德基的偏好度是 1,对阿迪达斯的偏好度是 0。

  • 特点二:这类标签一般与业务强相关,而在加工这类标签时我们通常没有业务感知,不知道哪些行为权重应该大一些,哪些行为权重应该设小一些,也不知道时间窗口设置多长时间更合适。

  • 特点三:没有复杂的算法逻辑,加工过程都是通过加权汇总一段时间内的几种行为后,归一化到 [0, 1]。

根据以上特点,偏好标签主要采用按维度加权汇总用户在某种对象(如品牌名)上的相关行为的加工方式,比如将收藏商品数、加购商品数、浏览商品数、交易商品数等维度进行加权汇总,然后归一化到 [0,1] ,最后取 TopN 或全部输出。

为了方便你理解这部分内容,我把偏好标签的加工过程进行了分解说明。

收集过去 N 天的相关行为数据,用数学公式: Vi,j 表示在第 i 个行为上对第 j 个对象的行为值;

按时间衰减函数数学公式: t(d) 汇总过去 N 天的行为:

对每种行为做归一化:

加权汇总:

这里之所以先对每种行为做归一化,再做加权求和,是因为不同行为的值尺度可能差别很大,如果先做加权求和,很容易导致计算结果只受一种行为的影响,比如浏览次数和购买件数这两个行为尺度相差 10 倍以上。

根据偏好标签的加工流程,我们发现变化的主要是维度、主体、对象、行为、权重这些因子。而在实际操作中,绝大部分偏好标签对时间比较敏感,比如纸尿裤型号会随着宝宝年龄的增长相应发生变化,人的兴趣爱好会随着时间的推移发生变化。因此,在按时间窗口汇总行为时,我们还需要设置一个时间衰减函数,使越久远的历史数据影响越小。

简而言之,在偏好标签的加工过程中,我们只需要配置关键步骤的相关参数,比如指定加工标签需要的行为、标签值、需要的时间范围、按时间衰减时的衰减函数、每种行为的权重等。

(2)分类标签

分类标签与偏好标签的区别是偏好标签归一化后的取值范围为 [0,1],而分类标签的取值落到个体上是非 0 即 1,比如性别、是否有房、是否已婚等。

预测这类标签时,通常需要我们在一定量的标记样本上,通过机器学习算法训练第一个分类模型(二分类或多分类),再预测无法标记标签的更多数据集。

对于头部互联网公司而言,因为它们拥有足够丰富的数据和特征,所以在很多分类问题上,即使使用最简单的逻辑回归模型也能达到不错的预测效果。以性别预测为例,我们仅仅使用电商 App 买家在类目上的交易或浏览行为就能达到 75%以上的预测准确率。

以上我们讲的是如何建立用户标签,接下来聊聊如何建立物品标签。

物品结构化基础:物品标签

在浏览信息时,用户往往希望看到自己钟爱的标签,然后挑选钟爱标签对应的商品,再进入烙印了自己钟爱标签的店铺。在这个过程中,用户不断沉淀了个人的行为标签。

而物品标签就是通过标签这个维度将商品清单等泛内容、 C 端/B 端等泛用户及前台导购投放等运营手段串联起来,再利用标签能力实现对不同商品圈集、不同 B 端圈集、不同 C 端圈集。

物品标签结构

物品标签的标签结构按照标签的组合粒度可以分成基础标签、合成标签、概念标签。

(1)基础标签

基础标签分成内容标签、用户标签、卖家标签、商品标签、业务标签等。

以商品标签为例,商品标签的基础标签指的是文本类标签,主要取自商品的标题、属性等各种用于描述商品的文本信息,类似于属性-属性值。为了方便管理和应用,我们需要对属性进行优化,最终沉淀出一套在整个标签体系中不可再分、最基础的标签。

因此,基础标签是平台最重要、最核心的资产,我们通过基础标签实现了商品——>B 端——>C 端——>内容的串联。

(2)合成标签

合成标签是对基础标签进一步加工的产物。以商品为例,合成标签定义为相似商品的集合,比如欧美高领毛衣、高腰碎花连衣裙等,它们各自由三个基础标签构成(注意:它们是相似商品集,并不仅仅是一条短文本)。

对于商品而言,使用多个标签描述这批商品时,其优点在于可理解、可编辑,因为它是一个中间产物。就像一个积木,我们基于它搭出更多好玩的应用。

虽然合成标签是相似商品的集合,不过也同样适用于用户身上,因此我们也可以使用合成标签对用户进行更细粒度的切分。

(3)概念标签

概念标签的定义范围比较宽,指的是跨品类、跨类目商品的合理组合。

目前,概念标签主要应用在商品上,用来强调商品的合理性。概念标签可以通过基础标签的交并集关系聚合而成,也可以由多个合成标签聚合而成。比如“青春学院风”这个概念标签包含了破洞牛仔裤、韩版T恤、帆布鞋以及斜挎帆布包等商品。

在实际业务中,概念标签的最大价值在于将行业的经验、用户群体的购物偏好等统统沉淀下来,从而为更多用户服务,真正做到了知识的沉淀和复用。

以上我们介绍了物品标签的分类,下面就来介绍物品基础标签的挖掘方法。

标签挖掘

这里我们用集团本地服务业务标签挖掘流程例举一下标签挖掘的过程,整体挖掘过程如下:

通过上图,我们发现整个标签挖掘过程分为备用词发现和备用词优化两阶段。

第一阶段:备用词发现

备用词发现是指利用算法和数据挖掘手段从物品非结构化信息中挖掘标签候选词,这是备用词被挑选为标签之前的过程。

在备选词发现阶段,我们的主要工作是挖掘标签候选词。标签挖掘方法分为找相似挖掘、组合词挖掘、主题词挖掘、热搜词挖掘、图片标签挖掘这 5 种,我们一起讨论下。

1.找相似挖掘

根据前期产品或运营给出的先验标签,我们需要挖掘与已有标签相近的新标签,并对物品实现初步过滤,然后根据词性过滤人称代词、形容词、数词等分词,再通过 TF-IDF 抽取帖子关键词,并训练词向量模型,最后计算与种子词相似的词,并将其作为新的备选词。这里你可以参考我放在文稿中的一张图进行学习。

2.组合词挖掘

组合词是指通过分词工具分出的最小单元词组合而成的新词。

判定一个组合词是否成词时,我们可以使用基于统计规则的方式计算组合词的凝固度、自由度和词频。

比如 “ABC” 是个新词,则 ABC 一起出现的频率应该远大于词各自出现的频率,这就是凝固度,计算公式为:

数学公式:

以最后一个式子说明下,假设 A、B、C 为相互独立的事件,则 ABC 发生的概率为 P'(ABC) = P(A)P(BC),而 P(ABC) 表示 ABC 通过统计而得的真实发生概率。

因此,上式可以理解为 P(ABC)/P'(ABC),比值越大代表 ABC 越不独立,相关性越高,即这几个事件越有可能同时出现,也就是词的内部凝固度高。从互信息的概念来讲,A 和 B、C 联合分布相对于假定 A 和 B、C 独立的情况下的联合分布之间的内在依赖性。

自由度可以理解为组合词可以成词,即作为一个整体,自由度主要通过信息熵来计算,即信息熵越大成词率越高(因篇幅有限,这里就不展开说明)。

词频不必多说,指的就是组合词出现的次数。

说明:该种挖掘方式适用于发现未登录词和根据领域语料发现具有特色的领域词,比如搬家品类这个组合词就可以发现“厢货车”等新词。

3.主题词挖掘

主题词挖掘过程同找相似词一样,它是先对帖子数据进行预处理,再训练 LDA 模型,然后抽取各个类目的主题词作为备选词。

这里我强调一下,虽然这种挖掘方式可以发现帖子主题词,但是主题词设置个数对挖掘效果影响较大。

4.热搜词挖掘

热搜词挖掘过程是先基于用户搜索词日志抽取 TopN 展示 PV 的搜索词作为热搜词,然后去除停用词并做同义词归一化处理,最后将热搜词作为备选词。

5.图片标签挖掘

图片标签挖掘过程为先抽取展示 TopN 的帖子数据,再由图片识别获取图片标签,最后将符合规则的标签作为备选词。

综上,找相似挖掘的方式主要适用于有优质标签的类目,而组合词挖掘与主题词挖掘主要适用于没有标签的类目。

特殊说明:如果我们想把备选词作为入库标签,还需要经过覆盖率、网站爬虫等审核方式,这就涉及第二个阶段的内容讲解。

第二个阶段:备用词优化

通过以上方式,我们已经得到了足够的标签,但入库的标签还存在多种问题,比如多标签同义、负面词标签等。因此,我们还需要通过去除同义词和负面标签对标签数据再优化。

备用词的具体优化流程如下图所示,此处不再展开说明。

以上我们介绍了标签的分类和构建,仅仅做到这样就足够了么?

比如我们已经挖掘了一个“用户年龄”的标签,但经过数据筛选后只选出了几个人,和总体用户相比简直是九牛一毛,此时如果需要针对 20-30 岁的用户进行精准投放,那这样的标签还有什么价值呢?这就涉及接下来我们要讨论的标签质量评估体系。

标签质量评估体系

一般来说,标签被正式应用到业务之前,需要先通过一套完整的评估体系进行评估,评估后一旦发现标签质量过差,则不允许上线。只有待其达到基本质量要求后才允许上线,并开放给业务使用。因为质量过差的标签不仅对业务没有价值,还容易让用户对标签画像系统失去信任。

因此,我们需要对标签的质量进行科学、完整的评估。只有这样,我们才能有效控制标签质量,并指导标签管理者、开发者不断地提升标签质量。

那什么是标签质量评估体系呢?标签质量评估体系主要分为算法指标、业务指标、数据回流这三大部分。

  • 算法指标:指在生产标签过程中需要完成的评估指标,包括标签的精准性、标签的覆盖量、标签各取值的占比、标签本身的稳定性等指标。

  • 业务指标:主要由业务来定义,同一个标签应用在不同业务上产生的影响和作用可能有所区别,这就需要我们从业务价值和业务影响力两方面来考虑。

  • 数据回流:指的是回流标签使用后的用户反馈,主要用于优化标签。

这里我们总结一下:

评估标签质量时,我们首先需要重点考虑算法指标,算法指标没问题后才可以上线,并开放给业务使用;

其次考虑业务指标,因为业务指标是后验,也就是说如果我们想知道一个标签的业务质量情况,必须通过投放测试才行;

最终业务使用标签后的数据会进行回流,用来监控标签应用在业务场景的价值,以便得出一个比较公允的衡量,而这个衡量,对后面标签的优化方向具有很强的指导意义。

小结与预告

《道德经》中说:“万物负阴而抱阳,冲气以为和。”说的是万物总是背离阴而趋向阳,阴阳二气互相冲突交和而成了均匀和谐状态,从而形成新的统一体。

现代数学用“和”表示相加,也包含了局部整合为整体的意思,其中整合形成系统也就是结构化的意思。复合的结构化是“众妙之门”,通过结构化建设,系统将用户和物品进行了关联。

学到这里,恭喜你已经了解了结构化标准建设的内容。对于结构化标准体系建设,你还有哪些不同的见解?欢迎你在留言区与我分享、互动。

另外,如果你觉得本专栏有价值,欢迎分享给更多好友哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/39181.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

静态方法与实例方法的区别

静态方法与实例方法的区别 1、静态方法(Static Methods)1.1 调用方式1.2 访问权限 2、实例方法(Instance Methods)2.1 调用方式2.2 访问权限 3、总结 💖The Begin💖点点关注,收藏不迷路&#x1…

【C++】解决 C++ 语言报错:Invalid Array Index

文章目录 引言 无效数组索引(Invalid Array Index)是 C 编程中常见且危险的错误之一。当程序试图使用不合法的索引访问数组时,就会发生无效数组索引错误。这种错误不仅会导致程序崩溃,还可能引发不可预测的行为和安全漏洞。本文将…

【PB案例学习笔记】-28制作一个右键菜单

写在前面 这是PB案例学习笔记系列文章的第28篇,该系列文章适合具有一定PB基础的读者。 通过一个个由浅入深的编程实战案例学习,提高编程技巧,以保证小伙伴们能应付公司的各种开发需求。 文章中设计到的源码,小凡都上传到了gite…

任天堂称未来第一方游戏不会使用生成式AI

虽然EA、育碧、暴雪、Embracer等西方游戏厂商都大力支持生成式AI技术,但日本老牌游戏公司任天堂并不会追随这一步伐。任天堂已经确认该公司未来的第一方游戏不会使用生成式AI技术。 在公司最近的投资人问答会上,任天堂描绘了公司未来游戏愿景。在谈到AI技…

LeetCode——第 404 场周赛

周赛 三角形的最大高度 给你两个整数 red 和 blue,分别表示红色球和蓝色球的数量。你需要使用这些球来组成一个三角形,满足第 1 行有 1 个球,第 2 行有 2 个球,第 3 行有 3 个球,依此类推。 每一行的球必须是 相同 …

Go语言--自定义函数

定义格式 函数构成代码执行的逻辑结构。在 Go语言中,兩数的基本组成为:关键字 func、函数名、参数列表、返回值、所数体和返回语句。 函数定义说明: func:函数由关键字func开始声明FuncName:函数名称,根据约定,数名首字母小写即为private…

浅谈 Linux 中的 core dump 分析方法

文章目录 一、什么是 core dump二、发生 core dump 的原因1. 空指针或非法指针引起 core dump2. 数组越界或指针越界引起的 core dump3. 数据竞争导致 core dump4. 代码不规范 三、core dump 分析方法1. 启用 core dump2. 触发 core dump2-1. 因空指针解引用而崩溃2-2. 通过 SI…

图形编辑器基于Paper.js教程06:鼠标画圆与椭圆

绘制椭圆与圆形:利用Paper.js进行交互式图形设计 在Web应用中实现交互式图形绘制功能,对于提高用户体验至关重要,尤其是在设计和艺术相关的应用中。Paper.js是一款强大的JavaScript库,专门用于处理矢量图形,它提供了一…

智能语音门锁:置入NV170D语音芯片ic 打造便捷生活新体验

一、智能门锁语音芯片开发背景 随着科技的飞速发展,传统门锁的局限性日益凸显,无法满足现代人对高效、安全生活的需求。在这样的时代背景下,智能门锁应运而生,它不仅继承了传统门锁的基本功能,更通过融入先进的科技元素…

商标的近似分辩,商标起名称时注意!

曾有过网友发来商标名称,普推知商标老杨说有近似,然后网友起过新名称还是存有近似,或者加字,后面加的通用词,与先有商标名称也是近似。 “良信健康”这个名称健康是行业通用词,加成健康后变成四个字&#x…

HTTP协议深入

1.了解web和网络基础 有客户端和服务端双方参与交互 客户端发送请求:request 服务端根据请求给出响应:response 请求通过URL来指定要获取都得资源 响应内容可以是HTML网页,或者用json表示的数据或者其他二进制文件内容 Web使用一种名为HTTP的协议作为规范&…

AI与大模型工程师证书研修班报名啦!

人工智能大模型是指拥有超大规模参数(通常在十亿个以上)、超强计算资源的机器学习模型,能够处理海量数据,完成各种复杂任务,如自然语言处理、图像识别等。计算机硬件性能不断提升,深度学习算法快速优化&…

ESP32CAM物联网教学03

ESP32CAM物联网教学03 物联网小车 小智突发奇想:要是我在点灯物联APP中多增加几个按钮,控制小车的行驶方向,不就可以做成遥控小车了吗? 点灯物联控制小车的行驶方向 我们可以重新编辑点灯物联APP中的设备控件界面,如…

开关电源中强制连续FCCM模式与轻载高效PSM,PFM模式优缺点对比笔记

文章目录 前言一、连续FCCM模式优点:缺点: 二,轻载高效PSM,PFM优点:缺点: 总结 前言 今天我们来学习下开关电源中,强制连续FCCM模式与轻载高效PSM,PFM模式优缺点对比 一、连续FCCM模式 优点: …

mac中如何恢复因为破解脚本导致的IDEA无法启动的问题

问题 为了在mac中安装免费的2024版idea,导致下载了一个脚本,使用这个脚本后,但是发现idea还没有破解,相反导致idea无法启动,每次点击,都会弹出“cannot start IDE…” 问题排查 在访达中点击mac的应用程…

docker -run hello-world超时

主要原因就是尝试拉取库的时候没有从阿里云镜像里拉&#xff0c;所以设置一下就好了 这里使用的是ubuntu系统&#xff08;命令行下逐行敲就行了&#xff09; sudo mkdir -p /etc/docker sudo tee /etc/docker/daemon.json <<-EOF {"registry-mirrors": [&quo…

Adobe Acrobat添加时间戳服务器

文章目录 前言一、Adobe Acrobat添加时间戳服务器1.打开Adobe Acrobat软件2.点击【菜单】→ 【首选项】3.点击【安全性】→【更多】4.点击【新建】5.输入【名称】→【服务器URL】 前言 一、Adobe Acrobat添加时间戳服务器 1.打开Adobe Acrobat软件 2.点击【菜单】→ 【首选项…

模拟退火算法1——简介

模拟退火算法来源于固体退火原理&#xff0c;将固体加温至充分高&#xff0c;再让其徐徐冷却&#xff0c;加温时&#xff0c;固体内部粒子随温升变为无序状&#xff0c;内能增大&#xff0c;而徐徐冷却时粒子渐趋有序&#xff0c;在每个温度都达到平衡态&#xff0c;最后在常温…

[C++][设计模式][访问器]详细讲解

目录 1.动机2.模式定义3.要点总结4.代码感受1.代码一2.代码二 1.动机 在软件构件过程中&#xff0c;由于需求的变化&#xff0c;某些类层次结构中常常需要增加新的行为(方法)&#xff0c;如果直接在基类中做这样的更改&#xff0c; 将会给子类带来很繁重的变更负担&#xff0c…

数据恢复篇:5 款最佳 Mac 数据恢复软件

说到保护我们的数字生活&#xff0c;数据恢复软件的重要性怎么强调都不为过。无论您是意外删除了假期照片的普通用户&#xff0c;还是面临硬盘损坏的专业人士&#xff0c;随之而来的恐慌都是普遍存在的。幸运的是&#xff0c;数据恢复工具可以缓解这些压力。在Mac用户可用的众多…