兴趣标签体系告诉我,闲鱼的95后是这样的...

作者:闲鱼技术-兆晗

背景与挑战

— — "水果糖小椿 M39 暂挂"
— — "列表科幻?"
不知大家能否读懂上面的对话,但在闲鱼,这样的对话每天都在发生。数据显示,闲鱼约30%的用户年龄不满25岁。了解这些95后的兴趣偏好,对闲鱼服务年轻用户,实现精细化运营有着十分重要的意义。因此,我们希望用数据挖掘的方式,对用户的兴趣偏好进行打标,创建具有闲鱼特色的兴趣标签体系,为闲鱼的精细化运营提供物料,提高用户对闲鱼的活跃度和忠诚度。
相比于商品的结构化信息,兴趣爱好的表达具有更强的灵活性。其范围几乎没有限制,可以是一个很小众的领域,如抽盲盒、徒手攀岩;也可以是一个很宽泛的风格,如复古风,暗黑系。因此,如何做到高效精准地理解用户,是兴趣标签建设面对的最大挑战。
image.png
闲鱼 x ChinaJoy迎合年轻人喜好

思路

在兴趣标签建设初期,我们首先梳理了理解用户兴趣偏好的3个关键点:

  • 灵活的兴趣表达方式:不限制于结构化的表达方式,兴趣偏好可能横跨了用户工作、学习等多个场景,渗透到衣食住行的各个方面,单纯用品牌、行业等结构化的词汇很难描述得准确而完整
  • 兴趣表达具有唯一性:我们调研了闲鱼的兴趣领域的关键内容,发现虽然兴趣表达的方式多变,但表达的内容具有很强的唯一性。如JK系列、盲盒系列,都是以专有名词为主,独特的圈子文化使得兴趣类词汇几乎不会产生歧义
  • 考虑到闲鱼兴趣人群是从0到1的实践,亟需快速搭建可用的标签体系,我们的构建方式必须快速高效,可以批量化地进行生产

基于以上3点思考,我们对业内常见的标签体系生产方式进行了调研。业内常见的标签生产方式可以分为 1)模型预测 和 2)行为统计 两种。
模型预测的方式通过构建机器学习模型,对用户在某个兴趣点上的感兴趣程度进行预测打分,得分越高,兴趣越浓厚,通常可分为有监督和无监督两类。该方法的优点是准确率高,缺点是必须有足够体量的样本,且为了保证准确性,往往采用二分类的方法,每种兴趣都要收集足够的样本分别构建模型,效率低且计算成本高。
行为统计的方法是基于用户历史在兴趣内容上的行为进行统计打分,通常会考虑行为类型、行为频次和行为时间衰减等因素,得分越高兴趣越浓厚。该方法计算简便、可解释性强,但由于统计信息没有泛化和自学习的能力,需要在统计的同时考虑到覆盖率和时效性。
在这里,我们在对比了业内方案后,结合自身业务特点,确定了以行为统计方式为主,具备个性化标签定制能力的标签体系建设方案。对大部分能够被唯一描述的兴趣领域,我们通过筛选兴趣领域内的关键词,找到对关键词内容产生互动行为的用户进行打标。对于一些关键词匹配无法准确召回的场景,我们再进行个性化的建设。

解决方案

image.png
兴趣标签体系解决方案

上图是兴趣标签体系的整体解决方案。主流程是基于平台内商品/内容的文本信息进行文本分词清洗,与运营同学提供的关键词进行文本匹配,召回兴趣领域对应的商品/内容等行为标的。再通过计算用户对商品/内容的行为,汇总得到用户-兴趣领域的得分,汇总生成兴趣人群。在用关键词召回时,对于一些无法枚举或者行业经验不足的情况,我们通过关键词关联进行了补充。
得益于圈子文化喜欢标榜个性的特点,95后的大部分兴趣领域都可以用具有唯一意义的关键词来描述。因此,理解用户兴趣的问题就转化成了以下两个问题:

  • 如何通过关键词召回兴趣人群
  • 如何筛选合适的关键词

如何通过关键词召回兴趣人群

选型初期,我们与闲鱼社区的工程团队一起,讨论了两套方案:
方案1:直接计算用户-关键词之间的关联关系,并将这种关联关系导入到在线平台,实现在线或近线的检索召回。这种方式具备很好的灵活性和可扩展性,但可能会存在由于关键词分词而带来的歧义。例如,当我想找到搜索了「复古 摄影」的用户时,「复古摄影」可能会被分词为「复古」和「摄影」分别进行召回,这就可能召回的是搜索了「复古 口红」和「日系 摄影」的用户,影响了人群打标的准确性。此外,全量的用户-关键词关联数据量非常大,会在很大程度上影响检索效率。考虑到初期重点运营长尾兴趣领域,我们将实现方式调整为方案2。
方案2:通过用户-商品-关键词的方式进行关联。经过多年沉淀,闲鱼平台集合了丰富的用户行为数据。我们首先通过关键词匹配对应的商品,匹配内容包含商品的标题、描述等文本信息,商品的集合作为兴趣内容的表达。接着统计用户在召回商品上的行为(如浏览、收藏、互动、交易等),并在行为类型、行为频次和行为时间上进行加权,得到「用户-商品」的行为程度得分。由于兴趣标签属于长周期标签,所有用户打标流程都可以放在离线计算完成,再将打标好的数据导入线上平台,依托闲鱼强大的人群运营平台和精准投放链路,实现最终的人群精准运营。
理论上,用户在兴趣商品上的所有「用户-商品」行为得分加和即为用户-兴趣得分。但是在做兴趣粒度的汇总时,我们希望能够将用户在平台的其他行为偏好也纳入考虑——由于兴趣领域相对较为长尾,有些用户虽然对兴趣领域商品有过一些行为,但综合观察可以发现该用户在平台非常活跃,对其他领域的行为偏好可能还更加浓厚——这种用户如果在排序中非常靠前,会对那些在平台活跃度一般,但对兴趣领域十分关注的用户造成打击。而我们构建兴趣标签的其中一个重要目标,就是为了能够拉动长尾的兴趣类用户在平台更多地发现适合自己的内容和相同喜好的用户,进而提升长尾流量的活跃度与粘性。为此,我们在计算用户-兴趣得分时,借鉴了文本挖掘中的TF-IDF算法,计算该兴趣领域对用户的重要程度。
image.png
通过关键词与用户行为计算用户-兴趣得分

TF-IDF是一种文本挖掘算法,用以计算某个单词对一篇文章的重要程度。其主要思想是:如果某个单词在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此单词能够很好地标记文章的主题,具有良好的区分能力。TF-IDF其实是TF*IDF,其中,
image.png
体现了该单词在单文件中的出现频率;
image.png
体现了该单词在文件集合中的类别区分能力。
image.png
单词在同一份文件中出现的频率越高,且文件集合中包含该词的文件数越少,说明单词的文本分类能力越强,越能体现文件主题。
这里,我们将一个兴趣领域看做一个单词,一个用户看做一个文件,全量用户看做文件集合,则用户在不同兴趣领域的TF-IDF可表示为
image.png
通过这种方式,我们可以真正对兴趣领域有偏好的用户,标记为兴趣人群。

如何筛选合适的关键词

兴趣领域关键词的筛选主要采用「典型关键词+热搜词」的方式。典型关键词由业务同学基于运营经验给出,往往包含了如经典产品系列,入门级汉服品牌等最能体现圈子文化的词汇。通过这些关键词,我们可以召回基础行为人群。但95后门追新求变的性格使得兴趣圈子里的生命周期短,更新换代非常快。针对这个问题,我们以基础人群为标准,计算了人群近期热搜词,同样作为关键词进行人群召回,在保证人群规模的同时保证了人群的时效性。
image.png
「典型关键词+热搜词」找到领域关键词

下图是一个JK人群的关键词召回示意,图中由内而外分别是「标签-核心词-热搜词」。
image.png
JK标签关键词云

对于一些较为宽泛的兴趣领域,如植物,宠物等,我们希望能够深入到更加细分的领域进行运营。但由于领域本身范围很大,业务同学也无法枚举所有细分领域。这种情况下,我们充分利用了集团内成熟的类目体系,以最细叶子类目名称(如宠物类目下还可以细分为猫,狗,鱼,仓鼠等叶子类目,植物下还有多肉,盆景等叶子类目)作为初始关键词,通过关联关系找到更多同一细分领域下的衍生关键词,从而行成细分领域的关键词集合,召回对应人群,形成标签。下图为宠物类目的细分示意图,图中由内而外分别是「细分领域叶子类目--衍生关键词--兴趣领域词」
image.png
宠物标签关键词云

还有一些兴趣领域,很难通过单一关键词进行准确的描述。以复古怀旧类兴趣为例,拥有这种兴趣偏好的用户,其本质上是对“复古”这一抽象的风格概念有兴趣,它涵盖的商品或内容往往横跨美妆、服饰、绘画、摄影甚至收藏等多个领域。这种情况下,我们同样基于关联关键词的思路,召回与复古相关的关键词组成词组,进行文本匹配和用户召回。

应用效果

目前标签体系已经完成了第一阶段的建设。第一阶段重点对95后最热衷的兴趣领域进行打标,成果如下:

  • 标签数量20+,精准覆盖95后兴趣领域,如JK、lolita、汉服、二次元等
  • 95后群体中已有超过50%的用户打上了兴趣标签,为业务精细化运营提供了充分的资源

除了覆盖量上的突破,标签体系同样在实际业务中拿到了投放效果,验证了人群的准确度。在一期建设完成后,我们将标签体系应用于闲鱼的直播业务,带来了实际的效果提升:

  • 对比以往默认的内容展示,兴趣人群-兴趣领域主播的匹配方式点击转化成倍提升,显著提高推荐效率
  • 由于兴趣类主播在首页曝光、点击量的提升,长尾的兴趣内容类主播获得了更多的流量,很大程度上提升了主播的积极性

未来规划

由于项目时间紧急,兴趣标签以快速实现业务目标为准则进行了初版建设,后续随着业务的发展,我们的标签体系也会逐渐完善

  • 在现有关键词发现的基础上,完善关键词挖掘能力,能够自动化地嗅探到领域内关键词汇,提升人群召回效率
  • 增加语义向量表示,进一步提升关键词召回的准确率和覆盖率
  • 丰富用户的行为信息,在现有的行为信息基础上,增加用户在社区、本地化或文娱等场景下的行为,对用户进行更加丰富和全面的刻画

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/515083.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

搭建Redis集群遇到的问题:Waiting for the cluster to join~~~

问题: 搭建Redis集群的过程中,执行到cluster create : … 的时候,发现程序发生阻塞,显示:Waiting for the cluster to join 的字样,然后就无休无尽的等待… 遇到这种情况大部分是因为集群总线的端口没有开…

英特尔助力完善AI人才培养,携手微软共促地球可持续发展

2021年4月22日,英特尔于第52个世界地球日期间举办了主题为“为企业寻良将,为人才筑舞台”的网络研讨会,旨在探讨高科技企业如何聚焦AI技术,赋能人才发展,为企业引荐人才,为人才提供机会,来共建美…

云原生除了K8S、微服务,还有...?

来源 | 无敌码农责编 | 寇雪芹头图 | 下载于视觉中国云原生(Cloud Native)是最近技术圈一个比较火的名词,相信大家或多或少都听说过。不过对于大多数普通研发朋友来说,"云原生"这个词多少可能还是有些陌生,以至于刚开始听到这个词时…

Service Mesh 在超大规模场景下的落地挑战

简介: 在实际落地方面,众多企业都在积极探索 Service Mesh 在大规模场景下的应用。 作者 | 至简,阿里云高级技术专家 随着微服务软件架构在互联网企业的广泛实践,新一代微服务软件架构技术悄然兴起, Service Mesh 便是…

一针一线皆关“云” 报喜鸟以匠心融合科技

简介: 为了持续增强品牌竞争力,更好地实现数据有效管理,在数据爆发式增长时能够弹性、及时扩容,作为行业领军者的报喜鸟决定融入云计算的大潮中,而将原有业务高效、平滑地迁移至云端就理所当然地成为整个环节中非常关键…

“一云多芯、三V一体” 麒麟信安云融合虚拟化方案助力信创轻松上云

“上云是常态,不上云是例外”。国际上IT架构已从“计算机网络”向“云端”演进,云计算技术的蓬勃发展为整个IT行业带来了巨大变革。据专家观点,到2023年,中国政府和大型企业上云率将超过60%,全栈自主可控云将成为政府和…

海量结构化数据解决方案-表格存储场景解读

简介: 数据是驱动业务创新的最核心的资产。不同类型的数据如非结构化数据(视频、图片等)、结构化数据(订单、轨迹),面向不同业务的使用要求需要选择适合的存储引擎,能够真正发挥数据的价值。针对…

​谁是信创担当 《2021中国信创生态市场研究报告》今日正式发布

1986年3月,我国启动国家高技术研究发展计划——863计划,我国坚持走信息技术应用自主创新之路,全面拉开序幕。 三十五年来,我国加强自主创新,并在民用实践中不断提升产品及技术可用性,实现从小范围推动到“…

戏说云栖,如果这些名人参加云栖大会。。。

导语:参加云栖大会是怎样一种体验?当人们在谈云栖大会时,到底在聊什么?如果这些名人参加云栖大会,他们是不是这样想? 看你脑洞清奇,是万中无一的创意奇才~你就是评论区最皮的仔! 上…

如果故障选择了你……

简介: 总以为混沌工程离你很远?但发生故障的那一刻不是由你来选择的,而是那一刻来选择你,你能做的就是为之做好准备。混沌工程在阿里内部已经应用多年,而ChaosBlade这个开源项目是阿里多年来通过注入故障来对抗故障的经…

存储基础:磁盘 IO 为什么总叫你对齐?

‍‍来源 | 奇伢云存储头图 | 下载于ICphoto存储 IO 重要的一个知识点划重点:存储 IO 要对齐。资深存储人员为啥总叫你注意 IO 对齐的?机械磁盘 IO 为什么要 512 对齐呢,SSD 盘为啥要 4K 对齐?不对齐又会如何?重要的知…

如何理解这6种常见设计模式?

简介: 设计模式能够帮助我们优化代码结构,让代码更优雅灵活。有哪些常见的设计模式?如何合理运用?本文分享作者对工厂模式、单例模式、装饰模式、策略模式、代理模式和观察者模式的理解,介绍每种模式的模式结构、优缺点…

构建在线教育弹性高可用视频处理架构实战

简介: 对于负责建设视频处理系统的技术团队而言,这样的业务场景就留给了他们一系列的挑战。 前言 近些年,在线教育行业飞速发展,为整个社会的知识传播提供了前所未有的便利性。通过多种形式的在线教育平台,学员与教师…

一文解开java中字符串编码的小秘密

简介: 在本文中你将了解到Unicode和UTF-8,UTF-16,UTF-32的关系,同时你还会了解变种UTF-8,并且探讨一下UTF-8和变种UTF-8在java中的应用。 简介 在本文中你将了解到Unicode和UTF-8,UTF-16,UTF-32的关系,同时你还会了解变种UTF-8&…

Gartner数据劲爆:阿里全球第三,华为中国第二!

看了一份数据,非常振奋人心,给大家分享一下。国外著名信息分析公司 Gartner,4月21号发布了一份数据,瞬间引发了朋友圈是刷屏。这份数据是讲什么的呢?云计算!可能由于疫情,很多公司上云的热情变得…

程序员:写作能收获什么?

简介: 很多程序员已经通过自己的个人博客或者公众号来进行技术沉淀,记录自己的成长。越来越多的程序员们也开始意识到了写作的重要性。程序员为什么需要写作?写作能带来什么收获?又有哪些额外的惊喜?本文介绍三位长期坚…

腾讯云~Redis6.2.6 伪集群 哨兵模式_搭建

文章目录一、redis准备3节点1. 创建目录2. 节点1~配置3. 节点2~配置4. 节点3~配置5. 启动redis二、新增sentinel配置1. sentinel_01.conf2. sentinel_02.conf3. sentinel_03.conf4. sentinel 启动5. sentinel 监控6. 哨兵验证一、redis准备3节点 1. 创建目录 mkdir /usr/loca…

教你 4 步搭建弹性可扩展的 WebAPI

简介: 本文整理自《Serverless 技术公开课》,关注“Serverless”公众号,回复“入门”,即可获取 Serverless 系列文章 PPT。 作者 | 萧起 阿里云云原生团队 本文整理自《Serverless 技术公开课》,关注“Serverless”公…

从 0 到 1,高德 Serverless 平台建设及实践

来源 | Serverless作者 | 邓学祥头图 | 下载于东方IC导读:高德从 FY21 财年开始启动 Serverless 建设,至今一年了,高德 Serverless 业务的峰值超过十万 qps 量级,平台从 0 到 1,qps 从零到十万,成为阿里集团…

看动画学算法之:排序-快速排序

简介: 快速排序也采用的是分而制之的思想。那么快速排序和归并排序的区别在什么地方呢? 归并排序是将所有的元素拆分成一个个排好序的数组,然后将这些数组再进行合并。 而快速排序虽然也是拆分,但是拆分之后的操作是从数组中选出一…