UGC的物品冷启有哪些
⼩红书上⽤户新发布的笔记。
B站上⽤户新上传的视频。
今⽇头条上作者新发布的⽂章。
为什么要特殊对待新笔记?
新笔记缺少与⽤户的交互,导致推荐的难度⼤、效果差。
扶持新发布、低曝光的笔记,可以增强作者发布意愿。
优化冷启的目标
精准推荐:克服冷启的困难,把新笔记推荐给合适的⽤户,不引起⽤户反感。
激励发布:流量向低曝光新笔记倾斜,激励作者发布。
挖掘⾼潜:通过初期⼩流量的试探,找到⾼质量的笔记,给与流量倾斜。
一、评价指标
作者侧指标
-
发布渗透率、⼈均发布量反映出作者的发布积极性。
-
冷启的重要优化⽬标是促进发布,增⼤内容池。
-
新笔记获得的曝光越多,⾸次曝光和交互出现得越早,作者发布积极性越⾼。
⽤户侧指标
内容侧指标
二、冷启召回的困难
-
缺少⽤户交互,还没学好笔记ID embedding,导致双塔模型效果不好。
-
缺少⽤户交互,导致ItemCF 不适⽤。
ID embedding替代方案
多个召回池,让新笔记有更多曝光机会。
缺点1:只对刚刚发布的新笔记有效。
取回某类⽬/关键词下最新的k篇笔记。
发布⼏⼩时之后,就再没有机会被召回。
缺点2:弱个性化,不够精准。
三、聚类召回
训练内容相似度模型
四、Look-Alike人群扩散
点击、点赞、收藏、转发——⽤户对笔记可能感兴趣。
把有交互的⽤户作为新笔记的种⼦⽤户。
⽤look-alike在相似⽤户中扩散。
五、物品冷启动:流量调控
工业界的做法
新笔记提权
新笔记保量
动态提权保量
保量的难点
差异化保量
六、冷启的AB测试
冷启的AB测试需要观测作者发布指标和⽤户消费指标。
各种AB测试的⽅案都有缺陷。设计⽅案的时候,问⾃⼰⼏个问题:
实验组、对照组新笔记会不会抢流量?
新笔记、⽼笔记怎么抢流量?
同时隔离笔记、⽤户,会不会让内容池变⼩?
如果对新笔记做保量,会发⽣什么?
用户侧实验
作者侧实验
方案一,缺点:新笔记和⽼笔记抢流量
方案二
-
优点:新笔记的两个桶不抢流量,作者侧实验结果更可信。
-
相同:新笔记和⽼笔记抢流量,作者侧AB测试结果与推全结果有些差异。
-
缺点:新笔记池减⼩⼀半,对⽤户体验造成负⾯影响。
方案三