信息流推荐多样性
一、问题现状
信息流产品中一个常见的问题是多样性越来越差,造成这种问题的原因在于机器学习算法本身。下面通过一副系统循环图来介绍多样性差的问题。
- 资讯库随机推荐文章,由于是按照全库比例采样,娱乐占比较大,随机推荐给用户的娱乐资讯偏多。
- 用户点击娱乐的概率变大,算法根据用户的反馈,会更加倾向于给用户推荐娱乐类的新闻。
- 在选资讯入库时,由于娱乐文章的曝光大,ctr置信度高,算法会淘汰比较差的文章,保留比较好的文章,导致资讯库中娱乐类的文章保留概率大。
- 由于还有协同过滤算法,导致推荐给其他用户的娱乐资讯也逐渐增多。
随着时间的推移,我们的推荐系统就是娱乐app了,没有其他类别了。
下图反映了去看看比例的变化。
6月12号的资讯曝光分类占比
11月18号的资讯曝光分类占比
由上图可以发现,娱乐占比已经从6月12日的29%上升到11月18日的45%;女人的占比从6%上升到25%。
二、解决方案
解决方案也很简单,只要将系统循环图中的正反馈切断或进行干扰即可。这里选择进行人工干扰。
为什么选择在资讯入库时进行干扰呢?由图中可以看到,其他推荐给用户的资讯都是算法根据用户兴趣进行计算的,进行干扰对用户体验和用户使用会产生较大的影响。资讯入库这里虽然也会对用户产生影响,但是,相对于其他途径影响较小。
具体怎样进行干扰?固定每个类别的每天资讯入库比例,按照类别比例进行选择。具体设置的类别比例如下:
三、多样性风险和应对策略
3.1 可能的风险
(1)人均阅读篇数和人均阅读时长下降
多样性执行加入了人工干扰,会将质量较好的娱乐类文章丢弃。预计会对目前的指标有影响,我们将这2个指标控制在下降3%之内。同时,资讯库类别占比达到预设值。
(2)新增用户对其他类别不感兴趣
多样性的改观会在一定程度上对新用户造成影响,如果新用户群体兴趣点只是娱乐,有可能会导致新用户转化降低。
(3)短时间内很难选出其他类别的高质量文章
短时间内,由于曝光不充分,在其他类别资讯选择上,置信度不是很高。选出的资讯质量并不能充分保证,其他类别的效果会明显不如娱乐。
3.2 应对策略
针对以上三种问题,应对策略如下:
(1) 逐步调整,不会一步到位,在控制类别比例的过程中,密切关注数据的变化。使得下降的幅度与多样性修正带来的好处达到一个平衡。
(2) 关注新用户的表现,新用户如果是兴趣多样性的用户,会提升新用户的点击转化。
(3) 随着时间的推移,曝光量的增加,其他类别的高质量文章选择将会越来越精确。
3.3 多样性评估
评估多样性应结合长期指标,目前列了如下,后续将继续跟踪:
四、 计划说明
计划12月4日与产品达成一致方案,若未按时出,则按此方案执行。