注意力机制+深度推荐模型、强化学习推荐系统
- 1.AFM -2017
- 2.DIN-2017
- 3.DIEN-2019
- 4. DRN-2018
1.AFM -2017
Attention factorization machines–浙江大学–基于模型结构的改进
引入注意力机制FM, 可视为NFM模型的改进。给特征交叉池化后的特征向量施加不同的注意力权重。
出发点:预测某一男性是否购买某一键盘。那么‘性别为男且历史行为购买过鼠标’ 这一交叉特征 很可能 比 ‘性别为男且年龄为30’这一交叉特征更为重要。
具体做法:交叉特征进全联接层,softmax输出 特征权重。全联接层的参数随网络训练
(感觉注意力机制池化层就是多加了一个全联接权重输出层啊)
2.DIN-2017
Deep Interest Network–阿里巴巴-电商广告推荐-基于业务观察的模型改进
出发点:用户特征组 和 广告特征组中的商品id 和商铺id应该有不同的权重地位。
具体做法:利用候选商品和历史行为商品之间的相关性计算出一个权重。–注意力激活单元
(详细结构看书,注意力网路输出的只是权重,而不是后一层的输入)
3.DIEN-2019
Deep interest evolution network–阿里巴巴–序列模型模拟了用户兴趣的演化。
推荐系统的真正推荐目标:针对下一次购买的推荐。
特定用户的历史行为都是一个随时间排序的序列,用户兴趣的迁移其实非常快。
序列信息的重要性在于:
- 强调最近行为对下次行为预测的影响
- 序列模型能够学习到购买趋势的信息
核心:如何构建兴趣进化网络。兴趣进化网络分为三层
3. 行为序列层–原始行为的embedding
4. 兴趣抽取层–GRU模拟用户行为迁移
5. 兴趣进化层–AUGRU用注意力机制强调不同兴趣演化路径的重要性(h(t)的每一维度为一个兴趣演化路径?)
4. DRN-2018
Deep reinforcement for news recommender–宾夕法尼亚州立大学 + 微软亚洲研究院–新闻推荐系统
将强化学习模型应用到推荐系统中,一些关键概念的解释
- 智能体:推荐系统
- 环境:新闻网站、app、用户组成的整个推荐系统的外部环境
- 行动:推荐系统进行新闻排序后推荐
- 反馈:用户的点击行为
- 状态:有关于用户,新闻的特征
最大优势–利用‘行动-反馈-状态更新’,实现在线更新推荐模型
典型的深度强化学习模型:DQN
DRN在线学习模型中包含“微更新”和“主更新”
- 微更新–竞争梯度下降法–随机变换推荐模型的梯度,给出推荐列表2;原始推荐模型给出推荐列表1。两张推荐列表同时推送给用户,如果表2的结果比表1好,用改动后的模型代替原始推荐模型。不断重复这个过程。
- 主更新–利用用户点击数据、用户活跃度数据整个模型的迭代更新