一、ItemCF协同过滤方法
ItemCF 是基于物品相似度进⾏推荐的协同过滤算法。
通过计算共现矩阵中物品列向量的相似度得到物品之间的相似矩阵, 再找到⽤户的历史正反馈物品的相似物品进⾏进⼀步排序和推荐,Item CF的具体步骤如下:
- 构建共现矩阵:基于历史数据,构建以⽤户(假设⽤户总数为m)为⾏坐 标,物品(物品总数为n)为列坐标的m×n维的共现矩阵。
- 计算物品相似度矩阵:计算共现矩阵两两列向量间的相似性(相似度的计算⽅式与 ⽤户相似度的计算⽅式相同),构建n×n维的物品相似度矩阵。
- 找出相似的Top k个物品:利⽤物品相似度矩阵,针对⽬标⽤户历史⾏为中的正反馈物品,找出相似的Top k个物品,组成相似物品集合。
- 排序:对相似物品集合中的物品,利⽤相似度分值进⾏排序,⽣成 最终的推荐列表。如果⼀个物品与多个⽤户⾏为历史中的正反馈物品相似,那么该物品最终的相似度应该是多个相似度的累加其中, H是⽬标⽤户的正反馈物品集合, wp,h是物品 p与物品h的 物品相似度, Ru,h是⽤户u对物品h的已有评分。
二、与UserCF应用区别
- 由于UserCF基于⽤户相似度进⾏推荐,使其具备更强的 社交特性,⽤户能够快速得知与⾃⼰兴趣相似的⼈最近喜欢的是什 么,即使某个兴趣点以前不在⾃⼰的兴趣范围内,也有可能通过“朋 友”的动态快速更新⾃⼰的推荐列表。这样的特点使其⾮常适⽤于新闻 推荐场景。因为新闻本⾝的兴趣点往往是分散的,相⽐⽤户对不同新 闻的兴趣偏好,新闻的及时性、热点性往往是其更重要的属性,⽽Use rCF正适⽤于发现热点,以及跟踪热点的趋势。
- ItemCF更适⽤于兴趣变化较为稳定的应⽤,⽐如在Amazon的电商场景中,⽤户在⼀个时间段内更倾向于寻找⼀类商品,这 时利⽤物品相似度为其推荐相关物品是契合⽤户动机的。在 Netflix的 视频推荐场景中,⽤户观看电影、电视剧的兴趣点往往⽐较稳定,因 此利⽤ ItemCF 推荐风格、类型相似的视频是更合理的选择。
三、协同过滤方法缺点
泛化能力弱:协同过滤⽆法将两个物品相似这⼀信息推⼴到其他物品的相似性计算上。
推荐结果的头部效应较明显,处理稀疏向量的能⼒弱:用户特征向量⾮常稀疏,缺乏相似性计算的直接数据。所以可能会出现热门物品具有很强的头部效应,容易跟⼤量物品产⽣相似性; ⽽尾部的物品由于特征向量稀疏,很少与其他物品产⽣相似性,导致 很少被推荐。