python 怎么取对数_概率矩阵分解(PMF)及MovieLens上的Python代码

首先对Probabilistic Matrix Factorization这篇论文的核心公式进行讲解和推导；然后用Python代码在Movielens数据集上进行测试实验。

一、背景知识

文中作者提到，传统的协同过滤算法有两个不足：

1).不能很好地处理规模非常大的数据；

2). 不能很好地处理那些只给出极少评分的用户。

概率矩阵分解则能很好的解决上述提到的这两个问题。

二、算法推导

2.1 定义和描述

假设有

个用户，

个商品，形成一个

维的评分矩阵

，矩阵

中的元素

表示用户

对商品

的评分。假设潜在特征个数为

，那么

维的矩阵

表示用户的潜在特征矩阵，

用户

的潜在特征向量；

维的矩阵

表示商品的潜在特征矩阵，

商品

的潜在特征向量。概率模型图如下图所示：

图1 PMF的概率模型图

假设关于已知评分数据的条件分布满足高斯分布：

(1)

其中，

为指示函数：如果用户

已经对商品

进行了评分，则为1；否者为0。

再假设用户潜在特征向量和商品潜在特征向量都服从均值为0的高斯先验分布，即：

(2)

注意公式(2)中的

不是指示函数，表示一个对角阵。

然后，计算

和

的后验概率：

等式两边取对数

后得到：

(3)

2.2 关键处推导

此处插入取对数收到得到公式(3)的详细推导过程（对其中

这一项进行推导）：

满足高斯分布，所以可以得到：

其中

，其中

为对角阵，对上述式子取对数

得：

2.3 最优化目标函数

求等式（3）的最大值，等价于最小化目标函数：

(4)

其中，

。

等式

分别对

和

进行求导得：

然后用随机梯度下降法（SGD）更新

和

：

其中

为步长，或者称之为学习率。

注意：下降的步长大小非常重要，因为如果太小，则找到函数最小值的速度就很慢，如果太大，则又可能会出现震荡。

令

，上述式子简化为：

(5)

(6)

直到满足收敛条件或迭代至最大的迭代次数。

2.4 改进和优化

论文中还提到，用

函数

代替原来的线性高斯模型，因为线性高斯模型做预测时会产出评分的有效范围。故将等式(1)修改为如下：

(7)

原始评分

则通过函数

映射到

，然后再参与运算。

为最大评分值。

三、程序实现

3.1 代码及实现

伪代码如下所示：

Input: the number of latent factor K, the learning rata eta, 
regularization parameters lambda_1,lambda_2, the max iteration Step,
and the rating matrix RInitialization: Initialize a random matrix for user matrix U and item matrix Vfor t = 1, 2,...Step dofor (u,i,r) in Rmake prediction pr=Ui^T*Vjerror e=r-prupdate Ui and Vj by (5) and (6)the algorithm suffers a loss (Ui, Vj, r)end for
end for

下面用python，在 MovieLens 100K 这个数据集上实现PMF算法。

核心代码如下所示：

def update(p, q, r, learning_rate=0.001, lamda_regularizer=0.1):error = r - np.dot(p, q.T)            p = p + learning_rate*(error*q - lamda_regularizer*p)q = q + learning_rate*(error*p - lamda_regularizer*q)loss = 0.5 * (error**2 + lamda_regularizer*(np.square(p).sum() + np.square(q).sum()))return p,q,loss

3.2 实验结果

当训练集：测试集=8:2时，可得到最终的RMSE为0.92左右，实验曲线如下所示：