推荐系统--矩阵分解(3)

推荐系统–矩阵分解(1)
推荐系统–矩阵分解(2)
推荐系统–矩阵分解(3)
推荐系统–矩阵分解(4)
推荐系统–矩阵分解(5)
推荐系统–矩阵分解(6)

5 TimeSVD++：增加时间因素

物品的受欢迎度随着时间而改变，例如，电影可以因外部事件(如新电影中演员的出现)或冷或热。体现在模型中，物品偏差 $b_i$ 不是常数，而是随时间变化的函数。
用户会随着时间改变他们的基线评分。例如，一个倾向于评价电影评分“4星”的用户，因为各种原因现在可能会对这样的电影评分“3星”。

对时间敏感的基线预测为：
$bui(t)=μ+bu(t)+bi(t)b_{u i}(t)=\mu+b_{u}(t)+b_{i}(t)$

分时间段学习参数，某个时间段的参数使用该时间段数据进行学习，也即是加入时间权重：
$r^ui=μ+bu(t)+bi(t)+qiTpu(t)\hat{r}_{u i}=\mu+b_{u}(t)+b_{i}(t)+q_{i}^{T} p_{u}(t)$

符号说明：
$𝑏_𝑢(𝑡)$ 、 $𝑏_𝑖(𝑡)$ ：分别是用户和物品偏置随着时间变化的函数;
$𝑝_𝑢(𝑡)$ 是用户隐因子随时间变化的函数。
对于这些随时间变化的函数，一种处理是将时间离散化，可以将整个时间窗按照一定粒度进行划分，粒度越小代表随时间变化较大，粒度越大则代表变化较慢。

注意：对用户和物品而言，时间效应（跨越时间的延长和缩短的效应）不一样。对物品而言，我们不希望电影的受欢迎度每天都在波动，而是在更长的时间内发生变化。对用户而言，我们观察到用户的影响每天都在变化，反映了客户行为的不一致性。在建模用户偏差时，这需要更精确的时间解析，而较低的分辨率足以捕获与项目相关的时间效应。
对于物品偏差，我们不需要太精细的分辨率，比如在TimeSVD++论文中每个bin为连续十周的数据，物品偏差就被分割为一个静态部分和一个时间变化的部分：
$bi(t)=bi+bi,Bin⁡(t)b_{i}(t)=b_{i}+b_{i, \operatorname{Bin}(t)}$
相当于需要额外对每个时间片求一个参数 $bi,Bin⁡(t)b_{i, \operatorname{Bin}(t)}$ ，以建模物品流行度随时间变化。

对于用户偏差来说，通过几个模型来进行模拟。

模型1：定义关于时间的连续函数，一个线性函数刻画了用户评分偏差的漂移，再利用一个简单的线性模型来近似一个漂移行为。
$dev⁡u(t)=sign⁡(t−tu)⋅∣t−tu∣β\operatorname{dev}_{u}(t)=\operatorname{sign}\left(t-t_{u}\right) \cdot\left|t-t_{u}\right|^{\beta}$
参数说明：
（1） $t_u$ ：用户 $u$ 评分日期的均值;
（2） $∣t−tu∣\left|t-t_{u}\right|$ 表示 $t$ 和 $t_u$ 之间的时间距离(例如,天数);
（3）通过实验获得 $β=0.4\beta= 0.4$ 。
$bu(1)(t)=bu+αu⋅dev⁡u(t)b_{u}^{(1)}(t)=b_{u}+\alpha_{u} \cdot \operatorname{dev}_{u}(t)$
参数说明：
（1）每个用户需要学习两个参数： $b_u$ 和 $αu\alpha_u$
模型2：时间函数用高斯核来衡量时间的相似性。首先获取用户所有交互时间集合， $𝑘_𝑢$ 个时间点，即 $𝑡1𝑢,…,𝑡𝑘𝑢𝑢𝑡^𝑢_1,\dots,𝑡^𝑢_{𝑘_𝑢}$ 。
$bu(2)(t)=bu+∑l=1kue−γ∣t−tlu∣btlu∑l=1kue−γ∣t−tlu∣b_{u}^{(2)}(t)=b_{u}+\frac{\sum_{l=1}^{k_{u}} e^{-\gamma\left|t-t_{l}^{u}\right|} b_{t_{l}}^{u}}{\sum_{l=1}^{k_{u}} e^{-\gamma\left|t-t_{l}^{u}\right|}}$
参数说明：
（1）用户 $u$ 有 $n_u$ 个评分， $k_u = n_u^{0.25}$ ;
（2） $k_u$ 个时间点 ${t1u,…,tkuu}\{t^u_1, \dots, t^u_{k_u}\}$ 均匀分布；
（3） $b_{t_{l}}^{u}$ ： $ttlut^u_{t_l}$ 时间点用户 $u$ 的平均评分；
（4） $e−γ∣t−tlu∣e^{-\gamma\left|t-t_{l}^{u}\right|}$ ：时间点的偏差；
（5）通过实验获得 $γ=0.3\gamma = 0.3$ 。
模型3：

$bu(3)(t)=bu+αu⋅dev⁡u(t)+bu,tb_{u}^{(3)}(t)=b_{u}+\alpha_{u} \cdot \operatorname{dev}_{u}(t)+b_{u, t}$

模型4：
$bu(4)(t)=bu+∑l=1kue−γ∣t−tlu∣btlu∑l=1kue−γ∣t−tlu∣+bu,tb_{u}^{(4)}(t)=b_{u}+\frac{\sum_{l=1}^{k_{u}} e^{-\gamma\left|t-t_{l}^{u}\right|} b_{t_{l}}^{u}}{\sum_{l=1}^{k_{u}} e^{-\gamma\left|t-t_{l}^{u}\right|}}+b_{u, t}$
偏差可表示为：
$bui(t)=μ+bu+αu⋅dev⁡u(t)+bu,t+bi+bi,Bin⁡(t)b_{u i}(t)=\mu+b_{u}+\alpha_{u} \cdot \operatorname{dev}_{u}(t)+b_{u, t}+b_{i}+b_{i, \operatorname{Bin}(t)}$
优化目标函数为：
$min⁡∑(u,i,t)∈K(rui(t)−μ−bu−αudev⁡u(t)−bu,t−bi−bi,Bin⁡(t))2+λ(bu2+αu2+bu,t2+bi2+bi,Bin⁡(t)2)\begin{aligned} \min \sum_{(u, i, t) \in \mathcal{K}}(&\left.r_{u i}(t)-\mu-b_{u}-\alpha_{u} \operatorname{dev}_{u}(t)-b_{u, t}-b_{i}-b_{i, \operatorname{Bin}(t)}\right)^{2} \\ &+\lambda\left(b_{u}^{2}+\alpha_{u}^{2}+b_{u, t}^{2}+b_{i}^{2}+b_{i, \operatorname{Bin}(t)}^{2}\right) \end{aligned}$

6 可解释性推荐

矩阵分解： $R$ 由两个子矩阵 $U$ 和 $V$ 来表达，即 $\approx UV$ . 其中向量 $p_u$ 表示用户 $u$ 的特征向量，向量 $q_i$ 表示商品 $t_i$ 的特征向量；
可解释性矩阵分解：当用户 $u$ 偏好于商品 $t_i$ 时，两者具有强相关性，其用户特征向量 $p_u$ 与商品特征向量 $q_i$ 在潜在空间上应互相接近,即 $∥pu−qi∥→0\|p_u -q_i \| \rightarrow 0$ 。