每天一个知识点——L2R

面试的时候，虽然做过医疗文献搜索，也应用过L2R的相关模型，但涉及到其中的一些技术细节，都会成为我拿不下offer永远的痛。也尝试过去理解去背下一些知识点，终究没有力透纸背，随着时间又开始变得模糊，下面对相关问题进行一个总结。

一、PointWise、PairWise和ListWise

这个并不是特定的算法，而是排序模型的设计思路，主要体现在损失函数（Loss Function）以及相应的标签标注方式和优化方法的不同。

PointWise

可以训练一个二分类网络： $h_{\theta }(q_{i},c_{i,j})\rightarrow y_{i,j}$ ，其中 $0\leq y_{i,j}\leq 1$ 。训练的目标是最小化数据集中所有问题和候选句子对的交叉熵。

缺陷是虽然预测分数，但损失函数只考虑正负样本，并不要求精确打分，正样本内的先后关系并不在考虑范围。

Pointwise常见算法有SVM等

PairWise

损失函数为合页损失函数：

$L=max\{0,m-h_{\theta }(q_{i},c_{i}^{+})+h_{\theta }(q_{i},c_{i}^{-})\}$

这里m为边界阈值，即正样本的得分不仅要比负样本的高，而且还要高出一定阈值范围， $h_{\theta }(q_{i},c_{i}^{+})-h_{\theta }(q_{i},c_{i}^{-})\geq m$ 。

缺陷是对噪音更加敏感，比如一个样本标注错误，会引起多个pair对错误，仅考虑了pair对的相对位置信息，并没有考虑到绝对位置信息。

Pairwise常见算法有Ranking SVM、RankNet、RankBoost等。

ListWise

在训练过程中给定提问 $q_{i}$ 和它的一系列候选句子 $C(c_{i1},c_{i2},...,c_{im})$ 和标签 $Y(y_{i1},y_{i2},...,y_{im})$ ,归一化的得分向量 $S$ 通过如下公式计算：

$Score_j=h_\theta(q_i,c_{ij})$

$S=softmax([Score_1,Score_2,...,Score_m])$

标签归一化为，

$Y=\frac{Y}{\sum_{j=1}^{m}y_{ij}}$

训练的目标可以为最小化 $S$ 和 $Y$ 的KL散度。

Listwise常见算法有AdaRank，SoftRank，LambdaMART等

二、RankNet、LambdaRank和LambdaMart

RankNet

RankNet的训练数据是一个个的pair对，比如文章（i,j）,然后模型对两个候选进行打分，我们建模的目标是一个概率，即模型认为候选i比候选j更相关的概率：

$P_{ij}=\frac{1}{1+e^{-\sigma (s_i-s_j)}}$

$C=-\bar{P}_{ij}logP_{ij} - (1-\bar{P}_{ij})log(1-P_{ij})$

$\bar{P}_{ij}=\frac{1}{2}(1+s_{ij})$ , $s_{ij}\in \{-1, 0, 1\}$

LambdaRank

首先对RankNet的损失函数进行分解，得到其中的梯度，

$\begin{aligned} \frac{\partial C}{\partial \omega _k} &=\frac{\partial C}{\partial s _i}\frac{\partial s _i}{\partial \omega _k} + \frac{\partial C}{\partial s _j}\frac{\partial s _j}{\partial \omega _k} \\ &=\sigma (\frac{1}{2}(1-S_{ij}) - \frac{1}{1+e^{\sigma (s_i-s_j)}})(\frac{\partial s_i}{\partial \omega_k} - \frac{\partial s_j}{\partial \omega_k}) \\ &=\lambda _{ij}(\frac{\partial s_i}{\partial \omega_k} - \frac{\partial s_j}{\partial \omega_k}) \end{aligned}$

$\lambda _{ij}$ 可以表示梯度的强度，进一步简化，假设对于文档对(i,j)，都有文档i在文档j前面，即 $S_{ij}=1$ ,则

$\lambda _{ij}=\frac{-\sigma }{1+e^{\sigma (s_i-s_j)}}$

LambdaRank主要创新点在于不直接定义模型的损失函数再求梯度，而是通过分析RankNet排序损失函数的梯度再直接对梯度lambda进行修改。

现在将NDCG，ERR等指标引入lambda中，论文中的做法是交换两个文档i，j的位置，然后计算评估指标的变化情况 $|\Delta Z|$ ,把 $|\Delta Z|$ 作为lambda的因子，Z可以是NDCG等评价指标

$\lambda _{ij}=\frac{-\sigma }{1+e^{\sigma(s_i-s_j)}}|\Delta Z|$

通过梯度lambda也可以反推出LambdaRank的损失函数，如下，

$C=log(1+e^{-\sigma (o_i-o_j)})|\Delta Z|$

三、LambdaMart的实现原理

MART: Multiple Additive Regression Tree

GBDT: Gradient Boosting Decision Tree

基于多个决策树来预测结果；
决策树之间通过加法模型叠加结果；
每棵决策树都是针对之前决策树的不足进行改进。

在这里插入图片描述

综上的伪代码可知，lambdaMart的计算经历这样几个步骤

利用训练数据每个query的pair对情况，计算 $\lambda$ ，

$|\Delta Z|=\frac{abs(single\_dcgs[(i,j)] + single\_dcgs[(j,i)] - single\_dcgs[(i,i)] -single\_dcgs[(j,j)])}{IDCG}$

$single\_dcgs[(i,j)]=\frac{2^{scores[i]} - 1}{log_2(j + 1)}$

$rho = \frac{1}{1+e^{temp\_scores[i] - temp\_scores[j]}}$

$\lambda _i = \lambda _i + rho *|\Delta Z|$

$\lambda _j = \lambda _j - rho *|\Delta Z|$

同时，计算的，还有权重参数 $\omega$ ，用于牛顿迭代法，但实际代码中感觉没有用到这一块。

$w[i] = w[i] + rho *(1-rho) *|\Delta Z|$

$w[j] = w[j] + rho *(1-rho) *|\Delta Z|$

2. 以每个样本特征为 $X$ ，以 $\lambda$ 为拟合目标 $Y$ ，构建决策树，

$tree = DecisionTreeRegressor(max\_depth=50) \\ tree.fit(self.training\_data[:, 2:], \lambda )$

3. 然后用训练的决策树去预测 $X$ 的分数，将得到分数加入 $temp\_scores$ 中，

$pred = tree.predict(self.training\_data[:, 2:]) \\ predicted\_scores = predicted\_scores + self.lr * pred$

4、然后重复上面3个步骤，训练多棵决策树。

说到决策树的训练：lambdaMART采用最朴素的最小二乘法，也就是最小化平方误差和来分裂节点：即对于某个选定的feature，选定一个值val，所有<=val的样本分到左子节点，>val的分到右子节点。然后分别对左右两个节点计算平方误差和，并加在一起作为这次分裂的代价。遍历所有feature以及所有可能的分裂点val(每个feature按值排序，每个不同的值都是可能的分裂点)，在这些分裂中找到代价最小的。