《Understanding Black-box Predictions via Influence Functions》笔记

[1] 通过升权（ $\S 2.1$ ）、扰动（ $\S 2.2$ ）两种方式研究某个 training point $z = (x, y)$ 对（优化后的）模型参数 $\hat\theta$ 、模型在某个 test point $z_\text{test} = (x_\text{test}, y_\text{test})$ 的 prediction 的影响。

其在 $\S 2.3$ 对比在找与 $z_\text{test}$ 最相关的 z 时，(2) 式提出的影响函数 $I_\text{up,loss}(z,z_\text{test})$ 与（normalised x 后的）欧氏距离 $x^T x_\text{test}$ 的分别。以 logistic regression 为例，算出此时 $I_\text{up,loss}$ 的表达式，提了两点分别：

$\sigma(-y\theta^Tx)$ 一项会使 loss 大的 training point 有更大的 influence。由 loss 的表达式 $L(z,\theta)=\log[1+\exp(-y\theta^Tx)]$ ，loss 更大意味着 $-y\theta^Tx$ 更大，从而 $\sigma(-y\theta^Tx)$ 更大，确实会令 $I_\text{up,loss}$ 的绝对值更大，即有更大的 influence。
$H^{-1}_{\hat\theta}$ 一项的作用，[2,5,6] 没解释，[3,4] 简单翻译一笔带过。看了 [1] 的 talk，还是看回 (2) 式好理解些： $I_\text{up,loss}(z,z_\text{test}) = - \nabla_\theta L(z_\text{test},\hat\theta)^T H^{-1}_{\hat\theta} \nabla_\theta L(z,\hat\theta)$ 先忽略中间的 $H^{-1}_{\hat\theta}$ （也忽略负号，因为是讨论 influence「大小」，不看方向），只看 $\nabla_\theta L(z_\text{test},\hat\theta)^T \nabla_\theta L(z,\hat\theta)$ ，则 (2) 相当于说要找最相关的 z，不是看数据层面的关联（即 $x^T x_\text{test}$ ），因为这里不是 kNN 这种 parameter-free 的模型，training data 是通过影响模型参数 $\theta$ 来影响 test data 的 prediction 的，所以从「梯度关联」（内积）的视角看更准确：梯度反映模型要 fit 此数据要做出的调整，梯度越相关，意味着模型为 fit z 做出的调整对 predict $z_\text{test}$ 越适用。
再考虑整个训练集：如果有其它 $z^{'}$ 带来的梯度跟 $z_\text{test}$ 的梯度也很相关，那 z 就相对没那么重要了，极端情况 $z^{'} = z$ ，那有 z 没 z 都无所谓，所以加上 $H^{-1}_{\hat\theta}$ 来考虑这点，文中

$\nabla_\theta L(z,\hat\theta)$ points in a direction of little variation

「direction」应是指梯度的方向、「variance」指梯度的方差。参考 [7-9]，此时 $H^{-1}_{\hat\theta}$ 应该会相对放大这个梯度内积（联想一维正态分布的情况会比较直观，高维的协方差逆相当于一维时方差放在分母，方差越小整个分式越大），于是数值上 $I_\text{up,loss}(z,z_\text{test})$ 更大；而联系 PCA 中关于 variance 的描述，这应该是表明很少有其它 training points 的梯度方向与 z 的相近，于是 z 对模型的影响（及此影响于 predict $z_\text{test}$ 的适用性）无可替代，所以应当认为 z 对 $z_\text{test}$ 的 influence 更大。

$\S 3$ 的 stochastic estimation 近似 $H^{-1}_{\hat\theta}$ 中，其 Taylor 展开为 $H^{-1}_{\hat\theta} = \sum_{i=0}^\infin (I-H)^i$ ，参考 [10,11]，此展开成立的前提是 $\|H\|<1$ ，后文有说用 $\nabla^2_\theta L(z_i,\hat\theta)$ 作 H 的无偏估计，而同一页的脚注 2 有讲假设 $\forall i, \nabla^2_\theta L(z_i,\hat\theta) \preceq I$ 成立，应该是类似的意思。这在实数域中的类比是 $∣ x ∣ < 1$ 时 $(1-x)^{-1}=\frac{1}{1-x}$ 几何级数展开，见 [10,11]。

References

(ICML 2017) Understanding Black-box Predictions via Influence Functions - paper, talk
ICML 2017 Best Paper Award论文解读(1)
ICML 2017 Best Paper理解
论文笔记understanding black-box predictions via influence functions
ICML 2017最佳论文：为什么你改了一个参数，模型预测率突然提高了|分享总结
论文笔记：Understanding Black-box Predictions via Influence Functions
What is the Covariance Matrix?
Understanding the Covariance Matrix
如何直观地理解「协方差矩阵」？
Taylor Expansion of inverse of a matrix (need verification that this is completely wrong)
Neumann series

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/59921.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！