可解释性机器学习

一、引言

随着机器学习（ML）在各个领域的广泛应用，模型的复杂度不断增加，如深度神经网络等黑盒模型逐渐成为主流。这些模型虽然具有很高的预测性能，但其内部的决策机制往往难以理解，导致模型的透明度和可解释性不足。特别是在高风险的应用场景，如医疗诊断、金融评估和司法系统，缺乏解释的模型可能导致用户对结果产生质疑。因此，机器学习模型的可解释性问题越来越受到关注。

二、可解释性的类型

可解释性类型分为2种，一种是全局可解释性，另一种是局部可解释性。

1、全局可解释性

在机器学习中，全局可解释性指的是对模型整体行为的理解和解释能力，即如何从全局角度解释模型的决策过程和预测方式。与局部可解释性（关注单个预测或局部行为）不同，全局可解释性提供了对模型在不同输入情况下的广泛理解。以下是一些常见的全局可解释性方法：

特征重要性（Feature Importance）

特征重要性衡量每个输入特征对模型预测的整体贡献。例如，线性回归模型可以通过计算各特征的权重来确定其重要性。通过这种方式，用户可以看到哪些特征对模型的整体预测最为关键。特征重要性示例如下图所示：

SHAP值（SHapley Additive exPlanations）

SHAP是一种基于博弈论的方法，它为每个特征分配一个“贡献值”，表示该特征在所有可能组合中的平均贡献。SHAP提供了全局可解释性，通过汇总各个特征的SHAP值，可以了解每个特征在模型中对整体预测的影响。宏观特征重要性SHAP值示例图如下所示：

PDP（Partial Dependence Plot）

部分依赖图展示了当一个或几个特征变化时，模型预测的均值如何变化。PDP用于解释模型对单个特征的全局依赖关系，帮助理解模型如何利用这些特征进行预测。

以比特币数据集为例，我们使用PDP方法对Xgboost模型结果进行解析。下图刻画的是单变量“区块大小”与比特币价格之间的函数关系。这是一个典型的非线性关系：当“区块大小”在120000-150000范围内增长时，比特币价格逐渐上涨；随着“区块大小”的进一步增长，会对比特币价格产生负向影响，直到区块大小高于200000时，又会对比特币价格产生正向影响。

PDP图的优点在于易实施，缺点在于不能反映特征变量本身的分布情况，且拥有苛刻的假设条件——变量之间严格独立。若变量之间存在相关关系，会导致计算过程中产生过多的无效样本，估计出的值比实际偏高。另一个缺点是样本整体的非均匀效应（Heterogeneous effect）：PDP只能反映特征变量的平均水平，忽视了数据异质对结果产生的影响。

ICE（Individual Conditional Expectation）

ICE图是PDP的个性化版本，显示了每个单个样本在一个或多个特征值变化时的预测结果。虽然ICE通常用于局部解释，但将多个样本的ICE图汇总起来，可以获得全局视角下模型对特征的敏感性。

继上述比特币数据为例，下图反映的是“区块大小”对比特币价格影响的ICE图，其中浅蓝色线反映的是每个个体的条件期望图，深蓝色线反映所有个体的平均水平。从图中可看出所有个体并不一定遵循相同的变化趋势，因此相较于PDP的一概而论，ICE图能够更准确地反映特征变量与目标之间的关系。

2、局部可解释性

局部可解释性是指解释机器学习模型在单个样本上的预测结果，帮助我们理解模型如何在特定情况下做出决策。与全局可解释性不同，局部可解释性专注于解释特定输入的数据点或单个预测的行为。以下是一些常见的局部可解释性方法：

LIME（Local Interpretable Model-agnostic Explanations）

LIME是一种与模型无关的解释方法。它通过生成局部的、可解释的模型（例如线性模型）来近似复杂模型在某个数据点附近的行为。LIME对某个特定样本的特征进行扰动，并观察模型的预测变化，从而揭示特征对该样本的预测结果的影响。所以其最大的优点是：可以解释任何一个机器学习分类模型，具体示例如下：

上图说明：一个人得了流感，是根据一些重要的特征得到，这些特征是人类能够理解的。

其他示例如下：

1）对于分类任务：LIME可以列出分类结果，所依据特征对应给比重。

2）对于图像分类任务：LIME可以表示出那些特征具有正向贡献，那些特征具有负向贡献。

3）对文本数据：如下图预测一封邮件是无神论还是有神论内容，可以给出预测结果对应的单词的比重。

Counterfactual Explanations（反事实解释）

反事实解释通过提供与当前输入稍有不同的虚拟输入，来展示如何改变某些特征会改变预测结果。它回答了“如果某个特征值改变，模型的预测结果会怎样？”这样的问题，帮助我们理解哪些特征是驱动模型决策的关键。

基于反事实解释的关键在于如何通过最小化更改特征参数来产生相反的结果或者大于(或者小于)某些阈值的结果从而能够解释模型,这种方式很符合人类直觉,因为通过对比来进行解释通常是人们进行解释的方法。

上图中prediction是事件，而各个特征值是原因(即使输入和输出之间不是因果关系也将其看为具有因果关系)。

预测的反事实解释描述了将预测更改为预定义输出时特征值的最小变化,反事实解释⽅法与模型⽆关，因为它仅适⽤于模型输⼊和输出。由于该解释可以表示为特征值差异的概要 (“更改特征 A 和 B 以更改预测”)，因此该方法独立于模型。但是反事实解释本身就是⼀个新实例，因此它存在于 (“从实例 X 开始，改变 A 和 B 以得到⼀个反事实实例”)。与原型不同，反事实不⼀定是来⾃训练数据的实际实例，⽽可以是特征值的新组合。

一些具有良好解释性的反事实例子:

Peter 申请了⼀笔贷款，并被 (基于机器学习的) 银⾏软件拒绝了。他想知道为什么他的申请被拒绝，以及他怎样才能提⾼获得贷款的机会。 “为什么” 的问题可以表述为反事实：对特征 (收⼊，信⽤卡数量，年龄等) 的最⼩变化是什么，可以使预测从拒绝变为批准？⼀个可能的答案是：如果 Peter 每年能多赚 10,000 欧元，他将获得贷款。或者，如果 Peter 的信⽤卡较少，并且 5 年前没有拖欠贷款，那么他会得到贷款。 Peter 永远不会知道拒绝的原因,因为银⾏对透明度没有兴趣但这是另⼀回事。
Anna 想把她的公寓租出去，但她不确定要收取多少费用，因此她决定训练⼀个机器学习模型来预测租⾦。当然，由于 Anna 是⼀位数据科学家，因此她可以解决⾃⼰的问题。输⼊有关⾯积大小、位置、是否允许携带宠物等的所有详细信息之后，模型告诉她可以收取 900 欧元。她期望 1000 欧元或更多，但是她相信自己的模型，并决定使⽤公寓的特征值了解如何提⾼公寓的价格。她发现，如果公寓⾯积再⼤15 平方米，则可以以超过 1000 欧元的价格出租。有趣，但不可行，因为她无法扩⼤自己的公寓。最后，通过仅在其控制下调整特征值 (内置厨房是/否，允许宠物是/否，地板类型等)，她发现如果允许宠物并安装隔热效果更好的窗户，她可以收取 1000 欧元。 Anna 凭直觉与反事实合作来改变结果。