可解释性 or 准确性？AI 模型就一定不能两者兼得吗？

来源： AI科技评论

编译：张大倩

编辑：丛末

模型的可解释性，已然成为了AI 领域最具挑战性的主题之一。

一般规律中，模型的复杂度和准确性往往是正相关的关系，而越高的复杂度也意味着模型越可能无法实现可解释性。那 AI 模型的准确性和可解释性就无法并存了吗？

杜克大学副教授 Cynthia Rudin 、耶鲁大学副教授 Joanna Radin 基于首个对黑盒模型提出可解释性需求的挑战赛——“可解释性机器学习挑战赛”，对这一问题进行了思考，并将观点发表在了哈佛数据科学计划与麻省理工学院出版社联合推出的刊物《哈佛数据科学评论（HDSR）》上。

我们来看具体内容：

一、首个对黑盒模型提出可解释性需求的挑战赛

2018 年 12 月，在一年一度神经信息处理系统（NeurIPS）会议上，数百位顶级计算机科学家、金融工程师和高管在蒙特利尔会议中心的一个房间里，见证了一场由谷歌、Fair Isaac（(FICO）与伯克利、牛津、帝国理工、加州大学欧文分校和麻省理工学院的学者合作举办的著名竞赛——“可解释性机器学习挑战赛”。

挑战赛查看地址：https://community.fico.com/s/explainable-machine-learning-challenge

这是首个反映了这样一种需求的数据科学挑战赛：那些主导了基于机器学习的决策策略的黑盒模型所计算出来的成果，需要被梳理与消化。

在过去的几年中，计算机视觉领域深度学习的进步导致人们普遍认为：针对任何既定的数据科学问题，最准确的模型必须是复杂且无法解释的。

这种想法源于机器学习在社会中的历史用途：它的现代技术是为例如在线广告、网络搜索之类的低风险决策而诞生，这些决策不会对人类的生活造成深远的影响。

在机器学习中，这些黑盒模型通过算法直接从数据中创建，这意味着人们，即使创造它们的人，也无法理解如何将变量组合在一起进行预测。即使一个人有一个可输入的变量列表，黑盒预测模型可以将其转为复杂的函数变量，以至于没有人可以理解变量之间是如何关联来达成最终的预测。

在技术上可解释的模型与黑盒模型是等效的，但是可解释模型比黑盒模型更符合道德，两者间的不同：可解释模型被约束以更好地理解如何进行预测。

在某些情况下，我们可以很清楚地看到变量是如何联系起来形成最终的预测结果，最终的预测结果可能只是简短逻辑语句中的几个变量组合在一起，或者是使用线性模型将变量加权并相加在一起。

有时，可解释模型由放在一起的更简单模型组成（可分解），或者对模型施加新的约束条件，但是，大多数机器学习模型的设计没有可解释的约束条件，它们只是为了在静态数据集上为准确的预测变量而设计，它们可能代表也可能不代表模型在实践中的使用方式。

二、要实现可解释性就必须牺牲准确性吗？

认为必须牺牲准确性来换取可解释性的观点是不正确的。当非常简单的可解释模型用于相同的任务时，它允许公司为高风险决策推销和出售私有或者复杂的黑盒模型。因此，模型创造者可以通过它来获利并且无需考虑对个人的有害影响。

很少有人质疑这些模型，因为他们的设计师声称模型必须复杂才能准确。2018年的这场“可解释机器学习挑战赛”是一个案例研究，主旨在于考虑将黑盒模型与可解释模型进行权衡。

在宣布挑战赛获胜者之前，主持人要求听众（包括金融，机器人技术和机器学习领域的能者）进行思想实验，在该实验场景中，他们患有癌症，需要手术切除肿瘤。屏幕上显示了两张图像，一张图描述了一位人类外科医生，他可以解释有关手术的任何事情，但在手术过程中有15％的概率导致死亡。

另一幅图像则显示了只有在 2％的失败几率下才能执行手术的机器人，它其实是在模拟 AI 的黑盒方法。在这种情况下，他们需要完全信任机器人，不会对机器人提出任何问题，也不需要了解它是如何做出手术决定的。

然后，主持人要求观众举手投票选择他们愿意进行哪种拯救生命的手术。除了一票以外，其他所有人都投票选择机器人。

虽然 2% 的死亡率比 15%的死亡率要好很多，但是以这种方式来架构 AI 系统的风险，会掩盖一个更基本、更有趣的考虑：为什么机器人必须是黑盒？如果机器人具有自我解释能力，它将会失去执行准确手术的能力吗？机器人与患者之间的有效沟通是减少病人的护理而不仅仅只是改善吗？病人难道不需要在手术前向机器人说明他们有凝血障碍吗？

现场没有将可能并不需要作为黑盒模型的机器人作为一种选择，在座的的观众只能在准确的黑盒和不准确的透明盒子中进行选择。观众没有被告知手术结果的准确性是如何得出的（2%和15%分别测量的什么人群？），他们也没有被告知用于训练机器人的数据集的潜在缺陷。

在这一假设中，准确性必须以牺牲可以解释性（了解为什么外科医生要有做这些事情的能力）为代价。因此这项心理实验未能考虑到可解释性可能不会损坏准确性。而实际上，可解释性甚至可以提高准确性，因为它可以帮助你了解模型（机器人）何时可能是错误的。

并非一定要在准确的机器和具有理解能力的人之间做出选择，如此理解它有助于我们诊断由黑盒模型在整个社会中进行高风险决策所导致的问题。这些问题不仅存在于金融领域，而且还存在于医疗保健，刑事司法等领域。

我们可以给出一些证据表明，“必须牺牲一些可能性才能获得准确性的模型”的设想是错误的，比如一个刑事司法系统中已经反复证明，利用黑盒模型的复杂性预测未来的逮捕情况，其准确性远不及基于年龄和犯罪记录的简单预测模型（Angelino, Larus-Stone, Alabi, Seltzer, & Rudin, 2018; Tollenaar & van der Heijden, 2013; Zeng, Ustun, & Rudin, 2016）。

例如，Angelino 等人在 2018 年曾在一项仅考虑人的年龄和犯罪历史的一些规则的研究中，创建了用于预测再次逮捕的机器学习模型。其完整的机器学习模型如下：如果此人有过三次以上的犯罪前科，或者18-20岁的男性，或者有两到三次犯罪记录的21-23岁男性，那么模型预计他们将在评估发生的两年时间内再次被逮捕，否则不会。

尽管我们不一定提倡在刑事司法案件中使用这个该模型，但这套规则和黑盒模型（针对替代性模型的更正罪犯管理分析）一样准确，黑盒模型已经广泛合理使用于弗罗里达的布劳沃德县（Angelino et al., 2018）。

上面的简单模型也许和许多其他最新的机器学习方法一样准确（Angelino et al., 2018）。在应用于其他数据集的许多不同类型的预测问题的机器学习方法中，也发现了相似的结果：可解释模型（研究中的小型线性模型或逻辑模型）的表现与更复杂的模型（黑盒）有相同的效果（Zeng et al., 2016）。似乎没有证据表明黑盒模型对犯罪风险预测会有所帮助。实际上，这些黑盒的缺点可能更明显，因为它们更难排查故障，更难信任和更难使用。

在一些医疗领域以及可以改变生命决策的许多其他高风险机器学习应用中，似乎也没有体现黑盒模型准确性的优势（例如在 Caruana et al., 2015; Razavian et al., 2015; Rudin & Ustun, 2018 等论文中，作者都展示了具有可解释性条件的模型，这些模型的表现和不受约束的模型一样好）。

三、黑盒模型可能会掩盖无数潜在的严重错误

相反，黑盒模型可以掩盖无数潜在的严重错误（e.g., see Rudin, 2019）。即使在以深度神经中枢（最难解释的黑盒模型）为最先进技术的计算机视觉中，我们和其他科学家（e.g., Chen et al., 2019; Y. Li et al., 2017; L. Li, Liu, Chen, & Rudin, 2018; Ming, Xu, Qu, & Ren, 2019）已经找到了将可解释性条件添加到深度学习模型中的方法，从而使计算更加透明。即使对用于计算机视觉的深度神经网络，这些可解释性约束也不会以牺牲准确性为代价。

信任黑盒模型意味着你不仅要信任模型的方程式，而且也要信任它所基于的整个数据库。例如，在机器人和外科医生的场景中，在不知道2%和15%是如何计算出来的情况下，我们应该针对特定亚群患者的数据之间的相关性持怀疑态度。

我们所看到的每一个复杂度适中的数据集都存在缺陷。这些范围可以从大量的丢失数据（不是随机丢失）或者无法测量的数据混淆到数据集中的系统错误（例如药物治疗的错误编码），数据收集出现的问题，导致数据分布与最初的设想不一致。

黑盒模型在医疗领域中的一个常见问题是数据泄露，关于标签变量 y 的某些信息以通过查看变量的标题和描述变量这种你可能不会觉察的方式，潜入变量 x 中：有时你认为自己正在预测将来的事物，但你只是在探测过去发生的事情。在预测医疗结果时，机器可能会利用医生笔记中的信息，将这些信息在正式记录患者病情之前透露出来，因此错误地将其声明为成功的预测。

为了解决人们对黑盒模型不透明的普遍担忧，一些科学家试图对黑盒模型做出解释，提出假设，解释它们为什么会做出这样的决定。这种解释通常试图使用一个完全不同的模型来模拟黑盒的预测(可能使用不同的重要变量，掩盖了黑盒可能正在做的事情)，或者提供另一种统计，该统计信息提供了关于黑盒计算的不完整信息。这种解释是肤浅的，甚至是空洞的，因为它们夸大了黑盒的权威，而是认为黑盒是必要的。有时，这些解释是错误的。

例如，当 ProPublica 的记者试图为累犯预测专设的COMPA模型解释时（Angwin et al., 2016），他们似乎错误地认为，如果一个人可以建立一个近似于比较的线性模型，并依赖于种族、年龄和犯罪历史，那么COMPAS本身必须依靠种族。

但是，当有人使用类似 COMPAS 非线性模型时，该模型不再依赖种族（Rudin, Wang, & Coker, 2019），仅对历史犯罪和年龄有依赖性。这是一个关于黑盒的错误解释如何导致失控的例子。

也许，如果司法系统仅使用可解释的模型（我们和其他人已证明同样准确），那么 ProPublica 的记者将能够撰写不同的故事。例如，也许他们可能会写出这些分数的印刷错误是如何频繁发生的，而没有明显的方法来解决它们，导致司法系统中改变生活的决策意见不一致（see, e.g., Rudin et al., 2019）。

但是在 2018 年 NeurIPS 大会上，在挤满了刚刚选择机器人代替外科医师的专家的会议室里，播音员继续对比赛进行实况描述。FICO 提供了房屋净值信贷额度（HELOC）数据集，其中包含来自数千名匿名人的数据，包括其信用记录的各个方面以及该人是否拖欠贷款。竞赛的目的是创建一个用于预测贷款违约的黑盒模型，然后解释黑盒。

有人认为，对于要求参赛者创建黑盒并进行解释的竞赛，问题实际上是必须有一个黑盒。但事实并非如此。早在 2018 年 7 月，当 Duke 团队收到数据时，并分析数据一周左右后，意识到可以在没有黑盒的情况下有效地分析 FICO 数据。

无论是对线性模型使用深层神经网络还是经典统计技术，我们都发现这两种方法之间的准确性误差不到1％，1%的误差是在数据随机抽样误差范围之内。即使在使用提供了可解释的模型的机器学习技术时，其准确性也与最佳黑盒模型准确性相差不多。

那时，我们也不知如何是好了。我们是否应该遵守规则，给法官们一个黑盒，我们是否应该遵守规则使用黑盒模型并向裁判解释它？还是我们应该提供透明、可解释的模型？换句话说，当你发现自己被迫陷入机器人与外科医生的两难抉择时，你该怎么办？

我们的团队决定，对于像信用评分这样重要的问题，我们不会为了解释就向评选团队提供黑盒。取而代之的是，我们创建了一个即使没有任何数学基础的人也能够理解的可解释的模型，我们认为该模型可分解为不同的微型模型，每个微型模型都可以独立被理解。

我们还为贷方和个人创建了一个额外的交互式在线可视化工具。在我们的网站上研究信用历史因素可以让人们了解哪些因素影响贷款申请决策，这种方式完全不需要黑盒。我们知道可能不会以这种方式赢得比赛，但我们需要提出更重要的事实。

四、AI 模型可兼得可解释性和准确性，只是尚未尝试而已

可能有人认为，在许多应用程序中，可解释的模型可能不如黑盒模型那么准确。毕竟，如果你可以建立一个准确的可解释模型，那么为什么还要使用黑盒呢？

但是，正如“可解释机器学习挑战”所揭示的那样，实际上，在许多应用程序中，人们并不试图构造一个可解释的模型，因为他们可能认为对于复杂的数据集，可解释的模型不可能像黑盒那么精确。或者，他们想将模型保留为专有模型。然后，人们可能会考虑是否可以为计算机视觉和时间序列分析构建可解释的深度学习模型（e.g., Chen et al., 2019; Y. Li et al., 2017; O. Li et al., 2018; Ming et al., 2019），那么标准假设应是可解释模型不存在，改为它们存在的假设，然后直到证明它们不存在为止。

此外，当科学家在构建模型时他们知道自己在做什么时，它们可以制造出更好的AI系统，来服务于依赖它们的人类。在这些情况下，所谓的准确性与可解释性之间的权衡被证明是谬论：具有更多可解释性的模型通常变得更准确（而不是更少）。

准确的黑盒和不太准确的透明模型之间的错误对立已经过火了。当成千上百的领先科学家和金融公司高管都被这种二分法所误导，请想象一下其他人是如何被愚弄。其影响是深远的：它影响到我们的刑事司法、金融、医疗系统以及许多其他领域的运作。

我们需要坚持不将黑盒模型用于高风险决策，即除非根本无法构建能够达到相同准确性水平的可解释模型，否则我们不要将黑盒机器学习模型用于高风险决策。

我们完全有可能构建一个可解释性与高准确性并存的 AI 模型——只是尚未尝试过而已。也许，如果我们这样做了，我们根本就不需要进行高风险决策。

本文参考的相关文献可前往原文查看：