可解释性 or 准确性?AI 模型就一定不能两者兼得吗?

来源: AI科技评论

编译: 张大倩

编辑:丛末

模型的可解释性,已然成为了AI 领域最具挑战性的主题之一。

一般规律中,模型的复杂度和准确性往往是正相关的关系,而越高的复杂度也意味着模型越可能无法实现可解释性。那 AI 模型的准确性和可解释性就无法并存了吗?

杜克大学副教授 Cynthia Rudin 、耶鲁大学副教授 Joanna Radin 基于首个对黑盒模型提出可解释性需求的挑战赛——“可解释性机器学习挑战赛”,对这一问题进行了思考,并将观点发表在了哈佛数据科学计划与麻省理工学院出版社联合推出的刊物《哈佛数据科学评论(HDSR)》上。

我们来看具体内容:

一、首个对黑盒模型提出可解释性需求的挑战赛

2018 年 12 月,在一年一度神经信息处理系统(NeurIPS)会议上,数百位顶级计算机科学家、金融工程师和高管在蒙特利尔会议中心的一个房间里,见证了一场由谷歌、Fair Isaac((FICO)与伯克利、牛津、帝国理工、加州大学欧文分校和麻省理工学院的学者合作举办的著名竞赛——“可解释性机器学习挑战赛”。

挑战赛查看地址:https://community.fico.com/s/explainable-machine-learning-challenge

这是首个反映了这样一种需求的数据科学挑战赛:那些主导了基于机器学习的决策策略的黑盒模型所计算出来的成果,需要被梳理与消化。

在过去的几年中,计算机视觉领域深度学习的进步导致人们普遍认为:针对任何既定的数据科学问题,最准确的模型必须是复杂且无法解释的。

这种想法源于机器学习在社会中的历史用途:它的现代技术是为例如在线广告、网络搜索之类的低风险决策而诞生,这些决策不会对人类的生活造成深远的影响。

在机器学习中,这些黑盒模型通过算法直接从数据中创建,这意味着人们,即使创造它们的人,也无法理解如何将变量组合在一起进行预测。即使一个人有一个可输入的变量列表,黑盒预测模型可以将其转为复杂的函数变量,以至于没有人可以理解变量之间是如何关联来达成最终的预测。

在技术上可解释的模型与黑盒模型是等效的,但是可解释模型比黑盒模型更符合道德,两者间的不同:可解释模型被约束以更好地理解如何进行预测。

在某些情况下,我们可以很清楚地看到变量是如何联系起来形成最终的预测结果,最终的预测结果可能只是简短逻辑语句中的几个变量组合在一起,或者是使用线性模型将变量加权并相加在一起。

有时,可解释模型由放在一起的更简单模型组成(可分解),或者对模型施加新的约束条件,但是,大多数机器学习模型的设计没有可解释的约束条件,它们只是为了在静态数据集上为准确的预测变量而设计,它们可能代表也可能不代表模型在实践中的使用方式。

二、要实现可解释性就必须牺牲准确性吗?

认为必须牺牲准确性来换取可解释性的观点是不正确的。当非常简单的可解释模型用于相同的任务时,它允许公司为高风险决策推销和出售私有或者复杂的黑盒模型。因此,模型创造者可以通过它来获利并且无需考虑对个人的有害影响。

很少有人质疑这些模型,因为他们的设计师声称模型必须复杂才能准确。2018年的这场“可解释机器学习挑战赛”是一个案例研究,主旨在于考虑将黑盒模型与可解释模型进行权衡。

在宣布挑战赛获胜者之前,主持人要求听众(包括金融,机器人技术和机器学习领域的能者)进行思想实验,在该实验场景中,他们患有癌症,需要手术切除肿瘤。屏幕上显示了两张图像,一张图描述了一位人类外科医生,他可以解释有关手术的任何事情,但在手术过程中有15%的概率导致死亡。

另一幅图像则显示了只有在 2%的失败几率下才能执行手术的机器人,它其实是在模拟 AI 的黑盒方法。在这种情况下,他们需要完全信任机器人,不会对机器人提出任何问题,也不需要了解它是如何做出手术决定的。

然后,主持人要求观众举手投票选择他们愿意进行哪种拯救生命的手术。除了一票以外,其他所有人都投票选择机器人。

虽然 2% 的死亡率比 15%的死亡率要好很多,但是以这种方式来架构 AI 系统的风险,会掩盖一个更基本、更有趣的考虑:为什么机器人必须是黑盒?如果机器人具有自我解释能力,它将会失去执行准确手术的能力吗?机器人与患者之间的有效沟通是减少病人的护理而不仅仅只是改善吗?病人难道不需要在手术前向机器人说明他们有凝血障碍吗?

现场没有将可能并不需要作为黑盒模型的机器人作为一种选择,在座的的观众只能在准确的黑盒和不准确的透明盒子中进行选择。观众没有被告知手术结果的准确性是如何得出的(2%和15%分别测量的什么人群?),他们也没有被告知用于训练机器人的数据集的潜在缺陷。

在这一假设中,准确性必须以牺牲可以解释性(了解为什么外科医生要有做这些事情的能力)为代价。因此这项心理实验未能考虑到可解释性可能不会损坏准确性。而实际上,可解释性甚至可以提高准确性,因为它可以帮助你了解模型(机器人)何时可能是错误的。

并非一定要在准确的机器和具有理解能力的人之间做出选择,如此理解它有助于我们诊断由黑盒模型在整个社会中进行高风险决策所导致的问题。这些问题不仅存在于金融领域,而且还存在于医疗保健,刑事司法等领域。

我们可以给出一些证据表明,“必须牺牲一些可能性才能获得准确性的模型”的设想是错误的,比如一个刑事司法系统中已经反复证明,利用黑盒模型的复杂性预测未来的逮捕情况,其准确性远不及基于年龄和犯罪记录的简单预测模型(Angelino, Larus-Stone, Alabi, Seltzer, & Rudin, 2018; Tollenaar & van der Heijden, 2013; Zeng, Ustun, & Rudin, 2016)。

例如,Angelino 等人在 2018 年曾在一项仅考虑人的年龄和犯罪历史的一些规则的研究中,创建了用于预测再次逮捕的机器学习模型。其完整的机器学习模型如下:如果此人有过三次以上的犯罪前科,或者18-20岁的男性,或者有两到三次犯罪记录的21-23岁男性,那么模型预计他们将在评估发生的两年时间内再次被逮捕,否则不会。

尽管我们不一定提倡在刑事司法案件中使用这个该模型,但这套规则和黑盒模型(针对替代性模型的更正罪犯管理分析)一样准确,黑盒模型已经广泛合理使用于弗罗里达的布劳沃德县(Angelino et al., 2018)。

上面的简单模型也许和许多其他最新的机器学习方法一样准确(Angelino et al., 2018)。在应用于其他数据集的许多不同类型的预测问题的机器学习方法中,也发现了相似的结果:可解释模型(研究中的小型线性模型或逻辑模型)的表现与更复杂的模型(黑盒)有相同的效果(Zeng et al., 2016)。似乎没有证据表明黑盒模型对犯罪风险预测会有所帮助。实际上,这些黑盒的缺点可能更明显,因为它们更难排查故障,更难信任和更难使用。

在一些医疗领域以及可以改变生命决策的许多其他高风险机器学习应用中,似乎也没有体现黑盒模型准确性的优势(例如在 Caruana et al., 2015; Razavian et al., 2015; Rudin & Ustun, 2018 等论文中,作者都展示了具有可解释性条件的模型,这些模型的表现和不受约束的模型一样好)。

三、黑盒模型可能会掩盖无数潜在的严重错误

相反,黑盒模型可以掩盖无数潜在的严重错误(e.g., see Rudin, 2019)。即使在以深度神经中枢(最难解释的黑盒模型)为最先进技术的计算机视觉中,我们和其他科学家(e.g., Chen et al., 2019; Y. Li et al., 2017; L. Li, Liu, Chen, & Rudin, 2018; Ming, Xu, Qu, & Ren, 2019)已经找到了将可解释性条件添加到深度学习模型中的方法,从而使计算更加透明。即使对用于计算机视觉的深度神经网络,这些可解释性约束也不会以牺牲准确性为代价。

信任黑盒模型意味着你不仅要信任模型的方程式,而且也要信任它所基于的整个数据库。例如,在机器人和外科医生的场景中,在不知道2%和15%是如何计算出来的情况下,我们应该针对特定亚群患者的数据之间的相关性持怀疑态度。

我们所看到的每一个复杂度适中的数据集都存在缺陷。这些范围可以从大量的丢失数据(不是随机丢失)或者无法测量的数据混淆到数据集中的系统错误(例如药物治疗的错误编码),数据收集出现的问题,导致数据分布与最初的设想不一致。

黑盒模型在医疗领域中的一个常见问题是数据泄露,关于标签变量 y 的某些信息以通过查看变量的标题和描述变量这种你可能不会觉察的方式,潜入变量 x 中:有时你认为自己正在预测将来的事物,但你只是在探测过去发生的事情。在预测医疗结果时,机器可能会利用医生笔记中的信息,将这些信息在正式记录患者病情之前透露出来,因此错误地将其声明为成功的预测。

为了解决人们对黑盒模型不透明的普遍担忧,一些科学家试图对黑盒模型做出解释,提出假设,解释它们为什么会做出这样的决定。这种解释通常试图使用一个完全不同的模型来模拟黑盒的预测(可能使用不同的重要变量,掩盖了黑盒可能正在做的事情),或者提供另一种统计,该统计信息提供了关于黑盒计算的不完整信息。这种解释是肤浅的,甚至是空洞的,因为它们夸大了黑盒的权威,而是认为黑盒是必要的。有时,这些解释是错误的。

例如,当 ProPublica 的记者试图为累犯预测专设的COMPA模型解释时(Angwin et al., 2016),他们似乎错误地认为,如果一个人可以建立一个近似于比较的线性模型,并依赖于种族、年龄和犯罪历史,那么COMPAS本身必须依靠种族。

但是,当有人使用类似 COMPAS 非线性模型时,该模型不再依赖种族(Rudin, Wang, & Coker, 2019),仅对历史犯罪和年龄有依赖性。这是一个关于黑盒的错误解释如何导致失控的例子。

也许,如果司法系统仅使用可解释的模型(我们和其他人已证明同样准确),那么 ProPublica 的记者将能够撰写不同的故事。例如,也许他们可能会写出这些分数的印刷错误是如何频繁发生的,而没有明显的方法来解决它们,导致司法系统中改变生活的决策意见不一致(see, e.g., Rudin et al.,  2019) 。

但是在 2018 年 NeurIPS 大会上,在挤满了刚刚选择机器人代替外科医师的专家的会议室里,播音员继续对比赛进行实况描述。FICO 提供了房屋净值信贷额度(HELOC)数据集,其中包含来自数千名匿名人的数据,包括其信用记录的各个方面以及该人是否拖欠贷款。 竞赛的目的是创建一个用于预测贷款违约的黑盒模型,然后解释黑盒。

有人认为,对于要求参赛者创建黑盒并进行解释的竞赛,问题实际上是必须有一个黑盒。但事实并非如此。早在 2018 年 7 月,当 Duke 团队收到数据时,并分析数据一周左右后,意识到可以在没有黑盒的情况下有效地分析 FICO 数据。

无论是对线性模型使用深层神经网络还是经典统计技术,我们都发现这两种方法之间的准确性误差不到1%,1%的误差是在数据随机抽样误差范围之内。即使在使用提供了可解释的模型的机器学习技术时,其准确性也与最佳黑盒模型准确性相差不多。

那时,我们也不知如何是好了。我们是否应该遵守规则,给法官们一个黑盒,我们是否应该遵守规则使用黑盒模型并向裁判解释它?还是我们应该提供透明、可解释的模型?换句话说,当你发现自己被迫陷入机器人与外科医生的两难抉择时,你该怎么办?

我们的团队决定,对于像信用评分这样重要的问题,我们不会为了解释就向评选团队提供黑盒。 取而代之的是,我们创建了一个即使没有任何数学基础的人也能够理解的可解释的模型,我们认为该模型可分解为不同的微型模型,每个微型模型都可以独立被理解。

 我们还为贷方和个人创建了一个额外的交互式在线可视化工具。在我们的网站上研究信用历史因素可以让人们了解哪些因素影响贷款申请决策,这种方式完全不需要黑盒。我们知道可能不会以这种方式赢得比赛,但我们需要提出更重要的事实。

四、AI 模型可兼得可解释性和准确性,只是尚未尝试而已

可能有人认为,在许多应用程序中,可解释的模型可能不如黑盒模型那么准确。 毕竟,如果你可以建立一个准确的可解释模型,那么为什么还要使用黑盒呢?

但是,正如“可解释机器学习挑战”所揭示的那样,实际上,在许多应用程序中,人们并不试图构造一个可解释的模型,因为他们可能认为对于复杂的数据集,可解释的模型不可能像黑盒那么精确。 或者,他们想将模型保留为专有模型。 然后,人们可能会考虑是否可以为计算机视觉和时间序列分析构建可解释的深度学习模型(e.g., Chen et al., 2019; Y. Li et al., 2017; O. Li et al., 2018; Ming et al., 2019),那么标准假设应是可解释模型不存在,改为它们存在的假设,然后直到证明它们不存在为止。

此外,当科学家在构建模型时他们知道自己在做什么时,它们可以制造出更好的AI系统,来服务于依赖它们的人类。 在这些情况下,所谓的准确性与可解释性之间的权衡被证明是谬论:具有更多可解释性的模型通常变得更准确(而不是更少)。

准确的黑盒和不太准确的透明模型之间的错误对立已经过火了。当成千上百的领先科学家和金融公司高管都被这种二分法所误导,请想象一下其他人是如何被愚弄。其影响是深远的:它影响到我们的刑事司法、金融、医疗系统以及许多其他领域的运作。

我们需要坚持不将黑盒模型用于高风险决策,即除非根本无法构建能够达到相同准确性水平的可解释模型,否则我们不要将黑盒机器学习模型用于高风险决策。

我们完全有可能构建一个可解释性与高准确性并存的 AI 模型——只是尚未尝试过而已。也许,如果我们这样做了,我们根本就不需要进行高风险决策。

本文参考的相关文献可前往原文查看:

  • https://hdsr.mitpress.mit.edu/pub/f9kuryi8

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/488729.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

仓库温度湿度控制措施_药品仓库如何保持温湿度均衡?

各种药物器械本身的性质不同,储存的方式也就有所不同。一般常规的药品储存在温度10度-30度的仓库中最适宜,避免高温使药品因为受热,或低温潮湿,使受潮湿而发霉变质变形。药片更容易受潮,一般储存的仓库温湿度要在45%-7…

在疫情防控一线,技术能发挥什么作用?

来源:雷锋网新型冠状病毒感染的肺炎疫情在继续扩散。 截至 2020 年 1 月 26 日 24 时,国家卫生健康委收到 30 个省(区、市)累计报告确诊病例 2744 例,现有重症病例 461 例,累计死亡病例 80 例,累…

爱荷华大学计算机科学专业,爱荷华大学计算机科学专业好不好?专业设置详情一览...

自从计算机诞生以后,关于和计算机相关的行业发展的是越来越快,其中计算机科学专业就是其中一个,计算机专业的飞速发展对于人类的生活起到了重大的帮助,生活也发生了翻天覆地的变化,而美国是计算机的发源地,…

cpu工作原理flash动画_秒懂桥式整流工作原理(动画)

限时领取 | 20套电力系统及电气设备PPT资料(点蓝字,免费领资料↑↑)本文分享几张桥式整流电路工作原理的动画图。变压器u2正半周时电流通路变压器u2负半周时电流通路整个周期电流通路是这样的桥式整流电路输出波形与全波整流电路的一样,也是全波波形&…

python 创建一个空向量_Python之Django系列-创建第一个应用-5

上一篇:Python之Django系列-创建第一个应用-4这一章我们会讲到视图层怎么与数据库操作并返回数据到模板层进行渲染最终显示在页面上投票应用基本上会有这么几个视图问题列表页问题详情页问题结果页投票处理器在Django中,网页和其他内容都是通过视图派生而…

新计算机无法 盘启动不了,U盘无法被电脑识别导致制作U盘启动盘失败怎么办?...

我们知道,装系统的方式有很多,从之前的光盘装系统到现在的网上直接下载资源装系统,装系统的方式已经变得越来越简便了,但是相对来说,不少用户还是更加喜欢选择使用U盘来装系统的方式,因为U盘要比光盘和硬盘…

塔勒布: 2019-nCoV的系统风险:一份笔记

来源:混沌巡洋舰塔勒布的思考值得更多人了解,下面是对该文的全文翻译和注解:新型冠状病毒在中国武汉出现,这一病毒具有致命危险,也具有高度传染性。中国至今的反应措施有,几大主要城市已经对数以千万计的人…

arm指令手册_平台/代码从上电到运行(ARM/Cortex-M)(一)

事实上, 网上可以搜出很多讲代码运行的相关帖子。但对于一些没入门的人来说理解起来仍有挑战性。 当然, 这篇日志也没必要从二极管、门电路、地球是怎样形成的之类的本源开始。 但尽量写的详细些, 主要目的在于把目前在这一方面认知整理成文&…

c++ amp vs2017 报错_opencv4教程-1 opencv的安装与调试Windows10+vs2017

安装解压我就不必多说了。将opencv解压到相应的文件目录下&#xff1a;在vs2017创建一个空的项目。可以设置成release或者debug模式&#xff0c;64位&#xff0c;具体随意&#xff0c;代码如下&#xff1a;#include <iostream>using namespace std;#include <opencv2/…

F-35战机头盔:揭密世界最先进的显示系统(HMDS)

F-35战斗机头盔显示系统&#xff08;HMDS&#xff09;来源&#xff1a;今日头条F-35战斗机的第三代头盔是世界上最先进的头盔显示系统(HMDS)&#xff0c;首次使用了虚拟成像技术&#xff0c;可以直接将画面投射到驾驶员的面罩之上&#xff0c;配以计算机的处理运算技术&#xf…

定义一个Matrix类,实现矩阵的加法和乘法

1 #include<iostream>2 using namespace std;3 4 class Matrix5 {6 int row;//矩阵的行7 int col;//矩阵的列8 int **a;//保存二维数组的元素9 public:10 Matrix();//默认构造函数11 Matrix(int r, int c);12 Matrix(const Matrix &is);//拷…

无法读取配置节aspnetcore_ASP.NET Core 配置和使用环境变量

(给DotNet加星标&#xff0c;提升.Net技能)转自&#xff1a;HueiFengcnblogs.com/yyfh/p/12339961.html前言通常在应用程序开发到正式上线&#xff0c;在这个过程中我们会分为多个阶段&#xff0c;通常会有 开发、测试、以及正式环境等。每个环境的参数配置我们会使用不同的参数…

计算机软件英文参考文献,软件工程英文参考文献(优秀范文105个)

当前,计算机技术与网络技术得到了较快发展,计算机软件工程进入到社会各个领域当中,使很多操作实现了自动化,得到了人们的普遍欢迎,解放了大量的人力.为了适应时代的发展,社会各个领域大力引进计算机软件工程.下面是软件工程英文参考文献105个&#xff0c;供大家参考阅读。软件工…

面对新型肺炎疫情,AI能做什么?

来源&#xff1a; AI科技大本营根据最新的新型冠状病毒疫情通报&#xff0c;截至1月30日24时&#xff0c;国家卫生健康委公布确诊病例9692例&#xff0c;重症病例1527例&#xff0c;累计死亡病例213例&#xff0c;另有疑似病例15238例。为防止疫情扩散&#xff0c;全国31省市自…

残疾人计算机高考试题,残疾人勇夺玉溪高考榜眼:想去清华学计算机

没有脚&#xff0c;思想可以替我走很远。矣晓沅网易教育频道综合讯 据春城晚报报道&#xff0c;6年前&#xff0c;备受类风湿关节炎折磨的矣晓沅在家中写下了一篇名为《第一片落叶》的故事&#xff0c;讲述了一个中学生纷繁复杂的校园生活。彼时的他只能坐在轮椅上&#xff0c;…

directx repair_DirectX修复工具增强版

DirectX修复工具最新版&#xff1a;DirectX Repair V3.9 增强版 NEW!版本号&#xff1a;V3.9.0.29371大小: 111MB/7z格式压缩&#xff0c;196MB/zip格式压缩&#xff0c;345MB/解压后其他版本&#xff1a;标准版 在线修复版MD5校验码&#xff1a;DirectX Repair.exe/eeab9900cc…

灯亮怎么办_车辆隔音效果不好怎么办?

会开车并不代表对车了如指掌日常生活中还是有好多车主被诸多问题困扰&#xff0c;比如车辆隔音效果不好怎么办&#xff1f;扳手形状的故障灯亮起是什么意思&#xff1f;今天&#xff0c;就由利星大连为您答疑解惑汽车隔音效果不好该怎么办&#xff1f;有车以后遇到噪音偏大的情…

Linux下使用iotop检测磁盘io使用情况

介绍 Linux下的IO统计工具如iostat, nmon等大多数是只能统计到per设备的读写情况, 如果你想知道每个进程是如何使用IO的就比较麻烦. iotop 是一个用来监视磁盘 I/O 使用状况的 top 类工具。iotop 具有与 top 相似的 UI&#xff0c;其中包括 PID、用户、I/O、进程等相关信息。 实…

springboot 2.3_SpringBoot对消息队列(MQ)的支持

1.异步消息的定义异步消息的主要目的是为了系统与系统之间的通信&#xff0c;所谓异步消息即消息发送者无需等待消息接收者的处理以及返回&#xff0c;甚至无需关心消息是否发送成功。在异步消息中有两个很重要的概念&#xff0c;即消息代理和目的地&#xff0c;当消息发送者发…

改变世界的十大经典物理实验及十大著名思想实验

来源&#xff1a;EETOP科学实验是物理学发展的基础&#xff0c;又是检验物理学理论的惟一手段&#xff0c;特别是现代物理学的发展&#xff0c;更和实验有着密切的联系。现代实验技术的发展&#xff0c;不断地揭示和发现各种新的物理现象&#xff0c;日益加深人们对客观世界规律…