AI的“色差”与“纠偏”

来源:脑极体

在美国学术界声援BLM(Black Lives Matter)之后,事情的走向有点难以预料。

学术界的反种族歧视反省似乎没有了下文,但是如火如荼的BLM运动早已蔓延开来,这次将矛头指向了AI界。

事情的起因是杜克大学提出了一种称之为PULSE(Photo Upsampling via Latent Space Exploration)的AI算法。它可以轻松将马赛克级别画质的人脸图像转化为计算机生成的高清画质图像,也可以“有来有往”地将高清画质给降级到高糊状态,反正是效果极好。

问题就出在,PULSE生成的图像可不保证是还原的原始人物的头像,而且在人脸肤色上还会进行大胆“创新”,把原本是黑肤色的人像变成了白肤色的。比如奥巴马:

这一结果被美国网民发现之后,纷纷将涉嫌种族歧视的矛头指向人工智能。然后将事情引向高潮的是AI界的标杆性人物Yann LeCun,他在推特上给出了自己的解释,大意是出现这种偏差的原因是由于数据集的偏差。训练数据集主要是用了白人照片,如果是换成黑人照片,可能会出现生成的人像更多是黑人的情况。

LeCun的一番解释却换来了两位同行的反驳,她们声称LeCun的解释是“避重就轻”,忽视了AI的偏见来自于更广泛的社会不公和偏见的影响。

为此,LeCun选择道歉以息事宁人,不愿意将这一话题继续扩大。然而AI界已经为此分成了两派,就LeCun是否在为“AI的种族歧视”辩护和是否应该为此事道歉吵得不可开交。

今天,在社交网络中不堪其扰的LeCun呼吁所有人停止相互的攻击,再次申明自己反对一切形式的歧视,并决定退出推特来表明这一态度。

相互攻击的口水战确实对于解决问题于事无补,但AI算法中存在种种的“偏见”和“歧视”,则仍然是AI界严肃面对的 “事实性”问题。

不过,就导致AI偏见的种种原因,人们仍然在争论不休,而至于如何解决AI中存在的种种偏见,则同样没有一致的定论。我们希望尽可能呈现出这一争论的复杂样貌,来探索下破解AI偏见的方案中有无最优解。

AI的“有色眼镜”世界

今年5月底,微软宣布要裁撤80名外包编辑,交由AI算法负责接下来的MSN新闻抓取、排版和配图等工作。

(MSN 在关于Jade的报道中错误地使用了Leigh的照片)

然而就在宣布之后不到一周时间里,AI编辑就捅了娄子,在一篇关于阿拉伯裔歌手Jade Thirlwall的文章中,配图却用成了该团队另外一个非裔成员Leigh-Anne Pinnock的照片。更让人哭笑不得的是,这篇文章正是Jade讲述自己曾经遭受种族歧视经历的文章。

(左三是Jade Thirlwall,右一是Leigh-Anne)

AI算法又用“AI脸盲”的偏见再一次不经意地“歧视”了一把Jade和她的伙伴Leigh-Anne。虽然说两位女团成员长得是有那么一点想象,但是AI就不能长长眼,正确区分出两人的肤色差别吗?

事实上,AI人脸识别在深色皮肤族裔的识别上,问题一直存在。

2018年,MIT媒体实验室的研究员Joy Buolamwini(算法正义联盟的组织者),就“人脸识别技术在识别不同种族和性别的人脸的效果关系”的研究中发现,一些商业软件在识别黑色人种的性别的错误率要远远高于白色人种,而且肤色越黑,识别率就越低。

研究中,她选择了微软、IBM和Face++的人脸识别算法。经过测试,算法在识别白人男性的错误率仅为1%,在识别白人女性的错误率为7%。而到了识别黑人男性的错误率则升至12%,黑人女性的识别错误率则高达35%,也就是每三个黑人女性就会被错误识别一次性别。

而这次研究被哈弗福德学院计算机科学家Sorelle Friedler评价为第一次证明人脸识别对不同人群有不同效果的研究。

其实之前业界早已经意识到这一问题,AI在计算机视觉上面存在的认知偏见,可能会导致种族歧视,比如2015年,谷歌的图像识别技术就将非裔美国人标记为“大猩猩”。

(美国边境警察检查护照)

当时出现这样的状况,还可以理解为图像识别算法不够成熟,而现在这一问题却仍然并未得到更好的解决。2019年底,美国国家标准与技术研究院(NIST)的一项研究表明,世界上许多顶尖的面部识别算法都存在年龄、种族和民族偏见。研究显示,一些美国本土开发的面部识别软件中,中年白人男子的识别准确率最高,而非裔美国妇女识别错误率最高,少数族裔、儿童和老年人的错误识别率也相对更高。在某些情况下,亚裔和非裔美国人被错误识别的概率是白人的100倍。

AI偏见的范围,自然不仅仅限于人脸识别领域。比如在算法招聘、犯罪风险预测以及疾病风险评估当中,都会因为算法模型的偏差和数据的不完善导致AI的偏见。

比如,2018年,研究者在亚马逊的招聘算法中发现,在技术职位的简历中,对包含有“女性”的一词的简历进行了降级。而将AI应用于某些人可能再犯罪的风险评估时,更多以司法部的历史数据记录进行训练。而现实数据中,美国黑人就比白人或西班牙裔更容易被警察拦截。

再比如,美国某公司在利用AI筛选慢性病高风险人群的过程汇总,他们主要根据患者支付的医疗费用来评估的患者患并发症的风险高低。但他们发现,在实际过程中,当黑人和白人患者花费相同的情况下,模型给出的黑人患者的风险评分仍会低于白人患者。也就是,即使在风险相似的情况下,该模型也更倾向于选出更多白人患者进入护理计划。

也就是说,在现实世界中存在的种族歧视、性别、年龄歧视、少数人群歧视等问题,不仅在AI算法中存在,甚至还会通过一种更直接有效地方式放大。

AI算法的“色差”体质,难道真的像LeCun所言,就是AI训练的数据集的问题吗?

AI“色差”从何而来?

在我们大多数人的意识中,科技通常是中立的。不管在全世界任何体制中、面对任何人群,科技遵循的规则都是客观的、中立的,就像建造高楼要遵循力学结构原理,防御新冠病毒要遵循科学检测和消杀防护手段一样。

偏偏AI这位科技领域的新宠,从诞生之日起就带着神秘的算法黑箱和挑战人类智能的宏伟愿景。同时不可避免地也带有了人类设计者的主观色彩和个人偏见。

在AI应用中,最显而易见的一种人类性别偏见甚至都没有上升到算法层面,而仅仅在人类选择AI助手中就暴露无遗。

现在,主要的智能音箱或者智能设备中的AI助手都默认为女性名字和女性声音。当然,大多数用户也都表现出对于女性声音的偏好。但这一默认出厂设定隐含着一个来自现实社会的偏见,那就是人们更倾向于把女性设定为服务助理的角色,继续强化了女性的次要地位和顺从男性的角色定位。

在深入到那些由于AI图像识别算法导致的种族歧视和性别歧视案例中,其实也可以发现AI算法的决策过程以及导入训练数据的过程中都有研发者个人的价值观、认知缺陷和偏见等因素参与其中。

比如,在PULSE进行高清图像生成的案例中,LeCun的解释一定意义上是可能的,就是如果在训练数据集中加入更多的黑人照片,那么生成的照片可能会更多是黑人的肤色。但是,AI偏见的锅也不能完全甩给数据偏差(LeCun在此的回应确实有点草率)。

AI艺术家Mario Klingemann通过验证指出,PULSE将黑人图像生成为白人的问题,并非出自数据,而是算法本身。他通过使用StyleGAN(PULSE也采用了英伟达的这一算法)从相同像素的奥巴马图像中生成的更多是非白人照片。当然,Mario也不能真正指出到底是算法在什么情况下出现这种错误的。

在对LeCun的回应中,在AI正义联盟工作的研究者Deborah Raji指出,AI的偏见受到更广泛的社会不公正和偏见的影响,而不仅仅是使用“正确”的数据集来能解决更大的社会不公问题(当然Raji的指责也有点超纲)。

通过以上争论,我们其实可以得出一个更折中的答案。AI是大规模带标注的数据集训练的产物,数据集中反映不同种族、性别的样本数据占比的失衡,确实将反映到AI算法模型的结果当中,从而又会强化算法模型对于某一类数据的判断,而弱化对缺失数据的判断。而训练数据的偏见则来自于人类研究者对于数据的收集方式的偏颇。

在以往的数据收集,更多来自于研究者更为熟悉的人种,或者是互联网上面的数据。但事实上,这些数据也并非“客观中立”,而早已带上了人类世界的“偏见”标签。比如在谷歌中,搜索CEO的图片,绝大多数都是男性CEO,其比例要远远高于实际当中的男性CEO比例。而搜索黑人名字,则往往会跟“犯罪”、“逮捕”等标签绑定。此外,在英文搜索中,其他少数族裔的数据也很少会被搜索到。由此形成的数据集而训练的模型将延续人类的偏见。

一个典型的案例就可以理解。去年,微软、谷歌、亚马逊等AI在识别低收入国家的物品上面,准确度要远远低于高收入国家的物品。不完整的数据集导致AI也会“嫌贫爱富”了。

也就是说,AI算法和数据集的问题直接导致了偏见和歧视的出现,而导致AI算法和数据集出问题的原因则来自于人类研究者一开始的认知缺陷和原始数据隐藏的偏见问题。

在BLM运动愈演愈烈的当下,AI偏见问题正从一个圈内被忽视的“顽疾”走出圈外,成为社会大众关心的公平正义问题。那么,这是否能成为解决这一问题的最好契机呢?

AI“色差”该如何“纠偏”?

客观来说,想要真正清除AI算法的这些“色差”偏见,难度极大。不然AI界也不会坐视这个问题的泛滥。不过,至少在美国非裔男子佛洛依德事件之后,科技公司已经开始意识到AI算法带来歧视问题的严重性了。

比如,IBM等公司就做了一件“釜底抽薪”的事情——既然AI(仅指人脸识别)有问题,那我不用还不行吗?

(IBM现任首席执行官Arvind Krishna)

6月8号,IBM旗帜鲜明地声明要彻底放弃人脸识别业务, “反对将面部识别技术在内的任何技术用于大规模监控、种族定性、侵犯基本人权与自由,或其他任何不符合我们价值观和信任与透明原则的目的。”

随后,亚马逊和微软也紧随其后,只是打了折扣,声明有条件地限制自己的人脸识别技术提供给美国警方使用。

IBM这种自绝于AI的方法,当然可以避免人脸识别技术在种族歧视上的滥用。但是一竿子打死AI并不能彻底解决问题。人脸识别在现实世界的应用既有普遍场景,也有重要作用。通过追根溯源,提高少数族裔和女性老人等群体的人脸识别准确度,不是更有意义吗?

导致AI偏见的原因可能是复杂因素的集合,那么解决AI偏见的“药方”,自然也是需要多管齐下的。综合来看,纠正AI偏见要从技术、立法和团队三方面来整体改进。

在技术层面,丰富数据源类型和规模,构建更公平的数据集,这成为解决AI偏见最直接、看起来也最可行的方式。

在立法层面,建立算法问责制度,由AI组织成立专业机构实现对算法的审查和监督。尽管欧洲的GDPR、美国的《算法问责法案》已经有相关规定,但实际操作仍然存在难度,这就要求拥有AI算法的科技企业在算法透明性和可解释性上做出巨大让步。

在团队层面,增加科技公司中AI团队的人群多样性,特别是女性和有色人种的比例,也许是解决这一问题的可行方法。毕竟,之前的AI技术大多是由西方白人男性主导,这很可能是导致美国众多AI算法带有种族歧视、性别歧视的一个“隐含”原因(但并不能确定其中包含直接的因果关系)。

更为重要的是,在今后的算法测试中,在公布结果前,应该加入更多样化的应力测试,包括增加对不同国籍、种族、肤色、性别、年龄等数据的测试,提前发现算法中可能存在的认知偏见。

此外,通过开源社区和开源技术来消除AI偏见,也可能是一个不错的思路。至少首先解决了AI算法的透明性问题。同时,诸如像研究者提出的自动白箱测试技术——DeepXplore,可以增强了AI应力测试的强度,以验证AI的黑盒问题,并消除可能带来的偏见问题。这也是值得研究者们长期关注的问题。

在解决AI偏见的问题上,我们不可能抱着过于激进的态度,希望通过一次社会运动就能彻底推动技术界去消除这一技术问题,毕竟这一问题的根源更多是来自于人类自身。

我们的认知偏见其实要远远多于AI,而AI所做的就是“学会”并“放大”我们的偏见和歧视。因此,对于AI算法训练的纠偏就显得刻不容缓,但又不能操之过急。正如AI算法要经过一次次调参的过程来将训练结果调整至越来越接近完美的准确状态,AI的纠偏也需要这样一个一步步缓慢调整的“调参”过程,只不过这个过程要更为复杂和艰辛。

在这个过程中,AI研究者首先是跟自己的认知盲区和个人偏见做斗争。如果你认为AI中存在的偏见不是什么大问题的时候,它本身已经就是一个很大的问题了。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/487486.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

英伟达奔驰共同发布自动驾驶系统,还自带停车功能

大数据文摘出品来源:VB编译:白浩然最近,英伟达(Nvidia)宣布为了和奔驰(Mercedes-Benz)汽车紧密合作,计划从2024年开始推出一款车载计算系统和AI基础设施,该技术于去年1月…

【hihocoder 1312】搜索三·启发式搜索(启发式搜索写法)

【题目链接】:http://hihocoder.com/problemset/problem/1312?sid1092363 【题意】 【题解】 定义一个A*函数 f stepval 这里的val是当前这个状态;每个点到目标状态的点的曼哈顿距离的绝对值; (这个值肯定比真正需要花费的路程短) step就为当前状态花费的步数; 把普通…

Gartner发布2020年数据与分析领域的十大技术趋势

来源:Gartner公司近日,Gartner发布了数据与分析领域的十大技术趋势,为数据和分析领导者的新冠疫情(COVID-19)响应和恢复工作提供指导,并为疫情后的重启做好准备。数据和分析领导者如果希望在疫情后能持续创…

java 中文域名转码_转换java方法

java date String 类型相互转换这种转换要用到java.text.SimpleDateFormat类字符串转换成日期类型:方法1:也是最简单的方法 Date datenew Date("2008-04-14");方法2:SimpleDateFormat sdfnew SimpleDateFormat("yyyy-M...文章…

【42.59%】【codeforces 602A】Two Bases

time limit per test1 second memory limit per test256 megabytes inputstandard input outputstandard output After seeing the “ALL YOUR BASE ARE BELONG TO US” meme for the first time, numbers X and Y realised that they have different bases, which complic…

java2019 数据结构算法面试题_2019年JVM最新面试题,必须收藏它

1、JVN内存结构方法区和对是所有线程共享的内存区域;而java栈、本地方法栈和程序员计数器是运行是线程私有的内存区域。Java堆(Heap),是Java虚拟机所管理的内存中最大的一块。Java堆是被所有线程共享的一块内存区域,在虚拟机启动时创建。此内存区域的唯一…

前沿科技 | 中科院科学家研究揭示灵活行动选择的神经机制

来源:中国科学院6月24日,中国科学院科学家团队——脑科学与智能技术卓越创新中心(神经科学研究所)、上海脑科学与类脑研究中心、神经科学国家重点实验室姚海珊研究组在eLife上在线发表了题为《次级运动皮层在灵活视觉分类行为中参…

中科院调查组成立!杨辉发表声明,并对举报信作出详细回应

左:加州大学圣地亚哥分校教授付向东。右:中科院神经所青年 PI 杨辉。图片来源:UCSD/一席演讲来源 BioArtReports 中科院神经所 等整理 科研圈7 月 2 日,网络消息称加州大学圣地亚哥分校细胞和分子医学系教授付向东发布实名举报信&…

java lookandfeel nimbus_动态改变LookAndFeel

LookAndFeel可以改变图形界面的风格,比如说可以将Java的默认界面改变成仿Windows,UNIX等其它风格的界面,主要有以下几种界面风格:metal(默认):"javax.swing.plaf.metal.MetalLookAndFeel"windows:"com.sun.java.sw…

盘点华为系工控企业——中国A股上市公司最多的创业体系

来源:OFweek工控别看今日华为风光无限,美国举国打压下更显华为雄厚实力;但早在2000年左右,全球IT产业泡沫破灭,作为通信设备商,华为也受累进入寒冬,任正非为了鼓励团队士气,写出了著…

Java多线程编程递增_java多线程编程之简介

编写正确的程序很难,编写正确的多线程程序更难。如果对多线程理解的不够深入,编写出来的程序往往跟自己的预期不一样,甚至不知道问题出现在哪里。因此,如果想成为一个好的程序员,掌握多线程是必修的一门功课。多线程带…

JavaScript中的内置对象-8--4.date对象中-获取,设置日期时间的方法; 获取,设置年月日时分秒及星期的方法;...

学习目标 1.掌握创建日期对象的方法 2.掌握date对象中获取日期时间的方法 3.掌握date对象中设置日期时间的方法 如何创建一个日期对象 语法:new Date(); 功能:创建一个日期时间对象 返回值:比传参的情况下,返回当前的日期时间对象…

秦川团队《科学》刊发研究:新冠感染恒河猴康复后不会再感染

来源:澎湃新闻新冠病毒(SARS-CoV-2)肺炎疫情全球大流行的背景下,恢复期患者是否有再次感染的风险目前尚不清楚。来自中国的最新科研成果表明,原发性新冠病毒感染可防止随后再感染,这对新冠患者的预后和下一…

java禁止修改map_Java中实现不可变Map

有时最好不允许修改 java.util.Map, 例如跨线程共享只读数据。为此,我们可以使用Unmodifiable Map或Immutable Map。在这个快速教程中,我们将看到它们之间的区别。然后,我们将介绍可以创建不可变Map的各种方法。不可修改与不可变…

昨夜,5G R16标准正式冻结!5G物联网扬帆起航

作者:赵小飞物联网智库 整理发布转载请注明来源和出处导 读昨天夜里,负责5G标准的国际组织3GPP TSG#88全体会议宣布5G R16标准冻结。在新冠疫情全球肆虐的背景下,标准化推进工作遇到非常大的挑战,而3GPP的专家们依然能…

Linux下grub.cnf详解

grub.conf跟系统启动项有关,对于重置密码。来说小case。。。 1、介绍 在Red Hat Linux7.2之后,默认的引导加载程序从LTLO变为GRUB.这个引导加载程序使用户能够选择何时以及如何引导安装在计算机硬盘上的可引导的操作系统。 2、说明 变量 说…

(二)用户相关操作

一、导入jar包 见 http://pan.baidu.com/s/1dE9kMJZ 二、导入c3p0并修改值 c3p0.driverClasscom.mysql.jdbc.Driver c3p0.jdbcUrljdbc:mysql://localhost:3306/store c3p0.userroot c3p0.password123456 三、导入工具类 见 http://pan.baidu.com/s/1miutJXe 有关这些工具类的分…

java配合ajax加快发展_配合JAVA的AJAX使用

概要Ajax是“Asynchronous JavaScript and XML”的简称,即异步的JavaScript和XML。readyState属性用来返回当前的请求状态,有五个可选值。分别是0到4,每个值的含义如下描述。 0:“未初始化”状态, 表示已经创建一个XML…

你以为美国商业航天那么牛只是因为马斯克?更多原因在这里!

来源:银河航天漫游指南2020年5月31日,SpaceX的载人龙飞船成功将两位宇航员成功送往国际空间站,成为有史以来第一家将人类送入太空轨道的私营企业。美国商业航天领域的进展有目共睹。载人龙飞船起飞瞬间这次成功发射打破了传统航天领域以国家力…

APP开发流程

https://wenku.baidu.com/view/04a51445c77da26924c5b058.html?fromsearch转载于:https://www.cnblogs.com/ada-openmind/p/7634453.html