Nature：AI为什么总是歧视重重？

640?wx_fmt=png

来源：网络大数据

摘要：当使用谷歌翻译将西班牙语的新闻翻译为英语时，涉及到女性的短语通常都会翻译为“他说”或“他写道”。

当使用谷歌翻译将西班牙语的新闻翻译为英语时，涉及到女性的短语通常都会翻译为“他说”或“他写道”。

常用于处理和分析大量自然语言数据的词嵌入(Word Embedding)算法通常会将欧美名字预测为令人愉快的人物形象，而将非裔美国人名预测为令人不愉快的人物形象。

这些只是AI应用歧视特定人群中的一小部分案例，还有更多未被发现。

正如很多学者所指出的，偏颇决策并非AI独有，但随着AI的影响范围逐渐扩大，使得这个问题的解决变得尤为重要。

实际上，偏见问题的普遍性意味着我们需要系统的解决方案，下文我们列出了几种可能的策略。

有偏数据

640?wx_fmt=png

无论是在学术界还是工业界，从发行的出版物和媒体等公开刊物和报道来看，计算机科学家们均倾向于通过训练更加复杂的算法而获得荣誉，而对于数据收集、数据处理和数据组织相对关注较少。

AI产生偏差的主要原因在于训练数据。大部分机器学习任务都基于大规模的、带标注的数据集进行训练。例如，针对图片分类的深度神经网络通常基于ImageNet进行训练，而ImageNet上有着超过1400万张的标注图像集。

在自然语言处理中，标准算法一般基于具有数十亿个单词的语料库进行训练。研究人员通常使用特定查询关键词通过爬取类似谷歌图像、谷歌新闻等网页来搜集数据，或者通过整合例如维基百科等比较容易获取的数据源上的信息来构建数据集。

这些数据集后续通常由研究生或众包平台，如亚马逊众包平台(Amazon Mechanical Turk)进行标注处理。

这些处理方法可能会无意识地让数据产生性别、种族和文化偏见。

通常来说，数据中包含的某些群体占比较高，而另一些群体则占比较少。ImageNet作为推动计算机视觉研究的训练数据源，其中超过45% 的数据来源于美国用户，而这些数据提供者仅占全世界人口的 4%。

相比之下，中国和印度用户总共贡献了 3% 的数据，而这些国家的人口占据了全世界人口的36% 。

这种地理多样性的缺乏从某种情况下解释了为何计算机视觉算法会将一张美国传统新娘的照片标记为“新娘”、“礼服”、“女人”、“婚礼”，而将另一张北印度新娘的照片则标记为“表演艺术”和“服装”。

在医学领域，机器学习预测器可能特别容易受到有偏数据集的影响，因为医学数据的生产和标注成本非常高。去年，研究人员使用深度学习从照片中识别皮肤癌。

他们在129,450张图片集上进行模型训练，其中60% 的图片来源于从谷歌图片。但是其中有不到5%的图片是属于深色皮肤人群的，并且该算法并未在深色皮肤人群上进行过测试。因此这个分类器对不同人群的性能可能会有显著变化。

造成偏差的另一个原因是算法本身。

640?wx_fmt=png

典型的机器学习程序会尝试最大化训练数据的整体预测准确性。如果训练数据中一组特定群体的出现频率明显超过其他群体，则程序将会针对此类群体的数据进行优化来提供整体准确率。

一般计算机科学家基于“测试数据集”进行算法评估，但测试集通常是原始训练集的随机子样本，所以也有可能存在同样的偏差。

有缺陷的算法可以通过循环反馈放大偏差。想象一下根据统计学训练的系统，例如谷歌翻译，其默认使用的是男性代名词。

这种模式是由英语语料库中男性与女性代名词比例2:1的情况造成的。更糟的是，每一次翻译程序默认翻译为“他说”，都会增加相应男性代名词出现在网页上的几率——这可能会潜在地影响来之不易数据纠偏进展。

得益于大规模的社会变革，才使得男女代名词的比例从20世纪60年代的4:1下降到现在的2:1。

平衡倾斜

640?wx_fmt=png

数据中的偏差常常会反映出制度建设和社会权利关系的深层次和隐性失衡。以维基百科为例，它似乎是一个丰富多样的数据源。

但是该网站的传记条目中只有不到18%是关于女性的。从女性文章链接到男性文章的次数远大于反过来链接的次数，这使得男性更容易被搜索引擎获取到。男性还更多的被浪漫伴侣和家庭的相关文章所提及。

因此，建立训练数据集时必须注意算法调优情况和社会意识行为。具体而言，应该采取措施来确保数据集具有多样性，并且不代表特定群体。

这意味着不能再采用简单的分类——“男/女”、“黑/白”等等——这些分类很难表达性别和种族身份的复杂性。

一些学者已经开始对此展开工作。计算机科学家最近发现，商业面部识别系统在识别肤色较深的女性相比肤色较浅的男性会更容易产生性别分类错误，错误率分别为35%和0.8%。

为解决这个问题，研究人员重新构建了一个由1,270个人组成的新的图像数据集，来均衡性别和种族比例。使用这些数据重新训练和微调后的面部分类算法应该可以提高其准确性。

为了帮助确定偏差来源，我们建议注释者使用标准化元数据对训练数据集的内容进行系统化的标注。一些研究小组已经在设计包含机器学习数据集的元数据和“有效标签”的“数据表”。

含机器学习数据集的元数据和“营养标

每个训练数据集都应有相关信息来说明该数据集是如何收集以及是如何对数据进行注释的。如果数据包含有关人员的信息，则应提供有关地理、性别、种族和其他人口统计信息的摘要。如果数据标签是通过众包完成的，那么应该包括有关人群参与者的基本信息，以及他们给出的确切请求或指示。

640?wx_fmt=png

数据管理者应尽可能提供与数据相关的准确描述。例如，在刑事司法数据的例子中，了解模型训练过哪些“犯罪”类型数据有助于应用和解释该模型。

内置修复程序

许多期刊已经要求作者提供类似的实验数据信息作为出版的先决条件。例如，Nature要求作者将所有微阵列数据上传到开放存取库Gene Expression Omnibus——这就有需要作者提交实验协议的元数据。

我们鼓励像国际机器学习会议这样的会议组织者去提出类似的要求，将标准化的元数据作为最终提交和同行评审过程的重要组成部分。数据存储库的主机(例如OpenML)和AI竞争平台(例如Kaggle)也应该这样做。

最重要的是，计算机科学家应该努力开发更加完善的算法来消除数据中存在的人的偏见。

目前研究者正在探寻各种方法来解决数据偏差的问题，其中之一是纳入约束，本质上就是推动机器学习模型，以确保它在不同的子群体和类似的个体之间实现公平的算法。

一种相关的方法是改变学习算法，以减少其对敏感属性如种族、性别和收入等以及与这些特征相关的信息的依赖。

640?wx_fmt=png

这种新产生的去除偏差的方法很有潜力，但需要通过实践的检验与完善。

然而，不可回避的问题是，种族、性别和其他相关信息是需要被准确记录的。除非有很好的实例，否则很难知道应该对模型施加哪些约束或更正。相关方法也要求算法设计者可以先验地确定他们想要避免哪些类型的偏差。

一种互补的方法是使用机器学习本身来识别和量化算法和数据中的偏差。我们称之为进行AI审计，其中审计员是一种系统地探测原始机器学习模型，以识别模型和训练数据中的偏差的算法。

以我们最近工作中使用的一种流行的机器学习方法——词嵌入为例，来量化美国的历史成见。词嵌入将每个英语单词映射到空间中的点(几何向量)，这样向量之间的距离就能捕获对应单词之间的语义相似性。

它捕捉了类比关系，例如'man'是'king'，'woman'是'queen'。我们开发了一种算法——AI审计员，来查询其他性别类比的嵌入。这表明“man”是“doctor”，而“woman”是“nurse”;“man”是“computer programmer”，而“woman”是“homemaker”“。

一旦审核员在单词嵌入和原始文本数据中揭示了历史成见，就可以通过修改单词向量的位置来减少偏差。此外，通过评估成见的演变过程，对历史文本进行训练的算法可能会有消除偏差的作用。

例如，从1910年到1990年，谷歌图书每十年的美国文本数据嵌入一次，就会发现这期间美国人对亚裔的态度令人非常震惊且变化无常。1910年，美国人对亚裔的描述为“怪异”和“野蛮”。

到1990年，在第二次世界大战后和20世纪80年代的移民浪潮时期，美国人的态度发生了巨大转变，又用“抑制”和“敏感”来描述亚裔。

根源性方法

640?wx_fmt=png