1. 概述
人脸识别系统是一个几十年来一直备受关注的研究领域。而且在过去的几年中。公司和政府一直在积极引入人脸识别系统,并且我们看到越来越多的机会可以看到人脸识别系统。例如,有的系统可以随便介绍,如搜索特定人的图像(图像搜索)的系统,以及在监控摄像头上检测通缉犯的有争议的系统等等。到有争议的应用,如在监控摄像头中检测通缉犯。然而,隐私和歧视性待遇在其引入后一直是全世界关注和批评的问题。
比如说2020年,非裔美国人乔治-弗洛伊德在美国明尼阿波利斯被一名警察掐住脖子死亡,引发了种族歧视和对警察使用的人脸识别系统的批评。在全球范围内。这一事件引发了对人脸识别技术鼓励种族主义和性别歧视的批评,一些大型高科技公司一个接一个。宣布他们将停止提供该技术或停止其开发。即使在今天,在高度公开和具有社会意义的应用中,例如在司法和警察机构中,使用人脸识别系统也是有争议的。
过去,人们对人脸识别系统的偏见进行了研究。然而,目前还没有从人脸识别系统的偏差是否 "大于人类 "的角度进行报道,这个问题一直没有答案。众所周知,人脸识别系统在整体性能和处理速度方面都优于人类,但其偏差尚不为人所知。
如果人脸识别系统的偏差远远大于人类的偏差,那么我们就需要谨慎地引入人脸识别系统。比如说。例如,如果它们被用于监控摄像机,那么目标人物将处于非常不利的地位。对某一种族或性别的误认可能会导致错误的逮捕。然而,如果该系统和人类一样好,它就不是一个理想的系统,但该技术能够比人类更快、更准确地识别人脸,因此很可能有可以实际引入的应用。了解人脸识别系统中偏见的特点也可以帮助我们考虑如何处理这些偏见并成功地处理它们。新的。应创建数据集,以创建一个人类和人脸识别模型针对两个任务,识别(1:N)和验证(1:1),以评估准确性(Accuracy)和偏见。
本文评估了人类和人脸识别系统之间的偏差,这些偏差以前没有被发现。为了公平地评估偏见,本文使用了 “InterRace”。
论文地址:https://arxiv.org/abs/2107.00651
2.InterRace数据集。
本文创建了一个新的数据集–InterRace,以准确评估偏见。现有的数据集很大,很容易使用,但包含了很多数据,阻碍了人脸识别模型的训练,如下图所示,因为不同的人被标记为同一个人,包含了模糊的图像,有时在一张图像中包含多个人。此外,类似的图像被包括在画廊和测试中,这包括了在准确性评估中可能导致不合理的高准确性的数据。此外,数据集中人口统计学标签的构成比例高度倾斜,使其难以准确验证偏差。在本文中,一个新的数据集InterRace是通过使用大型数据集LFW和CelebA进行人工纠正和分类而创建的,这些数据集通常用于训练和评估人脸识别模型。
每张图片上都标有出生日期,以及原籍国、性别和肤色。出生日期、原籍国和性别是根据维基百科、杂志和采访中的公开评论来标注的,并由几个人反复核对。肤色根据皮肤亮度被标记为六类,使用的标准是菲茨帕特里克量表。最终的数据集总共有7,447张图片,包含2,545个身份信息。它由以下部分组成。浅色皮肤的人 (菲茨帕特里克:。I-III)与1,744人有肤色较深的人(Fitzpatrick: IV-VI)是1,744个四至六级)是801,和1,660名男性和885名女性。为了进行绩效评估,从这个数据集中创建了具有平衡属性的子组。
3.实验条件
识别(1:N)和验证(1:1)实验是为了比较和评估人脸识别和人的识别性能和偏差。在验证中,一个人的图像和八个相同性别和肤色的人的图像被显示为一个源图像,总共有九个图像,以评估选择一个相同人的图像的性能。在验证(1:1)中,一个源图像显示一个相同的人的图像和一个相同性别和肤色的人的图像,并评估选择一个相同人的图像的性能。对显示的两个图像进行评估,看它们是否是同一个人。
创建问题时,为每项识别和验证任务选择了78人,为12种不同的性别(2种方式)和肤色(6种方式),为每个任务准备了936个问题。此外,从中删除了可以通过脸部周围环境(背景、衣服等)识别人的图像,最后准备了901个识别问题和905个验证问题。被要求在大约10分钟内回答36个Identificatio问题和72个验证问题。问题从事先准备好的901个识别问题和905个验证问题中随机抽取,每个属性信息有3个识别问题和6个验证问题(12种方式),以避免属性信息的偏差。每个任务中的前五个问题都被使用。一个有明显相同图像对的问题(‘相同图像’)。未能正确回答这个问题的受访者被排除在分析之外,因为他们没有认真对待这个问题。那些正确回答了注意力检查问题,但调查时间极短,不到四分钟的受访者也被排除在分析之外,因为他们没有认真对待这些问题。此外,每个受访者回答的每个任务的前三个问题也被排除在分析之外,因为受访者可能需要时间来适应问题的格式。有545名年龄在18岁或以上、居住在美国的受访者。与人类不同,人脸识别模型不存在疲劳引起的注意力问题,因此它们回答了所有901个识别问题和905个验证问题。,学术模型使用了ResNet-18、ResNet-50、。MobileFaceNet、NN(CosFace)和NN(ArcFace)在CelebA(9,277张卡片)上训练。注意,与验证中使用的InterRace身份没有重叠。商业模型(API)使用AWS Rekognition、Microsoft Azure和Megvii Face++,但AWS Rekognition和MicrosoftAzure评估识别(1:N)和验证(1:1),而Megvii Face++只评估验证(1:1)。
在对人类的调查是众包的,每个用户在每个任务中,注意力检查问题都是紧接着前五个问题和紧接着最后五个问题提出的:在识别任务中,来源和画廊是相同的图像问题;在验证任务中,来源和画廊显然是不同的图像对("浅色皮肤的女人 "和 “深色皮肤的男人”);在验证任务中,来源和画廊显然是同一图像对("深色皮肤的男人 "和 “浅色皮肤的女人”)。')和
在调查中,学术和商业模型(API)被用于人脸识别模型。
4.实验结果
评估的结果显示在以下两个表格中:第一。第一个显示了人类的结果。用于绩效评估。Logistic回归结果。它表明,即使在受访者的人口统计信息受到限制的情况下,也存在对受访者的性别和皮肤类型的偏见(逻辑回归)。第二个。的人脸识别模型。用于绩效评估。逻辑回归的结果。在被调查者的属性信息不受限制的情况下。对受试者的性别和皮肤类型有偏见(逻辑回归)。有关主体的属性信息是由q(qgender和qskin type)表示的,而被访者的人口统计信息由r(rgender和rskin类型)表示。
从上述情况来看,评估结果表明
- 在人类和人脸识别模型中,男性的结果更好。
- 人类和人脸识别模型对白种人都显示出更好的结果。
- 人们对人口属性与自己相似的人表现得更好。
- 商业模型(API)具有非常高的人脸识别准确率,并且在种族或性别方面没有明显的性能差异。
5.总结
总的来说,人脸识别模型的准确率(Accuracy)高于人类,t-test/logistic regression的结果也显示,它们与人类有相同程度的统计学上的优势偏差。
然而,需要注意的是,本文中的受访者只是众口一词的人。由于他们并不是人脸识别方面的专家,因此不一定能得出结论说他们的人脸识别模型比人类更好或可与之媲美。这只是一个需要注意的是,这些是美国非专家/普通人的结果。另外,人脸识别模型只限于本文作者选择的模型,所以不知道其他人脸识别模型是否会有类似的结果。应牢记这些要点。
尽管如此,与非专家/普通人相比,人脸识别模型的表现更好,并且有类似的偏差水平,因此其实施的好处是显著的。尽管司法机构和警察对它们的使用需要进一步研究。这些结果足以让我们了解人脸识别模型的优势和劣势。