硕士论文研究「AI预测性取向」:化妆等因素并不影响判断

全世界只有3.14 % 的人关注了

数据与算法之美


2017 年,斯坦福大学的一篇《深度学习通过面部识别判断性取向超越人类》曾引发了极大争议,其通过 AI 算法仅需「看面相」即可判断一个人是不是同性恋的方法让众人感到一丝恐慌,也让技术研究者们对于算法的偏见提出了很多意见。


最近,来自南非比勒陀利亚大学的 John Leuner 在自己的硕士论文中再次尝试了 AI 识别同性恋的方法,并获得了「更为严谨」的结果。


这项技术可以无视人类的服装、化妆、拍摄角度等变量,实现男性 63%、女性 72% 的准确率。准确率比人类更好,并不再受到受试者种族、国籍的干扰。现在,乔装打扮也不会让你变得更 Gay 了。


640?wx_fmt=png

各种人工智能对于面相的判断,不知道图灵若是知道了会怎么想……(图片来源 The Verge)


与此前斯坦福大学的研究不同,在社交网络上人们对于这篇新论文的看法也有不少正面评价:其在判断性取向的时候考虑了人的年龄和种族等其他因素,从而排除了 AI 算法陷入错误认知的问题。



640?wx_fmt=png


当然,对此研究本身,依然存在着质疑。


如 Reddit 用户 PK_thundr 浏览完文章表示,「他们的『5 像素』分类器对高度模糊面部的判断几乎和实际面部一样好。所以,我并不信服从面部图像预测性取向的结论。」



640?wx_fmt=png


「机器学习预测性取向」一直是一个较为「敏感」的话题。这篇论文的发布,如同 2017 年斯坦福的研究一样也在 reddit 上引起了大家广泛的讨论,感兴趣的同学可查看 Reddit 原帖:



640?wx_fmt=png

帖子链接:https://www.reddit.com/r/MachineLearning/comments/b0nkeo/r_a_replication_study_machine_learning_models_are/


其实不只是根据面部图像预测性取向的研究,近年来随着人工智能的火热,我们看到了越来越多「匪夷所思」的应用,包括「AI 相面」、「基于面部图像的犯罪概率判断」等等……这引发了人们对隐私、研究可靠性的担忧。对此话题感兴趣的读者,可在此文章下留言探讨。


接下来,机器之心编译介绍了这篇研究论文的相关技术内容,重点介绍了数据集与机器学习模型。


原理


这篇论文遵从前人的思路,试图探索深度学习观察人类面部判断性取向的原理。


Ag¨uera y Arcas 等人对此前斯坦福大学 Yilun Wang&Michal Kosinski 的研究做出了回应,并为他们的发现提供了其它解释。他们没有将根据人脸图像检测性取向的能力与生物起源联系起来,而是认为机器学习模型是根据隐藏在显眼处的表面特征来学习的。通过检查 W&K 发布的同性恋和异性恋男女的合成图像,他们注意到以下明显差异:


  • 合成的异性恋女性面部有眼影,而女同性恋没有。

  • 男同女同脸部图像上都有眼镜,而异性恋者没有。

  • 直男面部毛发又多又黑。

  • 合成的男同脸部比直男更鲜亮,而直女的脸部比女同的更鲜亮。


发型和化妆对于判断一个人是否为同性恋虽然有一定的参考价值,但显然背离了「看面相识别性取向」的原则。这种识别方法明显存在一定偏见。


模型


为了实现更准确的判断,研究人员改进了斯坦福大学研究中的计算机视觉模型,以获得更好的效果。他们提出的模型包含 VGG 和 Face++两种方法。


其中的一部分使用 VGGFace(一个预训练的深度学习神经网络)来提取人脸照片的特征,然后根据这些特征训练了一个 logistic 回归模型来预测目标图像的性取向。


VGGFace 是用来从人脸图像中识别个体的卷积神经网络。它是在一百万张照片上训练的,这些照片来自 2622 个不同的名人。虽然该神经网络最初是为了从人脸图像中识别个体而开发的,但去掉网络的最后一层之后,我们就能获得模型用于其最终分类层的面部特征。


这些由深度神经网络产生的特征对人类来说通常是不可解释的,但可被视为一张人脸的数字表示。该模型获得的输入信息是由 Face++模型提取的面部器官裁剪图像,这些图像会按比例缩小为 224×224 像素分辨率。


模型的另一部分就是 Face++(可作为服务访问的外部模型)来为每张人脸图像提取面部「标记」。然后利用根据这些标记得出的距离来训练 logistic 回归模型,以预测目标图像的性取向。


这些标记是描述面部特征位置的面部度量。Face++为每张脸返回固定数量的标记点。标记分为几部分:



640?wx_fmt=png

图 1.2:面部形态机器模型用作输入的面部形态「标记」。


上图展示了算法对于人类面部器官的识别点,每个器官由十个或更多点组成,整个面部总共有 83 个点。随后,算法会为每个面部器官建立逻辑回归分类器,并为整个面部的所有器官创建分类。为了预测每个图像中个体的性取向,研究人员使用主成分作为自变量和性取向标记作为因变量训练逻辑回归模型。



640?wx_fmt=png


下面重点来了,为了减少深度学习的「偏见」,此研究试图探索肤色是否会影响计算机对性取向的判断。为了实现目标,模型会将输入的面部图像简化为 5×5 像素的模糊图,进而进行逻辑回归预测,男性和女性分别建模。


数据集


为训练模型,研究人员总共检索了 50 万张照片并建立了数据集。表 4.1 列出了从每个数据源中下载的每种照片的数量。


640?wx_fmt=png

表 4.1:从每个数据源检索到的每种照片的数量


本文贡献


本文对社会心理学领域的贡献:


  • 本文复制了先前利用机器学习技术根据人脸照片预测性取向的研究。研究表明,根据约会档案中的照片进行训练的深度学习分类器和面部形态分类器都能够预测性取向,而且做得比人类更好。该模型利用了不受种族或国家限制的新数据集。

  • 本文引入了新的机器学习模型,用于测试能否对高度模糊的人脸照片进行性取向预测。结果表明,根据高度模糊的人脸照片中面部和背景的主要颜色信息能够预测性取向。

  • 研究表明,故意改变一个人的外表以迎合同性恋和异性恋的刻板印象并不会改变由机器学习模型生成的性取向标签。

  • 研究表明,头部姿态与性取向无关。

  • 研究表明,不管添加或是去除面部毛发和眼镜,模型都能预测性取向。


论文:A Replication Study: Machine Learning Models Are Capable of Predicting Sexual Orientation From Facial Images


640?wx_fmt=png


论文链接:https://arxiv.org/abs/1902.10739


论文摘要


最近的研究使用机器学习方法根据人脸照片来预测一个人的性取向。为了验证这个结果,我们重新做了其中的两个模型:一个基于深度神经网络(DNN),一个是基于面部形态学(FM)。


使用来自约会网站的 20910 张照片组成的全新数据集,确认了两个模型预测性取向的能力:DNN 预测男性性取向的准确率为 68%,女性 77%;FM 预测男性性取向的准确率为 62%,女性 72%。为了调查亮度、主要颜色这样的面部特征是否会影响性取向的预测,我们创造了一种基于高度模糊面部图像的全新模型。这个模型也能够预测性取向(男性 63% 准确率,女性 72%)。


当主体刻意化妆、戴眼镜、面部毛发遮挡、变换面部拍照角度时,测试发现模型对这些变化保持稳定。这说明,拍照角度与性取向判断无关。


同时证明,约会简照包含丰富的性取向信息,这引起的一个问题是:预测结果有多少是由面部形态决定的,有多少是由衣饰、展示角度和生活方式决定的。新技术的出现让我们能够以这种方式检测性取向,而这可能对同性恋者的隐私与安全产生极大影响。


转载请在公众号中,回复“转载”

版权归原作者所有,转载仅供学习使用,不用于任何商业用途

如有侵权请留言联系删除,感谢合作。

640?wx_fmt=png

超模君准备了几份 数学思维好物

《超模定制笔记本》《数学原来会说谎》

《数学的故事》《简单微积分》......

免费 送给大家,参与就有机会获得

640?wx_fmt=gif


640?wx_fmt=png

640?wx_fmt=jpeg640?wx_fmt=jpeg640?wx_fmt=jpeg

640?wx_fmt=png


640?wx_fmt=gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/301275.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[翻译]Go与C#对比 第三篇:编译、运行时、类型系统、模块和其它的一切

Go vs C#, Part 3: Compiler, Runtime, Type System, Modules, and Everything Else | by Alex Yakunin | ServiceTitan — Titan Tech | Medium目录译者注相似性编译垃圾回收模块类、结构、接口错误处理相等性(, !)基础类库两种语言中存在的其他类似特…

指针易出错点一

2019独角兽企业重金招聘Python工程师标准>>> 声明指针中会遇到的问题 int* p1,p2; 上面这条语句的本意应该是声明两个指向int的指针,而实际的效果是p1是指针类型,p2却是int类型,这是因为在C语言中,声明和解释的语法并…

206块积木,72套进阶玩法!玩转STEAM教育,帮你省掉上万块的乐高课

▲数据汪特别推荐点击上图进入玩酷屋作为一名资深积木达人,小木我可是大大小小的积木阅览无数,当然乐高也不会放过,虽然“钱包君”已经是路人了。(每月的工资用来买乐高~)之前给大家推荐了一款STEM积木,小小…

python如何正则匹配浮点值_python使用正则搜索字符串或文件中的浮点数代码实例...

# -*- coding: utf-8 -*-#----------------------------------------------------------------------# FileName:gettxtdata.py#功能:读取字符串和文件中的数值数据(浮点数)#主要提供类似matlab中的dlmread和dlmwrite函数#同时提供loadtxtdata和savetxtdata函数#Data: 2013-1-1…

用了VS2022,你可能再也回不去旧版!

VS2022发布第11天,最直接的使用感受就是智能提示太哇塞了,之前是提示一个单词,现在直接提示一行,撸码速度直接起飞!再就是打开ASP.NET Core的源码,500多个项目3G的体积,过程比VS2019要顺滑多了&…

poj2578

简单题 #include <cstdio>int main() {int f[5];for (int i 0; i < 3; i){scanf("%d", &f[i]);if (f[i] < 168){printf("CRASH %d\n", f[i]);return 0;}}printf("NO CRASH\n");return 0; } View Code 转载于:https://www.cnblo…

意大利归还中国文物;翟天临咪蒙成考公务员题目;携程回应五一机票涨价;腾讯未成年人网络保护体系上线;这就是今天的大新闻...

今天是3月25日农历二月十九今天星期一整个周末都贡献给都挺好了下面是今天的大新闻意大利归还796件中国文物&#xff08;新京报&#xff09;3月23日&#xff0c;在中国主席和意大利总理孔特共同见证下&#xff0c;中意双方代表交换关于796件套中国流失文物艺术品返还的证书。这…

Hello Blazor:(1)像ASP.NET WebForm一样写代码

写在前面最近&#xff0c;刚开始学习Blazor。对于后端出身的程序员来说&#xff0c;使用Blazor上手开发前端程序&#xff0c;门槛确实降低了不少。还在观望的朋友可以尝试入坑了。在学习和编写Blazor程序的过程中&#xff0c;我产生了一些想法&#xff0c;将会逐渐在本系列中呈…

VScode设置背景颜色

1.打开VSCode,点击左上角文件选项 2.点击首选项 3.点击颜色主题 4.使用键盘上下方向键即可选择不同颜色的背景

选择比努力更重要,这些微信号值得你细细品读。

一个人无论是平凡的还是不平凡的只是自自然然地按照自己喜欢的样子去生活这是最省力且最快乐的人生选择以下几个优质公众号能让你在闲暇的时候不断的提升自我&#xff0c;拓宽视野愿以书卷气&#xff0c;行我路千里长按二维码&#xff0c;选择【识别图中二维码】关注少年数学家…

ASP.NET Core 6 Minimal API

ASP.NET Core 6 Minimal APIIntro微软在 ASP.NET 6 Preview 4 的介绍文章中介绍了即将到来的 ASP.NET Core 6 中的最小 API 的雏形&#xff0c;我们现在已经基本可以达到最小化 API 了雏形了&#xff0c;在 Preview 4 的时候就写了这个小示例&#xff0c;但是不够简洁&#xff…

支付宝今日起还卡收费;大城市女性买房猛增;小米发布100W快充技术;严查非法办学行为;交大通报博导辱骂学生;这就是今天的大新闻...

今天是3月26日农历二月二十今天星期二不是个让人可以昏昏欲睡的日子下面是今天的大新闻支付宝还信用卡开始收费&#xff08;澎湃新闻&#xff09;根据支付宝此前发布的消息&#xff0c;自3月26日起&#xff0c;通过支付宝给信用卡还款超过免费额度后将收取0.1%的服务费&#xf…

WPF任务栏同步进度

一、概要本篇文章主要分享使用TaskbarItemInfo对象&#xff08;WPF&#xff09;在window操作系统的任务栏中同步任务进度的功能。什么是TaskbarItemInfo对象&#xff1f;TaskbarItemInfo类为 Windows 7 任务栏功能提供托管包装。有关 Windows shell 和本机任务栏 Api 的详细信息…

每日一笑 | 各大互联网公司离职员工群名

全世界只有3.14 % 的人关注了数据与算法之美&#xff08;图源网络&#xff0c;侵权删&#xff09;

mysql快照过久_Oracle 快照(snapshot) 管理

----手工创建Oracle 快照 BEGIN DBMS_WORKLOAD_REPOSITORY.CREATE_SNAPSHOT (); END; / ---删除快照 具体快照信息可以查看视图 D----手工创建Oracle 快照BEGINDBMS_WORKLOAD_REPOSITORY.CREATE_SNAPSHOT ();END;/---删除快照具体快照信息可以查看视图 DBA_HIST_SNAPSHOTBEGIND…

WPF 左侧菜单样式

之前做了一个菜单样式&#xff0c;这样的&#xff1a;链接&#xff1a;WPF 修改(优化)Menu菜单的样式如今又来一个左侧菜单样式&#xff0c;其实只是修改了一下模板&#xff0c;如下图&#xff1a;还是老样子&#xff0c;代码全部都在MainWindow.xaml中&#xff1a;<Window …

STEAM教育风口正劲,如何培养STEAM思维?

近年来&#xff0c;STEAM教育越来越深入我们的生活&#xff0c;但STEAM教育到底是什么呢&#xff1f;来源于美国的“STEAM教育”是将五大学科——科学&#xff08;Science&#xff09;、技术&#xff08;Technology&#xff09;、工程&#xff08;Engineering&#xff09;、艺术…

vue从url中获取token并加入到 请求头里_BATJ都会用到的接口鉴权cookie、session 和token...

鉴权鉴权是指验证用户是否拥有访问系统的权利—鉴定权限。cookie、session和token为什么会有cookie、session和token&#xff1f;1、 http是无状态协议什么是无状态呢&#xff1f;答&#xff1a;当前请求和上一次或者下一次请求是没有任何关系的&#xff0c;好处是速度快&#…

程序有并发错误?NO WAY!

什么是并发错误并发是指程序能够交替执行不同的任务,以达到"同时执行效果"&#xff0c;加快程序的运行效率。但是并发也会导致一系列问题&#xff0c;以变量1赋值为例&#xff0c;由于操作实际由多条指令组成&#xff0c;不同任务执行指令的顺序可能是交错的&#xf…

好好珍惜今生,不要期待来世……

亲情经不起冷漠&#xff0c;爱情经不起谎言&#xff0c;友情经不起虚伪。再好的缘份也经不起敷衍&#xff0c;再深的感情也需要珍惜。没有绝对的傻瓜&#xff0c;只有愿为你装傻的人&#xff0c;原谅你的人&#xff0c;是不愿失去你的世界。一辈子真的好短好短…… 有多少人说好…