Nature:AI为什么总是歧视重重?

640?wx_fmt=png

来源:网络大数据

摘要:当使用谷歌翻译将西班牙语的新闻翻译为英语时,涉及到女性的短语通常都会翻译为“他说”或“他写道”。


当使用谷歌翻译将西班牙语的新闻翻译为英语时,涉及到女性的短语通常都会翻译为“他说”或“他写道”。


常用于处理和分析大量自然语言数据的词嵌入(Word Embedding)算法通常会将欧美名字预测为令人愉快的人物形象,而将非裔美国人名预测为令人不愉快的人物形象。


这些只是AI应用歧视特定人群中的一小部分案例,还有更多未被发现。


正如很多学者所指出的,偏颇决策并非AI独有,但随着AI的影响范围逐渐扩大,使得这个问题的解决变得尤为重要。


实际上,偏见问题的普遍性意味着我们需要系统的解决方案,下文我们列出了几种可能的策略。


有偏数据


640?wx_fmt=png


无论是在学术界还是工业界,从发行的出版物和媒体等公开刊物和报道来看,计算机科学家们均倾向于通过训练更加复杂的算法而获得荣誉,而对于数据收集、数据处理和数据组织相对关注较少。


AI产生偏差的主要原因在于训练数据。大部分机器学习任务都基于大规模的、带标注的数据集进行训练。例如,针对图片分类的深度神经网络通常基于ImageNet进行训练,而ImageNet上有着超过1400万张的标注图像集。


在自然语言处理中,标准算法一般基于具有数十亿个单词的语料库进行训练。研究人员通常使用特定查询关键词通过爬取类似谷歌图像、谷歌新闻等网页来搜集数据,或者通过整合例如维基百科等比较容易获取的数据源上的信息来构建数据集。


这些数据集后续通常由研究生或众包平台,如亚马逊众包平台(Amazon Mechanical Turk)进行标注处理。


这些处理方法可能会无意识地让数据产生性别、种族和文化偏见。


通常来说,数据中包含的某些群体占比较高,而另一些群体则占比较少。ImageNet作为推动计算机视觉研究的训练数据源,其中超过45% 的数据来源于美国用户,而这些数据提供者仅占全世界人口的 4%。


相比之下,中国和印度用户总共贡献了 3% 的数据,而这些国家的人口占据了全世界人口的36% 。


这种地理多样性的缺乏从某种情况下解释了为何计算机视觉算法会将一张美国传统新娘的照片标记为“新娘”、“礼服”、“女人”、“婚礼”,而将另一张北印度新娘的照片则标记为“表演艺术”和“服装”。


在医学领域,机器学习预测器可能特别容易受到有偏数据集的影响,因为医学数据的生产和标注成本非常高。去年,研究人员使用深度学习从照片中识别皮肤癌。


他们在129,450张图片集上进行模型训练,其中60% 的图片来源于从谷歌图片。但是其中有不到5%的图片是属于深色皮肤人群的,并且该算法并未在深色皮肤人群上进行过测试。因此这个分类器对不同人群的性能可能会有显著变化。


造成偏差的另一个原因是算法本身。


640?wx_fmt=png


典型的机器学习程序会尝试最大化训练数据的整体预测准确性。如果训练数据中一组特定群体的出现频率明显超过其他群体,则程序将会针对此类群体的数据进行优化来提供整体准确率。


一般计算机科学家基于“测试数据集”进行算法评估,但测试集通常是原始训练集的随机子样本,所以也有可能存在同样的偏差。


有缺陷的算法可以通过循环反馈放大偏差。想象一下根据统计学训练的系统,例如谷歌翻译,其默认使用的是男性代名词。


这种模式是由英语语料库中男性与女性代名词比例2:1的情况造成的。更糟的是,每一次翻译程序默认翻译为“他说”,都会增加相应男性代名词出现在网页上的几率——这可能会潜在地影响来之不易数据纠偏进展。


得益于大规模的社会变革,才使得男女代名词的比例从20世纪60年代的4:1下降到现在的2:1。


平衡倾斜


640?wx_fmt=png


数据中的偏差常常会反映出制度建设和社会权利关系的深层次和隐性失衡。以维基百科为例,它似乎是一个丰富多样的数据源。


但是该网站的传记条目中只有不到18%是关于女性的。从女性文章链接到男性文章的次数远大于反过来链接的次数,这使得男性更容易被搜索引擎获取到。男性还更多的被浪漫伴侣和家庭的相关文章所提及。


因此,建立训练数据集时必须注意算法调优情况和社会意识行为。具体而言,应该采取措施来确保数据集具有多样性,并且不代表特定群体。


这意味着不能再采用简单的分类——“男/女”、“黑/白”等等——这些分类很难表达性别和种族身份的复杂性。


一些学者已经开始对此展开工作。计算机科学家最近发现,商业面部识别系统在识别肤色较深的女性相比肤色较浅的男性会更容易产生性别分类错误,错误率分别为35%和0.8%。


为解决这个问题,研究人员重新构建了一个由1,270个人组成的新的图像数据集,来均衡性别和种族比例。使用这些数据重新训练和微调后的面部分类算法应该可以提高其准确性。


为了帮助确定偏差来源,我们建议注释者使用标准化元数据对训练数据集的内容进行系统化的标注。一些研究小组已经在设计包含机器学习数据集的元数据和“有效标签”的“数据表”。


含机器学习数据集的元数据和“营养标


每个训练数据集都应有相关信息来说明该数据集是如何收集以及是如何对数据进行注释的。如果数据包含有关人员的信息,则应提供有关地理、性别、种族和其他人口统计信息的摘要。如果数据标签是通过众包完成的,那么应该包括有关人群参与者的基本信息,以及他们给出的确切请求或指示。


640?wx_fmt=png


数据管理者应尽可能提供与数据相关的准确描述。例如,在刑事司法数据的例子中,了解模型训练过哪些“犯罪”类型数据有助于应用和解释该模型。


内置修复程序


许多期刊已经要求作者提供类似的实验数据信息作为出版的先决条件。例如,Nature要求作者将所有微阵列数据上传到开放存取库Gene Expression Omnibus——这就有需要作者提交实验协议的元数据。


我们鼓励像国际机器学习会议这样的会议组织者去提出类似的要求,将标准化的元数据作为最终提交和同行评审过程的重要组成部分。数据存储库的主机(例如OpenML)和AI竞争平台(例如Kaggle)也应该这样做。


最重要的是,计算机科学家应该努力开发更加完善的算法来消除数据中存在的人的偏见。


目前研究者正在探寻各种方法来解决数据偏差的问题,其中之一是纳入约束,本质上就是推动机器学习模型,以确保它在不同的子群体和类似的个体之间实现公平的算法。


一种相关的方法是改变学习算法,以减少其对敏感属性如种族、性别和收入等以及与这些特征相关的信息的依赖。


640?wx_fmt=png


这种新产生的去除偏差的方法很有潜力,但需要通过实践的检验与完善。


然而,不可回避的问题是,种族、性别和其他相关信息是需要被准确记录的。除非有很好的实例,否则很难知道应该对模型施加哪些约束或更正。相关方法也要求算法设计者可以先验地确定他们想要避免哪些类型的偏差。


一种互补的方法是使用机器学习本身来识别和量化算法和数据中的偏差。 我们称之为进行AI审计,其中审计员是一种系统地探测原始机器学习模型,以识别模型和训练数据中的偏差的算法。


以我们最近工作中使用的一种流行的机器学习方法——词嵌入为例,来量化美国的历史成见。词嵌入将每个英语单词映射到空间中的点(几何向量),这样向量之间的距离就能捕获对应单词之间的语义相似性。


它捕捉了类比关系,例如'man'是'king','woman'是'queen'。我们开发了一种算法——AI审计员,来查询其他性别类比的嵌入。这表明“man”是“doctor”,而“woman”是“nurse”;“man”是“computer programmer”,而“woman”是“homemaker”“。


一旦审核员在单词嵌入和原始文本数据中揭示了历史成见,就可以通过修改单词向量的位置来减少偏差。此外,通过评估成见的演变过程,对历史文本进行训练的算法可能会有消除偏差的作用。


例如,从1910年到1990年,谷歌图书每十年的美国文本数据嵌入一次,就会发现这期间美国人对亚裔的态度令人非常震惊且变化无常。1910年,美国人对亚裔的描述为“怪异”和“野蛮”。


到1990年,在第二次世界大战后和20世纪80年代的移民浪潮时期,美国人的态度发生了巨大转变,又用“抑制”和“敏感”来描述亚裔。


根源性方法


640?wx_fmt=png


计算机科学家、伦理学家、社会科学家和其他许多人都在努力提高数据和AI的公平性,我们也是时候考虑一下何为公平了。


数据展现了这个世界的本来面貌,还是被塑造成人们想要它成为的样子?同样,一个人工智能工具是否应该用来评估一份工作的候选人,以及这个人是否能很好地融入工作环境? 谁又应该决定优先考虑哪种公平观念?


为了解决这些问题并评估训练数据和算法的更广泛影响,机器学习研究人员必须与社会科学家以及人文、性别、医学、环境和法律等方面的专家进行交流。


当前,正在努力促进这种合作,包括我们在加州斯坦福大学参加的“以人为本的AI”计划。这种参与必须从本科阶段开始,这个阶段的学生不仅要了解算法的工作原理,同时还要研究AI的社会背景。


设备、程序和流程塑造了我们的态度、行为和文化。AI正在改变经济和社会,改变我们沟通和工作的方式,重塑治理模式和政治环境。我们的社会长期忍受着不平等,AI绝不能与此沆瀣一气。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/494742.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

※【python自学】7个Python生态系统核心库,你值得拥有

无论你是想快速入手Python,还是想成为数据分析大神或者机器学习大佬,亦或者对Python代码进行优化,本文的python库都能为你提供一些帮助。 一 概述 Python生态系统的一些核心基础数据分析库: NumPy:支持大量的维度数…

Eclipse编写Java程序

Eclipse的Java开发工具(JDT),允许用户使用它的环境进行编辑、调试及运行Java程序。1. Java运行环境设置 指定JRE的版本。Eclipse设置默认的运行环境的JRE设置成当前配置,用户可以修改多个JRE版本的运行环境,并选择符合其需求的运行环境。[窗口 Window]…

㊙️【教你用python挣零花钱】自动化简历内推,学弟直呼牛逼!!

最近,小编在处理简历时,发现大量简历需要一个个打开文件,复制姓名、邮箱、电话号码、学历等关键信息,效率特别低且部分文件无法直接复制。于是,小编便写了简历解析处理的脚本,支持文件格式有:do…

MySQL流浪记(六)—— CONCAT到GROUP_CONCAT的沿途风景(图文详解)

本文中的案例如下,可以自己测试一下,有问题可以留言哦。 CREATE TABLE staff (id INT PRIMARY KEY AUTO_INCREMENT,name VARCHAR(50),job_id INT, joindate DATE,salary DECIMAL(7,2) ); INSERT INTO staff(name,job_id,joindate,salary) VALUES (孙悟…

收藏!最新大数据产业地图 十大生态金矿百大公司起底【附下载】

来源:智东西人工智能的崛起,加速了大数据技术的应用落地。据中国大数据产业生态联盟调查显示,国内大数据企业年营业额4000万人民币以上的已经超过40%,这意味着,这些企业已经度过生存期,开始进入应用落地和品…

【一鸣离职,左晖去世】互联网老兵给大家的三个建议

2021年5月20日,除了娱乐圈的分分合合,互联网圈发生了两件大事: 1、字节跳动创始人张一鸣发布内部全员信,宣布卸任CEO一职。 2、贝壳发布讣告,公司创始人兼董事长左晖先生因疾病意外恶化于2021年5月20日…

科大讯飞:让世界听见AI的声音

来源:华为怀揣着“让世界聆听我们的声音”的梦想,科大讯飞依托世界领先的核心技术,引领智能浪潮,服务亿万用户,从中国语音产业的拓荒者一跃成为世界人工智能产业的领军者,而最初科大讯飞把语音作为切入点却…

Linux中的chmod详解

chmod(英文全拼:change mode)命令是控制用户对文件的权限的命令。Linux/Unix 的文件调用权限分为三级 : 文件所有者(Owner)、用户组(Group)、其它用户(Other Users)。只有…

【程序员薪资】2021年04月新鲜出炉,看看你拖后腿了吗?

程序员一直都是一个备受人们关注的群体。据IDC统计,全球约有1850万名程序员(数据还在持续增长),中国占10%左右。随着近年全国互联网创业热潮的兴起,“互联网”、“云计算”以及“智能硬件”等领域发展迅速,…

CICC科普栏目|神经网络浅讲:从神经元到深度学习

图1 人脑神经网络来源: 计算机的潜意识摘要:神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向–深度学习的基础。神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向–深度学习的基础。学习神经网络不仅可以让你掌握一门强大的…

linux安装Redis(超详细,只要三分钟,每一步命令都有命令截图及运行截图)

Redis redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。这些数据类型都支持push/pop、add/remove及取…

鬼才!用Python计算圆周率 π

目录 一、圆周率的历史发展 1、中国 2、印度 3、欧洲 二、用python计算圆周率 A货:什么!你不会背圆周率(鄙夷的眼神) 3.1415926535 8979323846 26433... 桥哥:我会算呀 !!! 一…

大数据常见问题:数据倾斜

offer收割系列介绍: 1、分享桥哥本人或小伙伴在面试大厂时遇到的真题,并给出参考答案!!如果能帮到大家,点赞、收藏、评论是对我最大的支持!! 2、涉及岗位:主要为大数据开发、数据仓…

一图看懂新一代人工智能知识体系大全

来源:财经头条摘要:人工智能的发展离不开基础支持层和技术层,基础支持层包括大数据、计算力和算法;技术层包括计算机视觉、语音识别和自然语言处理。人工智能的技术本质是什么,本文会详细分析。人工智能的发展离不开基…

阿里、字节offer收割系列:数据仓库岗(面试真题,建议收藏)

【offer收割系列介绍】 1、分享桥哥本人或小伙伴在面试大厂时遇到的真题,并给出参考答案!! 2、涉及岗位:主要为大数据开发、数据仓库(桥哥干过的),其它岗位也可参考 3、涵盖技术:mys…

MIT新开发的 AI 模型有望改进恶性脑瘤治疗

来源:人工智能和大数据美国研究人员新近开发出一种人工智能模型,能够为胶质母细胞瘤患者设计出最小剂量给药方案,在缩小肿瘤的同时减少药物带来的毒副作用,改进患者生活质量。胶质母细胞瘤是一种常见的恶性脑瘤,常见疗…

建议收藏丨大数据集群常用监控命令(内存、磁盘、CPU、网络)

大家好,我是明月十四桥!! 擅长领域:python黑科技、大数据后端研发、数据仓库 今日重点: ① 学会查看linux各种状态,包括:网络IO、磁盘、CPU、内存等; ② 学会理解命令所代表的含义&a…

中科院王飞跃:新的智能全球化将要来临,人工智能标准化为时尚早

中国科学院自动化研究所复杂系统管理与控制国家重点实验室主任王飞跃来源:财经网摘要:8月11日,中国科学院自动化研究所复杂系统管理与控制国家重点实验室主任王飞跃在由厚益控股和《财经》杂志联合主办主题为“共享全球智慧 引领未来科技”的…

建议收藏丨sql行转列的一千种写法!!

大家好,我是明月十四桥!! 爱好特长: 1、爱好和特长有很多,擅长word、excel、ppt、wind等软件的安装与卸载; 2、精通PE、PS、PB、DCF、PEG等单词的拼写; 3、熟悉Windows、Linux、Mac、Android、I…

深度学习并非万能:你需要避免这三个坑

作者 | George Seif编译 | 专知整理 | Mandy, Sanglei摘要:本文是人工智能专家George Seif撰写的博文,介绍了在当前深度学习比较火热的情景下需要避免的三个坑。Tweaking Neural Net ParametersThree reasons that you should NOT use deep learning深度…