你社交网站上的照片,也许已经被用来训练人工智能了

640?wx_fmt=jpeg

来源:网易智能


斯特于2013年拍摄的这张照片被收录在IBM的人像数据集(Diversity in Faces)中


毫无疑问,这张家庭照片是非常可爱的:照片中的爸爸留着短须,戴着无框眼镜,棕色头发的妈妈咧着嘴笑着。他们正和两个蹒跚学步的女儿一起嬉戏,同时品尝着冰淇淋


但是,这张照片于2013年被上传到照片分享网站Flickr上时,“可爱”以外的属性引发了争议。对于面部识别系统来说,这张照片有着独特的意义。照片里,人脸出现在了画面的不同位置。这样的照片能够帮助训练人工智能来识别照片和视频中的人脸。


IBM开发了一个名为“人脸多样性”的新项目,并为其准备了上百万张图片,这张其乐融融的照片就是其中之一,该项目旨在提升人脸识别的公平性和准确性。


照片的拍摄者是佛蒙特州农村的一名图书管理员,名叫杰萨姆·韦斯特Jessamyn West。当她发现这张照片被IBM使用了的时候,她感到既惊讶又愤怒,她曾将这张照片上传到Flickr,并添加了知识共享(Creative Commons)协议,以便让其他人可以使用这张照片。


但是她不知道的是,包括她拍摄的自画像在内的十几张照片,和这张照片一样都包含在了人脸识别数据集中,这让她感到十分不安。她说:“如果当初有人(就使用我的照片)征求过我的同意,我不会如此不安和愤怒。”


多年来,研究人员们通过互联网收集并注释了各类物体的照片,以此来训练电脑,让其可以更好地了解它们周围的世界。通常,他们通过谷歌图片搜索、公共Instagram帐户和一些其他的途径(有些合法,有些可能不合法)获取数量巨大的图片。得到的数据集通常被用于学术研究,比如训练或测试人脸识别算法。但随着微软、亚马逊、脸书和谷歌等公司押宝人工智能,人脸识别正走出实验室,进入大型企业的视野中。


随着消费者意识到他们在互联网上留下的数据能够产生的巨大威力,人脸识别数据集正在加剧人们对隐私和监控的担心。因此,一些研究人员正在重新审视这种野蛮收集他人照片的行径。在充满分享精神的互联网中,使用他人照片本应征求别人同意。


01

照片从哪里来?


由于深度学习的普及,近年来机器学习研究蒸蒸日上,人脸识别技术也得到了极大的改善。在一个典型的用例中,照片、视频或实时流媒体中的人脸会被扫描、分析,接着,它们的特征会被拿来与数据库中注释过的人脸进行比较。


这项技术正被用于打击人口贩运和机场快速安检,同时它也被用于监视音乐会、体育赛事。


然而,面部识别的准确性仍是一个问题。研究人员开始担心人工智能系统中存在的歧视和偏见。该技术在正确识别有色人种和女性等方面还存在着重大缺陷。造成这一问题的原因之一,是数据集里男性相对于女性、白人相对有色人种的悬殊比例。


对机器训练来说,数据多样性很重要,但数据的体量大小也同样重要。人脸识别系统的训练和测试需要在数千万甚至数百万张人脸上进行。


多年来,研究人员一直通过IBM的人脸识别数据集来进行相关研究。这个包含图片链接的数据集都是从Flickr和雅虎发布一百万张图片的资源包中整理生成。该资源包被称为YFCC100M,它被用于各种各样的科学项目研究,包括在不使用地理坐标的情况下估算照片和视频的拍摄地点的研究。


许多公司、研究机构和个人都为面部识别编制了数据集,IBM只是其中之一。其中一些数据集由实际的图像组成,还有一些类似IBM的数据集,是由图像链接组成的。有时,数据集也是可以通过拍摄模特得到的。


640?wx_fmt=jpeg

这些人像属于英伟达用于训练GAN系统的数据集


通常情况下,这些数据集是知识共享的,但它们必须用于非商业目的,比如算法研究。但CNN发现,大量的类似数据集可以从Github等网站免费下载。


David A. Shamma在雅虎实验室担任研究主管时,帮助整理了Flickr的数据集。他认为,近些年来学术界为了机器视觉和识别研究,正从他们能接触到的任何地方,想方设法地搜集数据,“在这个一个学术领域里,人们经常说,‘没有造成伤害,就不算犯规’”。


Shamma认为,他和他的同事发布的Flickr大数据集,通过将大量授权的图片交给研究人员,可以帮助学术界以此为基础进行研究。


这些被上传到Flickr上的图片来源于像韦斯特这样的普通人和一些专业人士。这些图片拥有的知识共享协议是一种特殊类型的版权许可,?它明确规定了图像可以在何种条件下被他人使用和共享。


知识共享协议于2002年首次发布,远远早于当前的人工智能热潮。


尽管研究人员在Flickr等网站上免费使用图片,但他们也承认,许多上传这些照片的人可能会对照片被用于训练人工智能的事实感到惊讶。


Shamma说:“我认为人们对自己的照片用途有一定的预计,但是当被告知具体的人工智能用途时,他们仍会感到意外。”


02

不满在升级


不论人工智能的从业者们如何解释,韦斯特在得知自己照片被用作机器学习后大吃一惊。今年3月,她在阅读了一篇NBC新闻报道后,搜索了自己的Flickr账户。结果发现她为朋友的家人拍的照片和其他许多照片一样,都是数据集的一部分时,她很沮丧。她认为人工智能的未来很明朗,但自己的照片在不知情的情况下被用来训练人工智能使她忧心重重。


Twitter上相关的帖子充斥着普通网民的抗议。很多人也沮丧地发现,他们在网上分享的照片(通常是很久以前的照片)成为了训练人工智能的素材。


韦斯特要求IBM从数据集中删除她的照片,但这只能通过发邮件来完成。她还必须授权IBM使用她的社交账号,以便其能够找到并删除每一张照片。


IBM表示,它“致力于保护隐私权”,数据集中涉及到的人随时都可以选择退出。不过,它并没有提供工具来帮助确认数据集是否包含了特定的图像,因此人们必须通过NBC构建的搜寻工具来查找。


与此同时,芯片制造商英伟达的研究人员正在研究IBM的经验教训,并考虑改变自己的做法。


今年3月,英伟达发布一个在线工具,帮助人们了解他们的照片是否被包含在用于训练StyleGAN的数据集里。StyleGAN是今年2月英伟达公布的一个人工智能系统,善于创造实际上并不存在的逼真人脸,它的数据集包含70,000张高质量的Flickr授权图片。


在NBC揭露了私人图片被用作机器训练后,英伟达的在线工具才出现在网络上。然而英伟达负责图形研究的副总裁David Luebke辩称,这项工具已经开发了一段时间了。


他说:“当人们慢慢意识到这一点的同时,我们也一直在为之努力。只要有人(对搜集自己的图片)提出反对,我们也希望能赢得他们尊重。”


如果用户想从数据集中删除自己的照片,或避免其用于未来的计算机视觉研究,该公司还列出了一系列预防措施对用户进行指导。


这些建议包括将照片设为私有、更改其附带的使用许可,以及在照片上添加一个标签,以表明他们不希望将其用于计算机视觉研究。


Luebke说:“我认为很多人要么不在乎,要么会很乐意他们的照片被用在StyleGAN这样的研究上。但如果有人不喜欢这样,那也有办法退出。


640?wx_fmt=jpeg

这张韦斯特的自拍照和其他的照片一起被编入IBM的数据集中


一些研究人员认为,人们应该通过授权,自己决定图片是否可以用于计算机视觉或人工智能研究。


对此,知识共享协议并不能帮上大忙。只要遵循相关的条款,这个来自非营利组织的许可协议并不限制任何形式的人工智能开发。


知识共享组织首席执行官Ryan Merkley称:“这些协议并不是为了保护隐私或研究伦理而设计的。


03

等待立法


近年来,人工智能发展之快,以至于相关法规几乎还没有来得及制定,更不用说实施了。法律上,在收集和使用图像进行面部识别时,公司并没有告知义务。


目前还没有相关的联邦法规出台。在各州,情况则有所不同:例如,伊利诺斯州有一项法律,要求公司在收集生物特征信息之前必须得到客户的同意;亚马逊和微软总部所在地华盛顿州的州参议院最近通过了一项限制面部识别使用的法案,该法案仍需在该州众议院获得通过。


Merkley和其他人认为应该考虑立法来规范数据收集。今年3月,参议院提出了一项法案,要求企业在收集和共享识别数据之前必须征得消费者的同意。它还要求公司进行外部测试,以确保算法在实施前是公平的。


数字版权组织电子前沿基金会(Electronic Frontier Foundation)技术政策主管Jeremy Gillula则表示,即使没有严格的法律限制私人照片用于人工智能训练,企业和研究团体也应该注意遵守道德规范。


在他看来,这意味着使用照片就要得到照片中人物的明确同意。即便这很难做到,它也是企业必须面对的现实。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/492114.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python 学习编程 【for语句breakcontinue语句使用】(一)

前言 我是跟着B站小甲鱼的视频教程中学习的,今天看了小甲鱼的十多个教学小视频,发现其讲课风格还是颇受同学们喜欢的,我也是很喜欢这种实践性教学,并且也常常开车,和普通的慕课风格是有很大不同的,这样也更…

刘锋:互联网50年,从“巨网”到“大脑”

摘要:本文是刘锋博士2019年受邀在《科学大众》为中学生撰写的科普文章,详细阐述了互联网如何在过去50年里发生了怎样的巨大变化,并深刻影响着人类社会和科技未来。(《科学大众》 创刊于1937年,是中国最早创办的科普期刊。创刊以来…

python学习---常见的内置字符串(二)

注:将字符串内置函数记录整理下,之后需要用到的时候便于查找学习。 1.capitalize() : 第一个字符变为大写 例子: str2 xiaoxie str2.capitalize() Xiaoxie截图: 2.casefold() :将所有字符串改为小写 str1 AAcc…

“数字化”才是智能制造的基础!

来源: 航空工业 摘要:所谓的机器换人只是低端工作,高端工作的智能绝大部分决策管理还是靠人来完成。机器换人仍只是自动化的老路!以下精彩内容为中国航空工业信息技术中心首席顾问宁振波在近日举办的“第九届航空航天信息化建设合…

数字图像处理学习之路:图像变换(一)

数字图像处理归纳总结1.1 数字图像处理基础1.2 数字图像处理技术1.3 图像处理一般流程1.4 图像变换案例分析(如真彩色图像转换为灰度图像)1.1 数字图像处理基础 概述:数字图像处理是基于画面进行二维或三维物体模型的重建,利用计…

2019年中国科创板全面解读报告

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云…

雷达原理之 多普勒效应原理及应用(一)

多普勒效应:物体辐射的波长因为波源和观测者的相对运动而产生变化。 因为在运动的波源前面,波被压缩,波长变得较短,频率变得较高(蓝移);在运动的波源后面时,会产生相反的效应。波长…

数字图像处理总结(冈萨雷斯版)

数字图像处理前六章知识点总结第一章:绪论第二章:数字图像基础第三章:灰度变换与空间滤波第四章:频率域滤波第五章:图像恢复与重建第六章:彩色图像处理第一章:绪论 1.数字图像概念: …

未来已来:5G将在这88个方面影响我们的工作和生活

来源:资本实验室作为备受瞩目的下一代移动通信网络,全球围绕5G的测试、布局与谈判不断升温。而与之相关的竞争也越发白热化,公司间的竞争、城市间的竞争、国家前的竞争,5G背负着太多的使命和期待。相比于4G通讯,5G不仅…

线性调频信号(LFM)的形式及幅度谱、相位谱特性

线性调频信号在SAR系统中非常重要,其瞬时频率是时间的线性函数。该信号常用于信号的发射,以获得均匀的信号带宽,在接收信号中则来自传感器运动。本篇博客主要讨论线性调频信号的形式,及在matlab仿真中的幅频特性和相频特性。 一、…

Android学习笔记----ArcGIS在线地图服务(Android API)坐标纠偏

仅限于如下ArcGIS在线地图服务(高德提供数据): //概述:彩色中文含兴趣点版中国基础地图 //投影:WGS 1984 Web-Mercator //切片格式:MIXED90 //服务类型:基础地图服务 //数据提供商:高德软件有限公司 //数据获取时间:2014年秋季 //…

机器人领域十大前沿技术

来源:工业互联网观察近些年来,机器人行业发展迅速,机器人被广泛应用于各个领域尤其是工业领域,不难看出其巨大潜力。与此同时,我们也必须认识到机器人行业的蓬勃发展,离不开先进的科研进步和技术支撑。以下…

星载低波段极化SAR电离层法拉第旋转效应(FR)及校正国内外研究现状-学习笔记

相较于常规星载SAR,星载低波段极化SAR一方面具有较强穿透能力,能够探测植被和千层地表下的隐藏目标,另一方面,该系统对生物量更为敏感,能够观测森林资源的消长,对研究全球碳循环与气候变化的相互作用具有重…

星巴克、苹果、谷歌、亚马逊等巨头,为何同时做这件事?

综合整理|《中国企业家》记者 周夫荣编辑|马吉英摘要:除了星巴克之外,苹果、谷歌、亚马逊等高科技公司也早已在可持续能源领域悄然布局。除了经济原因和社会责任,这些公司或许有更深远的考量。当外界把星巴克视为咖啡大…

合成孔径雷达成像算法与实现(信号处理基础知识点)

最近由于学业上需要,重新学习了《合成孔径雷达成像算法与实现》一书,其中第二章是信号处理基础,在此记录下学习过程。 一、信号处理基本概念 1.卷积与相关 卷积: 相关: 卷积从几何解释:(1).生成h(u)的时间对称…

【深度学习】一文看尽深度学习各领域最新突破

来源:《产业智能官》想要了解深度学习各领域的最新进展?看个视频就足矣。该课程的PPT资料,下载地址如下:https://www.dropbox.com/s/v3rq3895r05xick/deep_learning_state_of_the_art.pdf?dl0本文所介绍的内容是MIT系列课程之一&…

实数序列频谱的共轭对称性(DFT与IDFT仿真实现)

一、基础知识 1、傅里叶变换:通俗来讲,是以时间为自变量的信号与以频率为自变量的“频谱函数”之间的某种转换关系。 DFT:即离散傅里叶变换,对离散序列进行傅里叶变换。设x(n)为长度为M的有限长序列,其N点DFT定义(公…

IOS本地化应用

BK项目已完成7788,在项目的后期需要被翻译成多国语言版。为了适应全球多个国家使用多个存储。 应用本地化是分别对字符串、图片和 xib 或 storyboard 文件本地化,而传统的做法是对 xib 上的字符串(包含UILabel和UIButton、UITextField等&…

低轨通信卫星: 开启 6G 通信时代,带动千亿规模市场

来源:中国银河证券摘要:“6G5G卫星网络”,卫星通信应用前景广阔。2017年11月,英国电信集团(BT)首席网络架构师NeilMcRae对6G通信进行了展望,他认为6G将是“5G卫星网络”,在5G的基础上集成卫星网络来实现全球…

电离层色散效应误差补偿——基于最大对比度自聚焦算法(总结)

电离层色散效应严重影响星载SAR成像质量,为提升P波段星载SAR图像质量,必须研究相应的补偿技术,从而使得其更好的应用在军事和民用上。 目录一、引言二、最大对比度自聚焦算法原理三、最大对比度自聚焦算法流程图四、补偿方法性能分析一、引言…