人工智能的算法黑箱与数据正义

640?wx_fmt=gif&wxfrom=5&wx_lazy=1


前段时间,《终极算法》作者、人工智能著名学者、华盛顿大学教授 Pedro Domingos 在社交网络中写道:“自 5 月 25 日起,欧盟将会要求所有算法解释其输出原理,这意味着深度学习成为非法的方式。”一石激起千层浪。人们不禁要问:欧盟为何出台这个法规?以深度学习为核心的人工智能真的会遭遇重大挫折?中国应当借鉴并仿效吗?


640?wx_fmt=png&wxfrom=5&wx_lazy=1


用人工智能的自动化决定


尽管真正拥有知觉和自我意识的“强人工智能”仍属幻想,但专注于特定功能的“弱人工智能”早如雨后春笋般涌现。在万物互联的背景下,以云计算为用,以个人数据为体,以机器学习为魂的智能应用已经“润物细无声”。


从今日头条的个性化推送到蚂蚁金服的芝麻信用评分,从京东的“奶爸当家指数”到某旅游网站用大数据“杀熟”,个人信息自动化分析深嵌入到我们日常生活之中。在法律上,我们称之为“基于个人信息的自动化决定”。简单来说,就是通过自动化的数据处理,评估、分析及预测个人的工作表现、经济状况、位置、健康状况、个人偏好、可信赖度或者行为表现,进而利用这种“数据画像”(profiling),在不同的业务场景中作出有关数据主体的各项决定。


640?wx_fmt=png


人工智能的自动化决定一方面可以给我们带来便利,比如智能投顾或智能医疗,但另一方面,它绝非完美无缺,它可能出错,甚至还可能存在“恶意”。美国马萨诸塞州的居民John Gass便深受其害。联邦调查局的反恐识别系统将他误认为是另一位司机,并吊销了他的驾驶执照,于是,他不得不费时费力,让当局相信他不是那名司机。


其实,John Cass已经非常幸运。在美国,每周超过1000人被机场使用的算法错误地标记为恐怖分子。一名美国航空公司的飞行员在一年中被拘留了80次,因为他的名字与爱尔兰共和军领导人的名字相似。这还不算是最糟糕的。人工智能的算法依赖于大数据,而大数据并非中立。


它们从真实社会中抽取,必然带有社会固有的不平等、排斥性和歧视的痕迹。例如,为了在Twitter上与千禧一代进行对话,微软开发了Tay聊天机器人,它旨在学习如何通过复制网民的语音来模仿他人。可仅仅在试用24小时后,它就被引入歧途,成为支持种族灭绝的反女权主义纳粹分子,以至于发出了“希特勒无罪”的消息。更有甚者,美国法院用以评估犯罪风险的算法COMPAS,亦被证明对黑人造成了系统性歧视。


640?wx_fmt=png


无论是程序错误,还是算法歧视,在人工智能的前沿领域——深度学习中,都变得难以识别。华盛顿特区的Sarah Wysocki是一位被普遍认可的老师,但当2009年政府用一个自动化决定程序来评价教师表现时,她和其他205人因得分不佳被解雇。据称,该决定以少数学生的成绩为依据,可学校始终无法解释为何优秀教师会落得如此下场。华盛顿学校的难题有着深层次原因。


与传统机器学习不同,深度学习并不遵循数据输入、特征提取、特征选择、逻辑推理、预测的过程,而是由计算机直接从事物原始特征出发,自动学习和生成高级的认知结果。在人工智能输入的数据和其输出的答案之间,存在着我们无法洞悉的“隐层”,它被称为“黑箱”(black box)。


这里的“黑箱”并不只意味着不能观察,还意味着即使计算机试图向我们解释,我们也无法理解。哥伦比亚大学的机器人学家 Hod Lipson把这一困境形象地描述为“这就像是向一条狗解释莎士比亚是谁。”


《统一数据保护条例》的应对


正是因为人工智能的自动化决定对个人权利的重大影响,将于2018年5月25日生效的欧盟《统一数据保护条例》(GDRR)在1995年《数据保护指令》(Directive 95/46/EC)的基础上,进一步强化了对自然人数据的保护。


首先,尊重个人的选择权。当自动化决定将对个人产生法律上的后果或类似效果时,除非当事人明确同意,或者对于当事人间合同的达成和履行来说必不可少,否则,个人均有权不受相关决定的限制。


640?wx_fmt=png


其次,将个人敏感数据排除在人工智能的自动化决定之外。根据《统一数据保护条例》第9(1)条,“敏感数据”即有关种族、政治倾向、宗教信仰、健康、性生活、性取向的数据,或者可唯一性识别自然人的基因数据、生物数据。


由于这些数据一旦遭到泄露、修改或不当利用,就会对个人造成不良影响,因此,欧盟一律禁止自动化处理,即使当事人同意亦是如是,只有在明确的法律规定时才存在例外。


640?wx_fmt=png


再次,增加数据使用者在个人数据收集时的透明度。根据《统一数据保护条例》第13条(f)和第14条(g),如果个人数据将用于自动化决定,那么至少应当向个人提供相关决定的重要性、对个人预期的影响以及有关运算逻辑的“有用信息”。


比如,在银行收集个人数据时,应当告知其可能使用人工智能对贷款人资质进行审核,而审核的最坏结果(如不批贷)也应一并披露。此外,由于我们都不是技术专家,因此,这里的“有用信息”不但应浅显易懂,为每个人理解,而且要有助于每个人主张自己在《统一数据保护条例》或其他法律下的权利。还是以贷款审核为例,当我们觉得被不公正对待时,银行提供的信息就应当成为法院审理的重要依据。


640?wx_fmt=png


最后,如果个人对自动化决定不满,则有权主张人工介入,以表达自己的观点并提出质疑。这一规定和上述透明度要求相结合,产生了针对人工智能的所谓“解释权”,而这正是Pedro Domingos的担忧所在。考虑到算法黑箱,深度学习的合法化似乎是个无解的问题。但事实上,这可能是个误解。


一方面,“有用信息”的提供是在收集数据之时,而非作出自动化决定之后,其意味着个人仅仅概括地了解系统的一般原则即可,并不需要彻底把握某项具体决定的逻辑。另一方面,法律所看重的是“可理解”(explainable),而不是“可阐释(interpretable)。换言之,它不关注人工智能内部究竟如何运作,而只关心输入数据和输出结果的关联关系。在加州大学伯克利分校发布的《人工智能的系统挑战:一个伯克利的观点》(A Berkeley View of Systems Challenges for AI)中,这种关联性被称“反事实问题”测试。


在个人被拒绝贷款的例子中,人工智能系统必须能否回答如果诸如“我不是女性,是不是就能批贷?”“如果我不是小企业主,是不是就能批贷”这样的问题。因而数据使用者有义务建构出一套具有交互诊断分析能力的系统,通过检视输入数据和重现执行过程,来化解人们的质疑。这才是“人工介入”的真实含义。


将数据正义引入中国


数据是数字经济的关键生产要素,人工智能是数字经济的关键产业支柱。如何在发掘数据的经济价值、发展人工智能的同时,保障个人的权利和自由,依然是数字社会的未解难题。


当前,我国尚无《个人信息保护法》,在不久前出台的《个人信息安全规范》中,第7.10条“约束信息系统自动决策”也只是赋予了个人提出申请的程序性权利,并不涉及实质约束。


无独有偶,中国电子技术标准化研究院发布的《人工智能标准化白皮书》虽然已关注到人工智能的伦理和隐私问题,但着墨不多,因过于原则而难以实施。就此而言,《统一数据保护条例》可成为我国可资借鉴的他山之石。它不仅仅提供了一系列具象的法律规则,更重要的是它在“数据效率”之外,传递出“数据正义”(data justice)的理念。

640?wx_fmt=png


尽管作为一个发展中的理念,数据正义的含义远未定型,但“反数据歧视”和“数据透明”必然是题中之意。在数字化生存的今天,不管是“社会人”还是“经济人”,都首先是“数字人”。


现实空间的我们被数据所记载、所表达、所模拟、所处理、所预测,现实空间的歧视也是如此。从求职歧视到消费歧视和司法歧视,数据歧视前所未有地制度化和系统化。基于此,法律首先要做的就是规定更加小心和负责地收集、使用、共享可能导致歧视的任何敏感数据。可这显然不够。从大数据的相关性原理出发,只是将敏感数据简单排除并不能保证它们不被考虑。


例如,若特定区域的人有着大量的低收入群体或少数族裔,那么区域的地理数据就可以代替收入或种族数据,用作歧视工具。所以,要识别和挑战数据应用中的歧视和偏见,“数据透明”就不可或缺。换言之,它要求在数据生产和处理日趋复杂的形势下,增强个人的知情权,从而修复信息的对称性。


关于这一点,凯文·凯利所讲的老婆婆故事是一个绝佳的例子。在故事里,你住在一个小城镇,你的邻居老婆婆知道你的一切动向和行踪,但你可能不会觉得被冒犯,因为你不在家的时候,老婆婆会帮你看家;更重要的是,你了解关于老婆婆的一切。从信息窥视的角度,数字时代的政府和企业就像邻居老婆婆,不过,他们只是部分地做到了第一点,就第二点而言,我们却还有很长的路要走。


作者:许可,法学博士、中国人民大学金融科技与互联网安全研究中心副主任

来源:FT中文网

文章版权归原作者所有,转载仅供学习使用,不用于任何商业用途,如有侵权请留言联系删除,感谢合作。

640?wx_fmt=png


640?wx_fmt=gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/303867.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

快速了解C# 8.0中“可空引用类型(Nullable reference type)”语言特性

Visual C# 8.0中引入了可空引用类型(Nullable reference type),通过编译器提供的强大功能,帮助开发人员尽可能地规避由空引用带来的代码问题。这里我大致介绍一下可空引用类型的基本内容。刚开始接触这个语言特性的时候&#xff0…

为什么软件工程师找不到工作?我想分享四个“恐怖故事”

编者按:作为一个程序员,如果没有收到心仪的工作offer,你是不是会对自己失去信心?对接创业者和程序员的网站coderfit.com 的创始人Iwan认为你无须担心。他分享了四个“恐怖故事”,告诉我们——那些厉害的工程师被拒绝的…

使用GZipStream实现压缩和解压缩

概述之前做项目,涉及到存入到数据库或者http传输的数据量比较大,这个时候,就需要考虑在存入数据库或者发送传输之前,将数据压缩下,当从数据库中取出时,再解压还原数据。特地找了下发现有GZipStream可以实现…

linux 核显驱动程序,支持下代核显 Intel放出Linux图形驱动

【IT168 资讯】虽然Ivy Bridge处理器的发布因为策略原因被推迟到2012年3-4月份,但是Intel在硬件、软件的开发上进展颇为顺利,近日还放出了新款Linux开源图形驱动,已然支持Ivy Bridge中的整合图形核心。▲Intel新款Linux开源图形驱动Chris Wil…

看完此文再不懂区块链算我输:手把手教你用Python从零开始创建区块链

导读:如果你还没有听说过 3 点钟区块链群,说明你还不是链圈的人;如果你还没有加入 3 点钟区块链群,说明你还不是链圈的大佬;如果你还没有被 3 点钟区块链群刷屏,说明你还体会不到什么是“币圈一天&#xff…

过于在意别人的看法,怎么办?

大家好,我是Z哥。你有特别在意别人的看法吗?如果从别人那里听到对自己不好的评价会不会导致一整天都闷闷不乐,做事都没心思?如果从别人那里听到对自己好的评价会不会做起事来都像打了鸡血一样?我相信每个人都会在意别人…

linux 虚拟机挂载本地,CentOS 在VMWare中挂载本地yum源

准备工作虚拟机 VMWare系统 CentOS 7 镜像一、挂载镜像操作之前点击 虚拟机设置 CD/DVD处勾选 设备状态[x] 已连接[x] 启动时连接挂载镜像mkdir /mnt/cdrom mount /dev/cdrom /mnt/cdrom二、创建yum配置mv /etc/yum.repos.d /etc/yum.repos.d.back mkdir /etc/yum.repos.d三、创…

干货整理:处理不平衡数据的技巧总结!收好不谢

文:Rick Radewagen译:李萌在银行欺诈检测,市场实时竞价或网络入侵检测等领域通常是什么样的数据集呢?在这些领域使用的数据通常有不到1%少量但“有趣的”事件,例如欺诈者利用信用卡,用户点击广告…

MongoDB,凉凉?

英国《卫报》正式告别 MongoDB,完成了向 PostgreSQL 的迁移;RedHat 移除 MongoDB,Fedora、Debian 亦在其列;再加上前不久刚因程序员爬虫而扣上的一口 2 亿简历泄露的安全事故大黑锅——比起 “Hello World”,一只脚刚踏…

linux ubuntu 开启ssh服务,开启SSH服务远程登录ubuntu

Ubuntu系统(14.04 LTS)ssh–secure shell,提供安全的远程登录。从事嵌入式开发搭建linux开发环境中,ssh的服务的安装是其中必不可少的一步。ssh方便一个开发小组中人员登录一台服务器,从事代码的编写、编译、运行。方便代码的共享及管理。ssh…

兄dei,Python数据竞赛和5万现金奖励了解一下

“少年,我看你骨骼精奇,是万中无一的技术奇才,维护世界和平就靠你了,我这有一个拯救世界的机会(还有50000大奖,美滋滋……),见与你有缘就免费告诉你了!”剧情是这样展开的…

聊聊自驱团队的构建(四)

本文聊聊一个议题,构建知识型组织。1 背景研发团队最重要的一件事莫过于重视知识工作的开展了,尤其是以.NET为主要技术栈的企业,随着招人成本的不断提高,依托团队组织建立的知识型队伍,定期开展培训,促进团…

别再提程序员应届年薪20万了,人工智能已经年薪60万了!

对人工智能而言,2017是不平凡的一年:AlphaGo再胜人类腾讯宣布进军AI百度无人驾驶汽车上五环AI教育要从娃娃抓起寒武纪成全球AI芯片首个独角兽阿里巴巴成立达摩院类人机器人Sophia首获公民身份国家正式公布人工智能四大平台..........近年来,人…

动手造轮子:实现一个简单的基于 Console 的日志输出

动手造轮子:实现一个简单的基于 Console 的日志输出Intro之前结合了微软的 Logging 框架和 Serilog 写了一个简单的日志框架,但是之前的用法都是基于 log4net、serilog 的,没有真正自己实现一个日志输出,比如 Console、文件、数据…

Windows Phone 7Silverlight控件之--Panorama

Silverlight for Windows Phone 7的Pivot、Panorama控件是一个类似于Android应用程序列表中可以翻页控件,具有如下特点 1.简单的XAML和编程接口 2.完全支持数据绑定、内容模板属性和项目容器样式 3.内置黑、白两种皮肤样式 4.内置触控导航,可以让用户快速…

linux 往文件写4k大小,[svc]为何linux ext4文件系统目录默认大小是4k?

linux ext4普通盘为什么目录大小是4k?Why does every directory have a size 4096 bytes (4 K)?To understand this, youd better have some basic knowledge of the following (file system):inode (contains file attributes, metadata of file, pointer structure)file (c…

3月份GitHub上最热门的开源项目

本篇文章为大家盘点了3月份GitHub最热门的开源项目,一起来看看你都知道哪些,或者有哪些你已经在使用的了。1Interview-Notebookhttps://github.com/CyC2018/Interview-Notebook Star 11975此项目是作者在准备 2018 年春招实习过程中的学习总结&#xff0…

linux sed 空间模式,整理:SED的模式空间与缓冲区及n,N,d,D,p,P,h,H,g,G,x解析...

sed命令n,N,d,D,p,P,h,H,g,G,x解析1、sed执行模板sed ‘模式{命令1;命令2}’ 即逐行读入模式空间,执行命令,最后输出打印出来2、p打印…

你碰到过的最难调试的 Bug 是什么样的?

我们做开发的应该都会有深刻的体会,有时候会遇到一些莫名奇妙的BUG不知所措,解决BUG到近乎崩溃,更有甚者有人居然会在梦中解决掉BUG。下面我们看几个有意思的解决Bug的故事:知乎网友李幼萌:08年的时候,我所…

云原生 | 阿里巴巴的Dapr实践与探索

【Dapr】| 原文/敖小剑,翻译/Edison本文原文来自Dapr Blog,作者阿里云高级技术专家敖小剑。本文是我根据自己的理解翻译了其中的一部分并加了一些参考文献中的内容,所以并非完整翻译,点击本文底部“阅读原文”即可阅读原版英文全文…