AI会完美的执行我们设定的目标,但这不是一个好消息

来源:混沌巡洋舰

导读: 

科普网站quanta magazine上一篇名为 Artificial Intelligence Will Do What We Ask. That’s a Problem的文,是关于AI与人际交互时,如何满足更好的理解人类需求。该文的核心观点是:通过教机器理解我们真实的欲望,科学家希望避免让它们做我们所要求的事情可能带来的灾难性后果。本文先详述(部分翻译并用自己的话重述)一篇AI伦理相关的文章,之后会根据这篇文章的观点,对当前最热门的时政,进行简要的延伸和议论。

1)当今以目标为导向的人工智能存在局限性

牛津大学哲学家Nick Bostrom在2003年提出了一个现在已经成为经典的思想实验,来说明这个问题。设想一个超级智能机器人,其编程目标看似无害,仅仅是制造回形针。这个机器人最终把整个世界变成了一个巨大的回形针工厂。

现实中,Youtube 为了最大化浏览时间,部署了基于 ai 的内容推荐算法。两年前,计算机科学家和用户开始注意到,YouTube 的算法似乎通过推荐越来越极端和阴谋论的内容来达到目的。有关素食主义的视频导致了有关素食主义的视频。关于慢跑的视频导致了关于跑超级马拉松的视频。” 因此,研究表明,YouTube 的算法一直在帮助人们极化和激进化,传播错误信息,只是为了让我们观看。

人类常常不知道给我们的人工智能系统设定什么目标,因为我们不知道我们真正想要的是什么。“如果你问街上的任何人,‘你想让你的无人驾驶汽车做什么? ’ 他们会说,‘避免碰撞,”’但你会意识到,不仅仅是这样,人们还有很多偏好。” 超级安全的自动驾驶汽车行驶得太慢,刹车太频繁以至于乘客生病。

当程序员试图列出机器人汽车应该同时兼顾的所有目标和偏好时,这个列表不可避免地以不完整告终。 说起她在旧金山开车的时候,她经常被一辆停在街上的自动驾驶汽车卡住。正如程序员告诉它的那样,它可以安全地避免与移动的物体接触---- 但这个物体就像一个塑料袋 。

AI研究者Stuart Russell认为,当今以目标为导向的人工智能最终还是有局限性的,因为它在完成特定任务方面的成功,比如在危险边缘和围棋中击败我们,然而通过将机器的目标设定为最优化一个“奖励函数”(对某些目标组合的一丝不苟的描述) ,将不可避免地导致人工智能失调,因为奖励函数不可能包括并正确衡量所有目标、无法理清主要与次级目标、同时无法应对例外和警告,甚至不可能知道哪些是正确的目标。给自由漫游的“自主”机器人设定目标,随着它们变得越来越智能,风险也会越来越大,因为这些机器人会无情地追求自己的奖励功能,并试图阻止我们关闭它们。

2)对人类有益的AI应该是怎样的

Russell在最近出版的新书《Human Compatible》中给出了3条“对人类有益的AI应遵守原则”,呼应著名的的机器人三定律,分别是:

1 机器的唯一目标是最大限度地满足人类的偏好

2 机器最初不能确定这些偏好是什么

3 关于人类偏好的最终信息来源是人类行为

接下来指出这篇文章的核心观点,AI不应该去试图实现最大限度地提高观看时间或回形针产量这样的目标,它们应该只是试图改善我们的生活。 只有一个问题: “如果机器的终极目标是试图最大化人类经验到的快乐的总和,AI究竟如何知道那是什么? ”

这个问题的难度在于,人类一点也不理性: 我们不可能计算出在任何特定的时刻,哪些行动会给我们的长期未来带来更好的结果;Russell认为,我们的决策是层次化的ーー我们通过较为清晰的中期目标,以追求相对模糊的长期目标,同时最关注眼前的情况,从而逼近理性的决策。他认为,AI需要做类似的事情,或者至少了解我们是如何运作的。

在强化学习,AI通过外界环境的反馈,来优化它的奖励函数,比如它在游戏中的得分; 当它尝试各种行为时,那些增加奖励功能的行为会得到强化,并且更有可能在未来发生。由Stuart Russell和 Andrew Ng提出的“逆向强化学习( inverse reinforcement learning)”系统不会像强化学习一样试图优化某个奖励函数; 相反,它试图了解人类正在优化的奖励函数是什么。 

强化学习系统会计算出实现目标的最佳行动,而逆向强化学习系统则会在给定一系列行动时破译潜在目标。如果计算机不知道人类喜欢什么——“它们可以做一些逆向强化学习来学习更多知识。

Russell进一步提出了“合作逆向强化学习” ,在这种模式中,机器人和人类可以一起工作,在各种各样的“辅助博弈”(代表真实世界、部分知识情况的抽象场景),中了解人类的真实偏好。

3)偏好的不确定性与AI的关机问题

1951年,阿兰 · 图灵在BBC的一次广播讲座上提出,也许可以“让机器处于从属地位,例如在关键时刻关闭AI的电源” 研究人员现在发现这种观点如今显得有些简单化。 如何阻止智能代理禁用它自己的关闭开关,或者更广泛地说,忽略停止增加其奖励功能的命令? 

在《Human Compatible》一书中,罗素写道,关机问题是“智能系统控制问题的核心”。如果我们不能关掉一台机器,因为它不让我们关,我们就真的有麻烦了。如果我们能做到,那么我们或许也能够以其它方式控制它。”

关于我们偏好的不确定性是这个问题的核心难点,例如在下面的具体案例中,机器助理罗比正在决定是否代表使用者哈丽特做决策,例如,是否为她预

订一个漂亮但昂贵的酒店房间,但罗比不确定她会喜欢什么。罗比估计哈丽特的回报可能在 -40到 + 60之间,平均 + 10(罗比认为她可能会喜欢那间豪华的房间,但不确定)。无所事事的收益是0。 

但还有第三种选择: 罗比可以询问哈丽特是否希望罗比继续为她做决策,或者更愿意“关掉它”——也就是说,让罗比退出酒店预订决定。如果她让机器人继续工作,哈丽特的平均预期收益将大于 + 10。所以 罗比会决定和哈丽特通过商量决定,如果她愿意,就让罗比关机。一般来说,除非罗比完全确定哈丽特本人会做什么,它会更倾向于让她来决定。“事实证明,对目标的不确定性对于确保我们能够关闭机器至关重要,”

4)合作逆向强化学习面临的挑战

合作逆向强化学习,在其提出者Russell看来,面临两大挑战。“其中是,我们的行为远非理性,因此很难重建我们真正的潜在偏好,”他说。人工智能系统需要理清长期、中期和短期目标的层次结构——我们每个人都被锁定在无数的偏好和承诺中。如果机器人要帮助我们(并避免犯严重的错误) ,它们需要知道如何绕过我们的潜意识信念和未明确表达的欲望这张模糊的网。

 

 第二个挑战是人类偏好的改变。我们的思想会随着我们生活的进程而改变,它们也会随着我们的心情或者机器人可能难以理解的环境的改变而改变。

 

 此外,我们的行为并不总是符合我们的理想。人们可以同时持有相互冲突的价值观。机器人应该优化哪一个?  为了避免迎合我们最坏的冲动(或者更糟糕的是,放大这些冲动,从而使它们更容易满足,就像 YouTube 算法那样) 

 机器人可以学习Russell所说的我们的元偏好: “描述关于什么样的偏好改变是可以接受的偏好。” 即我们对自己感觉上的变化有什么感觉?

像机器人一样,我们也在试图弄清我们的偏好,它们是什么,我们希望它们是什么,以及如何处理模糊和矛盾。 像我们一样,人工智能系统可能会永远停留在问问题上,走不出不确定性的带来的局部认知上,因为不确定而无法提供帮助。

然而,还有第三个主要问题没有出现在罗素的关注列表中: 坏人的偏好是什么?如何阻止机器人为了满足邪恶主人的邪恶目的而工作?人工智能系统倾向于找到绕过禁令的方法,就像富人在税法中找到漏洞一样,简单地禁止他们犯罪可能不会成功。

或者,更黑暗的是: 如果我们都是坏人怎么办?例如一直在努力修正自己,能够捕捉到无处不在的人类冲动的推荐算法,是否在通过满足人类短期的需求,而让人类忽略了气候变化这样长期的威胁了?

尽管如此,Russell还是感到乐观。尽管还需要更多的算法和博弈论研究,但他表示,他的直觉是,有害的偏好可能会被程序员成功地赋予更低的权重,而且同样的方法甚至可能“在我们培养孩子和教育人等方面”很有用 换句话说,在教机器人做好人的过程中,我们可能会找到一种教会自己的方法。他补充说,“我觉得这也许是一个机会,可以引导事情朝着正确的方向发展。”

5)结合时政的评论

这篇文说的虽然是AI,但也适合人的决策。湖北潜江市因为提前预警,导致病患数目是最少的,而武汉由于拖延而没有控制疫情。这背后的对比,就在于前者不止是遵守规范,完成上级设定的目标,而是对人民真正需要什么,有过深度的思考和理解,从而能够做出一些不那么听话,但有用的举措,即要敢于打违抗命令的胜仗。今天看到一篇名为“如果武汉市长是李云龙”的帖子,看到这个标题,你应当能猜到答案,如果是这样,情况不会像现在这样。公众号西西弗评论的帖子“艰难的决策与领导的担当”其中谈到类似的观点。要想了解人民想要什么,需要借助新技术,实时了解一线的情况,之后不拘一格的,敢于承担风险的做出非常规决定,而不是官气十足把开会作为第一要务,为开会而开会。

如果一个人只能按照上级要求的去完成任务,而不能真正理解上级需要的是什么,那么这个人在职场多半只能做办事的人,而不能成为管理者。之所以需要管理,就是需要专门有人来厘清,分解出一个组织真正的目标是什么?客户的潜在偏好与渴望在那里?通过本文对AI算法的分析,可以启发读者思考,自己该如何和家人,同时协作解决生活中的”合作逆向强化学习”。

张爱玲说写作的诀窍无非是,写别人想写的或者写别人想听的。这其中的意味,就在于写作者要解决本文提到的”逆向强化学习“问题,但作为读者,要明白既然大部分文章本身是如此写出来的,我们明白,写作者的目标和我们自身的目标很大程度上是不一致的。个人需要的优化自己长期的福祉,即要通过奋斗获得个人的成功,又要通过对自我的承诺获得人际间的尊重。为了达到这个目标,就要听到和自己观点不同的,特别的对其加以重视,并争取用自己的观点复述出来;而听到和自己观点一样的,则要对其重点加以批判,看看是否存在逻辑谬误。

点击阅读原文,查看 Artificial Intelligence Will Do What We Ask. That’s a Problem 的英文原文:

https://www.quantamagazine.org/artificial-intelligence-will-do-what-we-ask-thats-a-problem-20200130/

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/488638.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

浏览器 刷新页面后回到顶部_推荐 3 个实用的 chrome 浏览器扩展

The Great Suspender同时打开太多的网页会极大的消耗电脑系统资源。The Great Suspender 会把长时间不用的网页冻结,从而释放被这些网页占据的内存和 CPU。扩展安装完成后,会自动跳出设置界面。你可以设置「多久后自动冻结标签」,建议选择一个…

华为服务器更换主板后怎么进系统,服务器更换主板

服务器更换主板 内容精选换一换华为云帮助中心,为用户提供产品简介、价格说明、购买指南、用户指南、API参考、最佳实践、常见问题、视频帮助等技术文档,帮助您快速上手使用华为云服务。如果弹性负载均衡实例使用的证书过期或者其它原因需要更换&#xf…

圆弧半径计算图解_刀尖圆弧半径补偿G40,G41,G42 左补偿右补偿你真的能搞清楚吗...

当编写数控轨迹代码时, 一般是以刀具中心为基准。 但实际中, 刀具通常是 圆形的,刀具中心并不是刀具与加工零件接触的部分, 所以刀具中心的的轨迹应 偏离实际零件轨迹一个刀具半径的距离。 简单的将零件外形的轨迹偏移一个刀具 半…

python tensorflow多个输入_十分钟带你入门最新Python的AI库TensorFlow 2.0

去年11月,TensorFlow庆祝了它的第三个生日。多年来,它成为最受欢迎的ML 框架之一,并拥有了大量的粉丝。TensorFlow庆祝了它的第三个生日谷歌将这个框架融入Java,C ,JavaScript,最重要的是融入主要的数据科学…

人脑为何能够快速学习新知识? 用AI的视角来分析

来源:混沌巡洋舰相比机器,人脑擅长快速的跨任务学习和泛化推理, 或者说叫做卓越的元学习能力。我们说人类站立在这个迅速变化的危险世界面前,快速适应新任务的元学习能力事关生死。这种能力是目前的深度学习人工智能所完全不具备的…

lwip协议栈实现服务器端主动发送,lwip协议栈源码详解说明 - 全文

1、LWIP的结构lwip是瑞典计算机科学院(SICS)的Adam Dunkels 开发的一个小型开源的TCP/IP协议栈。实现的重点是在保持TCP协议主要功能的基础上减少对RAM 的占用。LWIP(Light weight internet protocol)的主要模块包括:配置模块、初始化模块、Nef模块、mem(memp)模块、…

中希尔排序例题代码_超全面分析十大排序算法

点击上方“零一视界”,选择“星标”公众号资源干货,第一时间送达作者 | 不该相遇在秋天责编 | 程序员小吴前言本文全长 14237 字,配有 70 张图片和动画,和你一起一步步看懂排序算法的运行过程。预计阅读时间 47 分钟,强…

eslint规范_代码规范化之Vue篇

写在前面代码规范化的重要性不在这里展开了。这一篇讲了Vue项目下如何做代码规范化的事情,主要涉及了eslint、prettier、huskylint-staged、onchange、editorConfig这几个角色。另外,虽然配置限于Vue项目,但整个思路也可以作为其他项目代码规…

人类为什么不会被人工智能取代?

来源:人机与认知实验室〔摘要〕文章旨在对人工智能的技术本质进行分析,以回应为什么人类不会被人工智能取代的问题。通过历史分析的方法,以“器官投影说”等技术哲学思想作为分析工具,回顾了人工智能技术的历程。发现在理论上&…

工作组服务器操作系统,工作组服务器操作系统

工作组服务器操作系统 内容精选换一换弹性云服务器操作系统无法正常启动时,或云服务器系统运行正常,但需要对系统进行优化,使其在最优状态下工作时,用户可以使用重装弹性云服务器的操作系统功能。重装操作系统后弹性云服务器IP地址…

270 扩展固态硬盘_游戏人的扩展坞应该是怎样?

为何现在越来越多的游戏爱好者开始使用游戏扩展坞?原因其实很简单,如今游戏笔记本也慢慢往轻薄本发展,拓展坞的加入可让笔记本实现台式机的玩机体验,通过扩展坞可以实现现在许多游戏本不具备的功能,比如外接超高清显示…

几十亿打水漂!世界最大移动通信展MWC因疫情33年来首次取消,多方损失惨重...

资料来源:新智元、AI前线物联网智库 整理发布转载请注明来源和出处北京时间2月13日早晨(今晨),世界移动通讯展(MWC)主办方GSMA正式宣布取消原定于本月24日至27日在西班牙巴塞罗那举办的MWC2020展会。这也是…

eslint vscode 自动格式化_vscode保存代码,自动按照eslint规范格式化代码设置

vscode保存代码,自动按照eslint规范格式化代码设置编辑器代码风格一致,是前端代码规范的一部分。我们现在前端绝大部分都在使用eslint,或者将要把代码改为eslint,那么此时我们怎么方便使用这个规范呢,下面我来介绍一下…

虚拟化服务器类型,虚拟化服务器类型

虚拟化服务器类型 内容精选换一换本次Ceph集群使用TaiShan服务器部署,三个Ceph节点采用三台为TaiShan 200服务器(型号2280);K8s节点两台均采用TaiShan 200服务器(型号2280)。每台服务器配备4个SAS HDD,一块用做OS盘,三块用作存储盘…

异常01

一、异常对象的产生原因和处理方式 二、异常的抛出 1 public class Demo01 {2 /*3 * Throwable:Exception、Error4 * Exception->RuntimeException5 * 异常中的关键字:throw,在方法内部,抛出异常6 * 7 * 方法中声明…

核酸和CT同时用, 听谁的?——兼释一天新增一万多

笔者两天前的文章 新冠病毒检验的可信度和概率预测分析了为什么核酸检验会漏报,为什么要使用CT辅助确诊。今天爆出新闻,新增确诊约15000人,但是其中临床13332人。临床以前是疑似和确诊之间的病人,为什么这么多临床病人都算是确诊&…

access update语句执行_统一VBA中SQL语句执行的方法

要在 Access 中用 VBA 中执行操作查询,在不创建查询对象的前提下,一般主要有3种方法:1. Access本身的方法:DoCmd.RunSQL strSQL2. DAO的方法:CurrentDb.Execute strSQL3. ADO的方法:CurrentProject.Connect…

一个人越聪明他大脑皮层神经元之间的联系就越少

来源:科学杂志 这是波鸿鲁尔大学的神经科学家与ErhanGen博士和Christoph Fraenz博士合作进行的一项研究的结果。这项研究是使用特定的神经影像技术进行的,该技术可在微观结构水平上洞悉大脑的连线。波鸿生物心理学研究小组的团队与阿尔伯克基新墨西哥大学…

git查询当前目录下的文件列表_linux下查找文件,看这篇就够了

linux下文件查找命令用法总结。前言我们经常需要在linux系统中查找一个文件,或需要知道哪些文件包含已知的特有信息,便于快速对比排查、分析问题,那么如何准确高效查找呢?其实在linux下可查找文件的命令不止一个,命令附…

人工智能如何推动神经科技发展?

来源 | Forbes作者 | Margaretta Colangelo编译 | 科技行者神经科技以人类神经系统原理为基础,旨在研究人类大脑这一极为复杂的模型架构。在实际作用方面,神经科技将帮助研究人员了解大脑功能与引发功能障碍的原因,并助力医生治疗各类神经系…