时代聚焦AI安全——可解释性

fce99ee14b4c9e2de834bcd60d2b24d618e47413

今年的NIPS多集中在人工智能安全上,此外精彩的部分还有凯特·克劳福德关于人工智能公平性问题上被忽视的主题演讲、ML安全研讨会、以及关于“我们是否需要可解释性?”可解释ML讨论会辩论

值校准文件

逆向奖励设计是为了解决RL代理根据人类设计的代理奖励函数推断出人类的真实奖励函数的一种设计。与反强化学习(IRL不同,它可以让代理人从人的行为推断出奖励函数。论文中提出了一个IRD方法,假设人类选择一个可以导致训练环境中正确行为的代理奖励,代理人就奖励函数的不确定性遵循风险规避策略,模拟真实奖励的不确定性。

aa1676400d176dca7179a1d0cd427b5fc505037e

尽管目前还不清楚它们将如何推广到更复杂的环境,但是这篇论文中关于如何避免某些副作用和阻止奖励黑客行为的观点还是有些令人备受鼓舞的。这种方法也有可能过于规避一些新事物,但是在这种环境下看到一些安全探索的方法是非常棒的。

重复反向RL是指推导出包含安全标准的固有人类偏好的问题,并在许多任务中保持不变的。每个任务的奖励功能是任务不变内在奖励(代理人未观察到的)和特定任务奖励(代理人观察到的)的组合。这种多任务设置有助于解决反强化学习(IRL)中的可识别性问题,其中不同的奖励功能可以产生相同的行为。

86ae3579f966eb4f973ec785f064052ac01d4bd9

作者提出了一种算法来推断内在奖励,同时最大限度地减少代理人犯错误的次数。他们证明了:“主动学习”案例的错误数量有上限,在错误数量的上限内,代理可以选择任务。如果超出这个错误数量的上限,则代理人无法选择任务。虽然它仍然存在很多人类难以解释的现象,但是综合来看,让代理人选择它所训练的任务似乎是个好主意。

来自人类偏好的深度RL(Christiano等人)是指利用人类反馈来教授深度RL代理人理解关于人类可以评估但可能无法证明的复杂事物(例如后空翻)。人类创造了代理行为的两个轨迹片段,并选择出哪一个更接近目标,这种方法可以非常有效地利用有限的人类反馈,使代理人学习更复杂的事物(如MuJoco和Atari所示)。

37f594b05cbc5ba5f926176cbe287577f8e74261

分散式多智能体RL的动态安全可中断性(EI Mhamdi等人)将安全可中断性问题推广到多智能体设置。不可中断的动态可以出现在任何一组代理人中,比如如果代理B收到代理A的中断影响并因此被激励以防止A被中断,则可能发生这种情况。多智能体定义的重点在于当存在中断的情况下保持系统动态性,而不是收集在多智能体环境中难以保证的最优策略。

Aligned AI研讨会

这场研讨会上有很多很有见解的会谈比如Ian Goodfellow的“对齐AI的对抗鲁棒性”和Gillian Handfield的“不完全契约和AI对齐”。

Ian提出的ML安全性对于长期的AI安全至关重要。敌对例子的有效性不仅受当前的ML系统(例如自驾车)的短期视角的影响,还受一些水平不高的参与人的影响。从长远角度来看,调整高级代理的价值也是一个坏消息,由于古德哈特定律,他可能会无意中寻找奖励函数的对抗性例子。因为敌对的例子会干扰代理人的判断,所以依靠代理人对环境或人类偏好的不能确保结果的准确性。

8c86ed4507e0d95db8ee541182af232b70dc9363

Gillian从经济学的角度来看待人工智能安全,将人造智能的目标与人类的合同的设计相对比。与造成合同不完整相同的问题(设计师无法考虑所有相关的偶然事件或者精确地制定所涉及的变量,以及激励当事方游戏系统)导致人为代理人的副作用和奖励黑客行为。

d6b05fabe9f965669921869e5d00126e03ce1481

谈话的核心问题是如何利用不完全契约理论的见解来更好地理解和系统地解决AI安全中的规范问题,这是一个非常有趣的研究方向,客观规格问题似乎比不完整的合同问题更难。

人工智能系统的可解释性

作者在可解释的ML讨论会上就可解释性与长期安全性之间的关系进行了讨论,并探讨了何种形式的解释能够帮助在安全问题方面取得进展(相关幻灯片视频)。

副作用和安全探索问题将从识别对应于不可逆状态的表示(如“破碎”或“卡住”)中受益。虽然现有的关于神经网络表示的研究着重于可视化,但与安全有关的概念往往难以形象化。

解释特定的预测或决定的本地解释性技术对安全也很有用。我们可以监测出训练环境特殊的特征或者表示与危险状态接近的特征是否会影响代理人的决定。

解释能力在很多方面对安全是有用的。作为解释性问题的基础-安全性可以为解释能力做些什么,似乎还没有人弄明白。正如研讨会的最后一场辩论中所争论的那样,在ML社区里,一直在进行着一场对话,试图制定一个模糊的解释性思想-它是什么,我们是否还需要它,什么样的理解是有用的,等等。但是我们需要记住最重要的:解释欲望在某种程度上是由我们的系统易出错所驱动的-理解我们的AI系统如果100%稳健且没有错误,那么它就不那么重要了。从安全的角度来看,我们可以将解释性的作用理解为帮助我们确保系统安全。

对于那些有兴趣将解释性锤子应用于安全钉或处理其他长期安全问题的人,FLI最近宣布了一个新的补助计划,现在是AI领域深入思考价值取向的好时机。正如Pieter Abbeel在主题演讲结束时所说的那样:“一旦你建立了非常好的AI装置,你如何确保他们的价值体系与我们的价值体系保持一致?因为在某些时候,他们可能比我们聪明,它们实际关心的关于我们所关心的东西可能很重要。”

本文由北邮@爱可可-爱生活老师推荐,阿里云云栖社区组织翻译。

文章原标题《NIPS 2017 Report》

作者:Vikas Bhandary

译者:乌拉乌拉,审校:袁虎。

文章为简译,更为详细的内容,请查看原文文章

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/284619.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【BIM入门实战】渲染器Vray for 3d max 2018图文安装教程

VRay是由chaosgroup和asgvis公司出品的一款高质量渲染软件。VRay是业界最受欢迎的渲染引擎。基于V-Ray 内核开发的有VRay for 3ds max、Maya、Sketchup、Rhino等诸多版本,为不同领域的优秀3D建模软件提供了高质量的图片和动画渲染。方便使用者渲染各种图片。 Vray for 3d max …

Android--Activity四种启动模式

launchMode在多个Activity跳转的过程中扮演着重要的角色,它可以决定是否生成新的Activity实例,是否重用已存在的Activity实例,是否和其他Activity实例公用一个task里。这里简单介绍一下task的概念,task是一个具有栈结构的对象&…

常用SEO优化之META标签

之前对meta标签的理解只有<meta charset"UTF-8">和移动端适口<meta name"viewport" content"widthdevice-width,initial-scale1.0, minimum-scale1.0, maximum-scale1.0, user-scalableno"/> 组成 meta标签共有两个属性&#xff0c…

Hibernate初探

Hibernate对数据库结构提供了较为完整的封装&#xff0c;Hibernate的O/R Mapping实现了POJO 和数据库表之间的映射&#xff0c;以及SQL 的自动生成和执行。程序员往往只需定义好了POJO 到数据库表的映射关系&#xff0c;即可通过Hibernate 提供的方法完成持久层操作。程序员甚至…

【BIM入门实战】InfraWorks2018图文安装教程

Autodesk InfraWorks是易于使用的草图绘制工具,适用于土地规划师和基础设施设计师。AutodeskInfraWorks可以生成可视化的高级模型,而无需借助辅助,可以独立进行建模的BIM可视化软件。 InfraWorks2018软件预览: 双击安装包进行安装。 自解压中,等待即可。 点击【安装】。 点…

weblogic清除缓存

清除/weblogic/Oracle/Middleware/user_projects/domains/base_domain/servers/AdminServer/cache/下的文件 &#xff1a; [rootlocalhost Middleware]# mv /weblogic/Oracle/Middleware/user_projects/domains/base_domain/servers/AdminServer/cache/* /opt/20171208/ 清除/w…

有点酷,使用 .NET MAUI 探索太空

设计 我准备用 .NET Maui 实现一个非常有意思的 "前往太空" 的程序。第一步&#xff0c;需要图片素材&#xff0c;我使用了 Aan Ragil 的一组非常棒的 Dribbble 素材图片。当然&#xff0c;你也可以在最下面的链接进行下载。实现 这个应用程序的完整源代码可以在 G…

CSS3 动画插件 aos.js

aos.js是一款效果超赞的页面滚动元素动画jQuery动画库插件。该动画库可以在页面滚动时提供28种不同的元素动画效果&#xff0c;以及多种easing效果。在页面往回滚动时&#xff0c;元素会恢复到原来的状态。 安装 yarn add aosnext或者 npm install --save aosnextimport AOS …

nginx汇总(z)

Nginx相关文章Nginx基础1. nginx安装2. nginx 编译参数详解3. nginx安装配置清缓存模块安装4. nginxPHP 5.55. nginx配置虚拟主机6. nginx location配置7. nginx root&alias文件路径配置8. ngx_http_core_module模块提供的变量9. nginx日志配置10. apache和nginx支…

实例讲解——系统登录

一&#xff0c;程序分析 首先使用参数的方式输入用户名和密码&#xff0c;所以&#xff0c;首先要判断输入参数的个数是否合法&#xff0c;如果不合法&#xff0c;则必须提示程序执行不对&#xff0c;并退出。 如果正确输入&#xff0c;则可以进行密码和用户名的验证&#xff0…

【Microsoft Office】Word 2019空格下划线不显示的解决办法

解决办法&#xff1a;点击【文件】→【选项】→【高级】选项卡→勾选【为尾部空格添加下划线(U)】&#xff0c;解决&#xff01;

1.安装

转自&#xff1a;http://www.ruanyifeng.com/blog/2015/12/a-mocha-tutorial-of-examples.html Mocha&#xff08;发音"摩卡"&#xff09;诞生于2011年&#xff0c;是现在最流行的JavaScript测试框架之一&#xff0c;在浏览器和Node环境都可以使用。 所谓"测试框…

SkiaSharp 之 WPF 自绘弹跳球(案例版)

熟悉下SkiaSharp的基础操作&#xff0c;这次搞个弹跳球效果&#xff0c;实现后&#xff0c;发现效果还真不错。大概效果如下:原理分析先是实现了网格效果&#xff0c;这个比较简单&#xff0c;直接横线&#xff0c;竖线&#xff0c;就OK了。另外一个就是随机一个圆形&#xff0…

Windows11 发布更新 Insider Preview Build 22000.100

微软今天凌晨向开发频道中的所有用户发布Windows 11 Insider Preview Build 22000.100&#xff01; 变化和改进 我们已经开始在 Dev Channel 中将 Chat 从 Microsoft Teams 推广到 Insiders。不是每个人都会马上看到&#xff0c;任务栏右下方的隐藏图标弹出窗口已更新&#x…

django源码简析——后台程序入口

django源码简析——后台程序入口 这一年一直在用云笔记&#xff0c;平时记录一些tips或者问题很方便&#xff0c;所以也就不再用博客进行记录&#xff0c;还是想把最近学习到的一些东西和大家作以分享&#xff0c;也能够对自己做一个总结。工作中主要基于django框架&#xff0c…

【BIM入门实战】最新《建筑制图与识图》复习题带参考答案(一)

文章目录 一、单选题二、填空题三、简答题四、绘图题五、阅读总平面图,完成问题一、单选题 1.在图纸右下角用以说明设计单位、图名、设计负责人等内容的表格为(B )。 A. 会签栏 B. 图标 C. 图框 D. 图纸目录 2.正面投影与侧面投影应保持( C )的关系。 A.长度相等且对正…

yum安装openoffice

安装方法如下&#xff1a;1、首先安装openoffice.org套件yum groupinstall "Office/Productivity" 安装好后&#xff0c;由于采用默认安装&#xff0c;语言是英文&#xff0c;我可以通过以下方法来查找来安装中文语言包。yum list openoffice* ....openoffice.org-la…

常见RGB格式

计算机世界中&#xff0c;最终对于颜色和画面的显示&#xff0c;更多的采用的是RGB模式&#xff0c;这里记录一下常见的RGB格式。任何计算机设备以及智能终端等&#xff0c;呈现在我们眼前的色彩实际上便是红绿蓝三基色不同的组合&#xff0c;RGB实际上就是三基色的组合&#x…

《ASP.NET Core 6框架揭秘》实例演示[04]:自定义依赖注入框架

ASP.NET Core框架建立在一个依赖注入框架之上&#xff0c;已注入的方式消费服务已经成为了ASP.NET Core基本的编程模式。为了使读者能够更好地理解原生的注入框架框架&#xff0c;我按照类似的设计创建了一个简易版本的依赖注入框架&#xff0c;并它命名为“Cat”。本篇提供的四…

【QGIS入门实战精品教程】4.8:QGIS如何下载SRTM数字高程模型DEM?

本文讲解QGIS中下载SRTM数字高程模型DEM,以黑龙江省塔河县为例。 图幅效果: 最终效果: 文章目录 1. 下载安装STRM Download插件2. 加载矢量数据,读取范围3. 下载STRM4. DEM拼接5. DEM裁剪1. 下载安装STRM Download插件 点击【插件】→【管理并安装插件】。 在搜索框中输入…