如何结合因果与强化学习?看最新《因果强化学习:动机,概念,挑战与应用》报告,85页ppt...

来源:专知

强化学习(RL)[17]和因果推理[10]都是机器学习不可缺少的组成部分,在人工智能中都发挥着至关重要的作用。最初促使我整合这两者的是机器学习在医疗保健和医学领域的最新发展。回顾过去,人类自出生以来就不可避免地伴随着疾病,并为追求健康而不懈地与疾病作斗争。近几十年来,机器学习的蓬勃发展促进了医疗保健领域的革命性发展:一些人工智能系统在癌症分类[1]、癌症检测[8]、糖尿病视网膜病变检测[3]、致盲性视网膜疾病诊断[7]等方面已经接近甚至超过了人类专家。得益于计算能力和能力的持续激增,人工智能(AI)无疑将帮助重塑医学的未来。想象一下这样的场景:在未来,每个人都有一个个性化的人工智能医生在自己的桌子上,记录着他们从出生开始的所有病历数据。根据个人的医疗数据,可以提前预测和预防个人的死亡,或至少及时治愈,这在很大程度上可以延长人的预期寿命。

然而,目前成功应用于上述医疗问题的方法仅仅是基于关联而不是因果关系。在统计学中,人们普遍认为关联在逻辑上并不意味着因果关系[10,12]。关联与因果之间的关系由莱辛巴赫·[14]将其形式化为著名的共同原因原理:如果两个随机变量{X}和{Y}在统计学上是相互依存的,那么下面的一个因果解释必须成立:a) {X}导致{Y};b) {Y}导致{X};c)存在一个随机变量{Z},它是引起{X}和{Y}的共同原因。因此,与关联相比,因果关系更进一步,探索变量之间更本质的关系。因果推理的中心任务是揭示不同变量之间的因果关系。理解一个系统的因果结构将使我们具备以下能力:(1)预测如果某些变量被干预会发生什么;(2)评估影响干预及其结果[9]的混杂因素的影响;(3)使我们能够预测以前从未观察到的情况的结果。如果我们将医学中的治疗视为干预,将治疗效果视为结果(例如,理解药物对患者健康的影响,评估未观察到的混杂因素对治疗和患者总体福祉的影响,评估患者疾病的不同治疗的存活率,等等),这些能力正是医疗保健所需要的,但大多数现有的方法尚未具备。这就是为什么因果关系在开发真正智能的医疗保健算法中扮演着关键角色。

在因果推理中实施干预概念的一个自然想法是利用RL中的动作概念[17,2]。更具体地说,agent可以根据其当前状态,通过采取不同的行动(干预)来观察环境状态的变化,并获得即时的回报(结果)。然而,agent的目标是最大化预期累积报酬,这表明RL本身不具备进行因果推理的能力。因此,因果推理通过推断状态之间或状态与动作之间的因果关系,如减少状态或动作空间,处理混淆,进而帮助RL更高效、更有效地学习价值函数或策略。可见因果关系与强化学习是互补的,可以从因果关系的角度加以整合,从而促进两者的发展。

为此,我们建议将因果推理整合到RL中,使RL能够在复杂的现实医学问题中推断数据之间的因果效应。利用这两方面的优势,我们可以根据未观察到的对患者健康的混杂因素的存在来评估治疗的真正实际效果,并在与患者互动的过程中进一步找到最佳的治疗策略。以败血症为例,败血症是一种危及生命的疾病,当身体对感染的反应导致自身组织和器官受损时就会出现,它是重症监护病房死亡的主要原因,每年给医院造成数十亿[13]的损失。在解决败血症治疗策略方面,RL通常将所测量的生理参数,包括人口统计、实验室值、生命体征和摄入/输出事件[6,13]视为指导患者进一步治疗和剂量的状态。然而,在这一过程中可能不可避免地会有一些未被观察到的混杂因素对治疗策略产生重大影响,这在目前的RL框架内很难处理。幸运的是,我们可以利用因果推理来解决这个问题,评估潜在的隐性混杂因素对治疗和患者健康的影响,从而相应地调整治疗策略。

事实上,回顾科学史,人类总是以一种类似因果强化学习(causal reinforcement learning,因果RL)的方式前进。更具体地说,人类从与大自然的互动中总结出规则或经验,然后利用这些经验来提高自己在下一次探索中的适应能力。因果关系RL所做的就是模拟人类行为,从与环境沟通的agent那里学习因果关系,然后根据所学到的因果关系优化其策略。

我强调这个类比的原因是为了强调因果性RL的重要性,毫无疑问,它将成为人工通用智能(AGI)不可缺少的一部分,不仅在医疗保健和医药领域,而且在所有其他的RL场景中都有巨大的潜在应用。与RL相比,因果RL继承了因果推理的两个明显优势:数据效率和最小的变化。众所周知,RL算法非常需要数据。相反,因果性RL不是由数据驱动的,因为因果图是最稳定的结构,它由“必须拥有”关系组成,而不是由联想图中的“nice-to-have”关系组成。换句话说,只要存在因果关系,他们就不会受到数据的影响,不管影响有多大。从因果推理的角度来看,一旦我们知道了因果结构,我们就可以不需要或只需要很少的实验就可以回答大量的干涉性和反事实性问题,这将大大减少我们对数据的依赖。例如,如果事先提供了一些关于行为的因果知识,或者可以从最初的实验中学到一些知识,那么行为空间就会按指数方式缩小。另一个吸引人的特性是最小变化,我指的是当环境或领域发生变化时,只有最小的(条件)分布集会发生变化。从因果的观点来看,假设条件的不变性是有意义的,如果条件代表因果机制[4,15,10]。直观上,因果机制可以被看作是物理世界的属性,就像牛顿的运动定律,它不取决于我们给它喂食什么。如果输入发生了变化,其因果机制仍保持不变[5,11]。然而,反因果方向的条件将受到输入[6]的影响。因此,当环境发生变化时,因果关系的RL将发生最小的变化。事实上,最小更改的一个直接好处是数据效率,因为代理可以将它们从一个环境学到的不变的因果知识转移到另一个环境,而不需要从头学习。

参考链接:

https://causallu.com/2018/12/31/introduction-to-causalrl/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/485970.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Leetcode--75. 颜色分类

给定一个包含红色、白色和蓝色,一共 n 个元素的数组,原地对它们进行排序,使得相同颜色的元素相邻,并按照红色、白色、蓝色顺序排列。 此题中,我们使用整数 0、 1 和 2 分别表示红色、白色和蓝色。 注意: 不能使用代码…

boot druid 长时间不连接 异常_Spring Boot学习:如何使用Druid数据源

Druid概述Druid是阿里巴巴开源的一款非常优秀的数据库连接池。在Java应用程序开发中,常用的连接池还有DBCP、C3P0、Proxool等。SpringBoot2.X 版本开始默认的是HikariCP(号称性能最好的数据库连接池),Druid性能好而且监控也比较方便。刚兴趣的同学可以读一下,GitHub…

演讲实录丨中科大陈小平教授《从封闭性到非封闭性:2020到2035年智能机器的机遇和挑战》...

来源:中国人工智能学会陈小平中国科学技术大学机器人实验室主任、教授以下是陈小平教授的演讲实录:非常高兴有这个机会进行中、新学术交流。本报告包括四方面内容。第一,关于人工智能(简称AI)的两种类型,一…

充电电流用软件测试准吗,实验:1A与2.1A对手机充电电流一样的,小伙伴再也不用担心咯...

新福克斯舒适,USB在手套箱(不方便啊,郁闷),插U盘放MP3,一个行车记录仪,插在点烟器里,平时没事也够用,要跑一次长途,用iPhone 5C高德导航,靠,问题来&#…

关于线性代数的理解

自从大学学了线性代数以来, 对线性代数的概念一直很迷惑. 感觉中间像是隔了一层布一样, 怎么都理解不了线性代数是个什么东西. 读了人工智能以后, 发现没有线性代数的扎实基础根本学不了人工智能, 特别是在图像处理还是自然语言处理的过程中, 线性代数是 一个非常重要的基础, 可…

Leetcode--31. 下一个排列

实现获取下一个排列的函数,算法需要将给定数字序列重新排列成字典序中下一个更大的排列。 如果不存在下一个更大的排列,则将数字重新排列成最小的排列(即升序排列)。 必须原地修改,只允许使用额外常数空间。 以下是…

python 结尾回车_理解不了Python正则表达式?我帮你搞定

点击蓝字“python教程”关注我们哟!在学习Python的过程中,我们难免会遇到比较晦涩、难以理解的内容,比如Python中的正则表达式、面向对象等内容,为了更好地帮助大家理解,我们今天就先为大家详细解读Python正则表达式&a…

怎么设置班级文件服务器,如何开设论坛如题下学期老师组织学生开一个班级论坛有专用服务器接下 爱问知识人...

很多朋友都希望有一个自己的论坛,但是做论坛又谈何容易?这个问题很大,如果自己编程开发的话,至少需要半个月不睡觉甚至好几个月、好几年的时间。一个好的论坛,便于网友浏览、占用服务器资源少、运行速度快是最重要的。…

陈左宁院士:人工智能模型和算法的七大发展趋势

来源:C114通信网、北京物联网智能技术应用协会在近日举行的“第十六届CCF全过高性能计算学术年会”上,中国工程院副院长、中国科协副主席、中国工程院院士陈左宁发表了题为《人工智能进展对算力需求分析》的演讲。在演讲中,她阐述了人工智能模…

ABAP术语-World Wide Web

World Wide Web原文:http://www.cnblogs.com/qiangsheng/archive/2008/03/21/1115728.htmlInternet service. The World Wide Web generates documents and presents them to Internet users in a standard format known as HTML. These documents can be linked to…

Leetcode--169. 求众数

给定一个大小为 n 的数组,找到其中的众数。众数是指在数组中出现次数大于 ⌊ n/2 ⌋ 的元素。 你可以假设数组是非空的,并且给定的数组总是存在众数。 示例 1: 输入: [3,2,3] 输出: 3 示例 2: 输入: [2,2,1,1,1,2,2] 输出: 2 排序之后遍历一次即可 …

模板引擎工作原理_广州seo了解下搜索引擎的工作原理是什么

一、搜索引擎工作的基本原理搜索引擎是根据以下原则计算的:首先,我们知道在web浏览器、百度浏览器、google浏览器、360浏览器中都配置了不同的搜索引擎。它们都有一个共同点,一开始捕获一个模块,然后这个模块就像一个软件程序一样…

浪潮服务器无线网卡驱动,浪潮服务器网卡驱动安装.doc

文档介绍:蚃服务器安装redhat5.2系统无法识别网卡的情况下肂罿进入linux命令终端界面,使用命令袄蒂[******wapdbrac1~]#kudzu--probe--work膂莀界面上就会显示网卡的型号以及机器上都有几个网卡薆蒅第一步:在网上下载这个网卡型号的linux版本驱动程序节薇第二步:使用…

罗杰·科恩伯格:基础科学——人类进步的希望

论坛 演讲编辑: ∑Gemini来源:数据实战派人物介绍:罗杰科恩伯格(Roger Kornberg),世界顶尖科学家协会主席,斯坦福大学温泽医学教授。因对“真核生物转录的分子基础”的研究,获得2006年诺贝尔化学奖。罗杰•…

vue3获取验证码+背景切换

需要安装element-plus组件库 用户获取验证码后按钮会被禁用&#xff0c;等待10秒后重新获取验证码 验证码 元素布局template部分 <template><div><el-button type"success" round :disabled"isSend" click"countDown">{{ c…

Leetcode--19. 删除链表的倒数第N个节点

给定一个链表&#xff0c;删除链表的倒数第 n 个节点&#xff0c;并且返回链表的头结点。 示例&#xff1a; 给定一个链表: 1->2->3->4->5, 和 n 2. 当删除了倒数第二个节点后&#xff0c;链表变为 1->2->3->5. 说明&#xff1a; 给定的 n 保证是有效…

python 几种常用测试框架

测试的常用规则 一个测试单元必须关注一个很小的功能函数&#xff0c;证明它是正确的&#xff1b;每个测试单元必须是完全独立的&#xff0c;必须能单独运行。这样意味着每一个测试方法必须重新加载数据&#xff0c;执行完毕后做一些清理工作。通常通过setUp()和setDown()方法处…

jdbc获取结果行数,如何获取JDBC中的行数?

Ive executed a JDBC query to obtain a resultset. Before iterating over it, Id like to quickly find out how many rows were returned. How can I do this with high performance?Im using Java 6, Oracle 11g, and the latest Oracle JDBC drivers.解决方案Youre going…

服务器系统盘最佳设置,启用系统的硬盘高级性能设置优化硬盘到最佳性能

硬盘性能直接关系到网吧机器的性能&#xff0c;如果是无盘服务器上的硬盘&#xff0c;那更是整个网吧的核心性能。所以一定要好好优化下&#xff0c;下面推荐一个小技巧吧&#xff1a;启用硬盘高级性能 \ 硬件管理器&#xff0c;选一个磁盘&#xff0c;右键属性&#xff0c;上…

ASML 1nm光刻机研究进展:摩尔定律尚未结束

文章来源&#xff1a;Sparrows NEWS、新智元摩尔定律的终点是什么&#xff1f;随着5nm光刻技术的大规模生产和3nm的突破&#xff0c;摩尔定律的终结变得越来越难以捉摸。可以肯定的是&#xff0c;随着过程的进一步改进&#xff0c;其成本将成倍增加。根据日本媒体Mynavi的报道&…