如何结合因果与强化学习?看最新《因果强化学习:动机,概念,挑战与应用》报告,85页ppt...

来源:专知

强化学习(RL)[17]和因果推理[10]都是机器学习不可缺少的组成部分,在人工智能中都发挥着至关重要的作用。最初促使我整合这两者的是机器学习在医疗保健和医学领域的最新发展。回顾过去,人类自出生以来就不可避免地伴随着疾病,并为追求健康而不懈地与疾病作斗争。近几十年来,机器学习的蓬勃发展促进了医疗保健领域的革命性发展:一些人工智能系统在癌症分类[1]、癌症检测[8]、糖尿病视网膜病变检测[3]、致盲性视网膜疾病诊断[7]等方面已经接近甚至超过了人类专家。得益于计算能力和能力的持续激增,人工智能(AI)无疑将帮助重塑医学的未来。想象一下这样的场景:在未来,每个人都有一个个性化的人工智能医生在自己的桌子上,记录着他们从出生开始的所有病历数据。根据个人的医疗数据,可以提前预测和预防个人的死亡,或至少及时治愈,这在很大程度上可以延长人的预期寿命。

然而,目前成功应用于上述医疗问题的方法仅仅是基于关联而不是因果关系。在统计学中,人们普遍认为关联在逻辑上并不意味着因果关系[10,12]。关联与因果之间的关系由莱辛巴赫·[14]将其形式化为著名的共同原因原理:如果两个随机变量{X}和{Y}在统计学上是相互依存的,那么下面的一个因果解释必须成立:a) {X}导致{Y};b) {Y}导致{X};c)存在一个随机变量{Z},它是引起{X}和{Y}的共同原因。因此,与关联相比,因果关系更进一步,探索变量之间更本质的关系。因果推理的中心任务是揭示不同变量之间的因果关系。理解一个系统的因果结构将使我们具备以下能力:(1)预测如果某些变量被干预会发生什么;(2)评估影响干预及其结果[9]的混杂因素的影响;(3)使我们能够预测以前从未观察到的情况的结果。如果我们将医学中的治疗视为干预,将治疗效果视为结果(例如,理解药物对患者健康的影响,评估未观察到的混杂因素对治疗和患者总体福祉的影响,评估患者疾病的不同治疗的存活率,等等),这些能力正是医疗保健所需要的,但大多数现有的方法尚未具备。这就是为什么因果关系在开发真正智能的医疗保健算法中扮演着关键角色。

在因果推理中实施干预概念的一个自然想法是利用RL中的动作概念[17,2]。更具体地说,agent可以根据其当前状态,通过采取不同的行动(干预)来观察环境状态的变化,并获得即时的回报(结果)。然而,agent的目标是最大化预期累积报酬,这表明RL本身不具备进行因果推理的能力。因此,因果推理通过推断状态之间或状态与动作之间的因果关系,如减少状态或动作空间,处理混淆,进而帮助RL更高效、更有效地学习价值函数或策略。可见因果关系与强化学习是互补的,可以从因果关系的角度加以整合,从而促进两者的发展。

为此,我们建议将因果推理整合到RL中,使RL能够在复杂的现实医学问题中推断数据之间的因果效应。利用这两方面的优势,我们可以根据未观察到的对患者健康的混杂因素的存在来评估治疗的真正实际效果,并在与患者互动的过程中进一步找到最佳的治疗策略。以败血症为例,败血症是一种危及生命的疾病,当身体对感染的反应导致自身组织和器官受损时就会出现,它是重症监护病房死亡的主要原因,每年给医院造成数十亿[13]的损失。在解决败血症治疗策略方面,RL通常将所测量的生理参数,包括人口统计、实验室值、生命体征和摄入/输出事件[6,13]视为指导患者进一步治疗和剂量的状态。然而,在这一过程中可能不可避免地会有一些未被观察到的混杂因素对治疗策略产生重大影响,这在目前的RL框架内很难处理。幸运的是,我们可以利用因果推理来解决这个问题,评估潜在的隐性混杂因素对治疗和患者健康的影响,从而相应地调整治疗策略。

事实上,回顾科学史,人类总是以一种类似因果强化学习(causal reinforcement learning,因果RL)的方式前进。更具体地说,人类从与大自然的互动中总结出规则或经验,然后利用这些经验来提高自己在下一次探索中的适应能力。因果关系RL所做的就是模拟人类行为,从与环境沟通的agent那里学习因果关系,然后根据所学到的因果关系优化其策略。

我强调这个类比的原因是为了强调因果性RL的重要性,毫无疑问,它将成为人工通用智能(AGI)不可缺少的一部分,不仅在医疗保健和医药领域,而且在所有其他的RL场景中都有巨大的潜在应用。与RL相比,因果RL继承了因果推理的两个明显优势:数据效率和最小的变化。众所周知,RL算法非常需要数据。相反,因果性RL不是由数据驱动的,因为因果图是最稳定的结构,它由“必须拥有”关系组成,而不是由联想图中的“nice-to-have”关系组成。换句话说,只要存在因果关系,他们就不会受到数据的影响,不管影响有多大。从因果推理的角度来看,一旦我们知道了因果结构,我们就可以不需要或只需要很少的实验就可以回答大量的干涉性和反事实性问题,这将大大减少我们对数据的依赖。例如,如果事先提供了一些关于行为的因果知识,或者可以从最初的实验中学到一些知识,那么行为空间就会按指数方式缩小。另一个吸引人的特性是最小变化,我指的是当环境或领域发生变化时,只有最小的(条件)分布集会发生变化。从因果的观点来看,假设条件的不变性是有意义的,如果条件代表因果机制[4,15,10]。直观上,因果机制可以被看作是物理世界的属性,就像牛顿的运动定律,它不取决于我们给它喂食什么。如果输入发生了变化,其因果机制仍保持不变[5,11]。然而,反因果方向的条件将受到输入[6]的影响。因此,当环境发生变化时,因果关系的RL将发生最小的变化。事实上,最小更改的一个直接好处是数据效率,因为代理可以将它们从一个环境学到的不变的因果知识转移到另一个环境,而不需要从头学习。

参考链接:

https://causallu.com/2018/12/31/introduction-to-causalrl/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/485970.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

boot druid 长时间不连接 异常_Spring Boot学习:如何使用Druid数据源

Druid概述Druid是阿里巴巴开源的一款非常优秀的数据库连接池。在Java应用程序开发中,常用的连接池还有DBCP、C3P0、Proxool等。SpringBoot2.X 版本开始默认的是HikariCP(号称性能最好的数据库连接池),Druid性能好而且监控也比较方便。刚兴趣的同学可以读一下,GitHub…

演讲实录丨中科大陈小平教授《从封闭性到非封闭性:2020到2035年智能机器的机遇和挑战》...

来源:中国人工智能学会陈小平中国科学技术大学机器人实验室主任、教授以下是陈小平教授的演讲实录:非常高兴有这个机会进行中、新学术交流。本报告包括四方面内容。第一,关于人工智能(简称AI)的两种类型,一…

充电电流用软件测试准吗,实验:1A与2.1A对手机充电电流一样的,小伙伴再也不用担心咯...

新福克斯舒适,USB在手套箱(不方便啊,郁闷),插U盘放MP3,一个行车记录仪,插在点烟器里,平时没事也够用,要跑一次长途,用iPhone 5C高德导航,靠,问题来&#…

python 结尾回车_理解不了Python正则表达式?我帮你搞定

点击蓝字“python教程”关注我们哟!在学习Python的过程中,我们难免会遇到比较晦涩、难以理解的内容,比如Python中的正则表达式、面向对象等内容,为了更好地帮助大家理解,我们今天就先为大家详细解读Python正则表达式&a…

陈左宁院士:人工智能模型和算法的七大发展趋势

来源:C114通信网、北京物联网智能技术应用协会在近日举行的“第十六届CCF全过高性能计算学术年会”上,中国工程院副院长、中国科协副主席、中国工程院院士陈左宁发表了题为《人工智能进展对算力需求分析》的演讲。在演讲中,她阐述了人工智能模…

模板引擎工作原理_广州seo了解下搜索引擎的工作原理是什么

一、搜索引擎工作的基本原理搜索引擎是根据以下原则计算的:首先,我们知道在web浏览器、百度浏览器、google浏览器、360浏览器中都配置了不同的搜索引擎。它们都有一个共同点,一开始捕获一个模块,然后这个模块就像一个软件程序一样…

罗杰·科恩伯格:基础科学——人类进步的希望

论坛 演讲编辑: ∑Gemini来源:数据实战派人物介绍:罗杰科恩伯格(Roger Kornberg),世界顶尖科学家协会主席,斯坦福大学温泽医学教授。因对“真核生物转录的分子基础”的研究,获得2006年诺贝尔化学奖。罗杰•…

python 几种常用测试框架

测试的常用规则 一个测试单元必须关注一个很小的功能函数,证明它是正确的;每个测试单元必须是完全独立的,必须能单独运行。这样意味着每一个测试方法必须重新加载数据,执行完毕后做一些清理工作。通常通过setUp()和setDown()方法处…

服务器系统盘最佳设置,启用系统的硬盘高级性能设置优化硬盘到最佳性能

硬盘性能直接关系到网吧机器的性能,如果是无盘服务器上的硬盘,那更是整个网吧的核心性能。所以一定要好好优化下,下面推荐一个小技巧吧:启用硬盘高级性能 \ 硬件管理器,选一个磁盘,右键属性,上…

ASML 1nm光刻机研究进展:摩尔定律尚未结束

文章来源:Sparrows NEWS、新智元摩尔定律的终点是什么?随着5nm光刻技术的大规模生产和3nm的突破,摩尔定律的终结变得越来越难以捉摸。可以肯定的是,随着过程的进一步改进,其成本将成倍增加。根据日本媒体Mynavi的报道&…

redis为什么选择单线程工作模型

1、先说一下为什么出现进程,线程 进程:在计算机发明之初就发现,在输入数据时(I/O速度慢),CPU是空闲的,这样就浪费了CPU资源,为了充分利用CPU资源,发明了进程,…

​​《自然》2020年十大科学发现出炉:病毒,冷冻电镜与快速射电暴

来源:科研圈作者:陈梦圆、谢一璇、李姗珊、邱燕宁、魏潇科学成就

命令行设置dns_dos命令netsh图文教程,设置修改IP地址子网掩码网关命令行改dns...

大家好,我是老盖,首先感谢观看本文,本篇文章做的有视频,视频讲述的比较详细,也可以看我发布的视频。今天我们学习dos命令中的netsh,这个命令是网络命令,它有很多的功能,今天我们用它…

第三代人工智能基础设施背后,是一次技术应用的常识普及运动

来源:脑极体买了新电脑和手机,你会提前安装好杀毒或安全软件,还是等被黑客攻破了才悔之晚矣?处理传染病疫情,是从源头释放药物和疫苗,还是坐等医院的患者超过治疗和处理能力?面对危机舆情&#…

5 ui自适应窗口_Qt编写地图综合应用5-自适应拉伸

一、前言用过echart的人都会遇到一个问题,就算是代码中写了window.onresize echart.resize,也只是横向自适应拉伸填充页面,垂直方向不会变化,除非指定高度才可以,这就比较郁闷了,为何echart本身不会自适应…

为什么俄罗斯的数学那么牛?

编辑 ∑Gemini来源:奇趣数学苑但在国际上也有一个很著名的说法,就是世界上最好的大学,其实是“美国的学校,中国的学生,俄罗斯的教授”。俄罗斯数学家佩雷尔曼虽然俄罗斯现在相比以前来说,尤其明显的是在一些需要大量设…

查看屏幕大小_疑似“iPhone 12” 的OLED屏幕组件泄露

来自可靠的泄密者的新照片显示了即将面世的“ iPhone 12”所搭载的OLED屏幕。这名泄密者以前曾显示过未来苹果产品的准确图像,此前曾展示过苹果A14芯片组的早期图片,并声称“ iPhone 12”将配备20W电源适配器。现在他在推特上发布了一张照片,…

搭建Hexo博客(一)-创建Hexo环境

Hexo配合github,可以创建自己的博客。基本原理是使用Hexo生成静态页面,发布到github上。在本地需要搭建Hexo环境。 1、安装nodejs 下载并安装NodeJS,官网地址:https://nodejs.org/en/ 2、安装完后,查看安装情况 1 node…

Nature:2020年最佳科学影像,每一张都是壁纸,每一张都是历史

文章来源:学术头条2020年是独一无二的一年。COVID-19大流行将科学推到了最前沿,并深刻影响了人们的生活。但是这一年也产生了许多与病毒无关的新影像。从薄薄的太阳能电池,到经过基因编辑的鱿鱼,下面就是Nature新闻和艺术团队评选…

转 从红帽、GitHub和Docker看开源商业模式的进阶

从红帽、GitHub和Docker看开源商业模式的进阶 发表于2014-12-16 10:26| 7594次阅读| 来源http://stratechery.com/| 0 条评论| 作者Ben ThompsonDocker红帽GitHub开源CoreOS摘要:从技术角度来说,Docker无疑是可圈可点的,比如“write once run…