如何结合因果与强化学习？看最新《因果强化学习：动机，概念，挑战与应用》报告，85页ppt...

来源：专知

强化学习(RL)[17]和因果推理[10]都是机器学习不可缺少的组成部分，在人工智能中都发挥着至关重要的作用。最初促使我整合这两者的是机器学习在医疗保健和医学领域的最新发展。回顾过去，人类自出生以来就不可避免地伴随着疾病，并为追求健康而不懈地与疾病作斗争。近几十年来，机器学习的蓬勃发展促进了医疗保健领域的革命性发展:一些人工智能系统在癌症分类[1]、癌症检测[8]、糖尿病视网膜病变检测[3]、致盲性视网膜疾病诊断[7]等方面已经接近甚至超过了人类专家。得益于计算能力和能力的持续激增，人工智能(AI)无疑将帮助重塑医学的未来。想象一下这样的场景:在未来，每个人都有一个个性化的人工智能医生在自己的桌子上，记录着他们从出生开始的所有病历数据。根据个人的医疗数据，可以提前预测和预防个人的死亡，或至少及时治愈，这在很大程度上可以延长人的预期寿命。

然而，目前成功应用于上述医疗问题的方法仅仅是基于关联而不是因果关系。在统计学中，人们普遍认为关联在逻辑上并不意味着因果关系[10,12]。关联与因果之间的关系由莱辛巴赫·[14]将其形式化为著名的共同原因原理:如果两个随机变量{X}和{Y}在统计学上是相互依存的，那么下面的一个因果解释必须成立:a) {X}导致{Y};b) {Y}导致{X};c)存在一个随机变量{Z}，它是引起{X}和{Y}的共同原因。因此，与关联相比，因果关系更进一步，探索变量之间更本质的关系。因果推理的中心任务是揭示不同变量之间的因果关系。理解一个系统的因果结构将使我们具备以下能力:(1)预测如果某些变量被干预会发生什么;(2)评估影响干预及其结果[9]的混杂因素的影响;(3)使我们能够预测以前从未观察到的情况的结果。如果我们将医学中的治疗视为干预，将治疗效果视为结果(例如，理解药物对患者健康的影响，评估未观察到的混杂因素对治疗和患者总体福祉的影响，评估患者疾病的不同治疗的存活率，等等)，这些能力正是医疗保健所需要的，但大多数现有的方法尚未具备。这就是为什么因果关系在开发真正智能的医疗保健算法中扮演着关键角色。

在因果推理中实施干预概念的一个自然想法是利用RL中的动作概念[17,2]。更具体地说，agent可以根据其当前状态，通过采取不同的行动(干预)来观察环境状态的变化，并获得即时的回报(结果)。然而，agent的目标是最大化预期累积报酬，这表明RL本身不具备进行因果推理的能力。因此，因果推理通过推断状态之间或状态与动作之间的因果关系，如减少状态或动作空间，处理混淆，进而帮助RL更高效、更有效地学习价值函数或策略。可见因果关系与强化学习是互补的，可以从因果关系的角度加以整合，从而促进两者的发展。

为此，我们建议将因果推理整合到RL中，使RL能够在复杂的现实医学问题中推断数据之间的因果效应。利用这两方面的优势，我们可以根据未观察到的对患者健康的混杂因素的存在来评估治疗的真正实际效果，并在与患者互动的过程中进一步找到最佳的治疗策略。以败血症为例，败血症是一种危及生命的疾病，当身体对感染的反应导致自身组织和器官受损时就会出现，它是重症监护病房死亡的主要原因，每年给医院造成数十亿[13]的损失。在解决败血症治疗策略方面，RL通常将所测量的生理参数，包括人口统计、实验室值、生命体征和摄入/输出事件[6,13]视为指导患者进一步治疗和剂量的状态。然而，在这一过程中可能不可避免地会有一些未被观察到的混杂因素对治疗策略产生重大影响，这在目前的RL框架内很难处理。幸运的是，我们可以利用因果推理来解决这个问题，评估潜在的隐性混杂因素对治疗和患者健康的影响，从而相应地调整治疗策略。

事实上，回顾科学史，人类总是以一种类似因果强化学习(causal reinforcement learning，因果RL)的方式前进。更具体地说，人类从与大自然的互动中总结出规则或经验，然后利用这些经验来提高自己在下一次探索中的适应能力。因果关系RL所做的就是模拟人类行为，从与环境沟通的agent那里学习因果关系，然后根据所学到的因果关系优化其策略。

我强调这个类比的原因是为了强调因果性RL的重要性，毫无疑问，它将成为人工通用智能(AGI)不可缺少的一部分，不仅在医疗保健和医药领域，而且在所有其他的RL场景中都有巨大的潜在应用。与RL相比，因果RL继承了因果推理的两个明显优势:数据效率和最小的变化。众所周知，RL算法非常需要数据。相反，因果性RL不是由数据驱动的，因为因果图是最稳定的结构，它由“必须拥有”关系组成，而不是由联想图中的“nice-to-have”关系组成。换句话说，只要存在因果关系，他们就不会受到数据的影响，不管影响有多大。从因果推理的角度来看，一旦我们知道了因果结构，我们就可以不需要或只需要很少的实验就可以回答大量的干涉性和反事实性问题，这将大大减少我们对数据的依赖。例如，如果事先提供了一些关于行为的因果知识，或者可以从最初的实验中学到一些知识，那么行为空间就会按指数方式缩小。另一个吸引人的特性是最小变化，我指的是当环境或领域发生变化时，只有最小的(条件)分布集会发生变化。从因果的观点来看，假设条件的不变性是有意义的，如果条件代表因果机制[4,15,10]。直观上，因果机制可以被看作是物理世界的属性，就像牛顿的运动定律，它不取决于我们给它喂食什么。如果输入发生了变化，其因果机制仍保持不变[5,11]。然而，反因果方向的条件将受到输入[6]的影响。因此，当环境发生变化时，因果关系的RL将发生最小的变化。事实上，最小更改的一个直接好处是数据效率，因为代理可以将它们从一个环境学到的不变的因果知识转移到另一个环境，而不需要从头学习。

参考链接：

https://causallu.com/2018/12/31/introduction-to-causalrl/