深度学习后,图灵奖得主Bengio研究核心是什么?因果表示学习


机器之心报道

编辑:魔王、杜伟

在近日发表的一篇论文中,图灵奖得主 Yoshua Bengio 等详细介绍了其团队当前的研究重心:将机器学习与因果推理相结合的因果表示学习。研究者不仅全面回顾了因果推理的基础概念,并阐释了其与机器学习的融合以及对机器学习的深远影响。该论文已被《Proceedings of the IEEE》期刊接收。

一直以来机器学习和因果推理是两个相对独立的研究方向,各有优缺点。

但在过去数年,两者开始互相借鉴,推进彼此的发展。如机器学习领域的蓬勃发展促进了因果推理领域的发展。采用决策树、集成方法、深层神经网络等强大的机器学习方法,可以更准确地估计潜在结果。在机器之心 2018 年的报道文章中,图灵奖得主、因果关系模型倡导者之一 Judea Pearl 也探讨了当前机器学习理论的局限性以及来自因果推理的七个启发。

于是,近年来,将两者结合起来的因果表示学习(Causal Representation Learning)吸引了越来越多的关注,成为人类迈向 Human Level AI 的潜在方向。

机器之心曾在 2020 年初,精选了几篇因果表示学习领域的最新文献,细致分析了不同方法的基本架构,帮助感兴趣的读者了解因果学习与机器学习可结合的方向和可能。(参考:反事实推理、特征分离,「因果表示学习」的最新研究都在讲什么?)

今天,我们再为大家推荐一篇因果表示学习论文:Yoshua Bengio 团队发表的《Towards Causal Representation Learning》,该论文已被《Proceedings of the IEEE》期刊接收。

在 2020 年底的一场讲座中,Bengio 称这是他们当前研究项目的核心。

论文链接:https://arxiv.org/pdf/2102.11107.pdf

Yoshua Bengio 等人在这篇论文中回顾了因果推理的基础概念,并将其与机器学习的关键开放性问题联系起来,如迁移与泛化,进而分析因果推理可能对机器学习研究做出的贡献。反过来看也是如此:大多数因果研究的前提是因果变量。因此目前 AI 与因果领域的核心问题是因果表示学习,即基于低级观测值发现高级因果变量。最后,该论文描绘了因果对机器学习的影响,并提出了该交叉领域的核心研究方向。

这篇论文的主要贡献如下:

  • 论文第二章介绍了物理系统中因果建模的不同层级,第三章展示了因果模型与统计模型的区别。这里不仅探讨了建模能力,还讨论了所涉及的假设与挑战。

  • 论文第四章将独立因果机制(Independent Causal Mechanisms,ICM)原则扩展为基于数据估计因果关系的核心组件,即将稀疏机制转移(Sparse Mechanism Shift)假设作为 ICM 原则的结果,并探讨它对学习因果模型的影响。

  • 论文第五章回顾了现有基于恰当描述子(或特征)学习因果关系的方法,覆盖经典方法和基于深度神经网络的现代方法,主要聚焦促成因果发现的底层原则。

  • 论文第六章探讨了如何基于因果表示数据学习有用的模型,以及从因果角度看机器学习问题。

  • 论文第七章分析了因果对实际机器学习的影响。研究者使用因果语言重新诠释了鲁棒性和泛化,以及半监督学习、自监督学习、数据增强和预训练等常见技术。研究者还探讨了因果与机器学习在科学应用中的交叉领域,并思考如何结合二者的优势,创建更通用的人工智能。

因果建模的层级

独立同分布设置下的预测

统计模型是对现实的粗浅描述,因为它们只需建模关联。对于给定的输入样本 X 和目标标签 Y,我们可能会想近似 P(Y |X) 以回答如下问题:「该图像包含狗的概率是多少?」或者「在给定诊断测量指标(如血压)下,病人心脏衰竭的概率是多少?」。在合适的假设下,这些问题可以通过基于 P(X, Y) 观察足量的独立同分布(i.i.d.)数据来得到答案。

分布偏移下的预测

干预式问题(Interventional question)的挑战性要比预测更高,因为它们所涉及的行为超出了统计学习独立同分布设置。干预(intervention)可能影响因果变量子集的值及其关系。例如「增加一个国家中鹳鸟的数量能否促进人类生育率的增长?」、「如果烟草被更多地添加了社会污名化色彩,抽烟的人是否会减少?」

回答反事实问题

反事实问题需要对事情的发生原因进行推理,在事情发生后设想不同行为的后果,决定哪些行为可以达到期望的结果。回答反事实问题要比回答干预式问题更难。但是,这对于 AI 而言或许是关键挑战,因为智能体能从想象行为的后果和了解哪些行为带来特定结果中获益。

数据的本质:观测、干预、(非)结构化

数据格式在推断关系类型中发挥重大作用。我们可以辨别数据模态的两轴:观测数据 vs 干预数据,手动工程数据 vs 原始(非结构化)感知输入。

观测与干预数据:人们常常假设但很少严格得到的一种极端数据格式是观测独立同分布数据,其每个数据点均独立采样自相同的分布。

手动工程数据与原始数据:在经典 AI 中,数据常被假设成可结构化为高级和语义有意义的变量,这可能部分对应于底层图的因果变量。

因果模型与推理

这部分主要介绍统计建模与因果建模的区别,并用形式化语言介绍了干预与分布变化。

独立同分布数据驱动的方法

对于独立同分布数据,强大的泛一致性(universal consistency)可以确保学习算法收敛至最低风险。这类算法确实存在,例如最近邻分类器、支持向量机和神经网络。但是,目前的机器学习方法通常在面对不符合独立同分布假设的问题时性能较差,而这类问题对人类而言轻而易举。

Reichenbach 原则:从统计学到因果关系

Reichenbach [198] 清晰地描述了因果与统计相关性之间的联系:

X 与 Y 一致的情况属于特例。在没有额外假设的情况下,我们无法利用观测数据区分这些情况。此时,因果模型要比统计模型包含更多信息。

如果只有两个观测值,则因果结构发现会很难,但当观测值数量增多后,事情反而容易多了。原因在于,这种情况下存在多个由因果结构传达的非平凡条件独立性。它们将 Reichenbach 原则泛化,并且可以用因果图或结构因果模型的语言进行描述,将概率图模型与干预概念融合在一起。

结构因果模型(SCM)

SCM 考虑与有向无环图(directed acyclic graph, DAG)的顶点相关的一组观测值(或变量)X_1, . . . , X_n。该研究假设每个观测值根据以下公式得出:

从数学角度讲,观测值也是随机值。直观来看,我们可以把独立噪声理解为在图上扩散的「信息探头」(就像在社交网络上扩散的流言的独立元素)。这当然并不只是两个观测值,因为任何非平凡条件独立语句都要求至少三个变量。

统计模型、因果图模型与 SCM 的区别

下图 1 展示了统计模型与因果模型之间的差异。

统计模型可以通过图模型来定义,即带图的概率分布。如果图的边是因果性的,则该图模型为因果模型(这时,该图即为「因果图」)。结构因果模型由一组因果变量和一组结构方程构成,这些方程基于噪声变量 U_i 分布。

独立因果机制

独立性概念包含两个方面:一个与影响有关,一个与信息相关。在因果研究历史中,不变、自主和独立的机制以多种面目出现。例如,Haavelmo [99] 的早期工作假设改变 structural assignment 的其中一个,会使其他保持不变;Hoover [111] 介绍了不变准则:真正的因果序是在恰当干预下的不变性;Aldrich [4] 探讨了这些思想在经济学中的历史发展;Pearl [183] 详细探讨了自主性(autonomy),认为当其他机制服从外部影响时,因果机制能够保持不变。

该研究将任意现实世界分布视为因果机制的产物。此类分布的变化通常是由至少一个因果机制的变化导致。根据 ICM 原则,研究者得出了以下假设:

在 ICM 原则中,研究者表述了两个机制(形式化为条件分布)的独立性意味着这两个条件分布不应互相影响。后者可被理解为要求独立干预。

因果发现与机器学习

根据 SMS 假设,很多因果结构被认为需要保持不变。所以,分布偏移(如在不同「环境或语境」中观察一个系统)能够为确定因果结构提供很大的帮助。这些语境可以来自干预、不稳定时间序列或者多视图。同样地,这些语境可以被解读为不同的任务,从而与元学习产生关联。

传统的因果发现和推理假设单元(unit)是由因果图连接的随机变量。但是,真实世界的观测结果最初往往并未结构化为这些单元,例如图像中的物体。因此,因果表示学习的出现试图从数据中学习到这些变量,正如超越了符号 AI 的机器学习不要求算法操作的符号预先给定一样。基于此,研究者试图将随机变量 S_1, …, S_n 与观测值连接起来,公式如下:

其中 G 是非线性函数。下图 2 展示了一个示例,其中高维观测是对因果系统状态进行查看的结果,然后利用神经网络对其进行处理,以提取在多种任务上有用的高级变量。

为了结合结构因果建模和表示学习,我们应努力将 SCM 嵌入到更大的机器学习模型中,这些模型的输入和输出也许呈现高维和非结构特点,但其内部工作至少部分由 SCM 控制(可使用神经网络对其进行参数化)。

研究者在下图 3 中展示了一个可视化示例,其中恰当因果变量的变化很稀疏(移动手指导致手指和方块位置发生变化),但在像素空间等其他表示中变化则很稠密(手指和方块的移动导致很多像素值发生变化)。

研究者从因果表示学习的角度讨论了现代机器学习面临的三个问题,分别是解耦表示学习、可迁移机制学习以及干预式世界模型和推理学习。

因果推理对机器学习的影响

上文所有讨论都需要一种不依赖常见 i.i.d. 假设的学习范式。研究者希望做出一种较弱的假设:应用模型的数据可能来自不同的分布,但涉及的因果机制(大多)相同。

半监督学习(SSL)

假设潜在因果图为 X → Y,并且同时想要学习映射 X → Y,则这种情况的因果因式分解如下:

从 SSL 的角度来看,后续发展包括进一步的理论分析和条件式 SSL。将 SSL 视为利用边际 P(X) 和非因果条件式 P(Y |X) 之间的依赖性,这一观点与验证 SSL 合理性的常见假设一致。

此外,SSL 领域的一些理论结果使用因果图中众所周知的假设(即使这些假设没有提及因果关系):协同训练理论陈述了无标注数据的可学习性,并且依赖预测器基于给定标签有条件独立的假设。我们通常期望该预测器(仅)由给定标签引起,即反因果设置。

对抗脆弱性

现在假设我们处在因果设置中,其中因果生成模型可因式分解为独立的组件,组件之一(本质上)是分类函数。因此,我们或许会期望,如果预测器近似具备固有可迁移性和鲁棒性的因果机制,则对抗样本应该更难找到。

最近的工作支持了这种观点:对抗攻击的一种潜在防御方法通过建模因果生成方向来解决反因果分类问题,这种方法在视觉领域中被称为合成式分析(analysis by synthesis)。

鲁棒性和强泛化性

为了学习一个鲁棒的预测器,我们应该拥有一个环境分布的子集,并求解

在实践中,求解公式 (18) 需要指定一个具有干预相关集合的因果模型。如果观测环境集合 ε 与可能的环境集合 Ρ_ɡ不一致,则我们将得到额外的估计误差,在最坏的情况下,该估计误差可能会任意大。

预训练、数据增强与自监督

学习用于解决 (18) min-max 优化问题的预测模型难度较高。该研究将机器学习中的多个常见技术解释为近似 (18) 的方法。第一个方法是丰富训练集的分布;第二个方法通常与前一个结合使用,即依赖数据增强来增加数据多样性;第三个方法是依靠自监督学习 P(X)。

一个有趣的研究方向是将所有这些技术结合起来,即基于来自多个模拟环境的数据进行大规模训练、数据增强、自监督和鲁棒性微调。

强化学习

相比机器学习主流研究,强化学习 (RL) 更接近因果研究,因为它有时能够高效地直接估计 do-probabilities。但是,在离策略学习设置下,尤其是批(或观测)设置下,因果问题变得细微。应用于强化学习的因果学习可以分为两个方面:因果归纳和因果推理。

强化学习设置下的因果归纳与经典因果学习设置下所面临的挑战大有不同,因为因果变量通常是给定的。但是,越来越多的证据表明恰当环境结构化表示的有效性。例如:

  • 世界模型;

  • 泛化、鲁棒性与快速迁移;

  • 反事实;

  • 离线强化学习

科学应用

当机器学习应用于自然科学领域时,一个基本的问题是:我们可以在多大程度上用机器学习来补充对物理系统的理解。一个有意思的方向是使用神经网络进行物理仿真,它与手工设计的模拟器相比效率要高得多。另一方面,缺乏系统的实验条件可能会在医疗等应用领域遭遇挑战。

因果关系在帮助理解医学现象方面具有巨大的潜力。在新冠疫情期间,因果中介分析(causal mediation analysis)有助于,在观察到辛普森悖论的教科书式示例时,真正查出不同因素对病死率的影响。

科学应用的另一个示例是天文学,研究者们使用因果模型在仪器混淆的情况下识别系外行星。

多任务学习与持续学习

多任务学习是指构建一个可以在不同环境中解决多个任务的系统。这些任务通常具有一些共同的特征。通过学习跨任务的相似性,系统在遇到新任务时可以更有效地利用从先前任务中获得的知识。

在这一方面,我们显然已经走了很长一段路,且没有明确地将多任务问题视为因果问题。在海量数据和算力的推动下,人工智能在广泛的应用领域里取得了显著的进步。这也让人们产生了一个问题:「为什么我们不能直接训练一个巨大的模型来学习环境动态(如强化学习中的设定),使其包含所有可能的干预呢?」毕竟,分布式表示可以泛化至未见样本,如果基于大量干预进行训练,则我们可能会得到一个在大量干预之间实现良好泛化的大型神经网络。

要这么做的话,首先如果数据的多样性不够,则最糟糕的情况是未见分布偏移造成的误差仍然可能很高。此外,如果我们拥有一个能够成功应对特定环境中所有干预的模型,则我们可能希望在具备相似动态的不同环境中使用它,尽管不一定动态完全相同。

本质上,i.i.d. 模式识别只是一种数学抽象,因果关系对于大多数形式的 animate learning 而言可能是必不可少的。然而直到现在,机器学习仍忽略对因果关系的完整集成,该研究认为机器学习会从集成因果概念中获得收益。研究者认为,将当前的深度学习方法与因果关系的工具和思想结合起来,可能是迈向通用 AI 系统的必经之路。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/485235.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WPF使用Canvas绘制可变矩形

WPF使用Canvas绘制可变矩形 原文:WPF使用Canvas绘制可变矩形版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/WANGYAN9110/article/details/38130661 1、问题以及解决办法 最近因为项目需要,需要实现一个位置校对…

Java中关于自增自减

Java中关于自增和自减 关于自增和自减,一直困扰着我,总是学完了当时明白,过了没多长时间又忘了,学的也不牢固。经过老师这一次的讲解,总结的这篇博客,如有错误还请指正。 第一题: 加上括号好看…

《麻省理工科技评论》发布2021年“全球十大突破性技术”

全文共计8398字,预计阅读时间10分钟来源 | DeepTech深科技(转载请注明来源)编辑 | 蒲蒲正如比尔盖茨所说,看过这些突破性技术之后,你会觉得 “美好的未来,值得我们为之奋斗”。日前,《麻省理工科…

@Valid的坑

Valid 只能用来验证 RequestBody 标注的参数,并且要写在 RequestBody 之前 转载于:https://www.cnblogs.com/jichen/p/9561622.html

Java——String类的方法

Java——String类的方法 String str1 “abc” 与String str2 new String(“abc”)有什么区别? 字符串常量存储在字符串常量池,目的是共享字符串非常量对象存储在堆中 String的常用方法 常用方法1: int length():返回字符串的…

OpenAI魔法模型DALL-E论文、代码公布!

来源:AI科技评论编译:AI科技评论OpenAI在1月5日公布DALL-E模型以来,人们都惊艳于模型的语言想象力是如此丰富和细致。如今,我们终于等到了论文的公布,从而得以了解DALL-E天马行空创造力背后的奥秘。值得一提的是&#…

Maven项目无法加载jdbc.properties

Maven项目无法加载jdbc.properties(java.sql.SQLException: The server time zone value ‘�й���׼ʱ��’ is unrecog) 1.JdbcUtils.java package com.zxm.utils;import java.io.InputStream; import ja…

Hinton:我终于想明白大脑怎么工作了!神经学家花三十年,寻找反向传播的生物机制...

来源:智源社区作者:Anil Ananthaswamy编译:梦佳「有一天晚上,我回家吃饭,激动地说『我终于想明白大脑是怎么工作的了!』我15岁的女儿对我说,怎么又来了,老爸。」 …

Mybatis学习笔记(一)——项目搭建、导入依赖、相关配置

Mybatis学习笔记&#xff08;一&#xff09;——项目搭建、导入依赖、相关配置 传送门&#xff1a;Mybatis中文网&#xff08;入门手册&#xff09;Mybatis中文网 一、新建项目 在项目中新建模块&#xff1a; 二、学习Mybatis常用的依赖&#xff1a; <dependencies…

数学与工业革命

来源&#xff1a;中科院数学与系统科学研究院作者&#xff1a;黄雷&#xff0c;中科院数学与系统科学研究院数学&#xff0c;无时无刻不散发着它独特的魅力。上到宇宙飞船遨游外太空&#xff0c;下至小商小贩行走菜市间&#xff0c;这门与每个人生活都息息相关的学科一直在默默…

AI回溯过去解决复杂任务 |《自然》论文

来源&#xff1a;Nature Portfolio根据《自然》本周发表的一项研究First return, then explore&#xff0c;一类增强学习算法在雅达利经典游戏中的得分超过了人类玩家和先进的人工智能系统&#xff0c;算法挑战的游戏包括《蒙特祖马的复仇》&#xff08;Montezuma’s Revenge&a…

python数据图形化—— matplotlib 基础应用

matplotlib是python中常用的数据图形化工具&#xff0c;用法跟matlab有点相似。调用简单&#xff0c;功能强大。在Windows下可以通过命令行 pip install matplotlib 来进行安装。 以下为一些基础使用的例子&#xff1a; 1、绘制直线 先通过numpy生成在直线 y 5 * x 5 上的一组…

Snipaste的安装及快捷键的设置

Snipaste的安装及快捷键的设置 关于Snipaste&#xff1a; Snipaste 是一个简单但强大的截图工具&#xff0c;也可以让你将截图贴回到屏幕上&#xff01;可以将剪贴板里的文字或者颜色信息转化为图片窗口&#xff0c;并且将它们进行缩放、旋转、翻转、设为半透明&#xff0c;甚…

人与机器人的交互理论及其前景

来源&#xff1a;人机认知与实验室摘要&#xff1a;移动机器人的人机交互正处于早期阶段。大部分与机器人相关的用户交互都被数控能力所限制&#xff0c;向用户提供的最普遍的界面是以自动化平台提供的视频和对机器人的一定程度上的路径指挥。对于半自动能力的移动机器人&#…

计算机组成原理——Cache与主存的地址映射

Cache–主存的地址映射 由主存地址映象到cache地址称为地址映射 cache的基本结构&#xff1a; Cache的工作过程&#xff1a; CPU发出一个地址&#xff0c;同时发给主存和cache的地址映射机构&#xff0c;CPU会从主存中取出字还是从cache中取出字&#xff0c;主存将块号送入主…

申工智能有没有作弊?

来源&#xff1a;北国骑士在2021年农心杯赛场&#xff0c;韩国天才棋手申真谞连胜五轮&#xff0c;帮助韩国队夺得了阔别很久的团队冠军奖杯。从一连串的棋局来看&#xff0c;不管是日本选手还是中国对手&#xff0c;在韩国棋手面前都“不堪一击”。以申真谞为例&#xff0c;几…

浮点数加减法运算(对阶、尾数求和、规格化、舍入、溢出判断)

浮点数的加减法运算 前言&#xff1a; 运算过程&#xff1a;对阶、尾数求和、规格化、舍入、溢出判断 浮点加减运算 在计算机中&#xff0c;加减法运算用补码实现。 算术运算的常识&#xff1a;两个浮点数如果要进行加减法运算&#xff0c;它们的阶或者指数必须相等。 一、…

JSP实现登陆页面(表单提交、连接数据库、实现页面跳转)

JSP实现登陆页面(表单提交、连接数据库、实现页面跳转) 1.数据库设计 2.主页面展示 3.代码展示&#xff1a; index.jsp <% page language"java" contentType"text/html; charsetUTF-8"pageEncoding"UTF-8"%> <!DOCTYPE html PUBLIC …

任正非在“GTS云与终端云合作与融合进展”汇报会上的讲话

任正非内部讲话音频版作者&#xff1a;任正非来源&#xff1a;蓝血研究&#xff08;lanxueyanjiu)2021年1月12日&#xff0c;任正非在“GTS云与终端云合作与融合进展”汇报会上发表讲话。任正非要求&#xff0c;要围绕着体验把端、管、云拉通&#xff0c;优化华为的GTS服务网络…

Hinton一作新论文:如何在神经网络中表示“部分-整体层次结构”?

来源 | AI科技评论作者 | Geoffrey Hinton编译 | 陈彩娴AI科技评论在 Twitter 上发现了一篇Hinton的新论文&#xff0c;作者只有Hinton本人&#xff0c;这篇论文没有介绍具体的算法&#xff0c;而是描绘了一个关于表示的宏观构想&#xff1a;如何在神经网络中表示部分-整体层次…