重庆大学刘礼:因果学习与应用

a33dec8b39d341e57d103755078ba5f0.png

来源:AI科技评论

作者:刘礼

编辑:维克多

因果学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。4月9日,在AI TIME青年科学家——AI 2000学者专场论坛上,重庆大学大数据与软件学院教授刘礼做了《因果学习与应用》的报告。

在报告中,他从辛普森悖论入手,分析了当前机器学习面临的困难,然后介绍了几个主流因果框架解决“非独立同分布”、“结合知识”的思路,以及框架的优缺点,例如他提到:

“目前有两套主要的因果模型:Pearl的结构因果模型,以及Rubin的潜在结果模型。两者都可以预测、干预以及回答反事实问题,但对于“发现定理知识”不确定是否可行。潜在结果模型的不同之处在于,可以从数据中学习,但结合现有知识较为困难,结构因果模型则相反,可以结合现有知识,但从数据中学习的能力还亟待进一步检验。”

此外,他还结合自己的工作成果,提到了因果框架如何应用于图像合成、疾病诊断、行为识别等例子,以下是演讲原文,AI科技评论做了不改变原意的整理。

今天报告的内容是因果学习及其应用。该领域最著名的一个例子是辛普森悖论:在700例肾病患者中,观察他们服药情况,发现服药男性的治愈率是93%,女性治愈率73%,不服药的男性治愈率为87%,女性为69%。分男女组别考察,能够得出”服药有助于恢复”的结论,但从整体样本考察,会发现不服药的治愈率83%高于服药的治愈率78%。

807771eb38577c9b89ed9df927d0e98e.png

另外一个辛普森悖论的例子关于房价。10年前,某城市市中心的房价是8000元/平米,共销售了1000万平;高新区是4000元/平米,共销售了100万平;整体来看,该市7636元/平米;现在,市中心10000元/平米,销售了200万平;高新区是6000元/平米,销售了2000万平,整体来看,该市6363元/平米。因此,分区来看分别都涨了,但从整体上看,会有疑惑:为什么现在的房价反而跌了?

cab08735cb07c62c12e25ddb1a0470b7.png

辛普森悖论虽然不是新提出的,但却是各领域不可忽视“顽疾”。2019年,新冠爆发时,有学者分国家对病死率进行了统计,如上图,在各个年龄段,中国的病死率都比意大利高;但整体统计下来,意大利却反而更高。

这种分组和整体结论不同的情况,也是机器学习模型的困境。例如训练数据和测试数据不满足独立同分布的假设,那么机器学习在分布偏移情况下很难鲁棒地学习,在新的场景中很难使用现有的模型。

实际上,目前基于数据驱动的机器学习方法,训练出的模型都得出的结论大多是变量和变量之间的相关关系,而不是因果关系。例如之前有项研究发现,在某大国暴力犯罪与腌黄瓜消耗密切相关,但这种相关性并不代表因果性。

678101e71039b40384687d75bb436705.png

从因果的角度,辨析腌黄瓜和暴力犯罪之间的关系需要考虑混淆变量。如上图,混淆变量会同时影响独立变量和因果变量,从而造成两者之间的伪相关。如果将传统统计和因果推断进行对比,有以下几个特点:

ec25aa1649fc293113e34df62726a806.png

在90年代,知识驱动的机器学习方法占据主流,基于人类知识,编码成规则,让计算机自动在规则之上进行推理。深入思考,其实西方科学的发展史就是因果问题,这套真理体系+推理体系我们从小就在学习:已知1+1=2, 1+2=3,可以推导得出1+1+1=3。

这套体系也有可能出错,例如牛顿定律在地球上适用,但在宇宙中就失效,从而爱因斯坦提出了相对论。

东方科学发展也有几千年,也大量地研究过因果关系。

1

超越数据驱动,迈向可解释性

主流数据驱动的机器学习已经非常成功,无论是阿法狗,还是GPT都带来了惊艳的效果。但有两个缺点:没有可解释性、可控性差。

6c0c96b4cca700cd92e62334317facb1.png

为了解决上述问题,图灵奖获得者朱迪亚·珀尔提出因果关系之梯。如上图,第一层次是关联,通过概率表达描述出观察到的一堆数据。第二层次是干预,不仅是观察,而且是进行实验改变,例如如果吃了阿司匹林,我的头痛会得到治愈吗?如果我们禁止吸烟将会发生什么?其中,吃药和禁止吸烟都是干预手段。第三层次是反事实,在既定结果已经发生的情况,假设当初采取另一方案,则会发生什么。反事实不会得到观察数据,毕竟不存在两个平行世界,但确实经常遇到的情况,经典的就是人们常说的“如若当初........就不会......”。

e59cfa14c777b3eb7a84d8e7cb06edeb.png

在概率空间层面,如何解释?如上图,观察到的数据,形成一个联合分布概率表达;加入干预之后,每一个操作对应一个概率分布,因此可能解决“独立同分布”假设带来的缺陷。

39b2546615cebb348da6494c4853b800.png

反事实问题目前非常难解决,也有很多例子。黑人被警察控制事件,反事实下,就对应:如若白人被警察控制了,会发生什么?在影视剧中,也常发出如若是另外某个明星参演,票房会有什么变化。这些反事实问题没办法验证,但需要回答。

172774779170641e661c807e3fec2eae.png

针对此问题,目前有两套主要的因果模型:Pearl的结构因果模型;Rubin的潜在结果模型。两者都可以预测、干预以及回答反事实问题,对于“发现定理知识”目前还不确定是否可行。但潜在结果模型的不同之处在于,可以从数据中学习,但与现有知识相结合比较困难,而结构因果模型则相反,可以结合现有知识,但从数据中学习的能力还亟待进一步检验。

目前,因果范式有几个问题正在解决:因果发现、因果推理。

74fd056bb71be27d72db4f2b1320d9e5.png

因果发现需要基于已有的数据找出变量和变量之间的因果关系。目前有两套主流的方法:基于约束以及基于评分的。这两套方法不去详细讲述。但存在的问题是:随着变量的增多,需要检验因果图就会达到天文数字。因此,如何利用机器学习方法反过来提升因果发现,是目前流行的问题。

在机器学习领域中,Pearl的方法本质是基于结构方程,主流方向是用它进行因果解耦。同时,也有一些非因果的方法,例如在SVM空间中进行超平面切分。

490b9cd19667e785db089c718d174f72.png

在因果推理层面,Pearl提出了do算子,在因果图上给出了一系列定理和假设,用传统的概率表达形式进行操作,这就让“因果”变得可计算。Pearl同样给出了反事实计算框架,其最重要的是“孪生网络”,包含一个真实世界,以及一个反事实世界。Pearl这套理论其实也存在缺点,即假设因果图是存在的,并需要包含一些先验知识,例如方程的结构是线性还是非线性的。

因果效应评估,就是在有一堆观察变量以及未观察变量的情况下,如何评估出变量X对变量Y的因果效应有多大。目前主流方法包括倾向得分、工具变量等等。

2

应用例举,因果框架符合现实假设

目前的图像自动生成很多都是以条件为主的,例如给定标签的控制、图像的控制、文字的控制,考虑如何基于已有的观察数据进行训练模型、进行生成。

与基于条件的生成方法不同,基于潜在变量数据的方法目的在于解决“某些变量无法直接被观察”的困境。

因果干预图像合成方法,是对相应的变量进行解耦,即观察变量变化如何导致结果变化,该方法能够精准控制图像的某一部分合成。

abd22eabc3121e75c8255ae58c79053f.png

此外,因果方法在医疗领域有很多应用。基于结构函数的因果模型,设计因果发现框架,试图超越分子与分子之间的关联性,找出其因果性。具体操作分成两步:第一步发现变量和变量之间,包括潜变量之间的因果图;第二步基于因果图,确定明确的结构函数关系。

目前,我们开发出基于贝叶斯图学习因果模型,超越了传统学习函数步骤,使用因果图进行描述关系,也是分为两步:第一步边定向,需要满足马尔科夫等价条件,使得因果效应最大化;第二步是因果效应评估。目前,该方法已经应用在最具代表性肿瘤特征选择这一课题上。

最后一个应用是人体行为识别。人体识别多是采用传感器和视频流的方式进行,会有前后的因果关系。因此,可以用格兰杰因果方法解决时序因果中的问题。

91ef6443a45768b950088b63e4b21252.png

最后推荐几本书,《WHY》、《Causal Inference in Statistics》、《Causality》、《Elements of Causal Inference》、《What If》 都非常棒。其中,《Causality》目前,我们历经3年时间已经翻译成了中文,即将出版,请大家期待。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

36e287a3818c85e67a0a2c89fbf4b354.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482217.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

12 计算机组成原理第七章 输入/输出系统 中断系统

文章目录1 中断的基本概念2 中断请求的分类3 中断请求标记4 中断判优-实现5 中断处理过程5.1 中断处理过程-中断隐指令5.2 中断处理过程-硬件向量法5.3 中断处理过程-中断服务程序6 单重中断与多重中断6.1 单重中断与多重中断比较7 中断屏蔽技术中断屏蔽字例题8 中断系统小结1 …

神经形态计算的物理学

来源: 集智俱乐部作者:张晓雨编辑:邓一雪 摘要神经形态计算(neuromorphic computing)从脑科学汲取灵感来为信息处理创造节能硬件,并能适应高度复杂的任务。2020年发表在 Nature Reviews Physics 上的一篇文…

13 计算机组成原理第七章 输入/输出系统 I/O方式 I/O接口

文章目录1 I/O接口1.1 接口定义1.2 I/O接口的功能(以单总线为例)1.3 I/O接口的基本结构1.4 接口与端口1.5 I/O端口及其编址1.6 I/O接口的类型1.7 I/O接口小结2 I/O方式2.1 I/O方式1-程序查询方式2.1.1 程序查询方式流程图2.1.2 程序查询方式接口2.1.3 程…

参与全球人工智能创新链竞争

来源:社科院工业经济研究所作者:郭朝先,中国社会科学院工业经济研究所研究员、产业组织研究室主任、中国社会科学院大学教授、博士生导师、中国可持续发展研究会理事;方澳,中国社会科学院大学经济学院。本文首发《经济…

4 计算机组成原理第三章 存储系统 高速缓冲存储器 虚拟存储器

文章目录1 局部性原理性能分析2 Cache工作原理(简易版)3 地址映射4 替换算法4.1 替换算法(十进制)举例4.2 Cache工作原理(加强版)4.2.1写策略-命中4.2.2 写策略-未命中4.3 替换算法(二进制&…

CICC城市大脑专委会获批成立,欢迎参加专委会共同探索和研究

CICC 城市大脑专委会中国指挥与控制学会(CICC)是经国家民政部正式注册的我国指挥与控制科学技术领域的国家一级学会,是全国性科技社会组织;是中国科学技术协会的正式团体会员,接受中国科学技术协会的直接领导&#xff…

讲座文稿 | 人工智能与因果推理

来源:本文为中国人民大学明德讲坛第23期暨服务器艺术人工智能哲学第11期讲座文稿。主持人:朱锐 嘉宾:邱德钧、秦曾昌、Vincent Luizzi、袁园 主办:中国人民大学哲学与认知科学跨学科交叉平台、服务器艺术 协办:神经现…

顺序栈的介绍及实现

1 栈 从数据结构角度来讲,栈也是线性表,其操作是线性表操作的子集,属操作受限的线性表。 但从数据类型的角度看,它们是和线性表大不相同的重要抽象数据类型。 ◆ 栈是只准在一端进行插入和删除操作的线性表,该端称为栈…

内排序算法一览

文章目录1 插入排序2 希尔(shell)排序3 冒泡排序4 快速排序5 选择排序6 堆排序7 归并排序8 内排序代码一览运行结果常用排序算法时间复杂度和空间复杂度一览表排序:将一组杂乱无章的数据按一定的规律顺次排列起来,可以看作是线性表的一种操作…

Nature:神经元在大脑中的起点并不一定是它们的终点

来源:生物通虽然人体有30亿个DNA碱基和超过30万亿细胞,格里森和他的同事们发现只有几百DNA突变可能出现在头几个细胞分裂后的受精胚胎或在大脑的早期发展。通过在死者的大脑中跟踪这些突变,他们第一次能够重建人类大脑的发育。胎儿大脑的发育…

扎克伯格Meta元宇宙被质疑:年均烧百亿美元,货要等十年

来源:新智元公司内部业务混乱、公司外部观感酷似曾经的雅虎,这些与扎克伯格的元宇宙发力结合在一起,让Meta的新老员工都怨声载道。不少Meta的员工,现在都在抱怨老板的元宇宙项目顾头不顾腚、在公司内部徒增业务困扰但并无法带来收…

链栈的介绍与实现

文章目录1 链栈定义2 链栈基本操作3 链栈代码实现1 链栈定义 链栈:采用链式存储的栈称为链栈 在一个链栈中,栈底就是链表的最后一个结点,而栈顶总是链表的第一个结点。因此,新入栈的元素即为链表新的第一个结点,只要…

栈与递归

文章目录1 递归的概念2 递归算法3 递归数据结构4 递归实现5 递归与循环差别1 递归的概念 递归是指在定义自身的同时又出现了对自身的调用。如果一个函数在其定义体内直接调用自己,则称直接递归函数;如果一个函数经过一系列的中间调用语句,通过…

马斯克与推特达成收购协议 专家警告称这一步迈得过大

来源:网易智能4月26日消息,当地时间周一,在特斯拉首席执行官埃隆马斯克(Elon Musk)敲定将以440亿美元的价格收购个人社交媒体平台推特后,特斯拉股价盘中一度下跌超2%,最终收于每股998.02美元&am…

循环队列的介绍与实现

文章目录1 循环队列定义2 循环队列基本操作3 循环队列代码实现4 补充1 循环队列定义 循环队列:即顺序存储的队列,是为了避免“假溢出”而利用%运算符将队列首尾相接连成一个环状的队列,称为循环队列。 引入循环队列克服顺序队列中存在的“假…

5年内开炸第一颗小行星,改变其轨道!中国计划建立小行星预警监测系统

来源:大数据文摘不知道多少科幻片中,小行星成为了人类灭绝的罪魁祸首。在超高的速度加持下,直径只有十几公里的小行星撞击地球,都有可能造成人类毁灭。为了提前预警这样的事件发生,人类做出了不少努力。美国航天局NASA…

算术逻辑单元设计

文章目录1 基本逻辑符号1.1 ALU1.2 逻辑符号1.3 复合逻辑2 加法器设计2.1 一位加法器2.2 进位产生原理2.2 多位二进制位加法器1 基本逻辑符号 1.1 ALU ALU功能: 算术运算:加、减、乘、除等 逻辑运算:与、或、非、异或等 辅助功能&#xff1a…

数字孪生城市框架与全球实践洞察(2022)

来源 : 世界经济论坛编辑 :蒲蒲全球数字孪生市场蓬勃发展。据预测,到2030年,数字孪生技术的应用将为城市规划、建设、运营节省成本达到2800亿美元。市场规模方面,2020年全球数字孪生市场规模为31亿美元,预计…

2 计算机组成原理第二章 数据的表示和运算 定点数运算 浮点数运算

文章目录1 进制转换2 定点数表示及其运算2.1 定点数表示2.1.1 真值→补码2.1.2 补码→真值2.1.3 [XT]补 →[-XT]补2.1.4 真值、原码、反码、补码转换关系图形总结2.2.4 移码2.2 定点数运算2.2.1 移位运算2.2.2 定点数加减运算2.2.3 溢出判断判溢出方法一判溢出方法二判溢出方法…

Gartner:AI和自动化将是新一代SASE的关键能力

来源:安全内参近年来,安全访问服务边缘(SASE)技术快速发展,得到了较广泛的行业应用。SASE架构通常包括了SD-WAN、FWaaS、安全Web网关、云访问安全代理(CASB)和零信任网络访问(ZTNA&a…