深度学习和因果如何结合?北交最新《深度因果模型》综述论文,31页pdf涵盖216篇文献详述41个深度因果模型...

a38d1d8d19ab0cea62c594eaf198226c.png

来源:专知

北京交通大学最新《深度因果模型》综述论文,31页pdf涵盖216页pdf详述41个深度因果模型,值得关注!

6b6de05d45b1ba041bf6e4bf387ae3ca.jpeg

因果关系概念在人类认知中起着重要作用。在过去的几十年里,因果推理在计算机科学、医学、经济学和教育等许多领域都得到了很好的发展。随着深度学习技术的发展,它越来越多地用于反事实数据的因果推理。通常,深度因果模型将协变量的特征映射到一个表示空间,然后根据不同的优化方法设计各种目标优化函数,无偏估计反事实数据。本文对深度因果模型进行了综述,其核心贡献如下: 1)提供了多剂量和连续剂量治疗下的相关指标; 2)我们从时间发展和方法分类的角度整合了深度因果模型的全面概述; 3)我们协助对相关数据集和源代码进行详细和全面的分类和分析。

https://www.zhuanzhi.ai/paper/efde4edd817ef37778e7a9cf46d46ca1

一般来说,因果关系指的是结果与产生结果的原因之间的联系。这种现象的原因和影响很难定义,我们往往只能凭直觉意识到它们。因果推断是一个根据因果关系发生的环境对因果关系作出结论的过程,在现实世界中有各种各样的应用。例如,估计广告中观察数据的因果效应[3,4,5,6,7,8,9],开发与因果治疗效果估计高度相关的推荐系统[10,11,12,13,14,15,16],学习医学中患者的最佳治疗规则[17,18,19],估计强化学习中的ITE[20,21,22,23,24,25,26,27,28],自然语言处理中的因果推理任务[29,30,31,32,33,34],新兴的计算机视觉和语言交互任务[35,36,37,38,39],教育[40],政策决策[41,42,43,44,45]和改进的机器学习方法[46]等。

深度学习在应用于大数据时有助于人工智能的发展[47,48,49,50]。与传统机器学习算法相比,深度学习模型计算效率更高,精度更高,在各个领域都有很好的表现。然而,许多深度学习模型是可解释性较差的黑盒,因为它们更关心作为输入和输出的相关性,而不是因果关系[51,52,53]。近年来,深度学习模型被广泛用于挖掘数据的因果关系而不是相关性[41,43]。因此,深度因果模型已成为基于无偏估计估计治疗效果的核心方法[19,44,45,54]。目前,许多因果推理领域的研究都是利用深层因果模型来选择合理的treatment 方案[55,56,57,58]。

在大数据中,所有趋势变量都是相关的[59],因此发现因果关系是一个具有挑战性的问题[60,61,62]。在统计学理论中,进行随机对照试验(randomized controlled trials, RCT)[63]是推断因果关系最有效的方法。换句话说,样本被随机分配到处理组或对照组。尽管如此,现实世界的随机对照试验数据是稀疏的,有几个严重的缺陷。涉及rct的研究需要大量特征变化不大的样本,难以解释,涉及伦理挑战。事实上,选择试验对象来尝试一种药物或疫苗是不明智的[64,65]。因此,因果效应通常直接用观察数据来衡量。获取反事实结果的一个核心问题是如何处理观测数据[66]。在分析观察数据时,处理并不是随机分配的,处理后的样本的性能与普通样本的性能有显著差异[41,43]。不幸的是,我们无法在理论上观察到其他结果,因为我们无法观察到反事实结果[67]。主流研究的一个长期特征是使用潜在结果框架作为解决观察数据因果推断问题的手段[68]。潜在结果框架也被称为Rubin因果模型[69]。因果推理与深度学习密切相关,因为它是使用Rubin因果模型概念化的。为了提高估计的准确性和无偏性,一些研究人员尝试将深度网络和因果模型结合起来。举例来说,考虑分配平衡方法[41,43,44]的表示,协变量混杂学习方法[54,70,71]的效果,基于生成对抗网络的方法[45,72,73]等[58,34,74]。由于深度学习方法促进了因果推理,因果推理也有助于深度学习方法的发展。除了提高因果效应估计的准确性,深度网络的研究为开发深度学习算法提供了一个合理的基础[75,76]。

343bc0a30b77fb271df68b513a424932.jpeg

近年来,人们对因果推理的各种观点进行了讨论[77,1,78,79,80,81,82,83,2]。表1列出了相关综述的标题和要点。文献[77]深入分析了因果推理的起源和变量发展,以及因果学习对因果推理发展的影响。此外,调查[1]对传统和前沿的因果学习方法进行了概述,并对机器学习和因果学习进行了比较。许多学者讨论了如何解释机器学习。随后,为了创建可解释的人工智能算法,survey[79]结合了因果推理和机器学习。作为一种新颖的视角,因果表征学习正在蓬勃发展,综述[80]利用它从低级观察中发现高水平的因果变量,加强了机器学习和因果推理之间的联系。由于近年来因果机器学习的流行,综述[78]对图因果推理与机器学习的相关性进行了详细的讨论。此外,在调查[81]中,作者考察了机器学习的最新进展如何应用于因果推理,并对因果机器学习如何有助于医学科学的进步提供了全面的解释。正如综述[82]所认为的,基于深度学习可以改进和整理因果发现方法,可以探索可变范式来帮助思考和探索因果发现方法。推荐系统中的因果推理是调查的重点[83],它解释了如何使用因果推理来提取因果关系,以增强推荐系统。长期以来,统计的潜在结果框架一直是连接因果推理和深度学习的桥梁,作为起点,综述[2]检查并比较了满足这些假设的不同类别的传统统计算法和机器学习算法。由于深度学习算法的快速发展,现有文献在考察泛化时没有考虑深度因果模型。因此,我们从深度网络的角度,从时间和分类两方面总结了深度因果模型。本综述对近年来的深度因果模型进行了全面的回顾和分析。它有三个核心贡献: 1)我们在多次treatments 和连续剂量treatments 的情况下纳入了相关指标。2)我们从方法分类和时间发展的角度对深层因果模型进行了全面的概述。3)我们在相关数据集和源代码的分析和分类方面提供详细和全面的支持

以下是论文其余部分的大纲。如第2节所述,本文将介绍深度因果模型以及定义和假设。在第3节中,介绍了适当的例子和度量,包括二元treatment、多重treatment和连续剂量treatment。第4节展示了一个深度因果模型,包括概述和分析。第5节讨论了深度因果模型的方法,包括分布平衡方法、协变量混杂学习方法、基于生成对抗网络的方法、基于文本输入时间序列的方法以及基于多treatment和连续剂量treatment模型的方法。相关实验指南的列表如下第6节。论文的摘要在第7节中给出。

深度因果模型

通过对背景和基本定义的深入理解,本节将进入深度因果模型的核心。本文概述了深度因果模型及其在过去六年间的发展,包括基于时间轴的41个深度因果模型的分析。

近年来,深入因果模型的研究越来越受欢迎。随着深度学习的发展,各种深度因果模型在估计因果效应方面变得更加准确和有效。根据图1,我们列出了2016年6月至2022年2月期间约40个经典的深度因果模型,包括它们的详细名称和提出时间。深度因果模型从2016年开始开发。Johansson等首次发表了反事实推理的学习表示[41],提出了算法框架BNN和BLR[41],将深度学习与因果效果估计问题相结合,将因果推理问题转化为领域适应问题。从那时起,许多模型被提出,包括DCN-PD[110], TARNet和CFRNet[43]。在这方面,需要注意的是,Louizos等人在2017年12月提出的基于深度网络经典结构参数自编码器VAE的CEVAE[54]模型,主要关注混杂因素及其对因果效应估计的影响。

4c29f429dd7480305ca6aba9a9ec4656.jpeg

图1: 深度因果模型的发展

在2018年以及2019年,人们对因果表征学习的兴趣越来越浓厚。首先,我们联合提出了Deep-Treat[19]和RCFR[111]模型。在GANITE[45]模型推出后,使用生成对抗模型[112]体系结构进行反事实估计成为因果推理领域的主流。根据前面的工作,对CFR-ISW[113]、CEGAN[72]、SITE[44]进行了优化。R-MSN[74]模型于2018年12月实现,利用循环神经网络[114]解决多治疗时间序列的连续剂量问题,开辟了深层因果模型。为了解决这一问题,2019年5月提出了PM[42]和TECE[104],用于与多个离散处理相关的因果效应估计。作为后续,CTAM[34]开始专注于估算文本数据的因果影响;Dragonnet[71]首次将正则化和倾向评分网络引入因果模型;ACE[55]试图从表示空间中提取细粒度的相似度信息。对于RSB的[115]2019年12月版,使用深度表示学习网络和PCC[116]正则化来分解协变量,使用工具变量来控制选择偏差,使用混杂和调节因素来预测。

深度因果模型在2020年蓬勃发展。首先,DKLITE[56]模型结合了深核模型和后验方差正则化。然后,DR-CFR[117]应用三个表示网络、两个回归网络和一个预测网络对协变量的选择偏倚进行解耦;GAD[118]则关注持续剂量治疗的因果效应;DRGAN[119]定义了一种用于拟合样品剂量效应曲线的创新生成对抗网络;CRN[120]通过结合反事实循环神经网络来估计随时间变化的治疗效果。TSD[121]在估计了多原因混杂下的时间序列因果效应后,转向估计时间序列因果效应。在潜在表征空间中,ABCEI[122]使用GAN平衡了治疗组和对照组的协变量分布。在前人研究的基础上,BWCFR[123]、LaCIM[124]对结构思想进行了优化。此外,SCIGAN[73]、DRNet[57]在2020年将连续剂量扩展到任意数量的treatment 问题,VSR[125]以重新加权的方式聚合深度神经网络潜在变量。

从2021年到2022年,因果模型变得更加创新、开放和灵活。VCNet[58]模型实现了连续平均剂量-响应曲线的估计。截至2021年5月,NCoRE[126]使用跨treatment 交互作用建模来理解产生多种治疗组合的潜在因果过程。之后,CETransformer[127]利用Transformer[128]对协变量进行表征,注意力机制集中在协变量之间的相关性上。在此基础上,DONUT[129]和DeR-CFR[70]基于之前的工作进行优化。SCI[75]将子空间理论用于因果表征学习,拓宽了研究者的思路。FlexTENet[130]提出了一种多任务自适应学习架构。此外,SCP[131]采用两步程序评估多因素治疗效果。为了构建这种合成双胞胎匹配表示,SyncTwin[132]利用了结果中的时间结构。最后,TransTEE[76]将表征分布平衡方法扩展到连续的、结构化的和剂量依赖的treatment,使其作为因果效应估计问题更加开放。下一节将分析同一类别的所有模型,并基于深度学习结构的使用和模型所使用的共同思想进行比较。

b9a2e2ec7da8c7d1ba16eb74de9a654c.jpeg

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

d998e19ea1f3679924b3fbe80b0a69f2.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481598.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文学习4-An Attentive Neural Architecture for Fine-grained Entity Type Classification

文章目录1.introduction2.相关工作3. 本文model3.1general model3.2 mention represent3.3 context model3.3.1 averaging encoder3.3.2 LSTM encoder3.3.3 Attention Encoder4. 实验在这项工作中,我们提出了一种新的基于注意的神经网络模型来完成细粒度实体类型分类…

脑机接口技术或将纳入美出口管制?技术成熟度与军用进展情况

来源: 学术plus 编译:学术plus高级观察员 TAO2022年9月,美国国会的下属机构政府问责局(Government Accountability Office, GAO)发布了题为《脑机接口》(Brain-Computer Interfaces)的焦点…

OpenAI 发布新语音系统「Whisper 」,英文识别能力可接近人类水平

来源:AI科技评论作者:黄楠编辑:陈彩娴9月21日,OpenAI 发布了一个名为「Whisper 」的神经网络,声称其在英语语音识别方面已接近人类水平的鲁棒性和准确性。「Whisper 」式一个自动语音识别(ASR)系…

论文学习5-NODE2BITS: Compact Time- and Attribute-aware Node Representations for User Stitching

文章目录摘要1.Introduction2. 介绍两个概念2.1 Dynamic Heterogeneous Network Model动态异构网络模型2.2 时间随机游走3NODE2BITS:基于散列的Emdedding框架3.1 采样时间随机游动和定义时间上下文3.2 基于多维特征的时态语境(上下文3.3基于特征的上下文聚合和散列4…

谷歌科学家亲讲:具身推理如何实现?让大模型「说」机器人的语言

来源:智源社区整理:戴一鸣导读:机器人领域已经发展了三四十年,但应用方面的进展较慢。这是因为,机器人建立在这样一个假设上:工作环境是简单可控的。如果将机器人部署到稍微复杂一些的环境(如家…

论文学习6-(M2DNE)Temporal Network Embedding with Micro- and Macro-dynamics

文章目录1 intorduction2. 相关工作3. 准备工作4.model4.2 Micro-dynamics Preserved Embedding4.2.1 分层时间关注4.3 Macro-dynamics Preserved Embedding4.3.1链接速率4.3.2 宏观约束联合5. 实验网络嵌入的目的是将节点嵌入到低维空间中,同时捕获网络的结构和属性…

蒲慕明院士:我们为什么要探索人脑的奥秘

来源:学习时报作者简介蒲慕明,1948年出生,中国科学院院士,美国科学院外籍院士,现任中国科学院脑科学与智能技术卓越创新中心学术主任,上海脑科学与类脑研究中心主任。他是国际著名的神经生物学家和生物物理…

论文学习7-Spam Review Detection with Graph Convolutional Networks(阿里巴巴)

文章目录Introduction2. 相关工作3. 本文的model3.1 Preliminaries3.2建立问题3.3闲鱼图上的异构卷积网络3.3.1Aggregation Sub-layer3.3.2 Time-related Sampling3.3.4将图形网络与文本分类模型相结合。3.4 GCN-based反垃圾邮件模式4.实验Introduction ppt 任务:…

新型AI芯片 其能效或是替代品的两倍

DAVID BAILLOT/UNIVERSITY OF CALIFORNIA SAN DIEGO来源:IEEE电气电子工程师在软件和硅中复制人脑是人工智能(AI)研究的长期目标。虽然神经形态芯片在能够同时运行多个计算方面取得了重大进展,并且既能计算也能存储数据&#xff0…

论文学习8-How Question Generation Can Help Question Answering over Knowledge Base(KBQA-知识问答)

文章目录abstract1.introduction2. our approach2.2 微调fine tuning3.Model3.1QA Model3.2QG modelabstract 本文研究了基于知识库的问答系统的性能改进问题生成技术。问题生成(question generation, QG)的任务是根据输入的答案生成相应的自然语言问题,而问答(ques…

1575万美元!2023科学突破奖揭晓,AlphaFold、量子计算等突破斩获殊荣

来源:FUTURE远见选编:FUTURE | 远见 闵青云 2022年9月22日,科学突破奖基金会宣布了2023科学突破奖(Breakthrough Prize)的获奖名单。科学突破奖有「科学界的奥斯卡」之称,它表彰在生命科学、基础物理学和数…

nlp4-语料库

文章目录1. 语料库2.建设中的问题3.典型语料库介绍1. 语料库 语料库(corpus) 语料库(corpus) 就是存放语言材料的仓库 (语言数据库)。基于语料库进行语言学研究-语料库语言学(corpus linguistics) 根据篇章材料对语言的研究称为语料库语言学不是新术语:…

费曼:任何伟大的科学成就,都源于思想自由

来源:群学书院理查德菲利普斯费曼(Richard Phillips Feynman,1918-1988),美籍犹太裔物理学家,加州理工学院物理学教授,1965年诺贝尔物理奖得主。>>>>费曼1939年毕业于麻省理工学院&…

nlp5-n-gram/语言模型(数据平滑方法

文章目录1.句子的先验概率1.1 n-gram2. 参数估计3. 数据平滑3.1 数据平滑度方法3.1.1加1法3.1.2减1.句子的先验概率 这个联合概率太小了 窗口越大,共现的可能性越小参数多 解决:等价类 不看所有的历史信息只看部分历史信息,但看所有的历史等价…

《科学》:3.8亿年前的心脏,揭示生命演化历史

来源:学术经纬编辑 :药明康德内容微信团队一颗3.8亿年前的心脏,可以告诉我们什么?在一篇近期的《科学》论文中,由澳大利亚科廷大学领导的研究团队借助最新的研究工具,从一枚有颌鱼化石中揭示了清晰的心脏、…

论文学习9-Bidirectional LSTM-CRF Models for Sequence Tagging(LSTM,BILSTM,LSTM-CRF,BILSTM-CRF

文章目录1.Introduction2 model2.1 LSTM2.2BI-LSTMBPTT2.3 CRF2.4 LSTM-CRF参考文献本篇论文介绍了LSTM网络、BI-LSTM网络、CRF网络、LSTM-CRF网络、BI-LSTM-CRF网络,比较将它们用于自然语言处理的性能与准确率。重点介绍了BI-LSTM-CRF网络。1.Introduction 序列标…

从连接组学到行为生物学,AI 助力使从图像中提取信息变得更快、更容易

来源:ScienceAI编辑:白菜叶一立方毫米听起来并不多。但在人脑中,这一体积的组织包含约 50,000 条由 1.34 亿个突触连接的神经「线路」。Jeff Lichtman 想追踪所有这些。为了生成原始数据,他使用了一种称为串行薄层电子显微镜的协议…

论文学习10-Joint entity recognition and relation extraction as a multi-head selection problem(实体关系联合抽取模型

文章目录abstract1.introduction2. 相关工作2.1 命名实体识别2.2 关系抽取2.3 实体关系联合抽取模型3.联合模型3.1 Embedding层3.2 bilstm--编码层3.3 命名实体识别3.4 多头选择的关系抽取模型3.5. Edmonds’ algorithmJoint entity recognition and relation extraction as a …

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

来源:AI科技评论作者:李梅、黄楠编辑:陈彩娴AI 作画很牛,但它并不理解图像背后的世界。自从 DALL-E 2 问世以来,很多人都认为,能够绘制逼真图像的 AI 是迈向通用人工智能(AGI)的一大…

论文学习11-Adversarial training for multi-context joint entity and relation extraction(实体关系买抽取模型,对抗学习

文章目录1. introduction2.相关工作3.Model3.1 Joint learning as head selection3.2 AT4.实验设置5.结果6.总结实体关系抽取模型对抗学习. 论文链接 code Bekoulis, G., et al. (2018). “Adversarial training for multi-context joint entity and relation extraction.” ar…