《自然语言处理中的因果推理》综述论文,以色列理工谷歌等13位NLP大牛阐述因果推理NLP的估计、预测、解释和超越...

来源:专知

摘要

科学研究的一个基本目标是了解因果关系。然而,尽管因果关系在生命和社会科学中发挥着关键作用,但在自然语言处理(NLP)中却没有同等的重要性,后者传统上更重视预测任务。随着因果推理和语言处理融合的跨学科研究的兴起,这种区别正开始消失。然而,关于NLP中因果关系的研究仍然分散在各个领域,没有统一的定义、基准数据集和对剩余挑战的清晰表述。在这项综述中,我们巩固了跨学术领域的研究,并将其置于更广阔的NLP景观中。我们介绍了估计因果效应的统计挑战,包括文本作为结果、治疗或解决混淆的手段的设置。此外,我们还探讨了因果推理的潜在用途,以改善NLP模型的性能、鲁棒性、公平性和可解释性。因此,我们为计算语言学界提供了一个统一的因果推理概述。

https://www.zhuanzhi.ai/paper/8cb2a2722cfa4a3e3600372c4261fff3

引言

许多科学领域对将融入文本为数据越来越感兴趣(例如,Roberts et al., 2014; Pryzant et al., 2017; Zhang et al., 2020a)。自然语言处理(NLP)研究人员可能不熟悉这些领域的一个关键特性,是强调因果推理,通常用于评估策略干预。例如,在推荐一种新的药物治疗之前,临床医生想知道这种药物对疾病进展的因果关系。因果推理涉及到一个通过干预创造的反事实世界的问题:如果我们给病人用药,他们的疾病进展会如何?正如我们下面所解释的,在观察数据中,因果关系并不等同于服用药物的患者与其观察到的疾病进展之间的相关性。现在有大量关于使用传统(非文本)数据集进行有效推理的技术的文献(例如,Morgan and Winship, 2015),但将这些技术应用于自然语言数据提出了新的和基本的挑战。

相反,在经典的NLP应用中,目标只是做出准确的预测:任何统计相关性通常都被认为是可接受的,不管潜在的因果关系是什么。然而,随着NLP系统越来越多地部署在具有挑战性和高风险的场景中,我们不能依赖通常的假设,即训练和测试数据是相同分布的,我们可能不会满足于无法解释的黑箱预测器。对于这两个问题,因果关系提供了一条有希望的前进道路: 数据生成过程中因果结构的领域知识可以提示归纳偏差,导致更鲁棒的预测器,而预测器本身的因果视图可以提供关于其内部工作的新见解。

这篇调查论文的核心主张是,探究因果关系和NLP之间的联系,有可能推进社会科学和NLP研究者的目标。我们将因果关系和自然语言处理的交集分为两个不同的领域: 从文本中估计因果效应,以及使用因果形式主义使自然语言处理方法更可靠。我们将用两个例子来说明这种区别。

NLP帮助因果关系。文本数据的因果推理涉及几个不同于典型因果推理设置的挑战:文本是高维的,需要复杂的建模来衡量语义上有意义的因素,如主题,并需要仔细思考,以形式化因果问题对应的干预。从主题模型到上下文嵌入,自然语言处理在建模语言方面的发展为从文本中提取所需信息以估计因果效应提供了有前景的方法。然而,我们需要新的假设,以确保使用NLP方法导致有效的因果推理。我们将在第3节讨论从文本中估计因果效应的现有研究,并强调这些挑战和机遇。

因果关系可以帮助NLP。为了解决NLP方法带来的稳健性和可解释性挑战,我们需要新的标准来学习超越利用相关性的模型。例如,我们希望预测器对于我们对文本所做的某些更改是不变的,例如在保持ground truth标签不变的情况下更改格式。利用因果关系来发展新的准则,为建立可靠的、可解释的自然语言处理方法提供服务,这是相当有希望的。与文本因果推理的研究领域相比,因果关系和NLP研究的这一领域较少被理解,尽管最近的经验成功很好地推动了这一领域的研究。在第4节中,我们涵盖了现有的研究,并回顾了使用因果关系来改进自然语言处理的挑战和机遇。

该论文调研了文本数据在因果推理中的作用(Egami et al., 2018; Keith et al., 2020)。在本文中,我们采取了一个更广泛的视角,将因果关系和自然语言处理的交集分为两个截然不同的研究线,即估计因果效应和因果驱动的自然语言处理方法。在阅读了本文之后,我们设想读者将对以下内容有一个广泛的理解: 

  • 使用文本数据和NLP方法所特有的统计和因果挑战;

  • 在评估文本效果和应用因果关系来

  • 改进NLP方法方面的开放问题。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483893.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

指定tensorflow运行的GPU或CPU设备

如果 TensorFlow 指令中兼有 CPU 和 GPU 实现,当该指令分配到设备时,GPU 设备有优先权。 如果你的系统里有多个 GPU, 那么 ID 最小的 GPU 会默认使用。 当我们要指定tensorflow运行的GPU或CPU设备时,可以使用tf.device()命令 首先查看可用…

清华大学刘云浩教授——人工智能打开了潘多拉的盒子吗?

来源:计算思维和人工智能2020年8月的第一周,清华大学暑期学校在荷塘雨课堂上“云开学”。开学典礼上,清华大学软件学院刘云浩教授作了一场主题为《What is the role of AI Tomorrow?——人工智能打开了潘多拉的盒子吗?》的讲座。…

【重点!!!】【堆】215.数组中的第K个最大元素

题目 法1:小根堆 最大的K个元素 > 小根堆(类似上窄下宽的梯形) 最小的K个元素 > 大根堆(类似倒三角形) 必须掌握!!! class Solution {public int findKthLargest(int[] nu…

Spring 系列之(1)Spring-framework 调试环境搭建

调试环境: JDK1.8 Gradle IDEA Git 一、开始代码 clone 将 spring-framework 项目 fork 到自己的代码仓,方便自己加注释。下载好 Gradle ,用 idea 打开项目,进行初步构建。 参考文档:官方文档 二、预编译 spring-oxm&a…

计算机网络知识归纳

计算机网络 第一章 概述 1.1 计算机网络在信息时代中的作用 互联网的两个重要基本特点:1.连通性、2.共享 “资源”指的是网络中所有的网络软件、硬件、数据和通信等等资源 硬件资源、软件资源、数据资源、信道资源(信号传输的媒介) “共享…

PyTorch 之 requires_grad,requires_grad_(),grad_fn

x.grad_fn和x.requires_grad为x的属性x.grad_fn:积分方法名,默认为Nonex.requires_grad:是否积分的属性,默认为Falsex.requires_grad_():设置积分的方法,设置之后requires_grad为True """T…

flutter 获取设备屏幕大小

import dart:ui; var s window.physicalSize;print(s);转载于:https://www.cnblogs.com/pythonClub/p/10567811.html

Linux基础入门(一)

Linux为何物 Linux就是一个操作系统,就像你已经已经知道的window、macOS系统一样,至于操作系统是什么,就不用过多解释了 Linux,全称GNU/Linux,是一种免费使用和自由传播的类UNIX操作系统,其内核由林纳斯本…

利用群体智慧,进行大规模的事实审核

来源:混沌巡洋舰为了应对虚假信息,社交媒体网络和新闻机构经常雇佣事实核查员来区分真假。但事实核查人员只能评估网上流传的一小部分故事。麻省理工学院研究人员的一项新研究提出了另一种方法: 研究指出来自普通读者群体的众包准确性判断,实…

torch.randn与torch.rand的区别

randn torch.randn(*sizes, outNone) → Tensor返回一个包含了从标准正态分布中抽取的一组随机数的张量 size:张量的形状 out:结果张量 rand torch.rand(*sizes, outNone) → Tensor[0,1)之间的均匀分布

xsi:schemaLocation=http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd报...

https://blog.csdn.net/qq_36611526/article/details/79067159 今天遇到个问题 文件内引入某个资源 pom.xml头部http://maven.apache.org/xsd/maven-4.0.0.xsd"报错。 后来各种百度发现是包的问题: 1、找到maven的包的位置:window->preferences-…

解决git关联的的文件颜色、小图标

按WinR键打开运行对话框,输入 regedit.exe ,准备修改注册表找到 HKEY_LOCAL_MACHINE\Software\Microsoft\Windows\CurrentVersion\Explorer;新建一个键名称为 “Max Cached Icons” 数据设置为 “2000”;重启一下电脑,…

Cerebras发布全球首个人类大脑规模的AI解决方案

CEREBRAS来源:IEEE电气电子工程师Cerebras Systems公司的CS-2人工智能训练计算机包含了世界上最大的单芯片,该公司透露,在计算机上增加新的存储系统可以提高神经网络的规模,它可以扩大至现有最大模型的100倍,可支持超过…

《动手学深度学习 PyTorch版》学习笔记(一):数据操作

一、数据操作 在PyTorch中,torch.Tensor是存储和变换数据的主要工具。 "tensor"这个单词一般可译作“张量”,张量可以看作是一个多维数组。 标量可以看作是0维张量,向量可以看作1维张量,矩阵可以看作是二维张量。1、t…

计算机系统结构 期末复习

一.名词解释 虚拟机:指通过软件模拟具有完整硬件系统功能的,运行在一个完全隔离环境中的完整计算机系统系统加速比:同一个任务在系统改进前花费总时间和在系统改进后花费总时间的比率Amdahl定律:计算计算机系统中某个…

Redis数据持久化、数据备份、数据的故障恢复

1.redis持久化的意义----redis故障恢复   在实际的生产环境中,很可能会遇到redis突然挂掉的情况,比如redis的进程死掉了、电缆被施工队挖了(支付宝例子)等等,总之一定会遇到各种奇葩的现象导致redis死掉,…

机器学习如何彻底改变游戏中的物理模拟

来源:AI科技评论编译:琰琰编辑:王晔量子力学奠基者之一、英国理论物理学家保罗狄拉克(Paul Dirac)在1929年说过:“大部分物理和化学所需要的数学理论的定律都是已知的,但这些定律的方程太复杂无…

《动手学深度学习 PyTorch版》学习笔记(二):自动求梯度

一、自动求梯度 1、requires_grad_(), detach(), torch.no_grad()的区别 参考博客:https://www.jianshu.com/p/ff74ccae25f3 2、.grad_fn 每个Tensor都有一个.grad_fn属性,该属性即创建该Tensor的Function, 就是说该Tensor是不是通过某些运算得到的&am…

学习计划1

今天开始着手做热词的项目,但是对于数据的处理仍然没有好的办法,网上最多的方法便是用C#操作,但是在尝试之后仍然没有进展转载于:https://www.cnblogs.com/ljysy/p/10574018.html

线性表——顺序表

1 算法思想:顺序遍历整个链表,找出最小值元素,用一个min存储这个值,同时将最后一个元素填补此值#define Maxsize 100 typedef Elemtype int typedef struct{Elemtype data[Maxsize];int length; }bool delmin(sqlist &L,Elem…