《自然语言处理中的因果推理》综述论文,以色列理工谷歌等13位NLP大牛阐述因果推理NLP的估计、预测、解释和超越...

来源:专知

摘要

科学研究的一个基本目标是了解因果关系。然而,尽管因果关系在生命和社会科学中发挥着关键作用,但在自然语言处理(NLP)中却没有同等的重要性,后者传统上更重视预测任务。随着因果推理和语言处理融合的跨学科研究的兴起,这种区别正开始消失。然而,关于NLP中因果关系的研究仍然分散在各个领域,没有统一的定义、基准数据集和对剩余挑战的清晰表述。在这项综述中,我们巩固了跨学术领域的研究,并将其置于更广阔的NLP景观中。我们介绍了估计因果效应的统计挑战,包括文本作为结果、治疗或解决混淆的手段的设置。此外,我们还探讨了因果推理的潜在用途,以改善NLP模型的性能、鲁棒性、公平性和可解释性。因此,我们为计算语言学界提供了一个统一的因果推理概述。

https://www.zhuanzhi.ai/paper/8cb2a2722cfa4a3e3600372c4261fff3

引言

许多科学领域对将融入文本为数据越来越感兴趣(例如,Roberts et al., 2014; Pryzant et al., 2017; Zhang et al., 2020a)。自然语言处理(NLP)研究人员可能不熟悉这些领域的一个关键特性,是强调因果推理,通常用于评估策略干预。例如,在推荐一种新的药物治疗之前,临床医生想知道这种药物对疾病进展的因果关系。因果推理涉及到一个通过干预创造的反事实世界的问题:如果我们给病人用药,他们的疾病进展会如何?正如我们下面所解释的,在观察数据中,因果关系并不等同于服用药物的患者与其观察到的疾病进展之间的相关性。现在有大量关于使用传统(非文本)数据集进行有效推理的技术的文献(例如,Morgan and Winship, 2015),但将这些技术应用于自然语言数据提出了新的和基本的挑战。

相反,在经典的NLP应用中,目标只是做出准确的预测:任何统计相关性通常都被认为是可接受的,不管潜在的因果关系是什么。然而,随着NLP系统越来越多地部署在具有挑战性和高风险的场景中,我们不能依赖通常的假设,即训练和测试数据是相同分布的,我们可能不会满足于无法解释的黑箱预测器。对于这两个问题,因果关系提供了一条有希望的前进道路: 数据生成过程中因果结构的领域知识可以提示归纳偏差,导致更鲁棒的预测器,而预测器本身的因果视图可以提供关于其内部工作的新见解。

这篇调查论文的核心主张是,探究因果关系和NLP之间的联系,有可能推进社会科学和NLP研究者的目标。我们将因果关系和自然语言处理的交集分为两个不同的领域: 从文本中估计因果效应,以及使用因果形式主义使自然语言处理方法更可靠。我们将用两个例子来说明这种区别。

NLP帮助因果关系。文本数据的因果推理涉及几个不同于典型因果推理设置的挑战:文本是高维的,需要复杂的建模来衡量语义上有意义的因素,如主题,并需要仔细思考,以形式化因果问题对应的干预。从主题模型到上下文嵌入,自然语言处理在建模语言方面的发展为从文本中提取所需信息以估计因果效应提供了有前景的方法。然而,我们需要新的假设,以确保使用NLP方法导致有效的因果推理。我们将在第3节讨论从文本中估计因果效应的现有研究,并强调这些挑战和机遇。

因果关系可以帮助NLP。为了解决NLP方法带来的稳健性和可解释性挑战,我们需要新的标准来学习超越利用相关性的模型。例如,我们希望预测器对于我们对文本所做的某些更改是不变的,例如在保持ground truth标签不变的情况下更改格式。利用因果关系来发展新的准则,为建立可靠的、可解释的自然语言处理方法提供服务,这是相当有希望的。与文本因果推理的研究领域相比,因果关系和NLP研究的这一领域较少被理解,尽管最近的经验成功很好地推动了这一领域的研究。在第4节中,我们涵盖了现有的研究,并回顾了使用因果关系来改进自然语言处理的挑战和机遇。

该论文调研了文本数据在因果推理中的作用(Egami et al., 2018; Keith et al., 2020)。在本文中,我们采取了一个更广泛的视角,将因果关系和自然语言处理的交集分为两个截然不同的研究线,即估计因果效应和因果驱动的自然语言处理方法。在阅读了本文之后,我们设想读者将对以下内容有一个广泛的理解: 

  • 使用文本数据和NLP方法所特有的统计和因果挑战;

  • 在评估文本效果和应用因果关系来

  • 改进NLP方法方面的开放问题。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483893.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

清华大学刘云浩教授——人工智能打开了潘多拉的盒子吗?

来源:计算思维和人工智能2020年8月的第一周,清华大学暑期学校在荷塘雨课堂上“云开学”。开学典礼上,清华大学软件学院刘云浩教授作了一场主题为《What is the role of AI Tomorrow?——人工智能打开了潘多拉的盒子吗?》的讲座。…

【重点!!!】【堆】215.数组中的第K个最大元素

题目 法1:小根堆 最大的K个元素 > 小根堆(类似上窄下宽的梯形) 最小的K个元素 > 大根堆(类似倒三角形) 必须掌握!!! class Solution {public int findKthLargest(int[] nu…

Spring 系列之(1)Spring-framework 调试环境搭建

调试环境: JDK1.8 Gradle IDEA Git 一、开始代码 clone 将 spring-framework 项目 fork 到自己的代码仓,方便自己加注释。下载好 Gradle ,用 idea 打开项目,进行初步构建。 参考文档:官方文档 二、预编译 spring-oxm&a…

计算机网络知识归纳

计算机网络 第一章 概述 1.1 计算机网络在信息时代中的作用 互联网的两个重要基本特点:1.连通性、2.共享 “资源”指的是网络中所有的网络软件、硬件、数据和通信等等资源 硬件资源、软件资源、数据资源、信道资源(信号传输的媒介) “共享…

Linux基础入门(一)

Linux为何物 Linux就是一个操作系统,就像你已经已经知道的window、macOS系统一样,至于操作系统是什么,就不用过多解释了 Linux,全称GNU/Linux,是一种免费使用和自由传播的类UNIX操作系统,其内核由林纳斯本…

利用群体智慧,进行大规模的事实审核

来源:混沌巡洋舰为了应对虚假信息,社交媒体网络和新闻机构经常雇佣事实核查员来区分真假。但事实核查人员只能评估网上流传的一小部分故事。麻省理工学院研究人员的一项新研究提出了另一种方法: 研究指出来自普通读者群体的众包准确性判断,实…

Cerebras发布全球首个人类大脑规模的AI解决方案

CEREBRAS来源:IEEE电气电子工程师Cerebras Systems公司的CS-2人工智能训练计算机包含了世界上最大的单芯片,该公司透露,在计算机上增加新的存储系统可以提高神经网络的规模,它可以扩大至现有最大模型的100倍,可支持超过…

计算机系统结构 期末复习

一.名词解释 虚拟机:指通过软件模拟具有完整硬件系统功能的,运行在一个完全隔离环境中的完整计算机系统系统加速比:同一个任务在系统改进前花费总时间和在系统改进后花费总时间的比率Amdahl定律:计算计算机系统中某个…

机器学习如何彻底改变游戏中的物理模拟

来源:AI科技评论编译:琰琰编辑:王晔量子力学奠基者之一、英国理论物理学家保罗狄拉克(Paul Dirac)在1929年说过:“大部分物理和化学所需要的数学理论的定律都是已知的,但这些定律的方程太复杂无…

《动手学深度学习 PyTorch版》学习笔记(二):自动求梯度

一、自动求梯度 1、requires_grad_(), detach(), torch.no_grad()的区别 参考博客:https://www.jianshu.com/p/ff74ccae25f3 2、.grad_fn 每个Tensor都有一个.grad_fn属性,该属性即创建该Tensor的Function, 就是说该Tensor是不是通过某些运算得到的&am…

重新认识区块链:1550余个应用案例带来的启示

来源:资本实验室,本文摘自《2021全球区块链应用市场报告》当我们谈论区块链的时候,但凡对区块链有所了解的人都能够就相关主题或多或少地表达出自己的一些见解。例如:从技术体系上看,区块链是分布式数据存储、点对点传…

《动手学深度学习 PyTorch版》学习笔记(三):线性回归

线性回归输出是一个连续值,因此适用于回归问题。回归问题在实际中很常见,如预测房屋价格、气温、销售额等连续值的问题。 一、基本要素 摘自原书 模型定义 设房屋的面积为 x1,房龄为 x2,售出价格为 y。我们需要建立基于输入 x…

OpenAI 是如何被10亿美元收买了“非盈利”灵魂的?

来源:AI科技评论编译:陈彩娴、琰琰近日,一篇名为“How OpenAI Sold its Soul for $1 Billion”(OpenAI是如何因为 10 亿美元出卖自己的灵魂)的文章在 Reddit 上引起了热议。文章作者 Alberto Romero 抨击知名的非营利机…

【算法】蓝桥杯dfs深度优先搜索之排列组合总结

【导航】 上一篇文章 → 《【算法】蓝桥杯dfs深度优先搜索之凑算式总结》 为了重申感谢之意,再次声明下文的大部分灵感均来自于【CSDN】梅森上校《JAVA版本:DFS算法题解两个例子(走迷宫和求排列组合数)》  强烈大家去上面那篇文…

人工神经网络能否驾驭生物神经元的“浓稠”程度?5到8层可能并非极限

来源:图灵人工智能编译:李扬霞编辑:青暮计算神经科学家通过训练人工神经网络来模仿生物神经元,提供了一种探讨单个脑细胞复杂性的新方法。虽然我们糊状的大脑似乎与计算机处理器中的芯片大相径庭,但科学家对两者的比较…

困扰爱因斯坦的「幽灵般的超距作用」,是如何被贝尔定理证明确实存在的?...

文章来源:机器之心作者:Ben Brubaker原文链接:https://www.quantamagazine.org/how-bells-theorem-proved-spooky-action-at-a-distance-is-real-20210720/我们理所当然地认为,世界上某个地方发生的一件事不会立即对远方的事物产生…

Jupyter notebook 导入和卸载 conda 虚拟环境

一、导入 进入Anaconda Prompt,激活要使用的虚拟环境。 conda activate xxx # 你要使用的虚拟环境名称安装 ipykernel 插件, 建议使用 pip 进行安装, conda 安装容易失败 pip install ipykernel安装完成之后,键入以下命令 pyt…

处理器管理与进程管理

4.python练习 1.观察父进程、子进程 2.观察进程运行状态 3。输入多个作业的作业编号,到达时间,所需CPU时间,形成列表,以备算法使用。 转载于:https://www.cnblogs.com/hclhechunlu/p/10580946.html

小白 LeetCode 242 有效的字母异位词

字母异位词 字符串由相同字母组成,但允许排列顺序不同。 如“aaabbb” 与 “ababab” 是字母异位词, 而“aabb” 与 “ab” 不是字母异位词。 题目:给定两个字符串 s 和 t ,编写一个函数来判断 t 是否是 s 的字母异位词。 示例…

LSTM之父:吐槽了两年,来划划重点:“这5篇最高引论文都源于我们。”

来源:AI科技评论作者:陈彩娴编辑:青暮昨晚,“递归神经网络之父”Jrgen Schmidhuber 在推特上亲自发文,称目前引用数最高的5项神经网络工作都基于他的团队成果,一时引起了网友的广泛讨论。这并不是他首次发声…